Kirjautuminen

Haku

Tehtävät

Keskustelu: Yleinen keskustelu: Oma customoitu hakukone?

Sivun loppuun

miche [31.03.2013 17:43:46]

#

Kuinka helposti/vaikeasti olisi toteutettavissa seuraavanlainen skenaario nettiin?

Pähkinänkuoressa:
Oma hakukone, joka kerää (indexoi?) tietyiltä sivustoilta dataa ja esittää hakutulokset halutulla datalla.

Metabolix [31.03.2013 18:34:26]

#

Kysymyksestä päätellen erittäin hankalaa, taitavallekin kohtalainen vaiva etenkin jollain tavalla tehokkaasti toteutettuna. Riippuu toki datan määrästä ja laadusta ja tarvittavien hakujen luonteesta, jossain erikoistapauksessa voi olla hyvin helppoakin.

miche [31.03.2013 19:38:48]

#

tässä aika hyvä esimerkki siitä mitä haen takaa: http://omaetsin.fi/

Olisiko halukkaita tekijöitä? Palkkio tietenkin raskaan työn raatajalle.

jukkah [31.03.2013 22:55:10]

#

Katostaanpas, siinä täytyy hyödyntää useamman nettipalvelun API:ejä, joiden dokumentoinnin taso saattaa vaihdella kovasti, mikäli yleensä mitään kunnollista API:a on edes tarjolla. Välimuistina käytetään tietokantaa, jota hyödyntää nettisivulla toimiva hakukone.

Varovaisena arvauksena heitän, että projektin hintalappu tulee olemaan 1 000-5 000 €. Arvaus perustuu ohjelmoijan palkkatasoon ja veikkaukseen työmäärästä.

Palvelun tarkoituksesta riippuen, sinulla on ainakin kaksi mahdollisuutta käytettävissäsi:

  1. Osta palvelun toteuttaminen joltakin (vaikka minulta, yhteystietoni löytyvät profiilini takaa) tai
  2. Houkuttele koodari mukaan vaikka lupaamalla puolet mainostuloista.

Jälkimmäinen tapa voi olla houkuttelevampi mutta todellisuudessa monesti haastavampi. Se onnistuu toki vain, mikäli koodari innostuu tosissaan projektista.

Edit. Viilattu vähän sanamuotoja.

Lebe80 [31.03.2013 23:19:25]

#

jukkah kirjoitti:

Houkuttele koodari mukaan vaikka lupaamalla puolet mainostuloista.

XD

qeijo [01.04.2013 00:11:33]

#

Lol

The Alchemist [01.04.2013 08:52:10]

#

Ei tuohon mitään apeja tarvitse, kunhan osaa vähän parsia dataa. Parin tunnin työllä väsää yhteensopivuuden yhdelle saitille ja siinä ohessa muille suurin piirtein samanrakenteisillekin, ja tuskin kovin montaa sivustoa tarvitsee tukea, joten melkeinpä voi käsipelillä naputella jokaisen sivuston tarvitsemat parserit.

Enemmän työtä tulee kaikesta muusta, kuten mahdollisesta valmiiseen saittiin integroimisesta tai kokonaisen sivuston rakentamisesta tuon hakukoneen ympärille ja lisäominaisuuksista. Omaetsimessäkin on esimerkiksi automaattinen vahti, joka lähettää sähköpostia käyttäjälle, kun uusia hakuehtoihin täsmääviä kohteita löytyy.

Pelkän kouralliselta sivustoja hakevan botin tekeminen on simppeliä, kokonaisen palvelun kasaaminen ei. En minä tuosta viiden tonnin projua saa aikaan, jos speksit ovat samaa luokkaa kuin Omaetsimessä.

jukkah [01.04.2013 10:51:17]

#

The Alchemist kirjoitti:

Ei tuohon mitään apeja tarvitse

Jos jokin palvelu tarjoaa hyvän API:n, hyödyntäisit sinäkin sitä, vai mitä?

The Alchemist kirjoitti:

En minä tuosta viiden tonnin projua saa aikaan, jos speksit ovat samaa luokkaa kuin Omaetsimessä.

En minäkään, laitoin vähän haarukkaa. Suurella todennäköisyydellä projekti ei ole tajuttoman iso, mutta 40 sanan vapaamuotoisesta speksistä on vaikea arvioida projektin kokoa järkevällä tarkkuudella.

The Alchemist [01.04.2013 12:46:15]

#

Riippuu nyt vähän niistä rajapinnoistakin. Jos yksi tarjoaa tiedot rest-palvelimen kautta jsonina, toinen soapin kautta xml:nä ja pari muuta ovat tehneet ihan omat viritelmänsä ja tiedostomuoto voi olla xml:ää tai jsonia, niin halvalla tehdessä voi olla helpompaa vain parsia ne pari datapalleroa html-sivulta kuin ruveta erilaisia rajapintoja tukemaan.

Loppujen lopuksi tällainen hakukone ei välttämättä tarvitse kuin kohteen nimen, lisäysajan ja esittelysivun osoitteen, joten parsiminen ei ole kovin monimutkaista.

miche [01.04.2013 15:09:13]

#

Kuinka tehokkaita/tehottomia tuollaiset valmiit ohjelmat sivujen parsimiseen ovat? Niitä näyttää olevan netti pullollaan. Esim. http://www.newprosoft.com/web-content-extractor.htm tai http://scrapy.org/

Onko joku käsin tehty skripti huomattavasti tehokkaampi?

Tukki [01.04.2013 15:24:37]

#

Onkohan tehokkuudella oikeasti yhtään mitään väliä tässä? Jos siis parsimisen tehokkuudella tarkoitetaan parsimiseen kulutettua aikaa. Tuo kannattaa kuitenkin tehdä automatisoituna ja ajastettuna tausta-ajona paikalliseen kantaan. Silä siis tuskin on väliä meneekö tietojen hakemiseen 5, 15 vai 50 minuuttia, lyhyemmistä ajoista puhumattakaan. Tärkeämpää on käytön ja integroinnin helppous ja muu toiminnallinen luotettavuus.

miche [01.04.2013 16:04:15]

#

Tukki kirjoitti:

Onkohan tehokkuudella oikeasti yhtään mitään väliä tässä? Jos siis parsimisen tehokkuudella tarkoitetaan parsimiseen kulutettua aikaa. Tuo kannattaa kuitenkin tehdä automatisoituna ja ajastettuna tausta-ajona paikalliseen kantaan. Silä siis tuskin on väliä meneekö tietojen hakemiseen 5, 15 vai 50 minuuttia, lyhyemmistä ajoista puhumattakaan. Tärkeämpää on käytön ja integroinnin helppous ja muu toiminnallinen luotettavuus.

No siinä mielessä tietty, jos parsittavaa on paljon, käytetty aika luo myös oman osansa. On siinä eroa, jos saman tehtävän tekemiseen menee tunti tai 5 tuntia.
Muuten toki olen samaa mieltä, että käytettävyys on numero uno.

Onko täällä mobiilipuolen osaajia? Kannattaisiko vastaavanlainen systeemi toteuttaa alustavapaalla tekniikalla vai joka alustalle omallaan?

The Alchemist [01.04.2013 17:31:55]

#

Natiivisti tehty mobiilisovellus on tietysti usein(?) parempi loppukäyttäjälle. Se on toki myös kalliimpi vaihtoehto ihan siitäkin syystä, että jos ihminen osaa koodata monelle eri alustalle, niin varmasti jo yksittäisen työtunnin hinta on kovempi. Joka tapauksessa työtäkin on tehtävä enemmän.

Toinen hintaa nostava tekijä on se, että koska erilliset mobiiliappsit ovat web-palvelimella pyörivästä järjestelmästä irrallisia komponentteja, ne tarvitsevat jonkinlaisen järkevästi toteutun rajapinnan, jonka kautta ne voivat kommunikoida web-järjestelmän kanssa.

Ja jos rajapinnan kautta pitää vielä voida tehä kirjoitusoperaatioita (hakujen tallentaminen, suosikkien lisääminen yms.), niin sitten pitää kiinnittää erityistä huomiota tietoturvaan ja pyyntöjen autentikointiin ja niin edelleen. Kaikki lisää monimutkaisuutta.

jukkah [01.04.2013 21:02:11]

#

Alkuinvestointi on suurin kirpaisu. Ole tarkkana, sijoittamalla liian vähän varmistat mahalaskun ja sijoittamalla liian paljon et saa vastinetta rahoillesi. Mieti jo valmiiksi, mitkä ominaisuudet tulisi tehdä heti ja mitkä voidaan tehdä myöhemmin. Ohjelmoijasi osaa kertoa tarkemmin, jos jokin ominaisuus puuttuu tai on väärässä listassa.

Varoittava tapaus kirjoitti:

Verkkopalveluun oli sijoitettu muutaman vuoden aikana ainakin 10 000 €, mutta tämän hetken tilanne ei vastaa sitä lähellekään. En tiedä, mihin rahaa oli onnistuttu syytämään. Lopputulos oli se, että kun ohjelmoijan kanssa tuli ongelmia, muutospyynnöt venyivät 2 kk ja tilaaja haluaisi päästä toimittajasta eroon. Koska palveluun on sijoitettu jo paljon, muutaman tonnin lisäsijoitus ei ole helppo päätös vaikka olisikin erittäin välttämätön. Tapaukseen hieman tutustuneena en voi syyttää kokonaan ohjelmoijaa, tilaaja ei nimittäin ymmärtänyt yhtään mitään verkkopalveluiden päälle voidakseen arvioida, minkä arvoinen mikäkin asia on. Kuka tietää, ohjelmoija on voinut hyödyntää tilaajan ymmärtämättömyyttä...


Sivun alkuun

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Tietoa sivustosta