Kirjautuminen

Haku

Tehtävät

Keskustelu: Ohjelmointikysymykset: PHP: Hakubotti?

Sivun loppuun

Riksat [26.06.2008 18:58:13]

#

Elikkäs mulla ois tarkoitus tehdä hakukonesivusto. Olen aika aloitteleva PHP ohjelmoija ja pitäisi tämmöinen palvelu kokeilumeilessä tehdä. Ongelmana on lähinnä se että miten se kävisi läpi vaikka kaksi tuntia vuorokaudessa läpi internetin sivustoja, ja listaisi ne ja niiden kaikki alisivustot. Mitenkäs tämä onnistuisi?
PS:En todellakaan ole kovin hyvä PHP ohjelmoinnissa.

ajv [26.06.2008 20:28:10]

#

Tässä pseudona, miten itse olen pienimuotoisen sivujen indeksointibotin tehnyt:

while(2h)
   - hae sivu
   - jäsennä se:
      - erottele indeksoitava tieto turhasta meta-tiedosta
      - kerää linkit talteen
   - tallenna indeksoitava tieto tietokantaasi
   - karsi turhat linkit (kuvat, jo indeksoidut sivut yms.)  pois
loop

Sitten jollain tavalla sinun täytyy rajotella tuota linkkitietokantaa, muuten se räjähtää käsiin :)

_Pete_ [27.06.2008 08:54:59]

#

Sivua haettaessa syytä huomioda tämä:

http://fi.wikipedia.org/wiki/Robots.txt

Riksat [28.06.2008 10:05:24]

#

ajv kirjoitti:

Tässä pseudona, miten itse olen pienimuotoisen sivujen indeksointibotin tehnyt:

while(2h)
   - hae sivu
   - jäsennä se:
      - erottele indeksoitava tieto turhasta meta-tiedosta
      - kerää linkit talteen
   - tallenna indeksoitava tieto tietokantaasi
   - karsi turhat linkit (kuvat, jo indeksoidut sivut yms.)  pois
loop

Sitten jollain tavalla sinun täytyy rajotella tuota linkkitietokantaa, muuten se räjähtää käsiin :)

Mitenskä sitten se että se hakisi koko internetistä niitä sivuja?
Sorry, oon vähän tyhmä.

ajv [28.06.2008 10:12:50]

#

No sitä varten sä erottelet niistä haetuista sivuista ne linkit. Kato linkki johtaa sivulle, jossa on lisää linkkejä, jotka johtavat sivuille, joilla on lisää linkkejä jne... Tästä muodostuu verkko, joka kattaa "koko internetin". Mut jos meinaat indeksoida "koko internetin", voi olla, että siihen ei ihan tavallisen webbihotellin MySQL-tietokanta riitä :) Mutta pienimuotoisessa sivujen indeksoinnissa olen todennut tuon menetelmäni ihan toimivaksi.

_Pete_ [28.06.2008 12:34:00]

#

Riksat kirjoitti:

ajv kirjoitti:

Tässä pseudona, miten itse olen pienimuotoisen sivujen indeksointibotin tehnyt:

while(2h)
   - hae robotsfilu
   - jos siellä sanotaan ei saa robotoida
   . skip

   - hae sivu
   - jäsennä se:
      - erottele indeksoitava tieto turhasta meta-tiedosta
      - kerää linkit talteen
   - tallenna indeksoitava tieto tietokantaasi
   - karsi turhat linkit (kuvat, jo indeksoidut sivut yms.)  pois
loop

Sitten jollain tavalla sinun täytyy rajotella tuota linkkitietokantaa, muuten se räjähtää käsiin :)

Mitenskä sitten se että se hakisi koko internetistä niitä sivuja?
Sorry, oon vähän tyhmä.

Muuten hyvä mutta

unto [09.07.2008 00:09:08]

#

Kiintolevyihin tulee menemään paljon paljon paljon rahaa, ei riitä gigatavut, eikä teratavut, eikä petatavut. :I

_Pete_ [17.07.2008 09:50:19]

#

Kuinka pitkä on keskiverto URL? Olisko 25 merkkiä? Paljonko on 1024/25 * peta ?

Grez [17.07.2008 13:11:56]

#

Uskoisin, että keskiverto URL on enemmän kuin 25 merkkiä, esim. tämän sivun URL on 73 merkkiä. Mutta jos laskettaisiin 50 merkillä, niin petaan mahtuisi 20 biljoonaa.

Matso [19.07.2008 09:30:37]

#

_Pete_ kirjoitti:

Kuinka pitkä on keskiverto URL? Olisko 25 merkkiä? Paljonko on 1024/25 * peta ?

Joo mut lasket vääriä merkkijonoja. Ei ne urlit oo se tilaa vievin asia. Hakubotti indeksoi sivujen sisällön ja pastee kaiken tietokantaan, jotta sitä on nopea hakea sieltä. Laske ennemmin paljonko tekstiä on keskimäärin webbisivulla ja siitä sitten.. :)


Sivun alkuun

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Tietoa sivustosta