Elikkäs mulla ois tarkoitus tehdä hakukonesivusto. Olen aika aloitteleva PHP ohjelmoija ja pitäisi tämmöinen palvelu kokeilumeilessä tehdä. Ongelmana on lähinnä se että miten se kävisi läpi vaikka kaksi tuntia vuorokaudessa läpi internetin sivustoja, ja listaisi ne ja niiden kaikki alisivustot. Mitenkäs tämä onnistuisi?
PS:En todellakaan ole kovin hyvä PHP ohjelmoinnissa.
Tässä pseudona, miten itse olen pienimuotoisen sivujen indeksointibotin tehnyt:
while(2h) - hae sivu - jäsennä se: - erottele indeksoitava tieto turhasta meta-tiedosta - kerää linkit talteen - tallenna indeksoitava tieto tietokantaasi - karsi turhat linkit (kuvat, jo indeksoidut sivut yms.) pois loop
Sitten jollain tavalla sinun täytyy rajotella tuota linkkitietokantaa, muuten se räjähtää käsiin :)
Sivua haettaessa syytä huomioda tämä:
ajv kirjoitti:
Tässä pseudona, miten itse olen pienimuotoisen sivujen indeksointibotin tehnyt:
while(2h) - hae sivu - jäsennä se: - erottele indeksoitava tieto turhasta meta-tiedosta - kerää linkit talteen - tallenna indeksoitava tieto tietokantaasi - karsi turhat linkit (kuvat, jo indeksoidut sivut yms.) pois loopSitten jollain tavalla sinun täytyy rajotella tuota linkkitietokantaa, muuten se räjähtää käsiin :)
Mitenskä sitten se että se hakisi koko internetistä niitä sivuja?
Sorry, oon vähän tyhmä.
No sitä varten sä erottelet niistä haetuista sivuista ne linkit. Kato linkki johtaa sivulle, jossa on lisää linkkejä, jotka johtavat sivuille, joilla on lisää linkkejä jne... Tästä muodostuu verkko, joka kattaa "koko internetin". Mut jos meinaat indeksoida "koko internetin", voi olla, että siihen ei ihan tavallisen webbihotellin MySQL-tietokanta riitä :) Mutta pienimuotoisessa sivujen indeksoinnissa olen todennut tuon menetelmäni ihan toimivaksi.
Riksat kirjoitti:
ajv kirjoitti:
Tässä pseudona, miten itse olen pienimuotoisen sivujen indeksointibotin tehnyt:
while(2h) - hae robotsfilu - jos siellä sanotaan ei saa robotoida . skip - hae sivu - jäsennä se: - erottele indeksoitava tieto turhasta meta-tiedosta - kerää linkit talteen - tallenna indeksoitava tieto tietokantaasi - karsi turhat linkit (kuvat, jo indeksoidut sivut yms.) pois loopSitten jollain tavalla sinun täytyy rajotella tuota linkkitietokantaa, muuten se räjähtää käsiin :)
Mitenskä sitten se että se hakisi koko internetistä niitä sivuja?
Sorry, oon vähän tyhmä.
Muuten hyvä mutta
Kiintolevyihin tulee menemään paljon paljon paljon rahaa, ei riitä gigatavut, eikä teratavut, eikä petatavut. :I
Kuinka pitkä on keskiverto URL? Olisko 25 merkkiä? Paljonko on 1024/25 * peta ?
Uskoisin, että keskiverto URL on enemmän kuin 25 merkkiä, esim. tämän sivun URL on 73 merkkiä. Mutta jos laskettaisiin 50 merkillä, niin petaan mahtuisi 20 biljoonaa.
_Pete_ kirjoitti:
Kuinka pitkä on keskiverto URL? Olisko 25 merkkiä? Paljonko on 1024/25 * peta ?
Joo mut lasket vääriä merkkijonoja. Ei ne urlit oo se tilaa vievin asia. Hakubotti indeksoi sivujen sisällön ja pastee kaiken tietokantaan, jotta sitä on nopea hakea sieltä. Laske ennemmin paljonko tekstiä on keskimäärin webbisivulla ja siitä sitten.. :)
Aihe on jo aika vanha, joten et voi enää vastata siihen.