Haen sivun muuttujaan:
$sivu = file_get_contents("$osoite");
Voiko tuosta php:llä mitenkään päätellä onko sivu suomenkielinen?
Ekana tuli mieleen:
Sata yleisintä suomalaista sanaa jotka verrataan sivun sisällön kanssa. Aina kun sana esiintyy muuttujassa aina 1piste lisää.
Esimerkiksi 3 pistettä, niin todetaan olevan suomalainen?
Onko parempia ideoita tuon toteuttamiseen.
<html lang="fi">
Jos tuollainen löytyy sivun alusta, kannattaa antaa paljon lisäpisteitä.
Tuollainen sanaston vertaaminen toimii varmaan kohtalaisen hyvin itsessäänkin.
http://www.verbix.com/documents/
Noista riittäis ainakin tarkistettavaa :)
Hahhaa! Että on hauskaa :DDD
atte kirjoitti:
http://www.verbix.com/documents/
wordfrequency_fi.htm Noista riittäis ainakin tarkistettavaa :)
No ei siitä nyt meitä kuitenkaan tarvitse informoida. Eli irkkiin tuommoiset viestit jatkossa, kiitos. Ja aiheesta: käytä pisteiden sijaan jotain suhdelukua eli lasket sanat yhteensä ja jaat kaikkien sanojen määrällä; tarvittava sanamäärä oikeuttaa suomenkieliseksi luokitteluun.
http://odur.let.rug.nl/~vannoord/TextCat/ voisi auttaa
Atte kirjoitti:
http://www.verbix.com/documents/
wordfrequency_fi.htm Noista riittäis ainakin tarkistettavaa :)
Tuohan oli just hyvä kiitokset.
Aihe on jo aika vanha, joten et voi enää vastata siihen.