Kirjautuminen

Haku

Tehtävät

Keskustelu: Nettisivujen teko: Internet sivun kielen tunnistaminen?

karvinen [08.08.2005 23:18:48]

#

Haen sivun muuttujaan:

$sivu = file_get_contents("$osoite");

Voiko tuosta php:llä mitenkään päätellä onko sivu suomenkielinen?

Ekana tuli mieleen:
Sata yleisintä suomalaista sanaa jotka verrataan sivun sisällön kanssa. Aina kun sana esiintyy muuttujassa aina 1piste lisää.

Esimerkiksi 3 pistettä, niin todetaan olevan suomalainen?


Onko parempia ideoita tuon toteuttamiseen.

FooBat [09.08.2005 01:19:14]

#

<html lang="fi">

Jos tuollainen löytyy sivun alusta, kannattaa antaa paljon lisäpisteitä.

Tuollainen sanaston vertaaminen toimii varmaan kohtalaisen hyvin itsessäänkin.

Atte [09.08.2005 10:15:05]

#

http://www.verbix.com/documents/wordfrequency_fi.htm

Noista riittäis ainakin tarkistettavaa :)

Sweiz [09.08.2005 17:33:26]

#

Hahhaa! Että on hauskaa :DDD

atte kirjoitti:

http://www.verbix.com/documents/wordfrequency_fi.htm

Noista riittäis ainakin tarkistettavaa :)

tsuriga [09.08.2005 19:35:19]

#

No ei siitä nyt meitä kuitenkaan tarvitse informoida. Eli irkkiin tuommoiset viestit jatkossa, kiitos. Ja aiheesta: käytä pisteiden sijaan jotain suhdelukua eli lasket sanat yhteensä ja jaat kaikkien sanojen määrällä; tarvittava sanamäärä oikeuttaa suomenkieliseksi luokitteluun.

Niko [09.08.2005 23:56:42]

#

http://odur.let.rug.nl/~vannoord/TextCat/ voisi auttaa

karvinen [11.08.2005 12:36:35]

#

Atte kirjoitti:

http://www.verbix.com/documents/wordfrequency_fi.htm

Noista riittäis ainakin tarkistettavaa :)

Tuohan oli just hyvä kiitokset.

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Tietoa sivustosta