Oletko kiinnostunut avoimesta ohjelmistokehityksestä? Kehittelemme täällä Otaniemessä web-pohjaista palvelua, jolla anonymisoidaan suomenkielisiä asiakirjoja. Ohjelman nimi on HIP, eli HenkilöInfoPutsari. Projekti valmistunee kurssimme puolesta alkuvuodesta, ja olisi siistiä jos ohjelmalle löytyisi nyt jatkokehittäjiä. Ohjelman koodi on aika simppeliä javaa ja käyttöliittymän puolella html:ää ja php:tä, joten mukaan hyppääminen on helppoa. Jatkokehittäjät pääsisivät vaikuttamaan merkittävästi ohjelman kehitykseen. Jos haluaa kuulla lisää, voi käväistä projektin nettisivuilla http://www.a-hip.info/ tai ottaa yhteyttä (jlahdeko(at)cc.hut.fi). Tai kysellä tässä ketjussa, tietty.
Mielestäni aika erikoinen tapa poistaa henkilötunnuksia tuo sivulla kuvattu.
lainaus:
Henkilötunnukset poistetaan siten, että kaikki sanat, jotka koostuvat 8-10 merkistä, joista 6-4 ensimmäistä merkkiä ovat numeroita, joiden jälkeen seuraa viiva, ja sitä seuraa 3 numeroa ja mahdollisesti kirjain.
Ensinnä, tuo ei löydä yhtään täydellistä suomalaista henkilötunnusta, koska ne on 11 merkkiä pitkiä. Viivan/miinuksen lisäksi myös + ja A ovat tällä hetkellä välimerkkeinä käytössä. Välimerkin jälkeisten 3 merkin jälkeinen tarkistenumerokin voi olla numero, ei vain kirjain.
Hyviä huomioita. Tuossa on algoritmin kuvauksen kirjoittajalla virhe, ohjelma kyllä etsii ja löytääkin 11 merkkiä pitkät henkilötunnukset. Korjaan sivuille. Kysäisen algoritmitiimiltä onko nuo +, A ja tarkistenumero otettu huomioon.
Vaikea uskoa, että ohjelma suoriutuisi kovin hyvin suomenkielisen tekstin analysoinnista, kun algoritmien kuvauksista päätellen sen tekijät eivät suoriudu kovin kehuttavasti edes suomenkielisen tekstin tuottamisesta. Toisaalta kuvatut algoritmitkin ovat varsin suoraviivaisia; näinköhän ne riittävät?
Aihe on jo aika vanha, joten et voi enää vastata siihen.