Kirjautuminen

Haku

Tehtävät

Keskustelu: Yleinen keskustelu: Regex & tekstinhallinta

hevonen [09.07.2008 18:00:58]

#

Tarkoituksena olisi pystyä kontrolloimaan regexeillä docx -tiedostoja.
Office 2007 kuitenkin tarjoaa surkeat työkalut regexeille. Haluaisin listata kaikki lauseet, jotka sisältävät kaksi samaa peräkkäistä sanaa useissa docx tiedostoista.

Tuo pitäisi onnistua perlillä ja ehkä jopa PHP:llä. Yritin tämmöistä koodia perlille:

\b(\w+)(?:\s+\1\b)+�\1

Tuo koodi on Regexbuddyn kirjastosta. Sillä pitäisi pystyä poistamaan tupla sanat samalta riviltä. Jos tuo koodi on oikein, ongelma on ajaa tuo koodi useassa docx tiedostossa. Miten tuon voisi tehdä?

Sain tämmösen koodin myös aikaan:

% perl -w FindDbl 1.docx,2.docx,3.docx

En saanut tätäkään kuitenkaan toimimaan.

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Tietoa sivustosta