Tarkoituksena olisi pystyä kontrolloimaan regexeillä docx -tiedostoja.
Office 2007 kuitenkin tarjoaa surkeat työkalut regexeille. Haluaisin listata kaikki lauseet, jotka sisältävät kaksi samaa peräkkäistä sanaa useissa docx tiedostoista.
Tuo pitäisi onnistua perlillä ja ehkä jopa PHP:llä. Yritin tämmöistä koodia perlille:
\b(\w+)(?:\s+\1\b)+�\1
Tuo koodi on Regexbuddyn kirjastosta. Sillä pitäisi pystyä poistamaan tupla sanat samalta riviltä. Jos tuo koodi on oikein, ongelma on ajaa tuo koodi useassa docx tiedostossa. Miten tuon voisi tehdä?
Sain tämmösen koodin myös aikaan:
% perl -w FindDbl 1.docx,2.docx,3.docx
En saanut tätäkään kuitenkaan toimimaan.
Aihe on jo aika vanha, joten et voi enää vastata siihen.