Kirjautuminen

Haku

Tehtävät

Keskustelu: Ohjelmointikysymykset: C++: XML-tiedostojen haku

Sivun loppuun

ThaFox [15.06.2007 13:20:00]

#

Hei!

Tarkoitus olisi saada aikaan sellainen c-kielen funktio, joka hakee kansiosta XML-päätteiset tiedostot. Lisäksi ohjelman pitäisi pystyä palauttamaan nollia ja ykkösiä sen mukaan, onko XML validia vai ei. XML-tiedostot on nyt luotu kansioihin, mutta en osaa poimia niitä sieltä. Kansiossa on siis muillakin päätteillä olevia tiedostoja.

Antti Laaksonen [16.06.2007 01:08:37]

#

Hakemistossa olevien tiedostojen selvitykseen on eri käyttöjärjestelmissä omat tapansa. Esim. Windowsissa on funktiot FindFirstFile ja FindNextFile, Linuxissa taas voi käyttää funktiota scandir ja kumppaneita. Jos ohjelma on luonteeltaan tilapäinen, helpoin konsti on kuitenkin ohjata käyttöjärjestelmän oma hakemiston listaus väliaikaiseen tiedostoon ja lukea nimet sieltä seuraavaan tapaan.

#include <stdio.h>
#include <stdlib.h>

int main(void) {
        FILE *tiedosto;
        char nimi[50];
        /* Windowsissa: */
        system("dir /b *.xml > tlista.txt");
        /* Linuxissa:
        system("ls -1 *.xml > tlista.txt"); */
        tiedosto = fopen("tlista.txt", "r");
        while (!feof(tiedosto)) {
                fgets(nimi, 50, tiedosto);
                printf("Tutkitaan tiedostoa %s", nimi);
        }
        fclose(tiedosto);
        return 0;
}

XML-tiedoston muodon tarkistus onkin mutkikkaampi juttu. Joudutko tekemään sen alusta alkaen itse vai voiko apuna käyttää jotain ulkoista ohjelmaa?

ThaFox [18.06.2007 08:08:03]

#

Joudun tekemään sen luultavasti itse, aivan varma en asiasta tässä vaiheessa ole. Mutta oletan, että sen voisi tehdä niinkin, että haen ensin kaikki tiedostot kansiosta ja tarkistan vasta sen jälkeen, onko kyseessä kunnollinen xml-tiedosto. Ja tämä tulee siis pyörimään Linuxissa. Ja tuo kansio on ihan pysyvä, ei mikään tilapäisesti luotu. Kyseessä on testiohjelma, jonka tarkoituksena on varmistaa, ettei koko softa kaadu, jos xml-tiedosto onkin täynnä kuraa.

ThaFox [18.06.2007 10:27:51]

#

Tajusin, että unohdin tuosta tiedostopolusta mainita, että main sijaitsee eri kansiossa kuin nämä xml:t. Hoituuko se ihan tuota yhtä riviä muuttamalla?

system("cd /home/oikea_kansio/ ls -1 *.xml > xmllist.txt");

Koodin tekeminen on siinä mielessä hieman pulmallista, etten pääse itse sitä vielä testaamaan Linux-ympäristössä, joten toiminnallisuutta joutuu vähän arvailemaan.

Ja sain juurikin tiedon, että parserina käytetään Expatia, joten pitääpä tutkailla, kuinka tuo tarkistetaan sillä.

tesmu [18.06.2007 11:48:13]

#

luultavasti se pitäisi olla system("cd /home/oikea_kansio/ && ls *.xml > xmllist.txt");

GoldenDragon [19.06.2007 02:04:06]

#

Selvempi muoto tuolle listauskomennolle on aivan toisenlainen. Listauksen voi kutsua myös jostain muusta hakemistosta, kuin missä nyt ollaan:

system("ls -l /home/xml-data/*.xml > xmllist.txt");

Tuossa esimerkissä tuo xmllist.txt tallentuu siis nykyiseen työhakemistoon. Jos sen pitäisi olla samassa hakemistossa, kuin xml-tiedostojen, niin lisätään vain polku:

system("ls -l /home/xml-data/*.xml > /home/xml-data/xmllist.txt");

Mutta pitäisi tuon tesmunkin cd-esimerkin toimia.

ThaFox [19.06.2007 08:28:55]

#

Kiitän tuosta! En tiedä, onko tuo toiminnallisesti sen parempi, mutta ainakin itse näen nyt koodin selkeämpänä.

Onko kukaan käyttänyt tuota Expatia XML-koodin "hyvin-muodostuneisuuden" (anteeksi!) tarkistamiseen? Luin täältä vähän ohjetta parametrien käyttöön: http://www.jclark.com/xml/expat.html
Jos nyt tuon ymmärrän oikein, niin komennolla

xmlwf(d, /home/oikea_kansio/xmllist.txt

sen pitäisi tarkistaa se muoto ja palauttaa 0 tai muuta.

ThaFox [21.06.2007 14:32:02]

#

Tuli tässä juurikin mieleen, että jos otan tuolla

system("ls -l /home/xml-data/*.xml > /home/xml-data/xmllist.txt");

kahdesta eri kansiosta tavaraa, niin laittaako se toisella kerralla ne uudemmat vanhojen perään samaan tiedostoon vai kirjoittaako se päälle?

Antti Laaksonen [21.06.2007 14:56:02]

#

Jos ohjausmerkki on >, uudet tiedot korvaavat vanhan, mutta jos ohjausmerkki on >>, tiedot menevät peräkkäin.

ThaFox [26.06.2007 14:44:16]

#

Kun lisäilee parametreja, niin kuinka niistä osan saisi valinnaisiksi eli ettei niitä ole pakko antaa? Voiko niille esim. asettaa oletusarvoksi NULL? Joko aivot tai Google oli jostain syystä kovin nihkeänä...

Metabolix [26.06.2007 23:29:13]

#

Mille olet lisäilemässä parametreja? C-kieliselle funktiolleko? C++ sallii oletusarvojen käytön, luonnollisesti kuitenkin vain viimeisille parametreille:

int funktio(int a, int b, int c = 10, int d = 15);

C:ssä sen sijaan pitää käyttää stdarg.h-otsikon tarjoamia mahdollisuuksia:

#include <stdarg.h>
void tulosta_luvut(int parametreja, ...)
{
  va_list lista;
  int i, j;
  va_start(lista, parametreja); // Annetaan tälle viimeinen (ainoa) nimetty parametri

  i = 1;
  while (parametreja > 0) {
    parametreja--;
    ++i;
    // Jostain pitää tietää, mitä tyyppiä parametrit ovat. Yksi tapa on tuo printf:n tapa eli formaattiteksti. Tämä funktio nyt ottaa vain int-tyyppisiä.
    j = va_arg(lista, int);
    printf("%d: %d\n", i, j);
  }

  va_end(lista);
}

//...
tulosta_luvut(10, 1,2,3,4,5,6,7,8,9,0);

ThaFox [27.06.2007 08:02:27]

#

Kiitos Metabolix tuosta! Eiköhän tästä tuolla päästä eteenpäin. Kyseessä on siis C-kielinen testipääohjelma.

Metabolix [27.06.2007 14:30:11]

#

Niin tietysti, jos ohjelmalle annettavia komentoriviparametreja tarkoitit, niin nehän välittyvät merkkijonoina. Niitä voi sitten parsia muuhun muotoon sscanf-funktiolla. Ensin voi säätää oletusarvot ja sitten tarkistaa, mitä parametreja on annettu. Patametriin on syytä liittää jokin tunniste alkuun, siis vaikkapa antaa ne muodossa "nopeus=100", jotta selviää, mille muuttujalle arvo pitäisi laittaa. ;) Tässä on vielä varmuuden vuoksi esimerkki, kuinka noita käytetään.

#include <stdio.h>
int main(int argc, char **argv)
{
    int i, luku;
    int nopeus = 100, pituus = 10;
    for (i = 1; i < argc; ++i) { // Alkaa ykkösestä, argv[0] on komento, jolla ohjelma ajettiin
        if (sscanf(argv[i], "nopeus=%d", &luku) == 1) {
            nopeus = luku;
        } else if (sscanf(argv[i], "pituus=%d", &luku) == 1) {
            pituus = luku;
        } else {
            printf("Tuntematon parametri (%d: %s)\n", i, argv[i]);
        }
    }
    return 0;
}

ThaFox [02.07.2007 08:40:26]

#

Tein sen ensin tuohon tyyliin, mutta päädyin sitten kuitenkin loppujen lopuksi switch-case -rakenteeseen. Parametrit kun tulee muodossa -vjotain -ulisää jne., niin ne sai omasta mielestäni kätevimmin tuolla rakenteella.

Metabolix [03.07.2007 16:12:54]

#

Mitenhän mahdoit saada ne case-rakenteeseen, eihän se tue tekstinpätkiä?

ThaFox [11.07.2007 14:36:46]

#

Luovuin tekstinpätkistä em. syystä. Laitoin siis näin:

for (j = 1; j < argc - 1; j += 2)
  {
     if (argv[j][0] != '-')
     {                                                             printUsage();
           return -1;
     }

     switch (argv[j][1])
     {
     case 'd':
        dir = argv[j+1];
        fprintf(stdout, "directory specified: %s\n", dir);
        break;

Uusi "ongelma" ilmennyt. Debuggaan koodia gdb:llä ja se antaa joidenkin funktioiden kutsun jälkeen seuraavanlaisia rivejä:

0x08048637 in oma_funktio@plt ()

0x0804861c in ?? ()

0xb7f39620 in _dl_runtime_resolve () from /lib/ld-linux.so.2

0xb7f34190 in _dl_fixup () from /lib/ld-linux.so.2

Onko tuo ihan normaalia? Jotenkin nuo kysymysmerkit nostavat verenpainetta.

Kray [26.07.2007 11:03:07]

#

voisiko joku kertoa miten tuon saa toimimaan windowsissa niin että se hakee ne toisesta hakemistosta? en saanut toimimaan vaikka kuinka yritin...

Metabolix [26.07.2007 21:18:25]

#

ThaFox: Et kertonut, mitä debuggeri valittaa, vaan vain sen, missä se valittaa.

krey:

dir /w [polku]

ThaFox [07.08.2007 12:35:55]

#

Nyt on sit ohitettu nuokin ja päästy siihen vaiheeseen, että Expat-parserin xmlwf-nimisellä palasella pitäisi tarkistaa XML-tiedoston well-formedness (saa ehdottaa suomennosta, joka sopii tähän kohtaan). Eli ohjelma tekee XML-tiedoston muuttujaan "dump". Nyt kutsun sitä:

(system("xmlwf(dump)")

Tämähän ei mene läpi, koska Linux ei tiedä ohjelman muuttujasta mitään. Voisiko tämän kiertää jotenkin?

ThaFox [09.08.2007 09:08:09]

#

Eipä mitään enää. Onnistuinkin kiertämään tuon bufferin avulla.


Sivun alkuun

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Tietoa sivustosta