Keskustelu: Nettisivujen teko: Hakemiston tiedostojen näkyvyys

AnttiJN [19.09.2007 19:26:30]

Terve

Teen yhden projektin, jossa käyttäjät voivat upata tiedostoja palvelimelle samaan kansioon. Tarkoituksena on suojata tuo kansio niin ettei kuvia pääse selailemaan ellei tiedä tietyn kuvatiedoston nimeä.

Mietein että voisin lisätä tuonne kansioon ihan index.html -nimisen tiedoston, jolloin palvelin ei antaisi oletuksena tiedostolistausta ko. hakemistosta.
Kysymys: pääseekö joku ulkopuolinen käyttäjä selaamaan tuon kansion sisältöä tuosta index.html -tiedostosta huolimatta. Millään selaimellahan tämä ei varmaan onnistu, koska palvelinpuoli lähettää tuon index.html tiedoston sisällön oletuksena. Lähinnä mietein että pääseekö sinne käsiksi esim. readdir -funktion tai jonkin vastaavan avulla (käsittääkseni readdir -funktion sisältävä tiedosto pitäisi olla samalla palvelimella ja varustettu meikäläisen oikeuksilla että pääsee tuohon kansioon käsiksi)?

Onko jotain muuta tapaa suojata tuo hakemisto? Ideana on antaa upatuille kuville random nimi, joka näkyy vain kuvan siirtäneelle käyttäjälle ja minulle. Tuohon kansioon pitää siis antaa kirjoitusoikeudet kaikille (käyttämäni palvelin ei hyväksy että php tekee chmodauksia=safemode).

Extreme [19.09.2007 20:24:35]

Yksi tapa on luoda ko. kansioon .htaccess - tiedosto joka pitää sisällään rivin: Options -indexes

Jos taas haluat tiedostojen näkyvän, muuta: Options +indexes

AnttiJN [19.09.2007 20:42:59]

ok, kiitos!
htaccessia onkin tullut käytettyä aikapaljon salasanasuojauksiin, mutta tuollainen käyttömahdollisuus oli ihan uusi tieto!

Kiitos siis Extremelle vastauksesta

peg [19.09.2007 20:48:11]

kokeile jollain linux koneella wget komentoa kansioon, jos se ei saa sieltä mitään
niin sitten voidaan pitää crackerina jos hakee tiedostoja. Finlexistä lisää laista.

EDIT: älkää panostako liikaa noihin suojauksiin, jos Sampo ja Nordea ei saa systeemeitään aukottomiksi niin kuinka sitten me. Riittää kun se ei sitten ole
kaikkien ulottuvilla ja urkkijat tietävät olevansa rajan väärällä puolella.
Väitetään että tiedostot jotka eivät ole wgetillä saatavilla jää myös hakukoneilta
indeksoimatta.

ajv [19.09.2007 21:30:58]

peq kirjoitti:

Väitetään että tiedostot jotka eivät ole wgetillä saatavilla jää myös hakukoneilta
indeksoimatta.

No ei kai hakukoneet voi indeksoida tiedostoja, joihin ei ole missään julkista linkkiä?

peg [19.09.2007 22:45:46]

Kyllä voi, hyviä esimerkkejä on tietosuojavaltuutetullekin tehdyt valitukset kun esim google on päässyt vahingossa indeksoimaan tiedostoja jotka ei ole tarkoitettu kuin viranomaisille, vaikka google ei sitten näytä kuin muutaman rivin on tapaukset olleet ikäviä, kun sieltä googlesta niitä ei saa pois ihan äkkiä mitenkään.

EDIT: Tehkääpä testi, kirjoittakaapa vau.htm tiedostoon "erkkisen kinkkinen taival" otsikoksi h1 tageihin. alle kirjoitatte pitkän
listan seksiin liittyviä sanoja peräkkäin ja lopuksi jonkin luettelon
henkilöiden etu + sukunimiä.
Älkää laittako mitään linkkiä osoittamaan tähän tiedostoon, tallennatte tiedoston mbnet, phnet, elisan tai jollekin palvelimelle jolla on suuri liikenne ip numeroonsa, laskuriin $remote=getenv("REMOTE_ADDR");
$yhteys = gethostbyaddr($remote);
Kaikki kävijät itsenne lisäksi ovat siis hakukoneita, tuloksia näkyy
noin kuukauden päästä.

ajv [19.09.2007 22:50:59]

No aika hassulta tuntuu, että google arpoisi itse noita webbiosoitteita mitä indeksoi. Siis jos nyt pistän omalle palvelimelleni - joka on julkinen, mutta osoitetta ei tiedä kukaan muu kuin minä - tiedoston - jonka nimeä niin ikään en ole kertonut kenellekkään - niin google löytää sen? Toisin sanoen se pingailee ip-avaruutta kuin mikäkin hakkeri ja vielä arpoo satunnaisia tiedostonimiäkin jostain. Hieman epäilen. Jos google on tuollaisia viranomaisille tarkoitettuja tiedostoja päässyt indeksoimaan, kyseessä on joko ilkivalta, julkiset statistiikat tai reikänen admin-paneeli. Meinaan kyllähän noita admin-paneeleitakin on joskus googlella tullut vastaan :)

Edit: niin ja amatöörimäistä toimintaa kyllä muutenkin ko. sivuston ylläpidolta, sillä pelkkä robots.txt:n käyttö estää tuon indeksoinnin. Kaikki yleisimmät hakurobotit tottelevat sitä.

peg [19.09.2007 23:21:21]

Ei, vaan pitää olla sellainen palvelin jolla on suuri liikenne, silloin hakukoneet indeksoi kaikki palvelimen tiedostot ja putsaa ne sitten jollain kriteereillä. Tämä selviää sillä että laitat eri kansioon kuin vau.htm juku.htm tiedoston, otat laskuriin kellon ajat myös, sama hakukone indeksoi toisen tiedoston aivan eri aikaan kuin toisen.

Käsittääkseni ei kyllä arvo ip numeroita mutta seuraa palvelimien reitityksiä ja isot palvelimet joihin on paljon liikennettä indeksoidaan wget tapaisella menetelmällä (jota altavista käytti 1994-1997 johtavana hakukoneéna silloin), otetaan siis palvelimelta kaikki tiedostot ylikuormittamatta sitä ( hitaasti ), mutta järjestyksessä kaikki, paitsi tiedostot joiden pääte on väärä.
kuitenkin htm html php on priorisoitu korkeammalle kuin txt ja mp3
tiedostoista ei taida ottaa edes nimeä.
kokeile omalla ja isolla palvelimella ja sama tiedosto htm, txt, pdf ja vaikka xls tiedostoina, sisältö kuitenkin identtinen.
sitten jouluna voit kokeilla hakua "erkkisen kinkkinen taival"
niissä hakukoneissa jotka ovat käyneet indeksoimassa tiedostot.
Eli tiedosto muodollakin on merkitystä.

ajv [20.09.2007 19:16:15]

Edelleenkään en usko tuohon. Että "isot palvelimet" muka poikkeaisivat tuosta indeksointitavasta. Ja vaikka poikkeaisivatkin, niin tuskin ne nyt muuta protokollaa kun http:tä tuohon indeksoimiseen käyttävät. Ja jos missään ei ole linkkiä tiedostoon, niin ei se robotti tuon http:n kautta voi mitenkään saada selville mitä tiedostoja palvelimella on. Muiden mielipiteitä?

Antti Laaksonen [20.09.2007 21:58:43]

Laitoin nyt Ohjelmointiputkan palvelimelle salaisen HTML-tiedoston, jonka osoitetta en paljasta kenellekään. Jouluna voidaan sitten tarkistaa, mitkä hakukoneet ovat löytäneet sen.

Tosin hakukoneilla ei ole mitään taikavoimia, vaan tiedoston pitäisi olla yhtä lailla ihmisen löydettävissä, jos peqin selostus pitää paikkansa. Kuka saa selville äsken luomani tiedoston osoitteen?

Huom.: Tiedostoa ei saa etsiä kokeilemalla kaikkia mahdollisia nimiä, eikä muutenkaan saa kuormittaa palvelinta liiaksi!

ajv [24.02.2008 12:42:52]

Nostan tämän vanhan aiheen nyt ylös, koska haluan varmistuksen siihen, että pegin väittämä ei pidä paikkaansa. Antti, ovatko hakukoneet löytäneet salaista html-tiedostoasi? Voisiko joku asiasta jotain ymmärtävä todeta, että tuo ei ole mahdollista? Eli jos missään ei ole linkkiä tiedostoon, hakukone löytää sen muka silti, jos kyseessä on iso palvelin

Antti Laaksonen [24.02.2008 19:37:20]

Ainakaan vielä hakukoneet eivät ole löytäneet tiedostoa (eikä tiettävästi kukaan muukaan).

Sivun alkuun

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Kirjautuminen

Haku

Tehtävät