Miten voisi toteuttaa näppärän hakutoiminnon laajan www-sivuston sisällä? Olisi tarvetta hakea esimerkiksi jollakin annetulla hakusanalla löytyviä saman www-sivuston alla olevia sivuja. Onkohan mahdollista toteuttaa ilman tietokantaa?
Hyvän hakutoiminnon toteuttaminen ei ole ihan yksinkertaista. Jos sivustolla ei ole edes tietokantaa, haku on vielä monimutkaisempaa, kun pitää jotenkin tietää, mistä tiedostoista haetaan ja mitkä osat ovat haun piirissä (ettei haettaisi esim. HTML-tageista tai PHP-koodeista). Jos on mitenkään mahdollista, kannattaa käyttää jotain valmista koodia tai yksinkertaisesti Googlen sivustohakua.
Millainen on ”laaja www-sivusto”, jos siellä ei ole minkäänlaista tietokantaa käytössä? Kuulostaa ylläpitäjän unelmalta...
volume kirjoitti:
Miten voisi toteuttaa näppärän hakutoiminnon laajan www-sivuston sisällä? Olisi tarvetta hakea esimerkiksi jollakin annetulla hakusanalla löytyviä saman www-sivuston alla olevia sivuja. Onkohan mahdollista toteuttaa ilman tietokantaa?
On mahdollista toteuttaa ilman tietokantaakin, mutta se ei ole kovin pieni projekti. Määrittele hakutiedostot, ja tee niistä indeksitiedostot esim. joka yö klo 4.00-5.00 Esim. Linuxissa crontab:lla ajastettuna.
Jos on aihetta hakea rekursiivisesti oman intranetin sisällä, niin huolehdi, ettei rekursiosi hae koko internetistä eli rajaa rekursio omaan domainiin ja omiin IP-osoitteisiin.
Käytä tehokkaita algoritmeja hakiessasi indeksitiedostoista...
... Määrittele JA ja TAI operaattorien laajuus (siis milloin hyväksytään JA operaattori. Tarkoitan siis tässä, että mikä on kahden yhtenevyyden maksimietäisyys, jos vaaditaan sekä 1.haku että 2. haku).
Edit - Tehokkaina hakualgoritmeina voisi käyttää säännöllisiä lauseita tai tilakonetta.
Aihe on jo aika vanha, joten et voi enää vastata siihen.