Tein kesän sivuja Muhoksen kansakouluista. Mitään vastaavaa ei ole netissä, sivusto on uniikki ja ainutlaatuinen. Tästäkin, kuten melkein kaikista sivuistani Google lähettää viestin:
Google kirjoitti:
Sivu on kopio, jolla ei ole käyttäjän valitsemaa ensisijaista osoitetta
Jos syy on tahaton, suosittelemme korjaamaan sen, jotta kyseinen sisältö (sivut) voidaan lisätä hakemistoon ja näkyä Googlessa.
En ole yksinkertaisena ihmisenä saanut selville, mitä tämä tarkoittaa, vaikka tätä on jatkunut vuosia. Miten sivu voi olla kopio ja mikä sille on ensisijainen osoite? Kansakoulusivuillani tämä viesti tarkoittaa Googlen mukaan sivuja index ja menu, eli tuo index on se kaikkein tärkein sivu. Toivon yksinkertaisia vastauksia, jotta ymmärrän.
Yksittäisen sivun tulee olla saatavilla vain yhdellä osoitteella.
Esimerkiksi nämä sivut ovat duplikaatteja, kopioita:
https://www.tunturisusi.com/muhoksenkansakoulut/
https://www.tunturisusi.com/muhoksenkansakoulut/
Tässä tapauksessa syynä on huono tekninen toteutus, mutta ongelman voisi luultavasti korjata myös palvelimen asetuksia muuttamalla.
Aluksi tulisi asettaa pysyvä uudelleenohjaus eli palvelin ohjaamaan automaattisesti index.htm-osoitteesta ns. hakemiston juureen: /foo/index.html -> /foo/. Pysyvä uudelleenohjaus tarkoittaa HTTP 301 -koodin ja Location-otsakkeen käyttöä. Hakukoneet tykkäävät tästä.
Myöhemmin uudelleenohjauksen voi poistaa ja asettaa tilalle tavallisen HTTP 404 -virhesivun. Virhekoodin 404 käyttö on tärkeää, sillä muut koodit voivat johtaa uusiin ongelmiin hakukoneiden kanssa.
Minusta sivuston rakenteen tulisi kuitenkin olla koherentti. Jos useimpien sivujen loppupääte on ".htm", niin silloin kaikilla sivuilla tulisi olla loppupääte. Voisit siis antaa index.htm-tiedostoille järkevän tiedostonimen.
Esimerkiksi muhoksenkansakoulut/index.htm -> muhoksenkansakoulut.htm.
(Tästä tosin seuraa toinen ongelma, eli urlien rakenne ei ole aidosti hierarkkinen, eli urli /muhoksenkansakoulut/ ei palauttaisi enää mitään sivua vaikka /muhoksenkansakoulut/laitasaari.htm on kuitenkin olemassa.)
Kaikista parasta olisi toki hankkiutua turhista loppupäätteistä eroon kokonaan.
Kiitokset vastauksesta muuskanuikku. Paneudun tähän päivän. Miten muuten "turhista" loppupäätteistä voi hankkiutua eroon? Eikö sivulla ole aina pakko olla tämä .htm-pääte?
Tunturisusi kirjoitti:
Kiitokset vastauksesta muuskanuikku. Paneudun tähän päivän. Miten muuten "turhista" loppupäätteistä voi hankkiutua eroon? Eikö sivulla ole aina pakko olla tämä .htm-pääte?
Ei ole. Esim. monet julkaisujärjestelmät muuttavat esim. php-sivut päätteettömiksi.
esim. munsivu.fi/yhteystiedot ja munsivu.fi/tuotteet/kattovalaisimet/valkoinen-eha-1235
edit:
Tai hyvä esimerkki on ihan tämä Ohjelmointiputkan viestiketju:
https://www.ohjelmointiputka.net/keskustelu/
Tiedostopäätteillä ei ole urlissa yhtään mitään merkitystä. Selaimelle kaikki polut ovat samanarvoisia eikä polussa oleviin merkkijonon pätkiin liity mitään teknistä merkitystä. Sitä paitsi tuollainen ".htm" on käyttäjille outo, kun suurin osa lienee tottunut näkemään päätteen ".html".
Ladattavien tiedostojen kohdalla asia voi olla toisin, tai ainakin siinä vaiheessa on, kun tiedostoa yrittää levyltä avata, jolloin käyttöjärjestelmä voi tunnistaa oletuksena avattavan ohjelman tiedostopäätteen perusteella.
Nykyaikana on päin vastoin suositeltavaa pudottaa urleista kaikki turha pois ja muutenkin tehdä niistä mahdollisimman selkokielisiä. Selkokielisyys on kuitenkin jotain, mitä SEO-mittarit eivät osaa arvioida, joten ne eivät ota siihen kantaa.
Esimerkiksi ihmiselle voisi olla selkein tällainen url:
/muhoksen-kansakoulut/laitasaari
Muita vaihtoehtoja laajemmalle verkkosivustolle:
/kansakoulut/muhos/laitasaari
/muhos/kansakoulut/laitasaari
...paras urli riippuu monesta asiasta kuten verkkosivuston rakenteesta, tarkoituksesta ja sisällön määrästä.
Ohjelmointiputka käyttää urlissa myös viestiketjun ID-numeroa siitä syystä, että tekninen pohja on vanha ja vaatii sen. Näitä purkkaratkaisuita näkee edelleen paljon ja se on kohtalainen kompromissi, jos teknisessä mielessä paremmat ratkaisut vaatisivat kohtuuttoman paljon työtä.
Tunturisusi kirjoitti:
Miten sivu voi olla kopio ja mikä sille on ensisijainen osoite?
Jos jostain syystä sama sivu halutaan näkymään useammassa kuin yhdessä osoitteessa, sille voi määrittää virallisen/ensisijaisen/kanonisen osoitteen laittamalla headiin:
<link rel="canonical" href="https://www.example.com/my-page">
Jossa siis yksi niistä osoitteista, joissa sivu näkyy on href parametrina. Ja tämän täytyy tietenkin olla sama kaikista osoitteista ladattaessa.
Kiitokset edelleen vastauksista ja laitanpa heti tänään headiin tuon kanonisen osoitteen. Tutustun myös tuohon julkaisualustaan WordPressiin, jota en laisinkaan osaa käyttää ja joka näyttää olevan palvelimella domainissani valmiiksi asennettuna.
Elämähän on arvaamatonta. ;) Tutustuin siihen WordPressiin palvelimella ja onnistuin vahingossa lataamaan sivun sieltä tunturisusi.comiin, josta oikea sivu katosi. Jos tuohon kirjoittaa perään index.htm, sivu näkyy, mutta kukapa sen osaisi tehdä.
Palvelin on aina ollut hyvin palvelualtis ja ystävällinen ja nyt he eivät ole vastanneet vielä laisinkaan. Toivon toki, että heillä lopulta olisi aikaa antaa neuvoja.
Ohjauspaneelissa on kohta, josta pystyisi yhdellä klikkauksella poistamaan WP-asennuksen, mutta siinä lukee www.tunturisusi.com. Laidalla on kyllä WP merkki. En ole uskaltanut poistaa, josko tuo poistaa kaikki sivut kerralla, eikä vain sitä WP:tä. Vai miten se toimii?
Olipas se äärimmäisen yksinkertaista. Tosin tässäkin toimin väärin heidän vuokseen. Tuli viesti, että pitää ladata palvelimelta viikon takaiset sivut nettiin. No se on nyt menossa, mutta sitten tuli hieman myöhemmin toinen viesti, että vaihtoehtoisesti voi poistaa palvelimella tunturisudesta tiedoston index.php. Poistin sen ja normaali etusivu palasi.
Tunturisusi kirjoitti:
(13.11.2024 04:59:28): Olipas se äärimmäisen yksinkertaista. Tosin...
Siellä on varmaan sen index.php -tiedoston lisäksi nyt se koko Wordpressin ydintiedostot myös.
eli iso liuta wp -alkuisia hakemistoja