Tämä on varmaan tuhannesti vastattu ja tällä samalla sivullakin, mutta kun en ole varma, sopiiko se minun tapaukseeni.
Muokkaan valmista php-koodia. Sen merkistö on us-ascii.
Miten kannattaisi tehdä ääkköset tekstiosiin?
Muuttaisin koodia kaikkiaan niin vähän kuin mahdollista.
ä ? Haluan varmistaa, ennenkuin teen liikaa hallaa itselleni.
mercier kirjoitti:
Sen merkistö on us-ascii.
Miten kannattaisi tehdä ääkköset tekstiosiin?
Olettaen, että väittees merkistökoodauksesta pitää paikkansa, niin muuta vaihtoehtoa kuin entiteetit ei ole.
Mainittakoon, että en usko väittees paikkaansapitävyyteen, joku latin1 se on kuitenki, mut näillä tiedoilla on paha sanoa muutakaan.
Jos se oikeasti on US-ASCII, niin sittenhän ei pitäisi olla mitään haittaa siitäkään, että vaihtaa koodaukseksi UTF-8:n ja tallentaa ääkköset ihan normaalina UTF-8-tekstinä.
Pikakurssi merkistöihin:
- US-ASCII = 7-bittinen = 128 ensimmäistä merkkiä määritelty
- lähes kaikki muut merkistöt ovat US-ASCII -yhteensopivia, ne 128 ekaa merkkiä on samat
- ennen Unicodeen siirtymistä monet länsimaat (mm. Yhdysvallat ja Suomi) käyttivät pääasiallisesti latin-1 -merkistöä
- iso-8859-1 on virallinen standardi
- windows-1252 on Microsoftin variaatio, määritellen muutaman merkkiarvon eri tavoin
- nämä merkistöt ovat 8-bittisiä: suurin osa softasta, protokollista ja spekseistä oli riippuvaisia 8-bittisyydestä merkistössä
- Unicode syntyi ja mahdollistaa teoriassa yli miljoona erilaista merkkiä
- UTF-32, UTF-16 ja UTF-8 ovat eri tapoja merkata samat merkkikoodit
- UTF-8 on 8-bittinen ja siten teknisesti yhteensopiva vanhojen 8-bittisten järjestelmien kanssa (esim. IRC)
Ääkköset sijaitsevat latin-1:ssä merkeissä 128 - 255. UTF-8 tuo merkkialue on varattu mahdollistamaan viittaus isompiin merkkiarvoihin, joten ääkkösetkin esitetään useammalla tavulla. Bonuksena kuitenkin saa koko Unicoden merkkiavaruuden käyttöön
Lyhyesti: UTF-8:aa kannattaa opetella käyttämään. Vaatii toki opettelua ja monien pienien yksityiskohtien iskostamista päähän.
Sen verran näyttää tuottavan UTF-8 vaivaa monelle, että olisi mahtavaa jos löytyisi joku fiksu ja filmaattinen joka siitä kirjoittaisi pienen oppaan.
Metabolix kirjoitti:
Jos se oikeasti on US-ASCII, niin sittenhän ei pitäisi olla mitään haittaa siitäkään, että vaihtaa koodaukseksi UTF-8:n ja tallentaa ääkköset ihan normaalina UTF-8-tekstinä.
Näin se meni, toistaiseksi ei ongelmia! Kiitos!
Aihe on jo aika vanha, joten et voi enää vastata siihen.