Hei!
Onko hyvä ottaa huomioon mitä jos tekee verkkosivuja japaniksi ja oletettavasti tieto tallennetaan japanin kielellä tietokantaan.
UTF-8 käyttöön sekä sivuilla että kannassa, se riittänee.
Kielenä tämä tyyppi käyttää aina php:tä, joten silloin tulee myös muistaa käyttää mb-versioita merkkijonoja käsittelevistä funktioista. Sama pätee toki myös suomen kielen kanssa, mutta multibyte-merkkien vähyydestä johtuen ongelmiin ei välttämättä aina törmää... Mutta japanin kanssa asia tulee olemaan aivan eri.
The Alchemist kirjoitti:
Tulee myös muistaa käyttää mb-versioita merkkijonoja käsittelevistä funktioista.
Koska UTF-8 on fiksusti suunniteltu, voi käyttää tavallisia funktioita useimpiin tapauksiin eli aina silloin, kun ei kiinnosta merkkien lukumäärä. Esimerkiksi explode, strstr, strpos+substr-yhdistelmä ja monet muut asiat toimivat aivan oikein. Oikeastaan on harvinaista, että merkkien lukumäärällä olisi merkitystä, ja silloin myös mb-funktiot toimivat sikäli väärin, että nekään eivät laske näkyviä merkkejä vaan koodipisteitä, jolloin yhdistyvät merkit voivat hajota.
Jos kantana on MySQL niin silloin pitää charsetiksi asettaa "utf8mb4", pelkkä "utf8" on alias "utf8mb3":lle joka taltioi maksimissaan kolmen tavun UTF-8 merkkejä. Ainakin osa aasialaisten kielten merkeistä koodataan neljällä tavulla.
http://dev.mysql.com/doc/refman/5.7/en/charset-unicode-utf8mb4.html
Kiitän tiedoista.
Aihe on jo aika vanha, joten et voi enää vastata siihen.