Beaucoup de codages de caractères plus anciens (contrairement à Unicode) souffrent de plusieurs problèmes. Certains fournisseurs de pages de codes ne documentent pas suffisamment la signification de toutes les valeurs de point de code, ce qui réduit la fiabilité du traitement des données textuelles à travers différents systèmes informatiques de manière cohérente. Certains fournisseurs ajoutent des extensions propriétaires à certaines pages de code pour ajouter ou modifier certaines valeurs de points de code; Par exemple, l'octet 0x5C dans Shift JIS peut représenter soit une barre oblique inverse, soit un symbole monétaire yen selon la plate-forme. Enfin, afin de prendre en charge plusieurs langues dans un programme qui n'utilise pas Unicode, la page de codes utilisée pour chaque chaîne / document doit être stockée. En raison de la documentation étendue d'Unicode, de son vaste répertoire de caractères et de sa politique de stabilité, les problèmes énumérés ci-dessus sont rarement un problème pour Unicode. Les applications peuvent également étiqueter le texte dans Windows-1252 comme ISO-8859-1. Heureusement, la seule différence entre ces pages de code est que les valeurs de point de code utilisées par ISO-8859-1 pour les caractères de contrôle sont utilisées à la place comme caractères imprimables supplémentaires dans Windows-1252. Comme les caractères de contrôle n'ont aucune fonction en HTML, les navigateurs Web ont tendance à utiliser Windows-1252 plutôt que ISO-8859-1. En HTML5, traiter ISO-8859-1 comme Windows-1252 est même codifié en standard. Plus tard, UTF-8 a réussi les deux encodages en termes de popularité sur Internet.
|