utf-8 | Début | Suivant | Sommaire | Préc.page.lue | Accueil |
NOM | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
DESCRIPTION | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Pour ces raisons, l'UCS-2 n'est pas un encodage externe de l'Unicode utilisable dans les noms de fichiers, les variables d'environnement, les fichiers textes, etc... Le sur-ensemble d'Unicode ISO 10646 Universal Character Set (UCS), occupe même un espace de codage sur 31 bits, et l'encodage évident UCS-4 (une séquence de mots sur 32 bits) a les mêmes inconvénients.
L'encodage UTF-8 de l'Unicode et de l'UCS n'a pas ces inconvénients et est un moyen d'utiliser le jeu de caractères Unicode sous les systèmes d'exploitation compatibles UNIX.
Proriétés | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Encodage | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Les positions de bits xxx sont remplies avec les bits du numéro de code du caractère en représentation binaire. Seule la plus petite séquence multi-octets permettant de représenter un numéro de code doit être utilisée.
Les codes UCS de valeur 0xd800-0xdfff (UTF-16) comme 0xfffe et 0xffff ne doivent pas apparaître dans un flux de données UTF-8.
Exemple | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
et le caractère 0x2260 = 0010 0010 0110 0000 (Le symbole « non égal ») est encodé ainsi :
Notes applicatives | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
afin d'active le support UTF-8 dans les applications.
Les logiciels applicatifs qui doivent connaître l'encodage utilisé devrait toujours fixer la localisation, par exemple
et les programmeurs peuvent tester l'expression
pour savoir si une localisation UTF-8 a été sélectionnée, et si les entrées-sorties de texte, les communications avec les terminaux, le contenu des fichiers de texte, les noms de fichiers et les variables d'environnement sont encodés en UTF-8.
Les programmeurs habitués aux jeux de caractères mono-octet comme US-ASCII ou ISO 8859 doivent savoir que deux suppositions valides jusque là ne le sont plus dans les localisations UTF-8. D'abord un octet seul ne correspond par nécessairement à un unique caractère. Ensuite, comme les émulateurs de terminaux modernes, en mode UTF-8 supportent également les caractères en double-largeur du Chinois, du Japonais ou du Coréen, comme les caractères combinés sans largeur, la sortie d'un unique caractère ne fait pas avancer obligatoirement le curseur d'une position comme c'était le cas en ASCII. Les fonctions de bibliothèque comme mbsrtowcs(3) et wcswidth(3) doivent servir à présent pour compter les caractères et les positions de curseur.
La séquence ESC officielle pour basculer d'un encodage ISO 2022 (comme utilisé par exemple par les terminaux VT100) en UTF-8 est ESC % G ("\x1b%G"). La séquence de retour depuis UTF-8 est ISO 2022 est ESC % @ ("\x1b%@"). D'autres séquences ISO 2022 (comme celle pour basculer entre les jeux G0 et G1) ne sont pas applicables en mode UTF-8.
On peut espérer que dans un futur proche, UTF-8 remplacera ASCII et ISO 8859 à tous les niveaux comme encodage des caractères sur les systèmes POSIX, ce qui conduira à un environnement sensiblement plus riche pour traiter des textes.
Sécurité | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Normes | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
VOIR AUSSI | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
TRADUCTION | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Ce document est une traduction réalisée par Christophe Blaess <http://www.blaess.fr/christophe/> le 20 octobre 1996 et révisée le 10 décembre 2007.
L'équipe de traduction a fait le maximum pour réaliser une adaptation française de qualité. La version anglaise la plus à jour de ce document est toujours consultable via la commande : « LANG=C man 7 utf-8 ». N'hésitez pas à signaler à l'auteur ou au traducteur, selon le cas, toute erreur dans cette page de manuel.
Sommaire | Début | Suivant | Sommaire | Préc.page.lue | Accueil |