unicode | Début | Suivant | Sommaire | Préc.page.lue | Accueil |
NOM | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
DESCRIPTION | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
UCS contient les caractères nécessaires pour représenter presque tous les langages connus. Il inclut non seulement les alphabets Latin, Grec, Cyrillique, Hébreu, Arabe, Arménien, et Géorgien, mais également Chinois Japonais, Hiragana, Katakana, Coréen, Hangul, Devanagari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayam, Thai, Lao, Khmer, Bopomofo, Tibétain, Runique, Ethiopien, Canadien Syllabique, Cherokee, Mongol, Ogham, Myanmar, Sinhala, Thaana, Yi, et d'autres. Pour les écritures pas encore intégrées, des recherches sont en cours pour optimiser l'encodage et elles seront ajoutées. Ceci peut inclure non seulement des hiéroglyphes et des langues indo-européennes, mais aussi des écritures artistiques comme Tengwar, Cirth, ou Klingon. UCS contient un grand nombre de symboles graphiques, typographiques, mathématiques, ou scientifiques comme ceux fournis par TeX, Postscript, MS-DOS, MacIntosh, Videotext, OCR, et de nombreux traitements de texte et système d'édition.
Le standard UCS (ISO 10646) décrit un jeu de caractères sur 31 bits, constitué de 128 groupes sur 24 bits, chacun d'eux divisés en 256 plans sur 16 bits, composés de 256 rangées de 8 bits, avec 256 positions en colonne contenant chacune un caractère. La première partie du standard (ISO 10646-1) définit les 65534 premiers codes (0x0000 à 0xFFFD) qui forme le Basic Multilingual Plane (BMP), c'est à dire le plan 0 du groupe 0. La partie 2 du standard (ISO 10646-2) ajoute des caractères au groupe 0, dans plusieurs plans supplémentaires dans l'espace 0x10000 à 0x10ffff. On ne prévoit pas d'ajouter de caractères au-delà de 0x10ffff, ainsi sur l'ensemble de l'espace disponible, une faible fraction du groupe 0 est effectivement utilisable dans un futur à court terme. Le BMP contient tous les caractères des jeux habituels. Les plans supplémentaires ajoutés par ISO 10646-2 ne contiennent que des caractères exotiques pour des notations scientifiques spéciales, l'industrie de l'impression, des protocoles de haut-niveau, et les besoins de quelques enthousiastes.
La représentation des caractères UCS sur des mots de 2 octets est appelée UCS-2 (ne contient que les caractères du BMP), alors que UCS-4 est la représentation sur un mot de 4 octets. De plus, il existe deux formes UTF-8 pour les compatibilités avec les logiciels traitant l'ASCII et UTF-16 pour les traitement des caractères au-delà de 0x10ffff par des logiciels UCS-2.
Les caractères UCS 0x0000 à 0x007F sont identiques à ceux du classique jeu US-ASCII, et ceux de l'intervalle 0x0000 à 0x00FF sont identiques à ceux du jeu de caractères ISO 8859-1 Latin-1.
Caractères composés | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Les caractères composés sont essentiels par exemple pour l'encodage de l'écriture Thai ou pour les notations mathématiques et l'alphabet phonétique international.
Niveaux d'implémentation | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Le standard Unicode 3.0 publié par le Unicode Consortium contient exactement le Basic Multilingual Plane UCS au niveau d'implémentation 3, comme décrit dans le ISO 10646-1:2000. Unicode 3.1 ajoute les plans supplémentaires de l'ISO 10646-2. Le standard Unicode et les rapports techniques publiés par le Consortium fournissent beaucoup d'informations supplémentaires sur la sémantique et les recommandations d'usage. Ils fournissent des guides et des algorithmes pour éditer, trier comparer, normaliser, convertir et afficher des chaînes Unicode.
Unicode sous Linux | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
L'UCS/Unicode peut être employé comme l'ASCII dans les flux d'entrées-sorties, les communications avec les terminaux, les fichiers de texte, les noms de fichiers et les variables d'environnement dans un encodage multi-octets compatible UTF-8. Pour signaler l'utilisation de l'UTF-8 comme encodage pour toutes les applications, une locale correcte doit être configurée dans les variables d'environnement (ex. « LANG=en_GB.UTF-8 »).
La fonction nl_langinfo(CODESET) renvoie le nom de l'encodage sélectionné. Les fonctions de bibliothèques comme wctomb(3) et mbsrtowcs(3) peuvent être utilisées pour transformer les caractères wchar_t et les chaînes dans le jeu de caractères du système et inversement. La fonction wcwidth(3) indique combien de positions (0-2) le curseur est avancé en sortant un caractère.
Sous Linux, en général, seule une implémentation BMP de niveau 1 devrait être utilisée pour le moment. Pour certaines écritures (en particulier Thai), certains émulateurs de terminaux UTF-8 gèrent jusqu'à deux caractères combinés avec une fonte ISO 10646 (niveau 2), mais il vaut mieux préférer les caractères précomposés s'ils sont disponibles.
Zone privée | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Littérature | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Ce sont les spécifications officielles de l'UCS. Disponible en fichier PDF sur CD-ROM sur http://www.iso.ch/.
Un bon livre de référence à propos du langage C. La 4ème édition couvre maintenant l'amendement 1 (1994) au standard ISO C (ISO/IEC 9899:1990) qui ajoute un grand nombre de fonctions de bibliothèque C pour manipuler les jeux de caractères, mais ne couvre pas encore C99.
BOGUES | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
VOIR AUSSI | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
TRADUCTION | Début | Précédent | Suivant | Sommaire | Préc.page.lue | Accueil |
Ce document est une traduction réalisée par Christophe Blaess <http://www.blaess.fr/christophe/> le 20 octobre 1996 et révisée le 22 décembre 2007.
L'équipe de traduction a fait le maximum pour réaliser une adaptation française de qualité. La version anglaise la plus à jour de ce document est toujours consultable via la commande : « LANG=C man 7 unicode ». N'hésitez pas à signaler à l'auteur ou au traducteur, selon le cas, toute erreur dans cette page de manuel.
Sommaire | Début | Suivant | Sommaire | Préc.page.lue | Accueil |