SELFHTML/Aides à la navigation Paramètres internationaux |
Le système unicode |
|
Unicode est un système dans lequel les signes ou éléments de toutes les cultures d'écriture connues sont fixés. Par ce système, il devient possible de dire à un ordinateur quel signe on veut voir représenté. La condition préalable est naturellement que l'ordinateur ou le programme exécuté connaisse le système unicode.
Unicode s'efforce d'englober complètement tous les signes connus des cultures d'écriture présentes et passées. Les caractères sont catalogués par classe et reçoivent une valeur de caractères. Tous les caractères et sortes de caractères imaginables sont concernés. Pour les caractères de contrôle tels que les traits d'union, les espaces imposés ou les tabulations existent des unicodes. Les caractères de formules mathématiques sont représentés tout autant que les signes représentant des syllabes ou des mots des cultures de l'écriture de l'Extrême Orient. Même les différentes parties de caractères comme par exemple les accents ou trémas sur les caractères français ont leur propre unicode. Les caractères peuvent être aussi combinés de façon dynamique - ainsi il existe bien aussi naturellement un "é" français, mais la même lettre peut être créée à partir de "e" et de l'accent sur le caractère.
Outre le simple adressage d'un signe ou d'un élément, un jeu de propriétés est aussi défini dans le système unicode pour chaque signe. Le sens de l'écriture (pour l'arabe par exemple le sens d'écriture est de droite à gauche) fait partie de la propriété du signe. D'innombrables résultats des recherches sur la science des langues au niveau mondial sont rassemblées dans le système unicode.
Le consortium Unicode, fondé en 1991 et constitué de linguistes et autres spécialistes, recherche les caractères à adopter, Les valeurs de caractères accordées ont une force obligatoire. Depuis la version 2.0, le système Unicode est aussi synchronisé avec la norme internationale ISO/IEC 10646. C'est important dans la mesure où HTML depuis la version 4.0 ainsi que XML depuis la version 1.0 misent sur la norme ISO/IEC 10646. Quand vous voulez dons savoir comment on doit noter un certain signe en HTML ou en XML, vous devez rechercher dans les tableaux de caractères Unicode quelle valeur a le signe désiré. Ensuite, vous pouvez noter le signe désiré dans le texte source du fichier HTML ou XML, par une notation numérique telle que par exemple ⚏
(forme décimale) ou bien ⚏
(forme hexadécimale avec x
).
Les valeurs de caractères des signes englobés par Unicode étaient encore jusqu'à une date récente exprimés exclusivement par un nombre long de deux octets. De cette façon, il est possible de caser jusqu'à 65536 caractères différents dans le système (2 octets = 16 bits = 216 combinaisons). Dans la version complète Unicode 3.0 de septembre 1999 49.194 caractères du monde entier étaient déjà listés - la limite de 65536 était donc déjà bien proche. Dans la version 3.1 de mars 2001 ont ensuite été adoptés 44,946 nouveaux caractères, par exemple des signes d'écritures historiques. Et c'est ainsi que la version 3.1 connaît déjà 94.140 caractères, ce pour quoi la limite de deux octets devait être franchie. Le schéma à deux octets désigné dans le système Unicode comme Basic Multilingual Plane (BMP) , est remplacé pour cette raison par un schéma à quatre octets, qui permet d'adresser le nombre confortable de 4.294.967.296 caractères (232 combinaisons de bits).
Vous trouverez des informations sur le consortium unicode sur le WWW à la page d'accueil du consortium unicode.
Le grand problème d'unicode n'est à vrai dire que la façon dont doivent être représentés tous ces nombreux signes à l'ordinateur. Car unicode ne définit que des codes et des propriétés de signes, mais il contient aussi peu que les jeux de caractères banals d'informations sur la façon exacte dont le signe doit être représenté. Pour cela des ports telles que les polices de caractères sont indispensables à l'ordinateur . Nos polices de caractères d'ordinateur classiques sont pourtant pour ainsi dire inappropriées, étant donné qu'elles s'orientent dans une large mesure sur certains jeux de caractères. . Des nouvelles polices orientées sur Unicode se répandent peu à peu. En relation avec les systèmes d'exploitation et les applications modernes, ces polices soutiennent au moins l'adressage d'une largeur de deux octets, donc la partie BMP du système Unicode.
Pour les nouvelles versions Unicode le livre The Unicode Standard, publié par le consortium Unicode, est réédité. Ce livre peut être obtenu dans une librairie internationale. Tous les signes, valeurs de caractères classes de caractères etc... y sont exactement codés et représentés. Ce livre est l'ouvrage de référence officiel. On trouve toujours sur les pages Web du consortium Unicode des fichiers PDF à feuilleter rapidement qui contiennent les différents tableaux de valeurs de caractères. Les liens du tableau ci-dessous mènent directement aux fichiers PDF correspondants. Pour pouvoir consulter ces tableaux, vous avez besoin de Acrobat Reader de Adobe (le navigateur Web ne suffit pas).
Le système unicode est divisé en passages numériques. Les nombres eux mêmes sont notés sous la forme U+XXXX. Le U veut dire unicode, et les quatre X pour un nombre hexadécimal chacun. Les valeurs de caractères dans ces tableaux sont donc représentées sous leur forme hexadécimale. Au cas où vous voulez utiliser une représentation décimale pour un ou plusieurs caractères d'une plage Unicode en HTML ou XML, vous pouvez utiliser le traducteur décimal/hexadécimal.
Les différents signes du système unicode ne sont pas rangés arbitrairement. Tout le système est partagé en passages de signes. Les passages de signes reflètent chacun une certaine culture d'écriture ou un jeu de caractères spéciaux.
Ci-après sont listés les différents passages de signes unicode. Pour chaque passage de signes vous trouverez un lien sur le WWW. Le lien mène à un fichier PDF sur la page d'accueil du consortium unicode. Là vous trouverez des remarques et un tableau graphique du passage de signes correspondant avec une représentation des différents signes du passage avec les unicodes correspondants (hexadécimal).
signes standard latin (jeu de caractères ASCII)
passage de signes (en mention hexadécimale): U+0000 to U+007F
tableau exact des codes avec représentation graphique des signes
Latin-1
passage de signes (en mention hexadécimale): U+0080 to U+00FF
tableau exact des codes avec représentation graphique des signes
Latin Extended-A
passage de signes (en mention hexadécimale): U+0100 to U+017F
tableau exact des codes avec représentation graphique des signes
Latin Extended-B
passage de signes (en mention hexadécimale): U+0180 to U+024F
tableau exact des codes avec représentation graphique des signes
IPA Extensions
passage de signes (en mention hexadécimale): U+0250 to U+02AF
tableau exact des codes avec représentation graphique des signes
Spacing Modifier Letters
passage de signes (en mention hexadécimale): U+02B0 to U+02FF
tableau exact des codes avec représentation graphique des signes
Combining Diacritical Marks
passage de signes (en mention hexadécimale): U+0300 to U+036F
tableau exact des codes avec représentation graphique des signes
Grec
passage de signes (en mention hexadécimale): U+0370 to U+03FF
tableau exact des codes avec représentation graphique des signes
Cyrillique
passage de signes (en mention hexadécimale): U+0400 to U+04FF
tableau exact des codes avec représentation graphique des signes
Arménien
passage de signes (en mention hexadécimale): U+0530 to U+058F
tableau exact des codes avec représentation graphique des signes
Hébreu
passage de signes (en mention hexadécimale): U+0590 to U+05FF
tableau exact des codes avec représentation graphique des signes
Arabe
passage de signes (en mention hexadécimale): U+0600 to U+06FF
tableau exact des codes avec représentation graphique des signes
Devanagari
passage de signes (en mention hexadécimale): U+0900 to U+097F
tableau exact des codes avec représentation graphique des signes
Bengali
passage de signes (en mention hexadécimale): U+0980 to U+09FF
tableau exact des codes avec représentation graphique des signes
Gurmukhi
passage de signes (en mention hexadécimale): U+0A00 to U+0A7F
tableau exact des codes avec représentation graphique des signes
Gujarati
passage de signes (en mention hexadécimale): U+0A80 to U+0AFF
tableau exact des codes avec représentation graphique des signes
Oriya
passage de signes (en mention hexadécimale): U+0B00 to U+0B7F
tableau exact des codes avec représentation graphique des signes
Tamil
passage de signes (en mention hexadécimale): U+0B80 to U+0BFF
tableau exact des codes avec représentation graphique des signes
Telugu
passage de signes (en mention hexadécimale): U+0C00 to U+0C7F
tableau exact des codes avec représentation graphique des signes
Kannada
passage de signes (en mention hexadécimale): U+0C80 to U+0CFF
tableau exact des codes avec représentation graphique des signes
Malayalam
passage de signes (en mention hexadécimale): U+0D00 to U+0D7F
tableau exact des codes avec représentation graphique des signes
Thai
passage de signes (en mention hexadécimale): U+0E00 to U+0E7F
tableau exact des codes avec représentation graphique des signes
Lao
passage de signes (en mention hexadécimale): U+0E80 to U+0EFF
tableau exact des codes avec représentation graphique des signes
Tibetan
passage de signes (en mention hexadécimale): U+0F00 to U+0FBF
tableau exact des codes avec représentation graphique des signes
Georgian
passage de signes (en mention hexadécimale): U+10A0 to U+10FF
tableau exact des codes avec représentation graphique des signes
Hangul Jamo
passage de signes (en mention hexadécimale): U+1100 to U+11FF
tableau exact des codes avec représentation graphique des signes
Latin Extended Additional
passage de signes (en mention hexadécimale): U+1E00 to U+1EFF
tableau exact des codes avec représentation graphique des signes
Greek Extended
passage de signes (en mention hexadécimale): U+1F00 to U+1FFF
tableau exact des codes avec représentation graphique des signes
General Punctuation
passage de signes (en mention hexadécimale): U+2000 to U+206F
tableau exact des codes avec représentation graphique des signes
Superscripts and Subscripts
passage de signes (en mention hexadécimale): U+2070 to U+209F
tableau exact des codes avec représentation graphique des signes
Currency Symbols
passage de signes (en mention hexadécimale): U+20A0 to U+20CF
tableau exact des codes avec représentation graphique des signes
Il y a ici également le symbole su signe euro - il a la valeur U+20AC
.
En HTML noté sous forme décimale: €
ou plus simplement: €
.
Combining Diacritical Marks for Symbols
passage de signes (en mention hexadécimale): U+20D0 to U+20FF
tableau exact des codes avec représentation graphique des signes
Letterlike Symbols
passage de signes (en mention hexadécimale): U+2100 to U+214F
tableau exact des codes avec représentation graphique des signes
Number Forms
passage de signes (en mention hexadécimale): U+2150 to U+218F
tableau exact des codes avec représentation graphique des signes
Arrows
passage de signes (en mention hexadécimale): U+2190 to U+21FF
tableau exact des codes avec représentation graphique des signes
Mathematical Operators
passage de signes (en mention hexadécimale): U+2200 to U+22FF
tableau exact des codes avec représentation graphique des signes
Miscellaneous Technical
passage de signes (en mention hexadécimale): U+2300 to U+23FF
tableau exact des codes avec représentation graphique des signes
Control Pictures
passage de signes (en mention hexadécimale): U+2400 to U+243F
tableau exact des codes avec représentation graphique des signes
Optical Character Recognition
passage de signes (en mention hexadécimale): U+2440 to U+245F
tableau exact des codes avec représentation graphique des signes
Enclosed Alphanumerics
passage de signes (en mention hexadécimale): U+2460 to U+24FF
tableau exact des codes avec représentation graphique des signes
Box Drawing
passage de signes (en mention hexadécimale): U+2500 to U+257F
tableau exact des codes avec représentation graphique des signes
Block Elements
passage de signes (en mention hexadécimale): U+2580 to U+259F
tableau exact des codes avec représentation graphique des signes
Geometric Shapes
passage de signes (en mention hexadécimale): U+25A0 to U+25FF
tableau exact des codes avec représentation graphique des signes
Miscellaneous Symbols
passage de signes (en mention hexadécimale): U+2600 to U+26FF
tableau exact des codes avec représentation graphique des signes
Dingbats
passage de signes (en mention hexadécimale): U+2700 to U+27BF
tableau exact des codes avec représentation graphique des signes
CJK Symbols and Punctuation
passage de signes (en mention hexadécimale): U+3000 to U+303F
tableau exact des codes avec représentation graphique des signes
Hiragana
passage de signes (en mention hexadécimale): U+3040 to U+309F
tableau exact des codes avec représentation graphique des signes
Katakana
passage de signes (en mention hexadécimale): U+30A0 to U+30FF
tableau exact des codes avec représentation graphique des signes
Bopomofo
passage de signes (en mention hexadécimale): U+3100 to U+312F
tableau exact des codes avec représentation graphique des signes
Hangul Compatibility Jamo
passage de signes (en mention hexadécimale): U+3130 to U+318F
tableau exact des codes avec représentation graphique des signes
Kanbun
passage de signes (en mention hexadécimale): U+3190 to U+319F
tableau exact des codes avec représentation graphique des signes
Enclosed CJK Letters and Months
passage de signes (en mention hexadécimale): U+3200 to U+32FF
tableau exact des codes avec représentation graphique des signes
CJK Compatibility
passage de signes (en mention hexadécimale): U+3300 to U+33FF
tableau exact des codes avec représentation graphique des signes
CJK Unified Ideographs
passage de signes (en mention hexadécimale): U+4E00 to U+9FA5
tableau exact des codes avec représentation graphique des signes
Hangul Syllables
passage de signes (en mention hexadécimale): U+AC00 to U+D7A3
tableau exact des codes avec représentation graphique des signes
High Surrogates
passage de signes (en mention hexadécimale): U+D800 to U+DB7F
Private Use High Surrogates
passage de signes (en mention hexadécimale): U+DB80 to U+DBFF
Low Surrogates
passage de signes (en mention hexadécimale): U+DC00 to U+DFFF
Private Use Area
passage de signes (en mention hexadécimale): U+E000 to U+F8FF
CJK Compatibility Ideographs
passage de signes (en mention hexadécimale): U+F900 to U+FAFF
tableau exact des codes avec représentation graphique des signes
Alphabetic Presentation Forms
passage de signes (en mention hexadécimale): U+FB00 to U+FB4F
tableau exact des codes avec représentation graphique des signes
Arabic Presentation Forms-A
passage de signes (en mention hexadécimale): U+FB50 to U+FDFF
tableau exact des codes avec représentation graphique des signes
Combining Half Marks
passage de signes (en mention hexadécimale): U+FE20 to U+FE2F
tableau exact des codes avec représentation graphique des signes
CJK Compatibility Forms
passage de signes (en mention hexadécimale): U+FE30 to U+FE4F
tableau exact des codes avec représentation graphique des signes
Small Form Variants
passage de signes (en mention hexadécimale): U+FE50 to U+FE6F
tableau exact des codes avec représentation graphique des signes
Arabic Presentation Forms-B
passage de signes (en mention hexadécimale): U+FE70 to U+FEFF
tableau exact des codes avec représentation graphique des signes
Halfwidth and Fullwidth Forms
passage de signes (en mention hexadécimale): U+FF00 to U+FFEF
tableau exact des codes avec représentation graphique des signes
Specials
passage de signes (en mention hexadécimale): U+FFF0 to U+FFFF
tableau exact des codes avec représentation graphique des signes
Old Italic
passage de signes (en mention hexadécimale): U+10300 to U+1032F
tableau exact des codes avec représentation graphique des signes
Gothic
passage de signes (en mention hexadécimale): U+10330 to U+1034F
tableau exact des codes avec représentation graphique des signes
Deseret
passage de signes (en mention hexadécimale): U+10400 to U+1044F
tableau exact des codes avec représentation graphique des signes
Byzantine Musical Symbols
passage de signes (en mention hexadécimale): U+1D000 to U+1D0FF
tableau exact des codes avec représentation graphique des signes
Mathematical Alphanumeric Symbols
passage de signes (en mention hexadécimale): U+1D400 to U+1D7FF
tableau exact des codes avec représentation graphique des signes
CJK Unified Ideographs Extension B
passage de signes (en mention hexadécimale): U+20000 to U+2A6D6
tableau exact des codes avec représentation graphique des signes
Polices à télécharger | |
Jeux de caractères (famille iso-8859 et autres) | |
SELFHTML/Aides à la navigation Paramètres internationaux |
© 2001 Stefan Münz / © 2003 Traduction Serge François, 13405@free.fr
selfhtml@fr.selfhtml.org