SELFHTML

Le système unicode

Page d'information: vue d'ensemble

vers le bas Généralités sur unicode
vers le bas Construction du système Unicode

 vers le bas 

Généralités sur unicode

Unicode est un système dans lequel les signes ou éléments de toutes les cultures d'écriture connues sont fixés. Par ce système, il devient possible de dire à un ordinateur quel signe on veut voir représenté. La condition préalable est naturellement que l'ordinateur ou le programme exécuté connaisse le système unicode.

Unicode s'efforce d'englober complètement tous les signes connus des cultures d'écriture présentes et passées. Les caractères sont catalogués par classe et reçoivent une valeur de caractères. Tous les caractères et sortes de caractères imaginables sont concernés. Pour les caractères de contrôle tels que les traits d'union, les espaces imposés ou les tabulations existent des unicodes. Les caractères de formules mathématiques sont représentés tout autant que les signes représentant des syllabes ou des mots des cultures de l'écriture de l'Extrême Orient. Même les différentes parties de caractères comme par exemple les accents ou trémas sur les caractères français ont leur propre unicode. Les caractères peuvent être aussi combinés de façon dynamique - ainsi il existe bien aussi naturellement un "é" français, mais la même lettre peut être créée à partir de "e" et de l'accent sur le caractère.

Outre le simple adressage d'un signe ou d'un élément, un jeu de propriétés est aussi défini dans le système unicode pour chaque signe. Le sens de l'écriture (pour l'arabe par exemple le sens d'écriture est de droite à gauche) fait partie de la propriété du signe. D'innombrables résultats des recherches sur la science des langues au niveau mondial sont rassemblées dans le système unicode.

Le consortium Unicode, fondé en 1991 et constitué de linguistes et autres spécialistes, recherche les caractères à adopter, Les valeurs de caractères accordées ont une force obligatoire. Depuis la version 2.0, le système Unicode est aussi synchronisé avec la norme internationale ISO/IEC 10646. C'est important dans la mesure où Chapitre: vue d'ensemble HTML depuis la version 4.0 ainsi que Chapitre: vue d'ensemble XML depuis la version 1.0 misent sur la norme ISO/IEC 10646. Quand vous voulez dons savoir comment on doit noter un certain signe en HTML ou en XML, vous devez rechercher dans les tableaux de caractères Unicode quelle valeur a le signe désiré. Ensuite, vous pouvez noter le signe désiré dans le texte source du fichier HTML ou XML, par une notation numérique telle que par exemple ⚏ (forme décimale) ou bien ⚏ (forme hexadécimale avec x).

Les valeurs de caractères des signes englobés par Unicode étaient encore jusqu'à une date récente exprimés exclusivement par un nombre long de deux octets. De cette façon, il est possible de caser jusqu'à 65536 caractères différents dans le système (2 octets = 16 bits = 216 combinaisons). Dans la version complète Unicode 3.0 de septembre 1999 49.194 caractères du monde entier étaient déjà listés - la limite de 65536 était donc déjà bien proche. Dans la version 3.1 de mars 2001 ont ensuite été adoptés 44,946 nouveaux caractères, par exemple des signes d'écritures historiques. Et c'est ainsi que la version 3.1 connaît déjà 94.140 caractères, ce pour quoi la limite de deux octets devait être franchie. Le schéma à deux octets désigné dans le système Unicode comme Basic Multilingual Plane (BMP) , est remplacé pour cette raison par un schéma à quatre octets, qui permet d'adresser le nombre confortable de 4.294.967.296 caractères (232 combinaisons de bits).

Vous trouverez des informations sur le consortium unicode sur le WWW à la Page en langue anglaise page d'accueil du consortium unicode.

Le grand problème d'unicode n'est à vrai dire que la façon dont doivent être représentés tous ces nombreux signes à l'ordinateur. Car unicode ne définit que des codes et des propriétés de signes, mais il contient aussi peu que les jeux de caractères banals d'informations sur la façon exacte dont le signe doit être représenté. Pour cela des ports telles que les polices de caractères sont indispensables à l'ordinateur . Nos polices de caractères d'ordinateur classiques sont pourtant pour ainsi dire inappropriées, étant donné qu'elles s'orientent dans une large mesure sur certains jeux de caractères. . Des nouvelles polices orientées sur Unicode se répandent peu à peu. En relation avec les systèmes d'exploitation et les applications modernes, ces polices soutiennent au moins l'adressage d'une largeur de deux octets, donc la partie BMP du système Unicode.

 vers le hautvers le bas 

Construction du système Unicode

Pour les nouvelles versions Unicode le livre The Unicode Standard, publié par le consortium Unicode, est réédité. Ce livre peut être obtenu dans une librairie internationale. Tous les signes, valeurs de caractères classes de caractères etc... y sont exactement codés et représentés. Ce livre est l'ouvrage de référence officiel. On trouve toujours sur les pages Web du consortium Unicode des fichiers PDF à feuilleter rapidement qui contiennent les différents tableaux de valeurs de caractères. Les liens du tableau ci-dessous mènent directement aux fichiers PDF correspondants. Pour pouvoir consulter ces tableaux, vous avez besoin de Acrobat Reader de Adobe (le navigateur Web ne suffit pas).

Le système unicode est divisé en passages numériques. Les nombres eux mêmes sont notés sous la forme U+XXXX. Le U veut dire unicode, et les quatre X pour un nombre hexadécimal chacun. Les valeurs de caractères dans ces tableaux sont donc représentées sous leur forme hexadécimale. Au cas où vous voulez utiliser une représentation décimale pour un ou plusieurs caractères d'une plage Unicode en HTML ou XML, vous pouvez utiliser le Autre page d'information traducteur décimal/hexadécimal.

Les différents signes du système unicode ne sont pas rangés arbitrairement. Tout le système est partagé en passages de signes. Les passages de signes reflètent chacun une certaine culture d'écriture ou un jeu de caractères spéciaux.

Ci-après sont listés les différents passages de signes unicode. Pour chaque passage de signes vous trouverez un lien sur le WWW. Le lien mène à un fichier PDF sur la page d'accueil du consortium unicode. Là vous trouverez des remarques et un tableau graphique du passage de signes correspondant avec une représentation des différents signes du passage avec les unicodes correspondants (hexadécimal).

Partie BMP du système Unicode (avec des caractères d'une largeur de deux octets):

signes standard latin (jeu de caractères ASCII)
passage de signes (en mention hexadécimale): U+0000 to U+007F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Latin-1
passage de signes (en mention hexadécimale): U+0080 to U+00FF
Page en langue anglaise  tableau exact des codes avec représentation graphique des signes

Latin Extended-A
passage de signes (en mention hexadécimale): U+0100 to U+017F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Latin Extended-B
passage de signes (en mention hexadécimale): U+0180 to U+024F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

IPA Extensions
passage de signes (en mention hexadécimale): U+0250 to U+02AF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Spacing Modifier Letters
passage de signes (en mention hexadécimale): U+02B0 to U+02FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Combining Diacritical Marks
passage de signes (en mention hexadécimale): U+0300 to U+036F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Grec
passage de signes (en mention hexadécimale): U+0370 to U+03FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Cyrillique
passage de signes (en mention hexadécimale): U+0400 to U+04FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Arménien
passage de signes (en mention hexadécimale): U+0530 to U+058F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Hébreu
passage de signes (en mention hexadécimale): U+0590 to U+05FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Arabe
passage de signes (en mention hexadécimale): U+0600 to U+06FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Devanagari
passage de signes (en mention hexadécimale): U+0900 to U+097F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Bengali
passage de signes (en mention hexadécimale): U+0980 to U+09FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Gurmukhi
passage de signes (en mention hexadécimale): U+0A00 to U+0A7F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Gujarati
passage de signes (en mention hexadécimale): U+0A80 to U+0AFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Oriya
passage de signes (en mention hexadécimale): U+0B00 to U+0B7F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Tamil
passage de signes (en mention hexadécimale): U+0B80 to U+0BFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Telugu
passage de signes (en mention hexadécimale): U+0C00 to U+0C7F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Kannada
passage de signes (en mention hexadécimale): U+0C80 to U+0CFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Malayalam
passage de signes (en mention hexadécimale): U+0D00 to U+0D7F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Thai
passage de signes (en mention hexadécimale): U+0E00 to U+0E7F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Lao
passage de signes (en mention hexadécimale): U+0E80 to U+0EFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Tibetan
passage de signes (en mention hexadécimale): U+0F00 to U+0FBF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Georgian
passage de signes (en mention hexadécimale): U+10A0 to U+10FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Hangul Jamo
passage de signes (en mention hexadécimale): U+1100 to U+11FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Latin Extended Additional
passage de signes (en mention hexadécimale): U+1E00 to U+1EFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Greek Extended
passage de signes (en mention hexadécimale): U+1F00 to U+1FFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

General Punctuation
passage de signes (en mention hexadécimale): U+2000 to U+206F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Superscripts and Subscripts
passage de signes (en mention hexadécimale): U+2070 to U+209F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Currency Symbols
passage de signes (en mention hexadécimale): U+20A0 to U+20CF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes
Il y a ici également le symbole su signe euro - il a la valeur U+20AC.
En HTML noté sous forme décimale: € ou plus simplement: €.

Combining Diacritical Marks for Symbols
passage de signes (en mention hexadécimale): U+20D0 to U+20FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Letterlike Symbols
passage de signes (en mention hexadécimale): U+2100 to U+214F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Number Forms
passage de signes (en mention hexadécimale): U+2150 to U+218F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Arrows
passage de signes (en mention hexadécimale): U+2190 to U+21FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Mathematical Operators
passage de signes (en mention hexadécimale): U+2200 to U+22FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Miscellaneous Technical
passage de signes (en mention hexadécimale): U+2300 to U+23FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Control Pictures
passage de signes (en mention hexadécimale): U+2400 to U+243F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Optical Character Recognition
passage de signes (en mention hexadécimale): U+2440 to U+245F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Enclosed Alphanumerics
passage de signes (en mention hexadécimale): U+2460 to U+24FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Box Drawing
passage de signes (en mention hexadécimale): U+2500 to U+257F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Block Elements
passage de signes (en mention hexadécimale): U+2580 to U+259F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Geometric Shapes
passage de signes (en mention hexadécimale): U+25A0 to U+25FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Miscellaneous Symbols
passage de signes (en mention hexadécimale): U+2600 to U+26FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Dingbats
passage de signes (en mention hexadécimale): U+2700 to U+27BF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

CJK Symbols and Punctuation
passage de signes (en mention hexadécimale): U+3000 to U+303F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Hiragana
passage de signes (en mention hexadécimale): U+3040 to U+309F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Katakana
passage de signes (en mention hexadécimale): U+30A0 to U+30FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Bopomofo
passage de signes (en mention hexadécimale): U+3100 to U+312F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Hangul Compatibility Jamo
passage de signes (en mention hexadécimale): U+3130 to U+318F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Kanbun
passage de signes (en mention hexadécimale): U+3190 to U+319F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Enclosed CJK Letters and Months
passage de signes (en mention hexadécimale): U+3200 to U+32FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

CJK Compatibility
passage de signes (en mention hexadécimale): U+3300 to U+33FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

CJK Unified Ideographs
passage de signes (en mention hexadécimale): U+4E00 to U+9FA5
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Hangul Syllables
passage de signes (en mention hexadécimale): U+AC00 to U+D7A3
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

High Surrogates
passage de signes (en mention hexadécimale): U+D800 to U+DB7F

Private Use High Surrogates
passage de signes (en mention hexadécimale): U+DB80 to U+DBFF

Low Surrogates
passage de signes (en mention hexadécimale): U+DC00 to U+DFFF

Private Use Area
passage de signes (en mention hexadécimale): U+E000 to U+F8FF

CJK Compatibility Ideographs
passage de signes (en mention hexadécimale): U+F900 to U+FAFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Alphabetic Presentation Forms
passage de signes (en mention hexadécimale): U+FB00 to U+FB4F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Arabic Presentation Forms-A
passage de signes (en mention hexadécimale): U+FB50 to U+FDFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Combining Half Marks
passage de signes (en mention hexadécimale): U+FE20 to U+FE2F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

CJK Compatibility Forms
passage de signes (en mention hexadécimale): U+FE30 to U+FE4F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Small Form Variants
passage de signes (en mention hexadécimale): U+FE50 to U+FE6F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Arabic Presentation Forms-B
passage de signes (en mention hexadécimale): U+FE70 to U+FEFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Halfwidth and Fullwidth Forms
passage de signes (en mention hexadécimale): U+FF00 to U+FFEF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Specials
passage de signes (en mention hexadécimale): U+FFF0 to U+FFFF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Passage étendu du système unicode (avec des caractères d'une largeur de quatre octets):

Old Italic
passage de signes (en mention hexadécimale): U+10300 to U+1032F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Gothic
passage de signes (en mention hexadécimale): U+10330 to U+1034F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Deseret
passage de signes (en mention hexadécimale): U+10400 to U+1044F
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Byzantine Musical Symbols
passage de signes (en mention hexadécimale): U+1D000 to U+1D0FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

Mathematical Alphanumeric Symbols
passage de signes (en mention hexadécimale): U+1D400 to U+1D7FF
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

CJK Unified Ideographs Extension B
passage de signes (en mention hexadécimale): U+20000 to U+2A6D6
Page en langue anglaise tableau exact des codes avec représentation graphique des signes

 vers le haut
page suivante Autre page d'information Polices à télécharger
page précédente Autre page d'information Jeux de caractères (famille iso-8859 et autres)
 

© 2001 Stefan Münz / © 2003 Traduction Adresse électronique Serge François, 13405@free.fr
Adresse électronique selfhtml@fr.selfhtml.org