SELFHTML

Signes, jeux de caractères et parties non interprétées

Page d'information: vue d'ensemble

vers le bas Caractères propres à XML
vers le bas Jeu de caractères standard et soutien Unicode
vers le bas Parties non interprétées (CDATA)

 vers le bas 

Caractères propres à XML

Il en va en XML comme en HTML: Vous devez transcrire les signes qui ont dans la syntaxe XML une signification particulière, quand vous voulez les utiliser dans du texte normal entre deux repères. Les signes suivants sont concernés:

Signes Notation en XML
< &lt;
> &gt;
& &amp;
" &quot;
' &apos;

Exemple:

<Element>cet élément est noté en tant que &lt;Element&gt;...&lt;/Element&gt;</Element>

Explication:

L'exemple crée la sortie suivante:
cet élément est noté en tant que <Element>...</Element>

 vers le hautvers le bas 

Jeu de caractères standard et soutien Unicode

XML interprète le contenu d'un fichier selon le jeu de caractères ISO/IEC 10646 si vous ne mentionnez rien d'autre dans la Autre page d'information déclaration XML. Ce jeu de caractères a été développé en 1993 par l' "International Organization for Standardization" (ISO). Cela doit être un jeu de caractères universel pour tous les signes des langues naturelles ou symboliques du monde. Depuis la version 1.1 Autre page d'information Unicode ISO/IEC 10646 correspond au système Unicode. Pour être précis: les signes Unicode sont permis avec leur valeur hexadécimale #x20 jusqu'à #xD7FF, #xE000 jusqu'à #xFFFD et #x10000 jusqu'à #x10FFFF. À vrai dire les deux signes avec les valeurs hexadécimales #xFFFE et #xFFFF ne sont pas permis, étant donné qu'ils ne représentent ni l'un ni l'autre des signes Unicode.

De plus, les caractères de contrôle suivants sont permis: signe de tabulation (valeur hexadécimale #x9), retour de chariot (#xA) et avance d'une ligne (#xD). Ces trois signes forment avec l'espace normal (x20) ce qu'on appelle les signes d'espace.

Pour la pratique de l'édition en XML, cela signifie la chose suivante: Quand vous utilisez pour éditer des fichiers XML un logiciel qui soutient le Autre page d'information jeu de caractères 8859-Latin-1, habituel pour les langues d'Europe de l'ouest, alors vous pouvez entrer tous les signes au clavier sans les transcrire, même les caractères avec accents et les caractères spéciaux. Au cas où le logiciel ne soutient pas ce jeu de caractères mais soutient au moins le jeu de caractères ASCII, vous pouvez quand même entrer directement au clavier, toutes les lettres latines de base, les chiffres arabes et les signes de ponctuation importants.

Sous Windows MS et également sous les dérivés Unix et Macintosh la plupart des programmes soutiennent aujourd'hui le jeu de caractères 8859-Latin-1. Il peut y avoir des problèmes pour l'édition par exemple sous des systèmes plus anciens comme MS-DOS ou pour quelques programmes Macintosh.

Pour tous les caractères spéciaux que vous ne pouvez pas entrer directement avec votre logiciel, vous pouvez noter les unicodes en valeur numérique. La façon de noter est ici en XML la même qu'en HTML 4.0, donc par exemple pour la lettre ù la notation &#249; (en décimal) ou bien &#xF9; (en hexadécimal). Voir aussi Autre page d'information Généralités sur la référence HTML pour les caractères

 vers le hautvers le bas 

Parties non interprétées (CDATA)

Les documents XML peuvent contenir ce qu'on appelle des parties CDATA qui ne sont pas interprétées comme du code source XML par l'Autre page d'information analyseur syntaxique. Contrairement aux Autre page d'information commentaires ces passages sont pourtant sortis, simplement comme une chaîne de caractères n'étant pas interprétée davantage.

Exemple:

<![CDATA[<Element>cet élément ne sera sorti que comme chaîne de caractères</Element>]]>

Explication:

La définition de parties CDATA commence avec une parenthèse pointue d'ouverture <. Immédiatement derrière suit un point d'exclamation ! et un crochet d'ouverture [. Notez à la suite en majuscules le mot clé CDATA, et derrière encore un crochet d'ouverture ([). Entre cette chaîne de caractères d'introduction et celle de fermeture marquée par deux crochets de fermeture et une parenthèse pointue de fermeture (]]>), vous pouvez noter un texte de votre choix. Dans l'exemple, un élément XML <Element>...</Element> est noté dans le passage CDATA. Celui-ci ne sera pas considéré comme un élément nommé Element, mais simplement comme du texte exactement tel qu'il figure.

 vers le haut
page suivante Autre page d'information Règles pour l'édition en XML et conventions de noms de fichiers
page précédente Autre page d'information Espaces de nommage XML
 

© 2001 Stefan Münz / © 2003 Traduction Adresse électronique Serge François, 13405@free.fr
Adresse électronique selfhtml@fr.selfhtml.org

>