UTF-8

UTF-8 est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un à six mots de 8 bits (il n'existe pas actuellement de caractères codés avec plus de 4 mots).

Quand le caractère est codé avec 1 octet, il commence avec le premier bit à 0. Sinon, le premier octet débute avec 11 le nombre de bit à 1 indiquant le nombre d'octets et les octets suivants débutent avec 10. L'encodage est résumé ci-dessous :

Ainsi en se plaçant n'importe où dans un document encodé en UTF8, il est aisé de savoir si on est au début ou au milieu d'un caractère et de retrouver le début du caractère.

Avec un afficheur/éditeur ne comprenant pas l'encodage UTF8, les caractères ASCII d'un document ainsi encodé s'affichent toujours correctement.

Le codage est défini dans le rapport technique 17 de la norme.

Voir aussi

UTF-16, UTF-32.




Tous les textes sont disponibles sous les termes de la Wikipedia se publica bajo la Licencia de Documentación Libre GNU.

Legal  -  Contacto