|
|
UTF-8 est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un à six mots de 8 bits (il n'existe pas actuellement de caractères codés avec plus de 4 mots).
Quand le caractère est codé avec 1 octet, il commence avec le premier bit à 0. Sinon, le premier octet débute avec 11 le nombre de bit à 1 indiquant le nombre d'octets et les octets suivants débutent avec 10. L'encodage est résumé ci-dessous :
Avec un afficheur/éditeur ne comprenant pas l'encodage UTF8, les caractères ASCII d'un document ainsi encodé s'affichent toujours correctement.
Le codage est défini dans le rapport technique 17 de la norme.