|
|
UTF-8 ist gegenwärtig als RFC 3629 standardisiert. RFC 2279 ist veraltet (UTF-8, a transformation format of ISO 10646).
Hat ein Byte in UTF-8 einen Wert zwischen 0 und 127, so entspricht es exakt dem ASCII-Zeichen mit demselben Wert. Insofern sind alle Dateien, die ausschließlich ASCII-Zeichen verwenden, in beiden Darstellungen identisch. In allen anderen Fällen sind mehr Bytes erforderlich. {| border="1" | width="18%" | U0000 - U007F: || 0xxxxxxx | In diesem Bereich entspricht UTF-8 genau dem ASCII-Code: Das erste Bit ist 0, die darauf folgende 7-Bitkombination ist das ASCII-Zeichen. |----- | U0080 - U07FF: || 110xxxxx 10xxxxxx | rowspan="3" align="top" | Das erste Byte beginnt mit binär 11, die folgenden Bytes beginnen mit binär 10; die x stehen für die fortlaufende Bitkombination des Unicodezeichens. Die Anzahl der Einsen bis zur ersten 0 im ersten Byte ist die Anzahl der Bytes für das Zeichen. |-----\n| U0800 - UFFFF:\n| width="25%" | 1110xxxx 10xxxxxx 10xxxxxx\n |-----\n| U10000 - UEFFFF:\n| width="25%" | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx\n |}
Betrachtet man die Bitfolgen etwas genauer, erkennt man die große Sinnfälligkeit von UTF-8:
Siehe auch: UTF-16, UTF-32
Weblinks