Unicode
・JIS X0213:2004に含まれるUnicodeの補助文字を使用する場合の注意事項
(コードポイント)
- Unicodeでは登録された文字のそれぞれについて「コードポイント」(code point:符号点、符号位置と訳される)と呼ばれる一意の通し番号を与えている。
- 例えば、日本語のカタカナの「ア」には12450番が割り当てられている。説明文などではこれを16進数表記を用いて「U+30A2」のように表記する。
- コードポイントは最長で21ビットの値(上限は1114111番、U+10FFFF)まで用意されている。
(「基本多言語面」BMP:Basic Multilingual Plane)
- コード領域のうち、16ビット(2バイト)の値で表現できるU+0000からU+FFFFは「基本多言語面」(BMP:Basic Multilingual Plane)と呼ばれ、主要な言語の文字のほとんどをカバーしている。
(補助文字 「追加多言語面」(SMP:Supplementary Multilingual Plane/補助多言語面)
- 当初の規格はBMPのみの予定だったが、追加収録を希望する文字のすべてを登録しきれないことが明らかになり、後からU+10000~U+10FFFFの拡張領域が追加された。このうち、U+10000~U+1FFFFを「追加多言語面」(SMP:Supplementary Multilingual Plane/補助多言語面)と呼び、古代文字や絵文字などが収録されている。
- Unicodeの補助文字とは,基本多言語面以外の文字(UnicodeのコードポイントがU+10000~U+10FFFFの範囲の文字)のことです
文字集合と符号化方式
・文字コードの考え方から理解するUnicodeとUTF-8の違い
・Unicode, UTF についてひっかかったので色々メモ
文字集合:Unicode
符号化方式:UTF-8、UTF-16、UTF-32