業務プログラムの実践学習

現場で役立つ実践的な情報を備忘録としてまとめました

文字コード

Unicodeについて

投稿日：2020年3月23日

Unicode

・ Unicode 【ユニコード】

・JIS X0213:2004に含まれるUnicodeの補助文字を使用する場合の注意事項

（コードポイント）

Unicodeでは登録された文字のそれぞれについて「コードポイント」（code point：符号点、符号位置と訳される）と呼ばれる一意の通し番号を与えている。
例えば、日本語のカタカナの「ア」には12450番が割り当てられている。説明文などではこれを16進数表記を用いて「U+30A2」のように表記する。
コードポイントは最長で21ビットの値（上限は1114111番、U+10FFFF）まで用意されている。

（「基本多言語面」BMP：Basic Multilingual Plane）

コード領域のうち、16ビット（2バイト）の値で表現できるU+0000からU+FFFFは「基本多言語面」（BMP：Basic Multilingual Plane）と呼ばれ、主要な言語の文字のほとんどをカバーしている。

（補助文字　「追加多言語面」（SMP：Supplementary Multilingual Plane/補助多言語面）

当初の規格はBMPのみの予定だったが、追加収録を希望する文字のすべてを登録しきれないことが明らかになり、後からU+10000～U+10FFFFの拡張領域が追加された。このうち、U+10000～U+1FFFFを「追加多言語面」（SMP：Supplementary Multilingual Plane/補助多言語面）と呼び、古代文字や絵文字などが収録されている。
Unicodeの補助文字とは，基本多言語面以外の文字（UnicodeのコードポイントがU+10000～U+10FFFFの範囲の文字）のことです

文字集合と符号化方式

・文字コードの考え方から理解するUnicodeとUTF-8の違い

・Unicode, UTF についてひっかかったので色々メモ

文字集合：Unicode

符号化方式：UTF-8、UTF-16、UTF-32

-文字コード

執筆者：kei

関連記事

: サロゲート(ペア)について

サロゲート(ペア)について・文字コードに関する覚え書きと実験・Unicode のサロゲートペアとは何かサロゲートペアは補助文字(補助（追加）多言語面に割り当てられた文字)を UTF-16 で表現 ...

PREV: JavaScriptのTips
NEXT: nodistの使い方

プロフィール

管理人です。業務プログラムに勤しむ人ですプロフィール詳細

お問い合わせ

検索

カテゴリ

.net (6)
- .NET Core (4)
- C# (2)
Android (7)
Angular2 (19)
- tips (1)
- 基本練習 (5)
- 開発環境構築 (5)
C/C++ (8)
Java (2)
javascript (9)
Laravel (1)
Linux (6)
mac (1)
node.js (4)
Objective-C (2)
Python (1)
RaspberryPi (1)
Spring Boot (3)
WEB (27)
- javascript (4)
- WEBフロントエンド開発 (26)
Xamarin (1)
その他のTIPS (7)
文字コード (2)

アーカイブ

最近の投稿

: 2021/01/29

C++言語

: 2021/01/29

ASP.NET Core

: 2020/05/11

Laravel

: 2020/05/05

requireについて

: 2020/04/26

Spring Bootのキャッシュコントロール