2009年11月20日金曜日

文字コードの基礎

いまいち、EUCとかUTF-8とかよくわからないので、まとめメモを記載する

・文字コードとは

文字コード=文字セット+エンコーディング
– 文字セット:文字の集合の論理的な定義
– エンコーディング:文字セットのコンピュータ上での実装方法

・代表的な文字コード

ASCII
JIS
Shift JIS
EUC
Unicode

・ASCII
ANSI(米国規格協会)によって制定された文字コード
コンピュータ用の英数字のコード体系として最も普及している
7ビットで表現され、アルファベット、数字、記号、制御コードの128文字で構成される

ISO(国際標準化機構)によって8bit(256文字)に拡張された、ISO88591(Latin1)も広く使われている

・JIS
JIS規格によって規定されている日本語の文字コード
メールの送受信に使われている
7+7=14ビットで構成されている
ASCII文字と漢字など、文字の切り替えにはスケープシーケンスを用いる
ISO2022JPとしても知られている

・Shift JIS
Microsoftによって制定された日本語の文字コード
漢字1文字を2バイトで表す
Windowsなどで広く使われている

・EUC
AT&Tが定めた、複数バイトの文字を扱う文字コード
UNIX上で広く使われている
日本語のEUCコードを特に「EUCJP」「日本語EUC」と呼ぶ

・Unicode
Apple、HP、IBM、Microsoft、Oracleなどが加盟するユニコードコンソーシアムにて標準化された文字コード体系
プラットフォーム、プログラム、言語に係わらず、すべての文字に独立した番号を与える
XML、Javaなどの最先端の技術の前提となっている
UCS2、UTF8などのエンコード方式(表現方法)がある

0 件のコメント:

コメントを投稿