いまいち、EUCとかUTF-8とかよくわからないので、まとめメモを記載する
・文字コードとは
文字コード=文字セット+エンコーディング
– 文字セット:文字の集合の論理的な定義
– エンコーディング:文字セットのコンピュータ上での実装方法
・代表的な文字コード
ASCII
JIS
Shift JIS
EUC
Unicode
・ASCII
ANSI(米国規格協会)によって制定された文字コード
コンピュータ用の英数字のコード体系として最も普及している
7ビットで表現され、アルファベット、数字、記号、制御コードの128文字で構成される
ISO(国際標準化機構)によって8bit(256文字)に拡張された、ISO88591(Latin1)も広く使われている
・JIS
JIS規格によって規定されている日本語の文字コード
メールの送受信に使われている
7+7=14ビットで構成されている
ASCII文字と漢字など、文字の切り替えにはスケープシーケンスを用いる
ISO2022JPとしても知られている
・Shift JIS
Microsoftによって制定された日本語の文字コード
漢字1文字を2バイトで表す
Windowsなどで広く使われている
・EUC
AT&Tが定めた、複数バイトの文字を扱う文字コード
UNIX上で広く使われている
日本語のEUCコードを特に「EUCJP」「日本語EUC」と呼ぶ
・Unicode
Apple、HP、IBM、Microsoft、Oracleなどが加盟するユニコードコンソーシアムにて標準化された文字コード体系
プラットフォーム、プログラム、言語に係わらず、すべての文字に独立した番号を与える
XML、Javaなどの最先端の技術の前提となっている
UCS2、UTF8などのエンコード方式(表現方法)がある
0 件のコメント:
コメントを投稿