文字コードとは？意味を初心者向けに「文字の番号札」に例えてやさしく解説

「送ってもらったファイル、中身が『』みたいになってて読めないんだけど……」

上司からの電話。私は「えっ、暗号ですか？呪いですか！？」とパニックになっていました。せっかく徹夜で作った資料が、相手のPCでは意味不明な記号の羅列に変わっていたのです。

とりあえず 「再起動すれば読めるようになります！」 と適当な気合で返しましたが、当然直るはずもなく……。後で先輩から「それは文字コード（Character Code）が合ってないだけだよ」と教えられ、自分の「オカルト的な解釈」に赤面した覚えがあります（笑）。

実は「文字コード」は、コンピューターが文字を識別するための「番号札」のことです。今回は、学校での 「出席番号」 に例えて、その正体をやさしく解説します！

文字コードとは？一言でいうと「文字に割り振られた『デジタルな番号札』」

結論から言うと、文字コードとは、「コンピューターが文字を扱うために、一つひとつの文字（あ、A、！）に割り当てた固有の番号」 のことです。

学校の 「出席番号」 に例えてみましょう。

コンピューターは「0と1」の数字しか理解できません。だから、「1番は『あ』」「2番は『い』」といった具合に、数字と文字を紐付けるための「名簿（文字コード）」を世界中で決めています。

問題は、この「名簿（ルール）」が一つではないことです。日本には「日本語専用の名簿（Shift_JIS）」があり、海外には「世界共通の名簿（UTF-8）」があります。

送り手が「名簿A（出席番号1番＝あ）」で手紙を書き、受け手が「名簿B（出席番号1番＝☆）」で読み取ろうとすると、「あ」が「☆」に変わってしまいます。これこそが、あの恐ろしい 「文字化け」 の正体なのです。

CSVファイルの取り込みや、Web制作、海外とのデータ連携シーンで頻繁に登場します。

意味：
「Excelは『日本語専用の名簿（Shift_JIS）』で読もうとするけど、このデータは『世界共通の名簿（UTF-8）』で書かれているから、番号の解釈がズレて読めなくなっているんだよ。名簿を書き換えてあげてね」ということです。

意味：
「日本だけで通じる古い名簿はやめて、世界中のどんな文字（英語も中国語も絵文字も）も1冊に載っている『最強の名簿（UTF-8）』を使おう」ということです。

意味：
「開発者同士で名簿のルールがバラバラだと、後でプログラムが動かなくなって大惨事になるから、一番標準的な名簿（UTF-8）で書くことを約束しようね」ということです。

ITの世界でよく見る「名簿」の性格を整理しました。

今は、迷ったら 「UTF-8」 を選んでおけば、まず間違いありません。

この記事のポイントは次のとおりです。

あなたが持っているメモ帳で「名簿」の種類を見てみましょう。

「文字コード」という言葉を知るだけで、あの不気味な記号の羅列（文字化け）が、単なる「ルールのすれ違い」に思えてきませんか？