文字化けに関するトラブルシューティング。
文字化け結果から原文を想定する。
文字化けには癖がある。
その癖がわかれば元の文字コードがわかる。
参考サイトでは、サンプルも含めて紹介してくれています。
半角カナが多い場合は EUC-JP なのにシフトJISとして表示しちゃってる場合。
画数の多い漢字の中に半角カナが少々混じるのは、UTF-8 をシフトJISとして表示しちゃってる場合。
$ や % が1文字置きに現れるのは ISO-2022-JP の ESC が落ちたか、EUC-JP の 8bit目が落ちた場合。
ISO-2022-JP の場合は $B や (B が現れる。
変換に伴って欠落してしまうデータはあるものの、文字化けしたデータから元データを復元するのはそんなに難しくありません。
マジですか!
ちなみに「・」は変換できなかった文字の場合にでたりします。
http://b.hatena.ne.jp/entry/tmtms.hatenablog.com/entry/2014/05/25/mojibake#tw?u=Arisona>
「文字化けに関するトラブルシューティング」 –
@tmtms のメモ
http://tmtms.hatenablog.com/entry/2014/05/25/mojibake