perlで日本語の文字化けが起きてしまい、はまってしまった。よく考えてみたら、前に一度同じ理由ではまったことがあり(その時はSQLiteに書き込む際の値が文字化けした)、自戒を込めて記録しておく。
よく、perlに関する説明で、「日本語を処理するときは、(内部コードになっていない場合は)decodeで内部コードに変換し、最終的なところでencodeで所望の漢字コードに変換すると文字化けが起きない」というようなことが書かれている。たしかに、この説明は正しい。見た目においては、この方法で問題はほぼ発生しないと思う。ところが、以下のようなperlスクリプトを実行すると、$tagの値は「title」であり、$titleの値は「日本語文字列」なのだが、それらをechoコマンドで表示させると、文字化けする。
use Encode; use utf8 ; my $v = '<title>日本語文字列</title>' ; my ($tag, $title) = $v =~ m{\A<([A-Za-z]+?)>(.*?)</[A-Za-z]+?>}; $title = encode ('utf8', $title); print "tag = $tag\n"; print "title = $title\n"; my $cmd = "echo $tag $title"; system ($cmd);
なぜなのか?以下の行を追加して、実行してみると、
print "utf8 tag = ", utf8::is_utf8($tag), "\n"; print "utf8 title = ", utf8::is_utf8($title), "\n";
utf8 tagは1であり、utf8 titleはundefだ。つまり、もともとutf8のフラグが付いているスカラー$vから変換した$tagにも中身はアルファベットであるにもかかわらずutf8フラグが付いているのだ。一方、$titleはencodeしたので、utf8フラグはついていない。では、この二つを結合した$cmdはどうなるかというと、utf8フラグが付いてしまうのだ。この問題の凶悪なところは$cmdの内容をperlスクリプト内でprintを用いて出力しても、見た目は正しく見えるのだが、systemに渡すと、その時点で文字化けが発生してしまうことだ。文字化けを避けるためには、$tagを結合する前に、やはりencodeしてutf8フラグを消さなければならないということだ。好きなコードでよいだろうが、アルファベットであることが確実ならば、asciiにでもしておけばよい。