隠居日録

隠居日録

2016年(世にいう平成28年)、発作的に会社を辞め、隠居生活に入る。日々を読書と散歩に費やす

perlで日本語文字化けが発生し、はまった理由と対策

perlで日本語の文字化けが起きてしまい、はまってしまった。よく考えてみたら、前に一度同じ理由ではまったことがあり(その時はSQLiteに書き込む際の値が文字化けした)、自戒を込めて記録しておく。

よく、perlに関する説明で、「日本語を処理するときは、(内部コードになっていない場合は)decodeで内部コードに変換し、最終的なところでencodeで所望の漢字コードに変換すると文字化けが起きない」というようなことが書かれている。たしかに、この説明は正しい。見た目においては、この方法で問題はほぼ発生しないと思う。ところが、以下のようなperlスクリプトを実行すると、$tagの値は「title」であり、$titleの値は「日本語文字列」なのだが、それらをechoコマンドで表示させると、文字化けする。

use Encode;
use utf8  ;
my $v = '<title>日本語文字列</title>' ;

my ($tag, $title) = $v =~ m{\A<([A-Za-z]+?)>(.*?)</[A-Za-z]+?>};

$title = encode ('utf8', $title);

print "tag = $tag\n";
print "title = $title\n";

my $cmd = "echo $tag $title";
system ($cmd);

なぜなのか?以下の行を追加して、実行してみると、

print "utf8 tag = ", utf8::is_utf8($tag), "\n";
print "utf8 title = ", utf8::is_utf8($title), "\n";

utf8 tagは1であり、utf8 titleはundefだ。つまり、もともとutf8のフラグが付いているスカラー$vから変換した$tagにも中身はアルファベットであるにもかかわらずutf8フラグが付いているのだ。一方、$titleはencodeしたので、utf8フラグはついていない。では、この二つを結合した$cmdはどうなるかというと、utf8フラグが付いてしまうのだ。この問題の凶悪なところは$cmdの内容をperlスクリプト内でprintを用いて出力しても、見た目は正しく見えるのだが、systemに渡すと、その時点で文字化けが発生してしまうことだ。文字化けを避けるためには、$tagを結合する前に、やはりencodeしてutf8フラグを消さなければならないということだ。好きなコードでよいだろうが、アルファベットであることが確実ならば、asciiにでもしておけばよい。