end0tknr's kipple - web写経開発

太宰府天満宮の狛犬って、妙にカワイイ

perlで日本語を含むテキストファイル or notの判定は、面倒らしい

http://d.hatena.ne.jp/oooooooo/20050113/p5
http://oshiete1.watch.impress.co.jp/qa4208077.html

↑このいずれのurlでも、programing perlからの引用があります。

プログラミングperl第3版p115によれば、
ファイルテスト演算子の -B や -T は、ファイルの最初の約1ブロック分の
データを調べて、コントロールコードや最上位ビットが立っている文字
(UTF-8に見えないもの)を捜し、そのような文字が3分の1よりも
多ければバイナリ、そうでなければ、テキストファイルと判定するということだ。
あと、最初のブロックの中に、ASCIIのNULL文字(\0)が含まれている
ものは、バイナリファイルと判定する。

要するに、perlで日本語を含むテキストファイル or notの判定は、面倒らしい