saryの気になった点
そんなたいしたことじゃないですが…
saryは高林さんが作成された、Suffix Arrayの構築&検索ツールです。インデックスファイルを作成することにより、単一のファイルの内容を早く検索することができます*1。
% mksary -l --encoding=UTF-8 sarytest.txt
とやっても行単位のインデックス作成(先頭一致検索)ではなく、デフォルトの文字単位のインデックス作成になるが、
% mksary --encoding=UTF-8 sarytest.txt -l
あるいは、
% mksary --encoding=UTF-8 -l sarytest.txt
とやるとうまくいきました。
こちらの記事を見ると順番はあっているようなのですが、
オプションをヘルプに載っている順番でしか認識しないようです。
# -l オプションつきで Suffix Array を作成
% mksary -l abc.txt# "apple" で検索すると見つかる (行頭ゆえ)
% sary "apple" abc.txt
apple りんご# "りんご" で検索すると見つからない (行頭でないゆえ)
% sary "りんご" abc.txt
%# オプションなしで Suffix Array を作成
% mksary abc.txt# "りんご" で検索しても見つかる
横着プログラミング 第9回: sary: Suffix Array のライブラリとツール
% sary "りんご" abc.txt
apple りんご
*1:大量のファイルを検索したいときはHyper EstraierもしくはNamazuがおすすめです。