MediaLab Love Chapter 2

Assistance of MediaLab Love about Javascript test and more...

saryの気になった点

そんなたいしたことじゃないですが…

saryは高林さんが作成された、Suffix Arrayの構築&検索ツールです。インデックスファイルを作成することにより、単一のファイルの内容を早く検索することができます*1

% mksary -l --encoding=UTF-8 sarytest.txt

とやっても行単位のインデックス作成(先頭一致検索)ではなく、デフォルトの文字単位のインデックス作成になるが、

% mksary --encoding=UTF-8 sarytest.txt -l

あるいは、

% mksary --encoding=UTF-8 -l sarytest.txt

とやるとうまくいきました。

こちらの記事を見ると順番はあっているようなのですが、
オプションをヘルプに載っている順番でしか認識しないようです。

# -l オプションつきで Suffix Array を作成
% mksary -l abc.txt

# "apple" で検索すると見つかる (行頭ゆえ)
% sary "apple" abc.txt
apple りんご

# "りんご" で検索すると見つからない (行頭でないゆえ)
% sary "りんご" abc.txt
%

# オプションなしで Suffix Array を作成
% mksary abc.txt

# "りんご" で検索しても見つかる
% sary "りんご" abc.txt
apple りんご

横着プログラミング 第9回: sary: Suffix Array のライブラリとツール

*1:大量のファイルを検索したいときはHyper EstraierもしくはNamazuがおすすめです。