step5用のPythonスクリプト
説明
更新用。
正規化済みのテキスト群からインデックスファイルを作る。
step5idx.bat
から直接呼び出される。
Python 3 用だが、 Python 2 でもほぼ稼働する。
使用方法
make_index.py E:\scratch txt idx 第1引数: 基準ディレクトリ(フルパス) 第2引数: 変換元テキストディレクトリ(基準からの相対パス) 第3引数: インデックス出力先ディレクトリ(基準からの相対パス) --size: N-gramの文字長(デフォルト 2) --noshorter: 文字長より短いインデックスは作成しない(デフォルト False) --flat: ディレクトリ型でなく、ファイル型のインデックスを作成する(デフォルト False) --once: 一度にインデックスを作成するファイル数(デフォルト 100) --ignore: 単語区切りとして、インデックスから除外する文字パターン(正規表現; デフォルト [\s,.,.、。]+) --verbose: 冗長な情報を出力する 入力は、単一ディレクトリ配下にtree構造で配置された、正規化済みの utf-8 text ファイル群。 出力は、N-gramによりtree構造に作成したインデックスファイル群。