step5用のPythonスクリプト

説明

更新用。 正規化済みのテキスト群からインデックスファイルを作る。 step5idx.batから直接呼び出される。 Python 3 用だが、 Python 2 でもほぼ稼働する。

使用方法
    make_index.py E:\scratch txt idx
    
    第1引数: 基準ディレクトリ(フルパス)
    第2引数: 変換元テキストディレクトリ(基準からの相対パス)
    第3引数: インデックス出力先ディレクトリ(基準からの相対パス)
    --size: N-gramの文字長(デフォルト 2)
    --noshorter: 文字長より短いインデックスは作成しない(デフォルト False)
    --flat: ディレクトリ型でなく、ファイル型のインデックスを作成する(デフォルト False)
    --once: 一度にインデックスを作成するファイル数(デフォルト 100)
    --ignore: 単語区切りとして、インデックスから除外する文字パターン(正規表現; デフォルト [\s,.,.、。]+)
    --verbose: 冗長な情報を出力する
    
    入力は、単一ディレクトリ配下にtree構造で配置された、正規化済みの utf-8 text ファイル群。
    出力は、N-gramによりtree構造に作成したインデックスファイル群。