step4用のPythonスクリプト

説明

更新用。 各種形式の文書ファイルをテキスト化する。 step4txt.batから直接呼び出される。 Python 3 用。

使用方法
    サブディレクトリを含めたファイルを変換する。
    
    process_files.py E:\scratch\rule.json E:\scratch\indir E:\scratch\outdir
    
    第1引数: 変換ルールを記述したjsonファイル(フルパス)
    第2引数: 入力元ディレクトリ(フルパス)
    第3引数: 出力先ディレクトリ(フルパス)
    --append: 出力先に追加する
    --root: ルートのファイルも出力する
    
    入力元のサブディレクトリを含む全ファイルを、
    変換ルールにしたがって変換し、
    出力先に保存する。
    出力の無いルールでは、出力先は利用しない。
    
    ルール記載例:
    [
      ["\\.txt$", "text-converter.exe"],
      ["\\.(?:doc[mx]?|rtf)$", "word-converter.exe"],
      ["\\.xls$", null],
      [".*", "all-converter.exe"]
    ]
    上から順に適用し、最初の1つだけを適用する。
    1つのルールは、ファイル名と比較する正規表現と、変換プログラムの配列。
    変換をスキップする場合、プログラムに null を指定する。
    最後まで合致するルールが無い場合も、変換をスキップする。
    変換プログラムは、変換元ファイル名と、変換先ディレクトリを受け取る。