step4用のPythonスクリプト
説明
更新用。
各種形式の文書ファイルをテキスト化する。
step4txt.bat
から直接呼び出される。
Python 3 用。
使用方法
サブディレクトリを含めたファイルを変換する。 process_files.py E:\scratch\rule.json E:\scratch\indir E:\scratch\outdir 第1引数: 変換ルールを記述したjsonファイル(フルパス) 第2引数: 入力元ディレクトリ(フルパス) 第3引数: 出力先ディレクトリ(フルパス) --append: 出力先に追加する --root: ルートのファイルも出力する 入力元のサブディレクトリを含む全ファイルを、 変換ルールにしたがって変換し、 出力先に保存する。 出力の無いルールでは、出力先は利用しない。 ルール記載例: [ ["\\.txt$", "text-converter.exe"], ["\\.(?:doc[mx]?|rtf)$", "word-converter.exe"], ["\\.xls$", null], [".*", "all-converter.exe"] ] 上から順に適用し、最初の1つだけを適用する。 1つのルールは、ファイル名と比較する正規表現と、変換プログラムの配列。 変換をスキップする場合、プログラムに null を指定する。 最後まで合致するルールが無い場合も、変換をスキップする。 変換プログラムは、変換元ファイル名と、変換先ディレクトリを受け取る。