step4用のPythonスクリプト
説明
更新用。
各種形式の文書ファイルをテキスト化する。
step4txt.batから直接呼び出される。
Python 3 用。
使用方法
サブディレクトリを含めたファイルを変換する。
process_files.py E:\scratch\rule.json E:\scratch\indir E:\scratch\outdir
第1引数: 変換ルールを記述したjsonファイル(フルパス)
第2引数: 入力元ディレクトリ(フルパス)
第3引数: 出力先ディレクトリ(フルパス)
--append: 出力先に追加する
--root: ルートのファイルも出力する
入力元のサブディレクトリを含む全ファイルを、
変換ルールにしたがって変換し、
出力先に保存する。
出力の無いルールでは、出力先は利用しない。
ルール記載例:
[
["\\.txt$", "text-converter.exe"],
["\\.(?:doc[mx]?|rtf)$", "word-converter.exe"],
["\\.xls$", null],
[".*", "all-converter.exe"]
]
上から順に適用し、最初の1つだけを適用する。
1つのルールは、ファイル名と比較する正規表現と、変換プログラムの配列。
変換をスキップする場合、プログラムに null を指定する。
最後まで合致するルールが無い場合も、変換をスキップする。
変換プログラムは、変換元ファイル名と、変換先ディレクトリを受け取る。