step4用のPythonスクリプトを制御するjsonファイル

説明

更新用。 文書形式の振り分けルールを記述する。 step4txt.batが、 process_files.pyを呼び出す際に、 ルール記述ファイルとして指定している。 このファイルを修正することで、 特定の文書ファイルに対して動作する、テキスト変換プログラムを変更できる。 新たな種類の文書ファイルを扱うプログラムを追加することもできる。

また、Windows以外のOSで更新作業を行いたい場合に、 C:\sukuba\a\word-to-text.bat の代わりに、 ~/sukuba/a/word-to-text.sh といった、 そのOSに適した実行ファイルを用意して、それに置き換えることで、 対応できる。 コマンドライン対応の、文書ファイル変換ツールは、 WindowsよりもUnix系OSの方が豊富に入手できる。

記述方法
  • ArrayのArray。
  • 内側のArrayが一つのルールで、全体では複数ルールが集まった、ルールセットを構成している。
  • 早い位置にあるルールが優先される。
  • ルールは、パターンと実行パスの2つの要素から成る。
  • パターンが文書のファイル名に合致したとき、実行パスのプログラムを動かして、その文書を処理する。
  • パターンは正規表現。
  • プログラムは、OS上で実行できる形式で、第1引数に対象文書ファイルのフルパスを、第2引数に変換先フォルダのパスを受ける。
  • 最後のルールを過ぎても該当しない文書は、対象外となる。
  • 下記コードの1つ目のルールの解釈は、 拡張子が doc, docm, docx, rtf の場合、 C:\sukuba\a\word-to-text.bat を使って、 当該ファイルを変換せよ、 となる。 これを1つにまとめず、4つ目の pdf のような単純な記法で、 拡張子ごとに別々のルールとして記述しても構わない。
コード
[
  ["\\.(?:doc[mx]?|rtf)$", "C:\\sukuba\\a\\word-to-text.bat"],
  ["\\.jtdc?$", "C:\\sukuba\\a\\ichitaro-to-text.bat"],
  ["\\.pptx?$", "C:\\sukuba\\a\\ppt-to-text.bat"],
  ["\\.pdf$", "C:\\sukuba\\a\\pdf-to-text.bat"]
]