step4用のPythonスクリプト
説明
更新用。
ワード文書をutf-8 textファイルに変換する。
word-to-text.bat
から直接呼び出される。
Python 3 用。
使用方法
word_to_text.py E:\scratch\Hello.doc E:\scratch word_to_text.py Hello.doc E:\scratch --normalize 第1引数: 変換元ワード文書(フルパスまたは出力先パス) 第2引数: 出力先ディレクトリ(フルパス) --normalize: テキストをUnicode正規化する --invisible: ワードを非表示にする --verbose: 冗長な情報を出力する utf-8 text ファイルを生成する。 ファイル名は末尾に .txt を付加する。 MyWord.doc -> MyWord.doc.txt Unicode正規化には、jsngram packageを使用する。 ワード本体が必要(インストール済みであること)。 このプログラムはワードを起動し、 指定された文書ファイルを開き、 変換したtextを保存し、 ワードを閉じる。
既知の問題
ワードがファイルを自動変換して開いた場合などに、 確認を促すダイアログを表示する場合がある。 こういったダイアログは抑止できず、 ダイアログに答えるまで、更新が停止したままになる。 ダイアログに答えることで、更新は継続される。