step4用のPythonスクリプト
説明
更新用。
ワード文書をutf-8 textファイルに変換する。
word-to-text.batから直接呼び出される。
Python 3 用。
使用方法
word_to_text.py E:\scratch\Hello.doc E:\scratch
word_to_text.py Hello.doc E:\scratch --normalize
第1引数: 変換元ワード文書(フルパスまたは出力先パス)
第2引数: 出力先ディレクトリ(フルパス)
--normalize: テキストをUnicode正規化する
--invisible: ワードを非表示にする
--verbose: 冗長な情報を出力する
utf-8 text ファイルを生成する。
ファイル名は末尾に .txt を付加する。 MyWord.doc -> MyWord.doc.txt
Unicode正規化には、jsngram packageを使用する。
ワード本体が必要(インストール済みであること)。
このプログラムはワードを起動し、
指定された文書ファイルを開き、
変換したtextを保存し、
ワードを閉じる。
既知の問題
ワードがファイルを自動変換して開いた場合などに、 確認を促すダイアログを表示する場合がある。 こういったダイアログは抑止できず、 ダイアログに答えるまで、更新が停止したままになる。 ダイアログに答えることで、更新は継続される。