step4用のPythonスクリプト

説明

更新用。 ワード文書をutf-8 textファイルに変換する。 word-to-text.batから直接呼び出される。 Python 3 用。

使用方法
    word_to_text.py E:\scratch\Hello.doc E:\scratch
    word_to_text.py Hello.doc E:\scratch --normalize
    
    第1引数: 変換元ワード文書(フルパスまたは出力先パス)
    第2引数: 出力先ディレクトリ(フルパス)
    --normalize: テキストをUnicode正規化する
    --invisible: ワードを非表示にする
    --verbose: 冗長な情報を出力する
    
    utf-8 text ファイルを生成する。
    ファイル名は末尾に .txt を付加する。 MyWord.doc -> MyWord.doc.txt
    Unicode正規化には、jsngram packageを使用する。
    
    ワード本体が必要(インストール済みであること)。
    
    このプログラムはワードを起動し、
    指定された文書ファイルを開き、
    変換したtextを保存し、
    ワードを閉じる。
      
既知の問題

ワードがファイルを自動変換して開いた場合などに、 確認を促すダイアログを表示する場合がある。 こういったダイアログは抑止できず、 ダイアログに答えるまで、更新が停止したままになる。 ダイアログに答えることで、更新は継続される。