step4用のPythonスクリプト
説明
更新用。
パワーポイント文書をutf-8 textファイルに変換する。
ppt-to-text.batから直接呼び出される。
Python 3 用。
使用方法
ppt_to_text.py E:\scratch\Hello.doc E:\scratch E:\tmp
ppt_to_text.py Hello.doc E:\scratch E:\tmp --normalize
第1引数: 変換元パワーポイント文書(フルパスまたは出力先パス)
第2引数: 出力先ディレクトリ(フルパス)
--tempdir: 一時ファイル作業用ディレクトリ(フルパス)
--keeptemp: 一時ファイルを削除しない
--normalize: テキストをUnicode正規化する
--invisible: ワードを非表示にする
--verbose: 冗長な情報を出力する
utf-8 text ファイルを生成する。
ファイル名は末尾に .txt を付加する。 MyPpt.ppt -> MyPpt.ppt.txt
Unicode正規化には、jsngram packageを使用する。
パワーポイントとワード本体が必要(インストール済みであること)。
一時ファイル作業用ディレクトリには、
必ず、必要なファイルが無いディレクトリを指定する。
ここにあるファイルは無条件に上書き変更する。
このプログラムはパワーポイントを起動し、
指定された文書ファイルを開き、
rtfとして一時ディレクトリに保存し、
パワーポイントを閉じる。
さらに word_to_text.py を利用して、
rtfを開き、
変換したtextを保存する。
既知の問題
パワーポイントに付属する、RTF形式保存機能には不具合があり、 不正なファイルを出力する場合がある。 この場合、ワードで読み込めないため、エラーが発生する。 変換元ファイルの、フォントや書式等の編集履歴に依存するようだが、 直接原因が不明なため、対処できない。 書式等をシンプルにして保存すれば回避できるかもしれない。