検索を使用する端末
特別な設定は必要ない。
最新のFireFoxを導入、または、Safariを最新にしておく。
データ更新に使用する端末
以下は、Windows 7 で、C:¥sukuba への導入例。
次のとおりに、ディレクトリを作る。
C:¥sukuba ├─a │ ├─jsngram │ └─pub │ ├─docs │ ├─db │ ├─idx │ └─txt ├─bin ├─original └─tmp
サクラエディタ導入。
http://sakura-editor.sourceforge.net/download.html
utf-8 を正しく扱えるテキストエディタであれば他でもよい。 ここでは、たまたま、サクラエディタを使う。 Windowsのメモ帳で編集すると壊れる。 各社の、ホームページソフト類による編集も危険。
インストール先を指定する。 C:\sukuba\bin\sakura
コンテキストメニューに、SAKURAで開く、を表示させる。
必要なら、 txt, py, js, html, css, json の設定を変更する。 ここでの流儀は、 utf-8 (BOM無し), Lf での保存。 Winows bat ファイルのみ、 shift_jis, CrLf で保存。
Microsoft Visual C++ Redistributable for Visual Studio 2015
https://www.visualstudio.com/downloads/download-visual-studio-vs#d-visual-c
Windows 7 ではこれが必要。(WinPythonが使う) x86 と x64 の両方を入れる。
WinPython 導入
https://sourceforge.net/projects/winpython/files/
version 2, 3 の両方を導入。 インストール先を指定する。 細かいバージョンに依存しないパス名にする。 (実際には依存したsubdirectoryが作られてしまうが。) ファイル関連付け等を行わない。
導入するバージョン WinPython-64bit-2.7.10.3 WinPython-64bit-3.4.4.3Qt5 導入先 C:\sukuba\bin\WinPython2 C:\sukuba\bin\WinPython3
JQuery の導入
jquery-3.1.0.min.js を取得する。 新しいバージョンにするなら、 search.html を修正する必要がある。 ./a/pub に配置。
本プロジェクトの導入
GitHubの配布元 https://github.com/sukuba
GitHubのドキュメント https://sukuba.github.io/js-py-document-search/ https://sukuba.github.io/js-py-ngram-full-text-search/
js-py-ngram-full-text-search https://github.com/sukuba/js-py-ngram-full-text-search および、 js-py-document-search https://github.com/sukuba/js-py-document-search の両方を入れる。
それぞれのサイトで、 右方にある、 Clone or download ▼ の、緑色のボタンを押し、 Download ZIP を選択して、ファイルを保存する。 安定版リリースが必要な場合、 release タブをクリックし、希望するバージョンの、Downloads Source code (zip) を選択して、ファイルを保存する。 ファイルを展開する前に、インターネットから取得したファイルのフラグを消しておく。 保存した zip ファイルを展開する。
js-py-ngram-full-text-search
- jsngram フォルダの中身を .a/jsngram に配置
- ルートにある JsNgram.js ファイルを ./a/pub に配置
js-py-document-search
- ルートにある search*.* (*.html, *.css, *.js) ファイルを ./a/pub に配置
- ルートにある他のファイルを ./a に配置
- misc フォルダの中身を .a に配置
- docs フォルダの中身を .a/pub/docs に配置
ファイルの修正
各種バージョンやら導入先が変わった場合には 必要なファイルの修正が必要。 主にbatファイル内のパスを修正する。
文書の読み込み元が、setp1env.bat に定義されている。 これは、必ず変更しなければいけない。 (もしくは、このデフォルトの場所 C:\sukuba\original を使う。) 動作確認で、少ないファイルのテストデータを指定したいときなんかも、 これを変更して対応する。
必要なパッケージの導入
PDFMiner を Python 2 に入れる。 (PDFを扱わなければ不要)
コマンドプロンプトを起動する。 cd C:\sukuba\a python2.bat pip install PDFMiner
https://pypi.python.org/pypi/pdfminer.six
PDFMiner の代わりに、 pdfminer.six を使えば、 Python 2 が不要になり、 Python 3 だけで動くと思われる。 が、pdfminer.six は試していない。
その他
本体は、 Python 3 向けに書いているが、 コアライブラリは、Python 2 でも動作する作りになっている。 基本的な問題は、 日本語メッセージを出した時に、 Python 2 を想定していない箇所だとエラーを出す恐れがあるということ。
オフィス形式のファイル変換には、MS Office が必要。 一太郎形式のファイル変換には、一太郎が必要。