検索を使用する端末

特別な設定は必要ない。

最新のFireFoxを導入、または、Safariを最新にしておく。

データ更新に使用する端末

以下は、Windows 7 で、C:¥sukuba への導入例。

次のとおりに、ディレクトリを作る。
  C:¥sukuba
  ├─a
  │  ├─jsngram
  │  └─pub
  │      ├─docs
  │      ├─db
  │      ├─idx
  │      └─txt
  ├─bin
  ├─original
  └─tmp
      
サクラエディタ導入。

http://sakura-editor.sourceforge.net/download.html

utf-8 を正しく扱えるテキストエディタであれば他でもよい。 ここでは、たまたま、サクラエディタを使う。 Windowsのメモ帳で編集すると壊れる。 各社の、ホームページソフト類による編集も危険。

インストール先を指定する。 C:\sukuba\bin\sakura

コンテキストメニューに、SAKURAで開く、を表示させる。

必要なら、 txt, py, js, html, css, json の設定を変更する。 ここでの流儀は、 utf-8 (BOM無し), Lf での保存。 Winows bat ファイルのみ、 shift_jis, CrLf で保存。

Microsoft Visual C++ Redistributable for Visual Studio 2015

https://www.visualstudio.com/downloads/download-visual-studio-vs#d-visual-c

Windows 7 ではこれが必要。(WinPythonが使う) x86 と x64 の両方を入れる。

WinPython 導入

https://sourceforge.net/projects/winpython/files/

version 2, 3 の両方を導入。 インストール先を指定する。 細かいバージョンに依存しないパス名にする。 (実際には依存したsubdirectoryが作られてしまうが。) ファイル関連付け等を行わない。

導入するバージョン
  WinPython-64bit-2.7.10.3
  WinPython-64bit-3.4.4.3Qt5
導入先
  C:\sukuba\bin\WinPython2
  C:\sukuba\bin\WinPython3
      
JQuery の導入

https://jquery.com/

jquery-3.1.0.min.js を取得する。 新しいバージョンにするなら、 search.html を修正する必要がある。 ./a/pub に配置。

本プロジェクトの導入

GitHubの配布元 https://github.com/sukuba

GitHubのドキュメント https://sukuba.github.io/js-py-document-search/ https://sukuba.github.io/js-py-ngram-full-text-search/

js-py-ngram-full-text-search https://github.com/sukuba/js-py-ngram-full-text-search および、 js-py-document-search https://github.com/sukuba/js-py-document-search の両方を入れる。

それぞれのサイトで、 右方にある、 Clone or download ▼ の、緑色のボタンを押し、 Download ZIP を選択して、ファイルを保存する。 安定版リリースが必要な場合、 release タブをクリックし、希望するバージョンの、Downloads Source code (zip) を選択して、ファイルを保存する。 ファイルを展開する前に、インターネットから取得したファイルのフラグを消しておく。 保存した zip ファイルを展開する。

js-py-ngram-full-text-search
  1. jsngram フォルダの中身を .a/jsngram に配置
  2. ルートにある JsNgram.js ファイルを ./a/pub に配置
js-py-document-search
  1. ルートにある search*.* (*.html, *.css, *.js) ファイルを ./a/pub に配置
  2. ルートにある他のファイルを ./a に配置
  3. misc フォルダの中身を .a に配置
  4. docs フォルダの中身を .a/pub/docs に配置
ファイルの修正

各種バージョンやら導入先が変わった場合には 必要なファイルの修正が必要。 主にbatファイル内のパスを修正する。

文書の読み込み元が、setp1env.bat に定義されている。 これは、必ず変更しなければいけない。 (もしくは、このデフォルトの場所 C:\sukuba\original を使う。) 動作確認で、少ないファイルのテストデータを指定したいときなんかも、 これを変更して対応する。

必要なパッケージの導入

PDFMiner を Python 2 に入れる。 (PDFを扱わなければ不要)

コマンドプロンプトを起動する。
cd C:\sukuba\a
python2.bat
pip install PDFMiner
      

https://pypi.python.org/pypi/pdfminer.six

PDFMiner の代わりに、 pdfminer.six を使えば、 Python 2 が不要になり、 Python 3 だけで動くと思われる。 が、pdfminer.six は試していない。

その他

本体は、 Python 3 向けに書いているが、 コアライブラリは、Python 2 でも動作する作りになっている。 基本的な問題は、 日本語メッセージを出した時に、 Python 2 を想定していない箇所だとエラーを出す恐れがあるということ。

オフィス形式のファイル変換には、MS Office が必要。 一太郎形式のファイル変換には、一太郎が必要。