Ludiaが必要とするソフトウェアを下記のURLから入手してインストールする必要があります。 (MeCabは形態素解析による分かち書きを利用する場合にのみ必要です。)
それぞれのソースアーカイブを入手し、インストールを行ってください。 withdepsパッケージをダウンロードした場合は、 depsディレクトリ下にMeCab、MeCab辞書、Sennaのソースアーカイブが入っています。
動作確認はそれぞれ以下のバージョン用いて行われました。
MeCabとSennaのインストール方法については、以下でも簡単に説明します。
分かち書き方式に形態素解析を利用しない場合は、 MeCab(と辞書)をインストールする必要はありません。 その場合はSennaのインストールに進んでください。 (MeCabをインストールしない場合はSennaのインストールの際に、 --without-mecabオプションを指定する必要があります。)
MeCabをインストールする場合は、 アーカイブを展開し、以下の要領でビルドとインストールを行います。
$ ./configure --with-charset=utf8 $ make $ su # make install
アーカイブを展開し、以下の要領でビルドとインストールを行います。
$ ./configure --with-charset=utf8 $ make $ su # make install
アーカイブを展開し、以下の要領でビルドとインストールを行います。
$ ./configure $ make $ su # make install
ただし、MeCabをインストールしていない場合には、 --without-mecab オプションを指定する必要があります。
$ ./configure --without-mecab
Ludiaはバージョン1.1.0以降で senna.conf の利用を中止しました。 従来 senna.conf で設定していた内容(INITIAL_N_SEGMENTS)は、 postgresql.conf で設定可能となります。 設定方法についてはREADMEを参照ください。
Ludiaはバージョン1.2.0以降で、 senna.log の利用を中止しました。 PostgreSQLのログとして出力されます。 エラーレベルはLOGとなります。
環境によっては nfkc.c のコンパイルに非常に時間がかかる場合があります。 この場合、
$ ./configure --disable-nfkc
のようなオプションでUnicode文字列の正規化機能を無効にすることで、 スキップできます。(http://qwik.jp/senna/FAQ.html)
アーカイブを展開し、以下の要領でビルドとインストールを行います。
$ ./configure $ make $ su # make install
pg_configコマンド、senna-cfgコマンドのインストール先にPATHが設定されていない場合、 以下のようにそれぞれのpathをconfigureオプションで指定してください。
$ ./configure --with-pg-config=/usr/local/pgsql/bin/pg_config \ --with-senna-cfg=/usr/local/bin/senna-cfg
Xpdfについてはテキストフィルタ関数を利用する場合にのみインストールが必要です。 ここでは簡単に手順を説明しますが、 詳細については XpdfのWebサイト を参照してください。
まず、ソースアーカイブを展開し、patchをあててから、configureとmakeを実行します。
$ tar -zxvf xpdf-3.01.tar.gz $ cp xpdf-3.01pl2.patch ./xpdf-3.01 $ cd xpdf-3.01 $ patch -c -p1 < xpdf-3.01pl2.patch $ ./configure $ make $ sudo make install
また、日本語を扱うためにはLanguage Support Packagesが必要なので、 こちらもダウンロードしてインストールします。
$ tar -zxvf xpdf-japanese.tar.gz # mkdir /usr/local/share/xpdf # mkdir /usr/local/share/xpdf/japanese # mv xpdf-japanese/* /usr/local/share/xpdf/japanese/ # cat /usr/local/share/xpdf/japanese/add-to-xpdfrc >> /usr/local/etc/xpdfrc
インストール後に、設定ファイルの内容を編集します。 テキストフィルタ関数ではpdftotextのコマンドライン引数を指定できないので、 ここで出力ファイルの文字コードと改行コードなどを指定する必要があります。
# Choose a text encoding for copy-and-paste and for pdftotext output. # The Latin1, ASCII7, and UTF-8 encodings are built into Xpdf. Other # encodings are available in the language support packages. textEncoding UTF-8 # Choose the end-of-line convention for multi-line copy-and-past and # for pdftotext output. The available options are unix, mac, and dos. textEOL unix
また、インストール先を /usr/local/share/xpdf/japanese 以外にした場合は、 以下の部分も修正が必要になります。
#----- begin Japanese support package (2004-jul-27) cidToUnicode Adobe-Japan1 /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode unicodeMap ISO-2022-JP /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap unicodeMap EUC-JP /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap unicodeMap Shift-JIS /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap cMapDir Adobe-Japan1 /usr/local/share/xpdf/japanese/CMap toUnicodeDir /usr/local/share/xpdf/japanese/CMap #displayCIDFontTT Adobe-Japan1 /usr/..../kochi-mincho.ttf #----- end Japanese support package