スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    knowledgeTree 日本語PDFインデキシング

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    knowledgeTreeでインデキシングの簡単なテストを
    実施した結果概要はまた次の機会に預けますが、
    その際に、つまずいたので、残しておきます。

    日本語のPDFファイルの中には、結構な割合で、
    'Adobe-Japan1'なるものが含まれるケースが多い様で、
    knowledgeTreeのテキスト抽出(extractor)実施の際、
    pdftotextが
    Error: Unknown character collection 'Adobe-Japan1'
    こういったエラーでこけてインデキシングされない問題が
    多発します。

    これを回避するためには、xpdf-japaneseというpkgが必要です。
    こちらで入手してください。

    さて、ファイルが取得できましたら、作業に入ります。
    ちなみに今回は、こちらを参考にさせて
    頂きました。

    まず、取得したxpdf-japanese.tar.gzを作業ディレクトリなどで展開します。
    その中に、add-to-xpdfrcというファイルがあり、これをpdftotextの
    設定ファイルとして利用します。
    これ以外のファイルは、利用するべき場所に設置します。
    今回は、設定ファイル内のデフォルトの位置

    /usr/local/share/xpdf/

    に配置することにしました。
    全てのファイルを上記ディレクトリ配下に設置したら、
    add-to-xpdfrcを/opt/ktdms/xpdfrcとしてコピーします。
    ※別の場所、別のファイル名でも構いません、後で指定できます。

    さて、PDFのextractorを編集します。
    /opt/ktdms/knowledgeTree/search2/indexing/extractors
    配下に、
    PDFExtractor.inc.php
    というファイルがあるので、これを編集します。


    --- PDFExtractor.inc.php.bak 2008-10-16 22:57:06.000000000 +0900
    +++ PDFExtractor.inc.php 2008-12-15 04:21:25.000000000 +0900
    @@ -42,7 +42,7 @@
    public function __construct()
    {
    $config = KTConfig::getSingleton();
    - $params = $config->get('extractorParameters/pdftotext', '-nopgbrk -enc UTF-8
    "{source}" "{target}"');
    + $params = $config->get('extractorParameters/pdftotext', '-cfg /opt/ktdms/xpdf
    rc -nopgbrk -enc UTF-8 "{source}" "{target}"');

    parent::__construct('externalBinary','pdftotext','pdftotext',_kt('PDF Text Ex
    tractor'),$params);
    }
    @@ -102,4 +102,4 @@
    }
    }




    こういった感じで、実行時パラメータで cfgオプションで、設定ファイルを指定します。
    このように指定すると、前述のエラーの出ていたPDFファイルがインデキシング
    出来るようになります。


    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    05 | 2017/06 | 07
    - - - - 1 2 3
    4 5 6 7 8 9 10
    11 12 13 14 15 16 17
    18 19 20 21 22 23 24
    25 26 27 28 29 30 -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。