スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    knowledgetreeインデックスサイズテスト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    knowledgeTreeの日本語検索がStandardAnalyzerによって
    uni-gram検索が出来ることを以前記載しましたが、
    やはり、インデックスサイズの肥大化懸念があり、
    インデックスサイズの確認をしてみました。

    対象インターネット上から複数のキーワードで、
    プレゼンテーションPowerPoint
    文書Word
    文書PDF
    文書Excel
    の4種類のファイルを集め、
    870のファイル約780MBに対してインデキシングし、
    /opt/ktdms/var/indexes
    のディレクトリサイズをdu -hのコマンドで確認しました。
    結果としては、32MBというサイズでした。

    今回は文書の詳細な中身までは把握していないので、
    テキスト含有量が少なかった可能性はありますが、
    knowledgeTreeでは、文書情報をMySQLなどに持たせるため、
    余計な情報をインデックスに載せなくて良いという利点があり、
    uni-gramで合っても、インデックスの極端な肥大化に
    つながらないのだろうというのが、今の所感です。

    もちろん対象文書によって結果は変わりますし、
    一概に断定的なことは言えませんが、
    ひとまずは、これなら十分使えるという印象です。

    winssoのシングルサインオンはちょっとうまくいっておらず、
    先延ばしです。
    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    07 | 2017/08 | 09
    - - 1 2 3 4 5
    6 7 8 9 10 11 12
    13 14 15 16 17 18 19
    20 21 22 23 24 25 26
    27 28 29 30 31 - -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。