スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    検索エンジンlucene

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    ファイルサーバの検索、皆さんはどうされていますか。
    Googleデスクトップ使われていますか?
    それとも、msn?

    これらのエンジンも追求して行けばよりよくなると思いますが、
    微妙なところで不満が残ります。
    ひとつは、クライアントリソースを使って動かす場合が多く、
    私的には、鬱陶しくてかなわない。

    独立したWindowsマシンなどで、Googleデスクトップをインストール
    検索サーバ化する使い方もあるようですが。

    ファイル内検索が出来ない場合も多く、結構不満です。
    そもそも、ファイル内もくまなく検索できるようにする場合は、
    インデックスサイズが肥大化するので、デスクトップ用に
    求めるのは酷だとは思いますが。

    そこで、独自の検索サーバを考えています。
    検索エンジンluceneご存知の方もたくさんいらっしゃると思いますが、
    急激な広がりを見せています。
    オリジナルのjavaを基本としながらも、各種言語、C++、.NET、
    Python、Perlなどなど様々な言語へポーティングされています。

    そして、phpについても、ZendFrameworkに内包される形で
    ポーティングされています。

    オリジナルのLuceneは、bigramや形態素解析などanalyzer(分析器)という仕組みで、
    インデクシング、検索の手法を切り替えることが可能です。

    解析方法により、利点・欠点があるので、これを使い分けることが
    用途により、インデックスサイズのスリム化や、辞書メンテナンスが
    なくても、検索をヒットさせるN-gram方式を使い分けることが可能と
    なります。

    概念的な話ばかりになってしまいましたが、
    ひとまず、xdoc2txtを使って特定フォルダから、unigramで
    インデックス収集し、検索すると言うところまでのWindows向けのプログラムが
    できました。

    Javaでの実現も視野に入れているので、まだこのソースをどうするか考え中ですが、
    今後何らかの形で表に出していきたいとおもいます。


    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    09 | 2017/03 | 10
    - - - 1 2 3 4
    5 6 7 8 9 10 11
    12 13 14 15 16 17 18
    19 20 21 22 23 24 25
    26 27 28 29 30 31 -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。