スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    knowledgeTree日本語検索の話

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    結構サボってしまっています。反省。

    自分のネタじゃなくて恐縮なのですが、
    このブログにもコメントを下さっているkazさんが、
    先日のPDFエクストラクタの話を掘り下げたコメント
    をくださいました。

    詳しくは、こちらをご覧ください。

    エクストラクタに関しては、デフォルトパラメータと、
    別に、変更したパラメータをDB内で管理しているのですね。

    kazさんありがとうございます。

    私ももう少し貢献しなくては。。
    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    mailarchivaのSVNリポジトリ

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    MailArchivaのソースを取得しようと思ったのですが、
    ちょっと探してしまったので、残しておきます。

    ここ


    theme : Linux
    genre : コンピュータ

    knowledgeTree日本語のフォーラム

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    knowledgeTreeのキーワードで本ブログに訪れる方も
    増えてきましたので、日本語でのフォーラムを開設すること
    に致しました。

    ブログで話題にしたこと以外にも気になることがあれば、
    是非エントリーしてください。

    皆さんのお力で盛り上げていければと思います。
    よろしくお願い致します。

    http://ktree.d-ip.jp/

    theme : Linux
    genre : コンピュータ

    mailarchiva日本語メール確認中

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    mailarchivaの日本語メールに関して現時点で、
    確認したことを残しておきます。

    ・サブジェクトに関しては、iso-2022-jp、UTF-8ともに、
     日本語での検索及び、一覧表示可能

    ・viewでのメール閲覧は、
      utf-8→可能
      iso-2022-jp→応答なし

    ・utf-8でのメール閲覧時、emlファイルのダウンロード
      →ヘッダ情報は入っているものの本文白紙

    引き続き、確認し結果をまとめたいと思います。

    theme : Linux
    genre : コンピュータ

    携帯I/Fを持つオープンソース

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    携帯電話のI/Fを予め持っているオープンソースも大分
    増えました。

    触っておきたいものを残しておきます。

    ・OpenPNE OSSのSNSとして有名ですね。
    ・ECCube コマースこれなら個人商店も手を出せるか
    ・Smillie! ライセンスに注意が必要
    ・modchxj アプリそのものではないが、画像変換やQRコードまで
            だしてくれる。limesurveyとかで使えないかな。
    ・geeklog CMS
    ・Magic3 CMS

    theme : Linux
    genre : コンピュータ

    mailarchivaインストールと初期セットアップ メールアーカイブ

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    mailarchivaのインストールは以前も触れましたが、
    おさらいと現状の初期セットアップまで残しておきます。

    現状は、subjectや、from、toなどでの検索は出来ますが、
    bodyに関しては、うまく動作していません。
    luceneのインデックスなどを確認して問題を切り分けたいと
    思います。

    more...

    theme : Linux
    genre : コンピュータ

    postfixのキューコマンド

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    mailarchivaの検証をしていて、実験用の内部的なドメインを間違えて、
    実在するドメインにしてしまい、しかも片方のサーバがインターネットへの出口を
    持っていたため、postfixにだいぶたくさんのキューが溜まるだけでなく、
    ひたすらエラーのアドレスをリトライする惨事になってしまいました。

    知ってて当然なのですが、すぐにキューのコマンドが出てこず、
    こちらを参考にキューの確認と削除をしました。

    キューの確認
    mailq

    キューの削除
    postsuper -d ALL

    theme : Linux
    genre : コンピュータ

    knowledgetreeインデックスサイズテスト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    knowledgeTreeの日本語検索がStandardAnalyzerによって
    uni-gram検索が出来ることを以前記載しましたが、
    やはり、インデックスサイズの肥大化懸念があり、
    インデックスサイズの確認をしてみました。

    対象インターネット上から複数のキーワードで、
    プレゼンテーションPowerPoint
    文書Word
    文書PDF
    文書Excel
    の4種類のファイルを集め、
    870のファイル約780MBに対してインデキシングし、
    /opt/ktdms/var/indexes
    のディレクトリサイズをdu -hのコマンドで確認しました。
    結果としては、32MBというサイズでした。

    今回は文書の詳細な中身までは把握していないので、
    テキスト含有量が少なかった可能性はありますが、
    knowledgeTreeでは、文書情報をMySQLなどに持たせるため、
    余計な情報をインデックスに載せなくて良いという利点があり、
    uni-gramで合っても、インデックスの極端な肥大化に
    つながらないのだろうというのが、今の所感です。

    もちろん対象文書によって結果は変わりますし、
    一概に断定的なことは言えませんが、
    ひとまずは、これなら十分使えるという印象です。

    winssoのシングルサインオンはちょっとうまくいっておらず、
    先延ばしです。

    theme : Linux
    genre : コンピュータ

    knowledgeTree 日本語PDFインデキシング

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    knowledgeTreeでインデキシングの簡単なテストを
    実施した結果概要はまた次の機会に預けますが、
    その際に、つまずいたので、残しておきます。

    日本語のPDFファイルの中には、結構な割合で、
    'Adobe-Japan1'なるものが含まれるケースが多い様で、
    knowledgeTreeのテキスト抽出(extractor)実施の際、
    pdftotextが
    Error: Unknown character collection 'Adobe-Japan1'
    こういったエラーでこけてインデキシングされない問題が
    多発します。

    これを回避するためには、xpdf-japaneseというpkgが必要です。
    こちらで入手してください。

    さて、ファイルが取得できましたら、作業に入ります。
    ちなみに今回は、こちらを参考にさせて
    頂きました。

    more...

    theme : Linux
    genre : コンピュータ

    mailarchiva メールアーカイバの日本語リソースファイル2

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    オープンソースメールアーカイバのmailarchivaの
    日本語リソースファイルですが、全てを訳していくのに
    時間がかかりそうなので、とりあえずの状況で一回
    ここに掲示します。

    本家のソフトを
    インストールして、application.propertiesをベースとして、native2ascii.exeを用いて
    application_ja.propertiesを作成しています。

    ※上記リンクでリソースファイルがダウンロードできます。
    ※ダウンロードしたファイルは、application_ja.propertiesにリネームして利用してください。

    リソースファイルは、
    /usr/local/mailarchiva/server/webapps/mailarchiva/WEB-INF/classes/properties
    に配置してください。

    ファイルを配置して、サービスを再起動することでリソースファイルが利用できる用に
    なります。ブラウザの言語を自動で取得しているので、自動的に日本語になります。

    次回は、疎通されて、検索(lucene)が問題なく使えるか見ていきたいと思います。

    theme : Linux
    genre : コンピュータ

    ドキュメント管理システムknowledgeTreeのActiveDirectory連携

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    knowledgeTreeの機能の中でLDAP・ActiveDirectoryの
    連携機能があります。
    アカウント情報が集約され、ユーザが複数のID・パスワード
    を覚えておかなくてもすみますし、
    ユーザ管理の労力が軽減されるなど利点があるでしょう。

    早速、実施した手順です。

    1.adminでログインします。

    2.システム管理(日本語化したメニュー名です)>ユーザとグループ>認証
      から「新規認証ソースを追加する」をクリックします。

    3.名前(認証ソースの名称)を任意につけ、認証プロバイダを「ActiveDirectory認証」
      に指定し、「新規ソースの追加」で認証ソースを
      作成します。

    4.続いて認証プロバイダ情報を入力します。
      サーバ名をホスト名または、IPアドレスで指定します。
      ※当然ですが、対象となるActiveDirectoryのドメイン及びサーバの
       名前解決ができる環境にしてください。
       私は、別環境でActiveDirectoryを組み、knowledgeTreeをLinuxサーバ
       で組んでいたため、Linuxのresolv.confを通常のDNSに向けていたために
       はまってしまいました。

      ポート番号はデフォルト389ポートのままにします。
      必要に応じて、TLSの使用をチェックしますが、knowledgeTreeの
      環境がきちんと対応できているか確認してください。
      ベースDNは、たとえば、ActiveDirectoryのドメイン名が
      example.local
      の場合は、CN=Users,DC=example,DC=localとします。
      環境に応じて、適宜ベースDNを変更してください。
      CN=Domain Admins,CN=Users,DC=example,DC=local
      上記はひとつの例なので、ご参考程度にご覧ください。
      検索ユーザーに関しては、一定の権限を持った実在ユーザ
      ということになります。
      user@example.local
      といった形で指定します。
      上記ユーザのパスワードを指定します。

      検索属性、オブジェクトクラスに関してはデフォルトのままで、
      問題ありません。

      以上で、保存します。

    5.続いて、
      システム管理>ユーザとグループ>グループの管理>新規グループの追加
      追加したいグループ名を入力し、検索結果から、該当グループを選択して、
      追加します、このとき、ユニット管理者、システム管理者指定を追加することが
      できます。
      グループを追加すると、
      システム管理>ユーザとグループ>グループ管理>ユーザ管理から、
      グループ内アカウントを同期できるようになります。
      knowledgeTreeでは、ユニットという概念で例えば事業部単位などで、
      メンバー管理など一部の与えられた範囲内での権限委譲ができます。


    次回は、SSOモジュールを使ったシングルサインオンにチャレンジしてみたいと思います。

    theme : Linux
    genre : コンピュータ

    Linux上でのisoイメージ作成

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    Linux上でVMwareを運用しており、isoイメージを
    Linuxサーバ上で作成する必要にかられました。

    今回参照させて頂いたのは、こちら

    # dd if=/dev/cdrom of=foo.iso 2>&1 | mail メールアドレス -s "done."


    これだけでなんの苦もなくできました。
    ありがとうございます。

    theme : Linux
    genre : コンピュータ

    ドキュメント変換 UNOCONV

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    各種オフィスドキュメントからテキスト情報を抜き出すツールを
    探す中で、OpenOfficeを用いて変換を行う、UNOCONVというのを
    見つけました。こちら。

    ドキュメント変換の出力をテキストにすれば、目的は達成できるし、
    特定条件の文書を一括で形式を揃えるなんてことにも使えそう。

    中身はpythonで書かれています。

    theme : Linux
    genre : コンピュータ

    mailarchiva日本語リソースファイルについて オープンソースメールアーカイバ

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    オープンソースのメールアーカイブソフトmailarchivaの
    インターフェイス日本語化に関してですが、まず、
    /usr/local/mailarchiva/server/webapps/mailarchiva/WEB-INF/classes/properties
    以下にあるリソースファイルをベースとします。


    # cp application.properties application_ja.properties



    日本語用のapplication_ja.propertiesとした
    リソースファイルを作成してucs2のコードを埋め込むわけですが、
    全体は、800行以上のファイルのため、まだ、すべての日本語を
    コードで埋めることは出来ていません。

    ということで、
    下記を参考にしてみてください。
    「\」となっているところはバックスラッシュです。


    line:55
    signon.title=MailArchiva \u30ed\u30b0\u30a4\u30f3
    signon.username=\u30e6\u30fc\u30b6\u540d:
    signon.password=\u30d1\u30b9\u30ef\u30fc\u30c9:
    signon.submit=\u30ed\u30b0\u30a4\u30f3



    上記のucs2コードは上からログイン、ユーザ名、パスワード、ログインの日本語に
    対応したものになっています。

    ※12/12追記
     本当に恥ずかしい限りですが、こういうこと
     なんですね。
     Javaに関して素人ですみません、戒めのためにもこのまま残しておきます。
     皆さんは、native2asciiを使うようにしてください。
     私も改めて、日本語リソースファイルを作成して、native2asciiでエスケープします。

    theme : Linux
    genre : コンピュータ

    mailarchiva検索と日本語

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    mailarchivaをインストールしてみて、
    中身を見てみたところ、言語リソースのファイルが
    キチンとまとまっていてインターフェイスの日本語化は
    容易に行えそう。
    よくよく見てみると、ucs2のコードでリソースファイルを記述
    することで日本語の記述が行えることがわかったので、
    こちらを参考に、ucs2コードを確認しながら、
    リソースファイルを編集しています。

    一通りできたら、次のエントリーでリソース文言を掲載します。

    また、よくよく内部を確認したところ、lucene-coreが含まれて
    おり、検索エンジンはluceneということがわかりましたので、
    内部構造が整っていれば、uni-gramでの検索が出来そうです。

    メールアーカイブの状況や、メール検索の
    確認状況は別途報告します。

    theme : Linux
    genre : コンピュータ

    メールアーカイブ-mailarchiva

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    昨今の大事件などの影響から企業コンプライアンスに関しての
    システム化が急速に進んでいます。
    米国では、以前からありましたが、日本でもメールの保存義務が
    始まります。

    mailarchivaを用いてアーカイブ機能を利用することが可能です。

    細部に関してはまたあらためて確認して行きますが、
    まずは、インストールと言うことで、
    openmailarchivaプロジェクトからLinux用のインストールファイルを取得
    しました。
    圧縮ファイルを展開しするとinstallスクリプトがあります。
    インストールスクリプトの実行だけでインストールは完了です。

    Javaのプログラム稼動のためのjreも内部に含まれていますので、
    アプリケーションは、インストールのみで管理画面を開くことが
    出来ます。
    言語ファイルらしきものが確認できましたので、
    さっと、日本語化できるか、確認して可能なようなら、
    言語ファイルの日本語化に手をつけて見たいと思います。

    theme : Linux
    genre : コンピュータ

    試したいもの

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    試したいものものの本当の備忘録
    雑多です。
    ジャンルわけ無し。

    ・PHP For Applications - PHP Framework
    ・Openbravo -ERP
    ・mailarchiva -メール保存・検索
    ・Untangle -セキュリティゲートウェイ

    いつになるかわからないけどとりあえず。

    theme : Linux
    genre : コンピュータ

    knowledgetreeドキュメント管理システム全文検索その1

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    先に引き続き、knowledgetreeですが、
    全文検索に関して、試したことに関して触れておきます。

    まずは、Windowsはまりました。
    なんといっても、office系ファイルなどからテキストを抜き出す、
    catdocがWindowsでは動いていないようで、売りである全文検索が
    出来ないのが現状です。
    catdocをコマンドラインなどで色々試しましたが、
    現状は、ダメです。日本語は、全て??などと
    となってしまいます。

    Linux関しては、入れてそのままの状態(JavaLucene)で
    日本語のインデキシングと検索が可能です。
    ただし、恐らくStandardAnalyzerで動いているため、
    uni-gramでの検索となっていると動きを見る限りでは
    判断できます。
    つまり、一文字検索が出来るのですが、一文字で引っかかるので、
    検索ごみが増える可能性があるということと、インデックスサイズが
    肥大化する可能性があります。

    このあたりは、状況を見ながら、対処を考えたいと思います。

    theme : Linux
    genre : コンピュータ

    knowledgeTree日本語への道筋

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    ※検索エンジンからお越しの方へ補足します。
     Windows版の日本語全文検索などで躓かれている方は、是非、左側の
     knowledgeTreeカテゴリから他のエントリをご覧ください。
     

    カテゴリ立ててしまいました。
    まだ全ての見通しが立ったわけではないのですが。

    本家からCommunity Editionを取得してきます。せっかくなので、ソースファイルではなく、
    Windowsであれば、Windows用インストーラ、LinuxであればLinux用インストーラの
    ものを取得利用することにします。
    JavaのLucene(全文検索エンジン)とPHPのLuceneが内臓されており、
    恐らく一長一短あると思うので、どちらも簡単にいかせる環境を作ります。
    また、PDFやWordのdocファイルからテキストを抜くためのcatdocなどの
    パスなどもインストーラを使えば一切気にする必要がありません。

    インストーラは非常に簡単です。
    knowledgeTreeに必要なもの(apache、tomcat、mysqlなど)が全て同梱されて
    いますので、すでにサーバにインストールされている場合は削除や停止など
    した方が良いと思います。
    インストーラ内でwebのポートやmysqlのポートを変更できますが、
    iptablesの設定変更などの作業が増えることや、パフォーマンス的に、
    重なるサービスが無駄に多く起動しているのももったいないと思います。

    Windowsは、ダブルクリックして、設問に答えて行くだけ。
    途中で、dropboxのダウンロードに関してプロフィール入力を
    促されます。
    dropboxは、Windowsクライアントからドラッグ&ドロップでファイルアップロードが
    出来るので、ダウンロードして入れてみると良いでしょう。

    Linuxの場合は、ダウンロードしたファイルに実行権限をつけて
    実行します。


    # chmod 755 ktdms-oss-3.5.4-linux-installer.bin
    # ./ktdms-oss-3.5.4-linux-installer.bin




    インストール後のサービス起動ですが、Windowsはやはり簡単。
    スタートボタンから
    すべてのプログラム>KnowledgeTree DMS Community Edition>Control>Start Services
    で必要なサービスが全て立ち上がります。
    http://FQDNまたはIPアドレス/
    でアクセスできます。

    Linuxの場合は、デフォルトのままであれば、/opt/ktdms/にインストール
    されていると思います。
    /opt/ktdms/内のdmsctl.shでサービス実行します。


    # cd /opt/ktdms/
    # ./dmsctl.sh start




    さて、何はともあれ、インターフェイスの日本語から。
    こちらで言語ファイルを取ってきます。
    ファイルメニューから入るとファイルが取得できます。
    作者様に感謝です。

    kt354jp01.zipというファイルが取得できると思います。
    この取得サイトに日本語の適用の仕方がPDFにまとめてあります。
    ドキュメントメニューから取得できます。
    重ねて感謝です。

    詳細は、上記PDFへ譲りますが、Windows、Linuxどちらもktdms/knowledgeTree/plugins
    ディレクトリ内に解凍した言語ファイルを展開します。

    adminでログイン(デフォルトパスワードはadminです)し、
    DMS Administrationメニューに入ります。
    「Miscellaneous」>「Manage plugins」
    に入り、「Reread Plugins」ボタンを押して、「japanese.plugin」にチェックを
    入れ、「Update」ボタンを押します。

    ログアウトすると、Japaneseが選択できる様になります。

    さ~てこれから。
    次回以降、全文検索に関して触れていきます。



    theme : Linux
    genre : コンピュータ

    不要サービス停止

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    いやぁ、油断すると1週間程度すぐに更新サボってしまいますね。

    なんにもしていなかったわけではなく、knowledgeTreeで色々やっていました。
    社内系のシステムは、個人的にWindowsの方が、管理する人等の
    親和性(システム親和性ではなく、気分的な親和性?)がより
    いいんじゃないかと思っており、WindowsServer2003上で悪戦苦闘しておりました。
    これは、また別のカテゴリでエントリしますが、ちょっと問題があり、
    あらためて、Linux上で組みなおしています。

    Windowsばかり触っていたので、インストールするVMイメージを新規に
    作り直して、そこに入れようかなと。

    vmwareserver2のマシンを今まで1GBでケチっていたのですが、
    2GBに増やして、CentOS5.2をいれました。
    PC2100のメモリがすでに、過去の遺物となっており、
    秋葉で探してもなかなかない。あっても5千円くらいして、
    うーんと悩んで、3千円程度でようやく見つけて購入。

    ノーブランドのせいか、最初の起動時にえらくブザーが鳴ってしまって
    嫌われたのは、気のせいということで。


    いざ、インストールして起動してふと、最近ちゃんと全てのサービスを確認して
    止めてないなと。
    うざいものから止めて行くけど、よくわからないものは放置していたので。

    それでも、最近は楽ですね。気になることをちょっとググるとすぐ見つかる。
    こちら昔はとかいうと爺みたいですが、
    こんな簡単にいかなかった、ほしい情報が何かわかるまでに数日、
    場合によっては、何年かたった後に、あれはこういうことだったのかと
    わかる。
    でも最近だと、欲しかった情報+αが手に入るから、勉強にもなるんですよね。

    こちらでは、
    スクリプトまでご提示くださっている。

    まぁ、時々、+αから脱線してしまって目的と違うことやってしまったり
    するのが、玉に瑕ですが。

    theme : Linux
    genre : コンピュータ

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    11 | 2008/12 | 01
    - 1 2 3 4 5 6
    7 8 9 10 11 12 13
    14 15 16 17 18 19 20
    21 22 23 24 25 26 27
    28 29 30 31 - - -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。