スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    knowledgeTree Windowsでのdocdiff

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    ここ1週間何年かぶりにひどい風邪を引いた。
    鼻水がとまらず、鼻のかみすぎで、ひりひりするし、
    鼻が詰まるのに、喉が呼吸をするのにも痛む始末。
    ようやく楽にはなってきたけど。
    問う言うわけで先月はやたらにサボってしまいました。

    さて、本題。
    ちょっと遅くなってしまいましたが、Windows版のKnowledgeTree上で、
    kazさん作のdocdiffの動作を確認したので報告します。
    ダウンロードは、こちら

    手順が丁寧に載っているので、仔細は割愛します。

    動作させた結果としては、
    Windows版で私の作成した日本語検索パッケージが
    改行コードを適当に消してしまっているので、
    ちょっと大変なことになります。(1行がすごい長いため、
    ちょっとした差分箇所を画面上で特定するのが困難)

    差分はキチンと取れているようなので、私の方のエクストラクタと
    タグのフィルターを改善したいと思います。(当たり前)

    現状、手抜きもあって、unoconvで、xml(UTF8になるし)にして
    いますが、丁寧に処理するためにも、xls→csv→UTF8変換、
    doc・ppt→html→UTF8変換などの手順で変換して、
    タグを取り出す様に直そうかと悩んでいます。
    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    文字単位のdiffが出来ればいいんですけど

    わざわざ試してもらって済みません。

    インデックスするだけだと改行は要らないんですけど、diffを取る場合には(現状では)必要ですね。

    改行が無くても差分が取れるdiffのアルゴリズムもあって、"diff 文字単位"で検索すると色々出てくるんですけど、実装には至ってません。

    Re: 文字単位のdiffが出来ればいいんですけど

    > わざわざ試してもらって済みません。
    >
    > インデックスするだけだと改行は要らないんですけど、diffを取る場合には(現状では)必要ですね。
    >
    > 改行が無くても差分が取れるdiffのアルゴリズムもあって、"diff 文字単位"で検索すると色々出てくるんですけど、実装には至ってません。
    kazuさんコメントありがとうございます。
    現時点では改行コード含めてエクストラクタ側で整えるべきだと
    思っています。
    試行錯誤してみます。
    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    09 | 2017/10 | 11
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28
    29 30 31 - - - -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。