スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    Windowsでのテキスト抜き出し

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    Windows版でエクストラクタがうまく動いてくれないまま
    結構たってしまったが、アプローチが見えてきた(可能性が
    あったのに、掘り下げていなかっただけか)

    以前触れたunoconvこれが、よさそう。
    pythonのスクリプトだが、OOoには、pythonが
    含まれており、実行しやすそう。
    こういうのもあったので、単独の実行ファイル化も出来ると
    思うが、まずは動作するかどうか。

    knowledgeTreeをインストールしたWindows2003上のコマンドラインで下記の様にしてみた。
    ※残念ながらテキストフォーマット txtはうまくいかなかった。


    "C:\Program Files\ktdms\openoffice\program\python" unoconv -p 8100 -f html ファイル名


    ※OOoがサービスで動いている必要があります。8100は、稼動ポート。

    htmlファイルが生成されるこの時、遷移のための枠組みとしてのhtmlとimageが
    吐き出されるが、目的の物は、text○○.html
    内容を確認したら、問題なくテキストを取り出せる状態だった
    しかもUTF-8(当然かもしれないが)。言うことがない。
    HTMLのタグだけ除去して、複数ファイルで(ページごとになっている)生成される
    状況を何とかできれば、エクストラクタの差し替えだけでいける様になる。

    もうひとふん張り。

    一点、使用目的が自社内のみなど特定条件下であれば、
    xdoc2txtを用いてUTF-8に変換するほうが、早いと思います。
    作者様に感謝しつつ利用しましょう。

    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    05 | 2017/06 | 07
    - - - - 1 2 3
    4 5 6 7 8 9 10
    11 12 13 14 15 16 17
    18 19 20 21 22 23 24
    25 26 27 28 29 30 -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。