スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    knowledgetree Windows版 tagfilter

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録

    前回までで、日本語の検索が可能なところまで触れましたが、
    xmlのタグが残ったままでした。

    こちらを参考にタグを除去するコマンドをかませてみました。

    C:\Program Files\ktdms\openoffice\program\tagfilter
    として、下記の内容を保存しました。


    import sys, sgmllib

    class Stripper(sgmllib.SGMLParser):
    def __init__(self):
    sgmllib.SGMLParser.__init__(self)

    def strip(self, some_html):
    self.theString = ""
    self.feed(some_html)
    self.close()
    return self.theString

    def handle_data(self, data):
    self.theString += data

    stripper = Stripper()

    for line in sys.stdin:
    print stripper.strip( line )




    前回のunoconvをunoconv_pptとして、
    バッチファイルをunoconv_ppt.batとして下記の内容のバッチファイルで
    config.iniに登録しています。



    @echo off

    @echo off

    rem check, whether we have extended features
    if "%CMDEXTVERSION%"=="" goto win98

    setlocal
    set MYROOT=%~d0%~p0
    set PATH=%PATH%;%MYROOT%
    set PYTHONPATH=%MYROOT%;%MYROOT%python-core-2.3.4\lib;%MYROOT%python-core-2.3.4\lib\site-packages
    set PYTHONHOME=%MYROOT%python-core-2.3.4
    "%MYROOT%python-core-2.3.4\bin\python.exe" "C:\Program Files\ktdms\openoffice\program\unoconv_ppt" %* | "%MYROOT%python-core-2.3.4\bin\python.exe" "C:\Program Files\ktdms\openoffice\program\tagfilter"
    endlocal

    goto ende

    :win98
    set OLD_PATH=%PATH%
    set MY_PYTHON_ROOT=C:\Program Files\OpenOffice.org 2.3\program
    set PATH=%PATH%;"%MY_PYTHON_ROOT%"
    set PYTHONPATH=%MY_PYTHON_ROOT%;%MY_PYTHON_ROOT%\python-core-2.3.4\lib;%MYROOT%python-core-2.3.4\lib\site-packages
    set PYTHONHOME=%MY_PYTHON_ROOT%\python-core-2.3.4
    "%MY_PYTHON_ROOT%\python-core-2.3.4\bin\python.exe" "C:\Program Files\ktdms\openoffice\program\unoconv_ppt" %1 %2 %3 %4 %5 %6 %7 %8 %9 | "%MYROOT%python-core-2.3.4\bin\python.exe" "C:\Program Files\ktdms\openoffice\program\tagfilter"
    set PATH=%OLD_PATH%
    :ende



    これで、タグが除去されてすっきりしました。
    冒頭部に多少残ってしまいますが、現状では大きな害はないと
    判断しています。
    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    09 | 2017/10 | 11
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28
    29 30 31 - - - -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。