スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    knowledgeTreeでdocdiffを良く使うために(2)

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    docdiffをより良く使うために試行錯誤していますが、
    pptをunoconvでxmlに変換してテキストを抜き出すと
    どうしても改行がうまく得られず、docdiffで差分をとったとき、
    全体がひとつの行として比較されてしまい、実用的に
    ちょっと苦しいです。
    そこで、単純ではありますが、tagfilterをpptの場合だけ
    分けて、下記のソースに変えてみました。


    import sys, sgmllib


    class Stripper(sgmllib.SGMLParser):
    def __init__(self):
    sgmllib.SGMLParser.__init__(self)

    def strip(self, some_html):
    self.theString = ""
    self.feed(some_html)
    self.close()
    return self.theString

    def handle_data(self, data):
    self.theString += data
    self.theString += "\r\n"

    stripper = Stripper()

    for line in sys.stdin:
    print stripper.strip( line )



    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    05 | 2017/06 | 07
    - - - - 1 2 3
    4 5 6 7 8 9 10
    11 12 13 14 15 16 17
    18 19 20 21 22 23 24
    25 26 27 28 29 30 -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。