スポンサーサイト

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    docdiffをよりよく使うために

  • このエントリーを含むはてなブックマーク
  • Yahoo!ブックマークに登録
    前回の続きですが、docdiffをよりよく使うために
    日本語検索パッケージのtagfilterとエクストラクタの
    調整をしていました。
    pptに関しては難題が多く解決していないのですが、
    xlsに関しては、エクストラクタのunoconvの変換フォーマットを
    htmlに変更して、tagfilterを下記の様にutf8への変換を
    するように変更すると改行がキチンと入りdocdiffが
    良く生きてきます。


    import sys, sgmllib, codecs

    sys.stdin = codecs.getreader('mbcs')(sys.stdin)
    sys.stdout = codecs.getwriter('utf_8')(sys.stdout)

    class Stripper(sgmllib.SGMLParser):
    def __init__(self):
    sgmllib.SGMLParser.__init__(self)

    def strip(self, some_html):
    self.theString = ""
    self.feed(some_html)
    self.close()
    return self.theString

    def handle_data(self, data):
    self.theString += data

    stripper = Stripper()

    for line in sys.stdin:
    print stripper.strip( line ),




    スポンサーサイト

    theme : Linux
    genre : コンピュータ

    comment

    Secret

    ご案内
    google検索
    カスタム検索
    カテゴリ
    最新記事
    Amazon
    カテゴリー&RSS
    RSS新着情報

    plugin by F.B

    検索フォーム
    最近のコメント(コンパクト)
    データ取得中...
    リンク
    フリーエリア
    RSSリンクの表示
    カレンダー
    05 | 2017/06 | 07
    - - - - 1 2 3
    4 5 6 7 8 9 10
    11 12 13 14 15 16 17
    18 19 20 21 22 23 24
    25 26 27 28 29 30 -
    ブックマーク
    Yahoo!ブックマークに登録
  • | このエントリーを含むはてなブックマーク
  • 月別アーカイブ
    最新トラックバック
    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。