Hyper Estraier で OpenDocument & Office Open XML を検索対象にする

平林幹雄さんHyper EstraierCent OS に入れてみたりしたときの試行錯誤メモ。

OpenOffice.org の .odt, .ods, .odp なんかを検索対象にしたかったので、すこぶる簡易的なフィルタを作ってみました。
といっても、元々 zip 圧縮されている中の「content.xml」というファイルを取り出すだけで、

/usr/bin/unzip -caq "$infile" content.xml

で XML を取り出して、あとは HTML として解釈させればそれなりにいけちゃいました。
作成したフィルタスクリプト → estfx_ooo2xml.sh

ついでに MS Office 2007 の Office Open XML も

.docx の場合 /usr/bin/unzip -caq "$infile" */document.xml
.xlsx の場合 /usr/bin/unzip -caq "$infile" */sharedStrings.xml
.docx の場合 /usr/bin/unzip -caq "$infile" */slide[0-9]*.xml

という感じで、とりあえずは検索対象にすることができました。(あくまで簡易的ですけどね)

作成したフィルタスクリプト → estfx_ooxml2xml.sh


参考資料
  1. コメントする

コメントを残す