平林幹雄さんの Hyper Estraier を Cent OS に入れてみたりしたときの試行錯誤メモ。
OpenOffice.org の .odt, .ods, .odp なんかを検索対象にしたかったので、すこぶる簡易的なフィルタを作ってみました。
といっても、元々 zip 圧縮されている中の「content.xml」というファイルを取り出すだけで、
/usr/bin/unzip -caq "$infile" content.xml
で XML を取り出して、あとは HTML として解釈させればそれなりにいけちゃいました。
作成したフィルタスクリプト → estfx_ooo2xml.sh
ついでに MS Office 2007 の Office Open XML も
.docx の場合 /usr/bin/unzip -caq "$infile" */document.xml
.xlsx の場合
/usr/bin/unzip -caq "$infile" */sharedStrings.xml
.docx の場合
/usr/bin/unzip -caq "$infile" */slide[0-9]*.xml
という感じで、とりあえずは検索対象にすることができました。(あくまで簡易的ですけどね)
作成したフィルタスクリプト → estfx_ooxml2xml.sh
参考資料
- Hyper Estraier 付属のフィルタ
- 日経パソコンオンライン, 「新しい標準ファイル形式「XML」(第2回)」
- ITmedia Biz.ID, 「Office 2007のファイルを何とか開く」