Hyper Estraier で OpenDocument & Office Open XML を検索対象にする

平林幹雄さんHyper EstraierCent OS に入れてみたりしたときの試行錯誤メモ。

OpenOffice.org の .odt, .ods, .odp なんかを検索対象にしたかったので、すこぶる簡易的なフィルタを作ってみました。
といっても、元々 zip 圧縮されている中の「content.xml」というファイルを取り出すだけで、

/usr/bin/unzip -caq "$infile" content.xml

で XML を取り出して、あとは HTML として解釈させればそれなりにいけちゃいました。
作成したフィルタスクリプト → estfx_ooo2xml.sh

ついでに MS Office 2007 の Office Open XML も

.docx の場合 /usr/bin/unzip -caq "$infile" */document.xml
.xlsx の場合 /usr/bin/unzip -caq "$infile" */sharedStrings.xml
.docx の場合 /usr/bin/unzip -caq "$infile" */slide[0-9]*.xml

という感じで、とりあえずは検索対象にすることができました。(あくまで簡易的ですけどね)

作成したフィルタスクリプト → estfx_ooxml2xml.sh


参考資料
広告
  1. コメントする

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中

%d人のブロガーが「いいね」をつけました。