プログラムオタクです: Wordから文字を抽出する方法

2017年3月4日土曜日

Wordから文字を抽出する方法

こんどはMsWordからテキストを抽出する方法を記します

MsWordも複数のXMLファイルをZIPで固めた物です。拡張子を「xlsx」から「zip」に変えるだけで、解凍できます。

「fig.docx」から「fig.zip」に変換した例を記します。

ディレクトリ「word」内の「document.xml」が文書の本体です

「document.xml」の中です

<w:p>タグで囲まれた範囲が文書の１行になります。
<w:t>タグで囲まれた範囲が文書内の文字データです、これを集めるとMsWordから文字データを抽出できます

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)