2017年3月4日土曜日

Wordから文字を抽出する方法

こんどはMsWordからテキストを抽出する方法を記します

MsWordも複数のXMLファイルをZIPで固めた物です。拡張子を「xlsx」から「zip」に変えるだけで、解凍できます。

「fig.docx」から「fig.zip」に変換した例を記します。

 
 


 ディレクトリ「word」内の「document.xml」が文書の本体です


 「document.xml」の中です

<w:p>タグで囲まれた範囲が文書の1行になります。
<w:t>タグで囲まれた範囲が文書内の文字データです、これを集めるとMsWordから文字データを抽出できます


0 件のコメント:

コメントを投稿