こんどはMsWordからテキストを抽出する方法を記します
MsWordも複数のXMLファイルをZIPで固めた物です。拡張子を「xlsx」から「zip」に変えるだけで、解凍できます。
「fig.docx」から「fig.zip」に変換した例を記します。
ディレクトリ「word」内の「document.xml」が文書の本体です
「document.xml」の中です
<w:p>タグで囲まれた範囲が文書の1行になります。
<w:t>タグで囲まれた範囲が文書内の文字データです、これを集めるとMsWordから文字データを抽出できます
0 件のコメント:
コメントを投稿