ファイルの全文字列を抽出したいからpythonツールを作ってみた(PPT&Excel編)

pythonツールアイキャッチ
Pocket

はじめに

自然言語処理のAI案件に関わっていると、ファイルに記述されている文字列を抽出して利用したい時があります。ファイル数や文字列の量が少なければ手動でコピペをすれば良いのですが、大量に扱う時は、堪ったものではありません。そんな時は、ツールを使えば簡単に短時間でファイル中の全文字列を抽出することが出来ます。今回はPPT&Excelの文字抽出ツールをご紹介します。

PPTツールについて

サンプルコード

PPTの文字抽出は、pptxパッケージのPresentationsを使います。

サンプルコードはこちらになります。

ツール実行および結果

sample.pptxを用意して、実際に文字抽出できるか確認します。

PPTXサンプル
sample.pptx

実行してみます。

PPTXサンプル実行
PPTXツール実行結果

みごと文字抽出ができました。

Excelツールについて

サンプルコード

Excelの文字抽出は、openpyxlパッケージを使います。

サンプルコードはこちらになります。

ツール実行および結果

sample.xlsxを用意して、実際に文字抽出できるか確認します。(sheet1とsheet2を用意します。)

実行してみます。

EXCELサンプル実行
Excelツール実行結果

みごと文字抽出ができました。

まとめ

ファイルの文字抽出をするpythonツールをご紹介しました。ファイル毎に実行するツールでしたが、もっと大量のファイルを扱う場合は、処理の初めに複数のファイルパスを配列に格納して、ループ処理でツールを実行する作りにしても良いと思います。

掲載したサンプルコードをコピペして、ご自身の状況に合わせてカスタマイズして使ってみてください。

お問い合わせ先

執筆者プロフィール

Akahori Yuu
Akahori Yuutdi AI&データマネジメント推進部
配属当初はインフラエンジニア。ちょっと前に、ブロックチェーン(HyperledgerFabric)の案件にも参画。今はIBM Watsonを軸に、コンサルタント・開発を行っています。
Pocket

関連記事