PythonでPDFを読み込みテキストを抽出する（PyMuPDF）

業務効率化・自動化の事例として、PythonでPDFを読み込みテキストを抽出する方法を解説します。

使用ライブラリ
PDFファイルからテキストを抽出してExcelに出力する
プログラム解説

使用ライブラリ

PythonでPDFファイルを操作するライブラリはPyMuPDF, PyPDF2, PDFminer などがあります。
それぞれのライブラリで得意とする操作が異なるため使い分けていきます。

特に日本語のPDFを読み込みテキストを抽出する場合は PyMuPDF や PDFminer を利用する必要があります。PyPDF2 では日本語に対応しておらず文字化けしてしまいます。

ライブラリ使い分けをまとめると以下のようになります。

今回は PyMuPDF でPDFのテキストデータを取得する方法を解説します。

ライブラリ　：PyMuPDF（公式ドキュメント）
インストール：必要

ライブラリ　：openpyxl（公式ドキュメント）
インストール：必要

PyMuPDFとopenpyxlの基本的な使い方については以下の記事を参考にしてください。
・関連記事：PyMuPDFの基本的な使い方
・関連記事：PythonでExcelファイルを操作する（openpyxl）

pipコマンドでライブラリをインストールします。
・関連記事：Pythonライブラリのインストール(pipの使い方)

python -m pip install pymupdf openpyxl

Successfully installed ・・・・と表示されればインストールは成功です。（依存関係のある他のライブラリも同時にインストールされます。）

PDFファイルからテキストを抽出してExcelに出力する

１個のPDFファイルからテキストを抽出する方法です。ここでは統計局の『高等学校における「情報II」のためのデータサイエンス・データ解析入門』の第１章テキストを利用させていただきました。

以下がPDFファイルのテキストデータを１ページずつ読み込み、Excelファイルに出力するプログラムです。対象のPDFファイル名は sample.pdf としています。

# １：ライブラリ設定
import fitz # pymupdfライブラリ
import openpyxl as px 
from openpyxl.styles import Alignment

# ２：PDFテキストを格納するリスト作成
txt_list = []

# ３：PDFファイルを読み込む
filename = 'sample.pdf'
doc = fitz.open(filename)

# ４：１ページずつテキストデータを取得
for page in range(len(doc)):
    text = doc[page].get_text()
    text = text.replace('\n', '')
    txt_list.append([page+1,text])

# ５：新しいExcelファイルを作成
wb = px.Workbook()
ws = wb.active

# ６：Excelの書式設定
my_alignment=Alignment(vertical='top', wrap_text=True)
ws.column_dimensions['B'].width = 100

# ７：Excelのヘッダーを出力
headers = ['ページ', '内容']
for i, header in enumerate(headers):
    ws.cell(row=1, column=1+i, value=headers[i])

# ８：ExcelにPDFのテキストを出力
for y, row in enumerate(txt_list):
    for x, cell in enumerate(row):
        ws.cell(row= y+2, column= x+1, value=cell)
        ws.cell(row= y+2, column= x+1).alignment = my_alignment

# ９：Excelファイルの保存
xlname = filename.split('.')[0] + '_excel.xlsx'
wb.save(xlname)

# １：ライブラリ設定

import fitz # pymupdfライブラリ

import openpyxl as px

from openpyxl.styles import Alignment

# ２：PDFテキストを格納するリスト作成

txt_list = []

# ３：PDFファイルを読み込む

filename = 'sample.pdf'

doc = fitz.open(filename)

# ４：１ページずつテキストデータを取得

for page in range(len(doc)):

text = doc[page].get_text()

text = text.replace('\n', '')

txt_list.append([page+1,text])

# ５：新しいExcelファイルを作成

wb = px.Workbook()

ws = wb.active

# ６：Excelの書式設定

my_alignment=Alignment(vertical='top', wrap_text=True)

ws.column_dimensions['B'].width = 100

# ７：Excelのヘッダーを出力

headers = ['ページ', '内容']

for i, header in enumerate(headers):

ws.cell(row=1, column=1+i, value=headers[i])

# ８：ExcelにPDFのテキストを出力

for y, row in enumerate(txt_list):

for x, cell in enumerate(row):

ws.cell(row= y+2, column= x+1, value=cell)

ws.cell(row= y+2, column= x+1).alignment = my_alignment

# ９：Excelファイルの保存

xlname = filename.split('.')[0] + '_excel.xlsx'

wb.save(xlname)

出力されるExcelは以下のようになります。A列にページ番号、B列にテキストを保存しています。

プログラム解説

プログラムのポイントを解説します。

１：ライブラリ設定

# １：ライブラリ設定
import fitz 
import openpyxl as px 
from openpyxl.styles import Alignment

# １：ライブラリ設定

import fitz

import openpyxl as px

from openpyxl.styles import Alignment

PyMuPDFライブラリを使用するには、fitzをインポートします。（歴史的な理由によりこのように呼び出します）
Excel操作用にopenpyxl、列の幅を変更するAlignmentメソッドを呼び出します。
・参考記事：PythonでExcelファイルを操作する（openpyxl）

２：PDFテキストを格納するリスト作成

# ２：PDFのテキストを格納するリスト作成
txt_list = []

1 2	# ２：PDFのテキストを格納するリスト作成 txt_list = []

テキストデータ格納用のリストを作成します。

３：PDFファイルを読み込む

# ３：PDFファイルを読み込む
filename = 'sample.pdf'
doc = fitz.open(filename)

# ３：PDFファイルを読み込む

filename = 'sample.pdf'

doc = fitz.open(filename)

１行ずつ解説していきます。

filename = ‘sample.pdf’

今回はsample.pdfという名称のPDFを読み込みます。
違うファイル名を読み込む場合は、ここを読み込みたいファイル名に変更する必要があります。

doc = fitz.open(filename)

PyMuPDFのfitz.open()メソッドでPDFファイルを読み込みます。

４：１ページずつテキストデータを取得

# ４：１ページずつ読み込み
for page in range(len(doc)):
    text = doc[page].get_text()
    text = text.replace('\n', '')
    txt_list.append([page+1,text])

# ４：１ページずつ読み込み

for page in range(len(doc)):

text = doc[page].get_text()

text = text.replace('\n', '')

txt_list.append([page+1,text])

１行ずつ解説していきます。

for page in range(len(doc)):

len(doc)でページ数を取得して、１ページずつfor文でループ処理します。ページはインデックス番号で0から始まるため注意してください。（ページ１＝インデックス番号０）

for 文の使い方については以下の記事を参照してください。
・関連記事：繰り返し処理（for文）

text = doc[page].get_text()

doc[インデックス番号]でページを指定してget_text()メソッドでテキストデータを抽出します。

text = text.replace(‘\n’, ”)

文章内の改行を削除する場合は、取得したテキストの「\n」を「”」で置換します。改行を残しておきたい場合はこの行は不要です。

txt_list.append([page+1,text])

取得したテキストデータをtxt_listに追加していきます。ここではページ数と合わせてリスト内リストとして格納しています。インデックス番号をページ数に合わせる為に１を足しています。
１ページ毎に以下のようなリストになります。
[1, ‘- 1 – 第 1 章データサイエ…いるかを理解する。 ‘]
[2, ‘- 2 – 人の動きが減少した一方で…ます。　　　　’]
これらのリストを追加するため、txt_listはリスト内リストになります。

txt_list =
[[1, ‘- 1 – 第 1 章データサイエ…いるかを理解する。 ‘],
[2, ‘- 2 – 人の動きが減少した一方で…ます。　　　　’],
…
[23, ‘- 23 – 道路、橋、送電線。私た…ラ　金融業　流通業’]]

５：新しいExcelファイルを作成

# ５：新しいExcelファイルを作成
wb = px.Workbook()
ws = wb.active

# ５：新しいExcelファイルを作成

wb = px.Workbook()

ws = wb.active

新しいExcelファイルを作成してブックをwb、wbのアクティブなシートをwsと設定します。

・関連記事：PythonでExcelファイルを読み書きする（openpyxl）

６：Excelの書式設定

# ６：Excelの書式設定
my_alignment=Alignment(vertical='top', wrap_text=True)
ws.column_dimensions['B'].width = 100

# ６：Excelの書式設定

my_alignment=Alignment(vertical='top', wrap_text=True)

ws.column_dimensions['B'].width = 100

my_alignmentに書式設定を保存します。ここではセル内で上揃えと文字の折返しを許可する設定を行っています。またB列にテキストを保存するため、読みやすくするためにセル幅を100に設定しています。好みによって数字を変更して下さい。

・参考記事：【Python×Excel】openpyxlでセルの書式設定(配置・保護・表示形式・スタイル定義)する【後編】
・参考記事：PythonでOpenPyXLを使いExcelの行と列について色々な設定をする方法

７：Excelのヘッダーを出力

# ７：Excelのヘッダーを出力
headers = ['ページ', '内容']
for i, header in enumerate(headers):
    ws.cell(row=1, column=1+i, value=headers[i])

# ７：Excelのヘッダーを出力

headers = ['ページ', '内容']

for i, header in enumerate(headers):

ws.cell(row=1, column=1+i, value=headers[i])

ヘッダー用リストheadersを作成し、リストをfor文で処理することにより５で作成したワークシートのセルA1, A2にヘッダーを書き込みます。enumerate(リスト)を使用することでインデックス番号も同時に取得することが可能です。

・参考記事：リスト（リストの要素をfor分で取得する）

８：ExcelにPDFのテキストを出力

# ８：ExcelにPDFのテキストを出力
for y, row in enumerate(txt_list):
    for x, cell in enumerate(row):
        ws.cell(row= y+2, column= x+1, value=cell)
        ws.cell(row= y+2, column= x+1).alignment = my_alignment

# ８：ExcelにPDFのテキストを出力

for y, row in enumerate(txt_list):

for x, cell in enumerate(row):

ws.cell(row= y+2, column= x+1, value=cell)

ws.cell(row= y+2, column= x+1).alignment = my_alignment

３で取得したPDFのテキスト内容のリストtxt_listをExcelに書き出します。

ポイントを解説します。

for y, row in enumerate(txt_list):

txt_listはリスト内リストになっているため、まず１ページ毎のリストのインデックスと内容をrowに格納します。
y=0 の時のrowは以下になります。
row = [1, ‘- 1 – 第 1 章データサイエ…いるかを理解する。 ‘]
このリストをさらに次のfor文で処理していきます。

for x, cell in enumerate(row):
ws.cell(row= y+2, column= x+1, value=cell)
ws.cell(row= y+2, column= x+1).alignment = my_alignment

x=0の時、row=2, column=1 → A2 にcellの内容 ‘1’ を書き込みます。
次にx=1の時、row=2, column=2 → B2 に’- 1 – 第 1 章データサイエ…いるかを理解する。 ‘を書き込みます。
またws.cell().alignmentで上揃えと文字の折返しを適用しています。

９：Excelファイルの保存

# ９：Excelファイルの保存
xlname = filename.split('.')[0] + '_excel.xlsx'
wb.save(xlname)

# ９：Excelファイルの保存

xlname = filename.split('.')[0] + '_excel.xlsx'

wb.save(xlname)

最後にExcelファイルを保存します。

xlname = filename.split(‘.’)[0] + ‘_excel.xlsx’

PDFのファイル名「sample.pdf」から拡張子抜きの文字列を取得し、保存するファイル名をsample_excel.xlsxと設定します。
filename.split('.') で [‘sample’, ‘pdf’] のリストを取得し[0]で１番目の要素を取り出しています。

・関連記事：文字列処理ー文字列の分割（split）

wb.save(xlname)

設定したファイル名でExcelファイルを保存します。

PythonでPDFのテキストを抽出する方法を解説しました。