pdfからテキストを剥ぐ場合の文字化けは、闘っても無駄なときもあります。その場合は、今時、OCRでしょう。
pdfからテキストを剥ぐ場合の文字化け
- フォントとか、
- 文字コードとか、
- そもそも、pdfにどうデータが格納されているか
いろいろあって、テキストに素直にならない場合は、沢山あります。
一瞬+α(二瞬)で、ocrが使えます。
ワタシは、windows10です。
from PIL import Image import pyocr import os path_tesseract = "C:\Program Files\Tesseract-OCR" if path_tesseract not in os.environ["PATH"].split(os.pathsep): os.environ["PATH"] += os.pathsep + path_tesseract # OCRエンジンを取得 engines = pyocr.get_available_tools() print(engines) engine = engines[0] # 画像の文字を読み込む txt = engine.image_to_string(Image.open('ocr_he.png'), lang="eng") print(txt) # 「Test Message」が出力される
上記は、 以下のコードとかをパクッて(参考にさせて頂いて)います。 https://qiita.com/eiji-noguchi/items/c19c1e125eaa87c3616b
tesseractのインストールが必要です。
そのインストールには、下記が参考になるはず。ワタシは、64bitでやりました。日本語は、今回はいらなかったので、日本語は試していません。
gammasoft.jp
コメント
特にありません。300とか500単語ぐらいのちょっとした文章は、当然、完璧に読み取れました(そういう時代ですね。。。)