fanta_orange_grapeの(日記というより)記事のつもり

いままでの人生で一番美味しかったもの = 紅茶とトースト(高校生)。

pdfからテキストを剥ぐ場合の文字化けは、闘っても無駄なときもあります。その場合は、今時、OCRでしょう。

pdfからテキストを剥ぐ場合の文字化けは、闘っても無駄なときもあります。その場合は、今時、OCRでしょう。

pdfからテキストを剥ぐ場合の文字化け

  • フォントとか、
  • 文字コードとか、
  • そもそも、pdfにどうデータが格納されているか

いろいろあって、テキストに素直にならない場合は、沢山あります。

一瞬+α(二瞬)で、ocrが使えます。

ワタシは、windows10です。

from PIL import Image
import pyocr
import os

path_tesseract = "C:\Program Files\Tesseract-OCR"
if path_tesseract not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + path_tesseract


# OCRエンジンを取得
engines = pyocr.get_available_tools()
print(engines)
engine = engines[0]

# 画像の文字を読み込む
txt = engine.image_to_string(Image.open('ocr_he.png'), lang="eng")
print(txt) # 「Test Message」が出力される

上記は、 以下のコードとかをパクッて(参考にさせて頂いて)います。 https://qiita.com/eiji-noguchi/items/c19c1e125eaa87c3616b

tesseractのインストールが必要です。

そのインストールには、下記が参考になるはず。ワタシは、64bitでやりました。日本語は、今回はいらなかったので、日本語は試していません。
gammasoft.jp

コメント

特にありません。300とか500単語ぐらいのちょっとした文章は、当然、完璧に読み取れました(そういう時代ですね。。。)