参考url
- https://github.com/tesseract-ocr/tesseract
- https://www.kkaneko.jp/ai/win/tesseract5.html
- Python+Tesseractによる画像処理でOCRを試してみた! – 株式会社ライトコード
download binary for win
https://github.com/UB-Mannheim/tesseract/wiki から tesseract-ocr-w64-setup-5.3.0.20221222.exe をダウンロード
install tesseract
インストーラを実行後、途中、「Choose Components」の 「Additional script data」「Additional language date」以下に 日本語関連のオプションがありますので、これを選択する程度です。
ocr 実行
DOS> "C:\Program Files\Tesseract-OCR\tesseract.exe" cad_image.tif outbase -l jpn DOS> less outbase.txt
高精度学習データは、私の場合、効果がありませんでした
※1,2にある高精度学習データを ※3に配備することで 高精度になるような情報がインターネット上にありましたが、 私の場合、効果がありませんでした
- ※1 https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn.traineddata
- ※2 https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn_vert.traineddata
- ※3 C:/Program Files/Tesseract-OCR/tessdata