Files
松浦 知也 Matsuura Tomoya 7b870d40c1
All checks were successful
Build / build (push) Successful in 6m19s
[obsidian] vault backup: 2025-10-25 21:17:17
2025-10-25 21:17:18 -04:00

566 B

date
date
2025-10-25 21:11

#software

tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。

書類回転方向の自動識別とかもある。

ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。

  • --remove-background
  • --deskew
  • --oversample

など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな

あった。 --tesseract-timeout SECONDS