Files
quartz-research-note/content/OCRmyPDF.md

19 lines
566 B
Markdown

---
date: 2025-10-25 21:11
---
#software
tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。
書類回転方向の自動識別とかもある。
ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。
- `--remove-background`
- `--deskew`
- `--oversample`
など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな
あった。 `--tesseract-timeout SECONDS`