Files
松浦 知也 Matsuura Tomoya 7b870d40c1
All checks were successful
Build / build (push) Successful in 6m19s
[obsidian] vault backup: 2025-10-25 21:17:17
2025-10-25 21:17:18 -04:00

19 lines
566 B
Markdown

---
date: 2025-10-25 21:11
---
#software
tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。
書類回転方向の自動識別とかもある。
ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。
- `--remove-background`
- `--deskew`
- `--oversample`
など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな
あった。 `--tesseract-timeout SECONDS`