All checks were successful
Build / build (push) Successful in 6m19s
19 lines
566 B
Markdown
19 lines
566 B
Markdown
---
|
|
date: 2025-10-25 21:11
|
|
---
|
|
#software
|
|
|
|
tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。
|
|
|
|
書類回転方向の自動識別とかもある。
|
|
|
|
ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。
|
|
|
|
- `--remove-background`
|
|
- `--deskew`
|
|
- `--oversample`
|
|
|
|
など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな
|
|
|
|
あった。 `--tesseract-timeout SECONDS`
|