[obsidian] vault backup: 2025-10-25 21:17:17
All checks were successful
Build / build (push) Successful in 6m19s

This commit is contained in:
2025-10-25 21:17:18 -04:00
parent c150fd6a89
commit 7b870d40c1
4 changed files with 43 additions and 1 deletions

18
content/OCRmyPDF.md Normal file
View File

@@ -0,0 +1,18 @@
---
date: 2025-10-25 21:11
---
#software
tesseractとかが中で動いているっぽい、PDFのOCR化に特化したツール。
書類回転方向の自動識別とかもある。
ChatGPTに聞いて使ったところ、ヘルプとしてもオプション出るけどなんか使えなかったオプションがたくさんあって謎。
- `--remove-background`
- `--deskew`
- `--oversample`
など。あとOCRに時間かかりすぎると普通にタイムアウトするっぽい。設定あるのかな
あった。 `--tesseract-timeout SECONDS`