OCR:扫描件转可搜索 PDF
一份扫描的 PDF,想搜个关键词、复制一段话,却怎么都选不中——因为它对电脑来说只是图片。OCR(光学字符识别)把图片里的文字「认」出来,在原扫描图上叠一层隐形文字:外观一点不变,但从此可搜索、可选中、可复制。压缩猫用浏览器本地的 WASM 引擎认中英文,文件不上传,识别全程在你这台设备上跑完。识别率取决于扫描质量——清晰印刷体最好,复杂版面、表格、手写、糊掉的低质量扫描会力不从心。
一份扫描的 PDF,想搜个关键词、复制一段话,却怎么都选不中——因为它对电脑来说只是图片。
The language data downloads on first use (~20MB for Chinese, cached by your browser). Recognition runs entirely on your device — nothing is uploaded. More pages take longer; please be patient.
OCR 可搜索化
- 1选择一个扫描件 PDF 文件。
- 2选择识别语言(中文 + 英文,或仅英文更快)。
- 3点「转为可搜索 PDF」,等待逐页识别完成(首次会下载语言包)。
- 4下载结果,新的 PDF 可直接搜索 / 复制文字。
OCR 可搜索化
- 叠的是隐形文字层,原图原样保留:看上去和扫描件一模一样,但 Ctrl+F 能搜到、能整段复制走,不是把页面重排成新文档。
- 整套识别在你的浏览器里用 tesseract 引擎跑,病历、证件、合同这类扫描件不经过任何服务器。
- 中文简体 + 英文都认,覆盖大多数办公扫描件;纯英文文档可切「仅英文」,更快。
Frequently asked questions
清晰的印刷体(扫描或拍照都行)识别率最高。复杂多栏排版、表格、手写体,以及发虚、倾斜、过暗的低质量扫描,识别率明显下降——这是浏览器端 OCR 的能力边界,结果建议复核。
首次要下载语言包(中文约 20MB),浏览器会缓存,之后再用就快了。整体速度也看页数和你设备的性能。
认。默认「中文简体 + 英文」一起识别;如果文档是纯英文,切到「仅英文」会更快。
能。OCR 出的是带文字层的可搜索 PDF,可以接着用压缩猫的「PDF 转 Word」把文字提成可编辑的 .docx。
Turn it into an automated flow
Need to batch-process, or chain several steps? Use the workflow builder to combine compress, merge, rotate and watermark into a reusable pipeline.
Updated · compress cat team
Sources, review and limits
Last verified
2026-06-17
Author
PDFFlow editorial desk
Reviewer
PDF processing review
Primary sources
- PDF.js, pdf-lib style local PDF processing where used
- Browser file and download APIs
- User-provided PDF files processed locally unless a page explicitly states otherwise
PDF tools are productivity helpers, not legal, compliance or records-retention advice. Review exported documents before signing, filing or sharing.