Processed in your browser · no upload

OCR：扫描件转可搜索 PDF

一份扫描的 PDF，想搜个关键词、复制一段话，却怎么都选不中——因为它对电脑来说只是图片。OCR（光学字符识别）把图片里的文字「认」出来，在原扫描图上叠一层隐形文字：外观一点不变，但从此可搜索、可选中、可复制。压缩猫用浏览器本地的 WASM 引擎认中英文，文件不上传，识别全程在你这台设备上跑完。识别率取决于扫描质量——清晰印刷体最好，复杂版面、表格、手写、糊掉的低质量扫描会力不从心。

一份扫描的 PDF，想搜个关键词、复制一段话，却怎么都选不中——因为它对电脑来说只是图片。

Drag & drop or click to select filesFiles are processed locally in your browser, never uploaded

文件只在你的浏览器处理，从不上传Recognition language

The language data downloads on first use (~20MB for Chinese, cached by your browser). Recognition runs entirely on your device — nothing is uploaded. More pages take longer; please be patient.

OCR 可搜索化

1选择一个扫描件 PDF 文件。
2选择识别语言（中文 + 英文，或仅英文更快）。
3点「转为可搜索 PDF」，等待逐页识别完成（首次会下载语言包）。
4下载结果，新的 PDF 可直接搜索 / 复制文字。

OCR 可搜索化

叠的是隐形文字层，原图原样保留：看上去和扫描件一模一样，但 Ctrl+F 能搜到、能整段复制走，不是把页面重排成新文档。
整套识别在你的浏览器里用 tesseract 引擎跑，病历、证件、合同这类扫描件不经过任何服务器。
中文简体 + 英文都认，覆盖大多数办公扫描件；纯英文文档可切「仅英文」，更快。

Frequently asked questions

清晰的印刷体（扫描或拍照都行）识别率最高。复杂多栏排版、表格、手写体，以及发虚、倾斜、过暗的低质量扫描，识别率明显下降——这是浏览器端 OCR 的能力边界，结果建议复核。

首次要下载语言包（中文约 20MB），浏览器会缓存，之后再用就快了。整体速度也看页数和你设备的性能。

认。默认「中文简体 + 英文」一起识别；如果文档是纯英文，切到「仅英文」会更快。

能。OCR 出的是带文字层的可搜索 PDF，可以接着用压缩猫的「PDF 转 Word」把文字提成可编辑的 .docx。

Turn it into an automated flow

Need to batch-process, or chain several steps? Use the workflow builder to combine compress, merge, rotate and watermark into a reusable pipeline.

Updated 2026-06-10 · compress cat team

Sources, review and limits

Last verified

2026-06-17

Author

PDFFlow editorial desk

Reviewer

PDF processing review

Primary sources

PDF.js, pdf-lib style local PDF processing where used
Browser file and download APIs
User-provided PDF files processed locally unless a page explicitly states otherwise

PDF tools are productivity helpers, not legal, compliance or records-retention advice. Review exported documents before signing, filing or sharing.