跳到主要内容
Processed in your browser · no upload

OCR:扫描件转可搜索 PDF

一份扫描的 PDF,想搜个关键词、复制一段话,却怎么都选不中——因为它对电脑来说只是图片。OCR(光学字符识别)把图片里的文字「认」出来,在原扫描图上叠一层隐形文字:外观一点不变,但从此可搜索、可选中、可复制。压缩猫用浏览器本地的 WASM 引擎认中英文,文件不上传,识别全程在你这台设备上跑完。识别率取决于扫描质量——清晰印刷体最好,复杂版面、表格、手写、糊掉的低质量扫描会力不从心。

一份扫描的 PDF,想搜个关键词、复制一段话,却怎么都选不中——因为它对电脑来说只是图片。

Drag & drop or click to select filesFiles are processed locally in your browser, never uploaded
文件只在你的浏览器处理,从不上传

The language data downloads on first use (~20MB for Chinese, cached by your browser). Recognition runs entirely on your device — nothing is uploaded. More pages take longer; please be patient.

OCR 可搜索化

  1. 1选择一个扫描件 PDF 文件。
  2. 2选择识别语言(中文 + 英文,或仅英文更快)。
  3. 3点「转为可搜索 PDF」,等待逐页识别完成(首次会下载语言包)。
  4. 4下载结果,新的 PDF 可直接搜索 / 复制文字。

OCR 可搜索化

  • 叠的是隐形文字层,原图原样保留:看上去和扫描件一模一样,但 Ctrl+F 能搜到、能整段复制走,不是把页面重排成新文档。
  • 整套识别在你的浏览器里用 tesseract 引擎跑,病历、证件、合同这类扫描件不经过任何服务器。
  • 中文简体 + 英文都认,覆盖大多数办公扫描件;纯英文文档可切「仅英文」,更快。

Frequently asked questions

清晰的印刷体(扫描或拍照都行)识别率最高。复杂多栏排版、表格、手写体,以及发虚、倾斜、过暗的低质量扫描,识别率明显下降——这是浏览器端 OCR 的能力边界,结果建议复核。

首次要下载语言包(中文约 20MB),浏览器会缓存,之后再用就快了。整体速度也看页数和你设备的性能。

认。默认「中文简体 + 英文」一起识别;如果文档是纯英文,切到「仅英文」会更快。

能。OCR 出的是带文字层的可搜索 PDF,可以接着用压缩猫的「PDF 转 Word」把文字提成可编辑的 .docx。

Turn it into an automated flow

Need to batch-process, or chain several steps? Use the workflow builder to combine compress, merge, rotate and watermark into a reusable pipeline.

Updated · compress cat team

Sources, review and limits

Last verified

2026-06-17

Author

PDFFlow editorial desk

Reviewer

PDF processing review

Primary sources

  • PDF.js, pdf-lib style local PDF processing where used
  • Browser file and download APIs
  • User-provided PDF files processed locally unless a page explicitly states otherwise

PDF tools are productivity helpers, not legal, compliance or records-retention advice. Review exported documents before signing, filing or sharing.