OCR:扫描件转可搜索 PDF
一份扫描的 PDF,想搜个关键词、复制一段话,却怎么都选不中——因为它对电脑来说只是图片。OCR(光学字符识别)把图片里的文字「认」出来,在原扫描图上叠一层隐形文字:外观一点不变,但从此可搜索、可选中、可复制。压缩猫用浏览器本地的 WASM 引擎认中英文,文件不上传,识别全程在你这台设备上跑完。识别率取决于扫描质量——清晰印刷体最好,复杂版面、表格、手写、糊掉的低质量扫描会力不从心。
一份扫描的 PDF,想搜个关键词、复制一段话,却怎么都选不中——因为它对电脑来说只是图片。
拖拽或点击选择文件文件仅在浏览器本地处理,不会上传
首次使用会下载语言包(中文约 20MB,浏览器会缓存),识别全程在你的设备本地完成、不上传。扫描件页数越多耗时越长,请耐心等待。
如何OCR 可搜索化?
- 1选择一个扫描件 PDF 文件。
- 2选择识别语言(中文 + 英文,或仅英文更快)。
- 3点「转为可搜索 PDF」,等待逐页识别完成(首次会下载语言包)。
- 4下载结果,新的 PDF 可直接搜索 / 复制文字。
为什么用压缩猫OCR 可搜索化?
- 叠的是隐形文字层,原图原样保留:看上去和扫描件一模一样,但 Ctrl+F 能搜到、能整段复制走,不是把页面重排成新文档。
- 整套识别在你的浏览器里用 tesseract 引擎跑,病历、证件、合同这类扫描件不经过任何服务器。
- 中文简体 + 英文都认,覆盖大多数办公扫描件;纯英文文档可切「仅英文」,更快。
常见问题
清晰的印刷体(扫描或拍照都行)识别率最高。复杂多栏排版、表格、手写体,以及发虚、倾斜、过暗的低质量扫描,识别率明显下降——这是浏览器端 OCR 的能力边界,结果建议复核。
首次要下载语言包(中文约 20MB),浏览器会缓存,之后再用就快了。整体速度也看页数和你设备的性能。
认。默认「中文简体 + 英文」一起识别;如果文档是纯英文,切到「仅英文」会更快。
能。OCR 出的是带文字层的可搜索 PDF,可以接着用压缩猫的「PDF 转 Word」把文字提成可编辑的 .docx。
把它变成自动流程
需要批量处理、或把多步操作串起来?用 工作流编排器 把压缩、合并、旋转、水印串成一条可保存复用的流水线。
更新于 · 压缩猫团队