PDF 压缩方法论
大多数「压缩 PDF」的教程只告诉你点哪个按钮,却没讲清最关键的一件事:一个文件到底能压多小,是由它的内容决定的,不是由工具决定的。这篇方法论从 PDF 体积的真实来源讲起,拆开压缩的每一种手段(重采样、JPEG 量化、灰度化、去冗余)各能省多少,再用一棵决策树告诉你「面对手上这个文件,该走哪条路」。读完你会从「猜参数」变成「先判断、再下手」,知道哪些文件压一遍就达标、哪些再怎么压也下不来。全程在浏览器本地完成,文件不上传。

PDF 的体积到底来自哪里?
要压缩,先得知道在压什么。一个 PDF 文件的体积,几乎可以拆成四块:页面图像(扫描、照片、插图的位图数据)、矢量与文字(字形、路径、表格线)、内嵌字体(整套或子集化的字库)、以及结构开销(元数据、书签、注释、缩略图缓存、重复对象)。对绝大多数「太大传不上」的文件来说,第一块——页面图像——占了 80% 以上的体积。
这就是为什么同样是 10 页,一份 Word 导出的报告可能只有 300KB,而一份手机拍照转的合同能到 30MB:前者的页面是矢量文字,后者每页都是一张几百万像素的彩色照片。判断一个文件能压多小,第一步永远是问:它的体积主要来自图像,还是来自文字?
| 体积来源 | 典型占比 | 可压缩空间 | 压缩手段 |
|---|---|---|---|
| 页面图像(扫描 / 照片) | 图像型 PDF 约 80%–98% | 极大 | 重采样 + JPEG 量化 + 灰度 |
| 矢量与文字 | 文字型 PDF 的主体 | 很小 | 字体子集化、去重 |
| 内嵌字体 | 几十 KB–几 MB | 中(可子集化) | 字体子集 / 移除未用字形 |
| 结构开销(元数据等) | 通常 < 5% | 小(无损可去) | 无损清理冗余对象 |
压缩的四种手段,各省多少?
「压缩 PDF」其实是几种独立手段的组合,理解它们各自的代价和收益,才能解释为什么有的文件一压就小、有的纹丝不动。
前三种是有损的——它们用画质换体积,收益巨大;最后一种是无损的——它只清理冗余,画质不变但收益有限。「压到指定 KB」这类硬指标,几乎一定要动用前三种里的某几种。
- 图像重采样(降 DPI):把 600DPI 的扫描降到 150DPI,像素数减到约 1/16,是最大的一笔节省。代价是放大后变糊,但屏幕阅读与多数审核用 150–200DPI 已足够。
- JPEG 量化(提高压缩率):对页面图像用更激进的 JPEG 质量,体积随质量下降快速变小。代价是文字边缘出现轻微「蚊状」噪点,质量低于约 50 时肉眼可见。
- 灰度 / 黑白化:纯文字的黑白扫描没必要保留彩色,去掉颜色通道通常再省 30%–60%。代价是丢失颜色(对纯文字材料无损失)。
- 无损去冗余:移除重复对象、未用字体、缩略图缓存、元数据。画质完全不变,但通常只省 5%–25%,单靠它压不到硬指标。
不同内容能压多小?一张压缩比参考表
这是全篇最该收藏的一张表。它不是承诺,而是基于内容类型的经验区间:同样一个「压到 200KB」的目标,对扫描件轻轻松松,对一份 50 页的彩色画册几乎不可能。先对照你的文件属于哪一类,就能预判结果。
| 内容类型 | 压缩前典型体积 | 可压到 | 能否达 ≤200KB |
|---|---|---|---|
| 黑白文字扫描(200–300DPI) | 0.5–2 MB / 页 | 20–80 KB / 页 | 通常可以 |
| 彩色文档扫描(300DPI) | 1–4 MB / 页 | 80–300 KB / 页 | 单页多半可以,多页较难 |
| 手机拍照转 PDF | 2–6 MB / 页 | 100–400 KB / 页 | 需降 DPI + 灰度才稳 |
| 文字型 PDF(Word 导出) | 通常已很小 | 几乎无可压空间 | 本就达标,无需压 |
| 图多的画册 / 作品集 | 5–20 MB+ | 1–5 MB | 几乎不可能(信息量太大) |
决策树:面对手上的文件,该走哪条路?
把上面的原理收敛成一套可执行的判断。从「这是什么文件」开始,沿着分支走,就能定下最省力又不糊的压缩策略。
- 纯文字(Word/WPS 导出,无扫描图)通常本就 < 1MB,无需压缩;若必须压,留原始 PDF 更稳,别图像化以免文字不可选。
- 黑白文字扫描件灰度 + 重采样到 150–200DPI,直接选 200KB 预设,多半一遍达标。
- 彩色扫描 / 拍照件,单页或几页选目标体积(按上传限制),保彩色先试;不达标再转灰度或降一档 DPI。
- 几十页的大扫描件,要压到几百 KB先用「删除页面」「拆分 PDF」精简页数,再压——页数是硬约束,不精简压不动。
- 图多的画册 / 作品集优先压源图后再生成 PDF,或接受较大目标(如 ≤10MB);强压会糊掉作品细节。
为什么有时候「压不下来」?
「压不下来」几乎从来不是工具坏了,而是物理下限:文件已经接近它的信息密度极限,再压就是用清晰度硬换体积,得不偿失。方法论的价值,就在于让你提前认出这种情况,而不是反复点按钮。
- 图像已被高度压缩:源文件就是低质量 JPEG,没有冗余可挤,再压只掉画质。放宽目标。
- 页数 × 每页下限 > 目标:100 页扫描,每页最低也要 20KB,物理上压不到 200KB。只能先减页。
- 目标设得过激:把清晰彩扫压到 30KB 必然糊到不可用。先 200KB 看效果,再分次收紧。
- 其实是文字型 PDF:本就很小、几乎没有可压空间,「压不动」是正常的,它压根不需要压。
常见问题
为什么同样 10 页,扫描件比 Word 导出的大几十倍?
因为扫描件每页都是高分辨率位图(图像数据),而 Word 导出的页面是矢量文字,几乎不占体积。体积差距全来自「图像 vs 文字」这个根本区别,也决定了前者能大幅压缩、后者几乎没有可压空间。
降 DPI 和提高 JPEG 压缩率,哪个对体积影响更大?
通常降 DPI 更狠:DPI 减半,像素数减到 1/4,是体积的平方级下降;JPEG 质量是在既定像素上做权衡,影响较线性。实务上两者配合用,压缩猫的「压到目标体积」会自动平衡这两项。
无损压缩能让我达到 200KB 吗?
几乎不能。无损只清理冗余(元数据、重复对象),通常只省 5%–25%,远达不到把几兆扫描压到 200KB 这种硬指标。要达标必须用有损(重采样 / JPEG / 灰度)。
怎么判断我的文件能不能压到目标?
对照本文的压缩比参考表:黑白文字扫描压到 200KB 通常没问题,多页彩色扫描较难,图多的作品集几乎不可能。先看内容类型,再决定目标是否现实,能省下很多无效尝试。
更新于 · 压缩猫团队