03 扩散模型：在像素的荒原上重建秩序

发布日期：2026-03-20 | 难度等级：★★★★☆ | 预计阅读时间：12 分钟

当你输入“梵高风格的赛博朋克城市”时，Midjourney 或 Stable Diffusion 并不是在素材库里搜索图片，而是在一堆毫无意义的“电视雪花点（噪声）”中，通过成百上千次的微调，硬生生地“看”出了那座城市。这种化腐朽为神奇的过程，背后的核心技术被称为扩散模型（Diffusion Model）。

一、哲学起源：雕刻大卫的艺术

米开朗基罗曾说：“大卫就在大理石里，我只是去掉了多余的部分。”

扩散模型生成图片的过程与之惊人相似。它不是“画”图，而是“去噪”。它将生成任务看作是一个两步走的物理过程： 前向扩散（Forward Diffusion）是将完美的图片逐渐打碎成纯粹的噪声；而反向去噪（Reverse Diffusion）则是训练 AI 学习如何将这个过程逆转。

二、数学核心：马尔可夫链与高斯噪声

在前向过程中，我们不断给图片注入极小的随机噪声。经过 $T$ 个时间步后，图片会完全丧失结构信息。数学上，这被定义为一个马尔可夫链过程。

每一层噪声的注入都遵循高斯分布。而 AI 的核心任务，是学习一个“分数函数（Score Function）”，即在给定的噪声状态下，预测出“刚才被加进去的噪声长什么样”。

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I})$$

AI 不需要记住千万张图，它只需要掌握一个技能：在任何模糊的阴影中，识别出那一丝不属于噪声的结构感。

三、降维打击：潜在空间（Latent Space）的奥秘

如果直接在高清像素（如 1024x1024）上进行去噪，计算量会大到让普通显卡爆炸。2026 年主流的 Stable Diffusion 采用了更加聪明的做法：潜在扩散（LDM）。

它先通过一个变分自编码器（VAE），将庞大的像素矩阵压缩成一个精简的“潜在向量”。

像素空间：充满了冗余信息（比如天空的每一个蓝色像素）。
潜在空间：只包含语义信息（比如“这里有一片蓝色的天空”）。

AI 在这个缩小的维度里反复去噪，最后再由解码器还原成华丽的高清大图。这也就是为什么 2026 年的手机也能本地运行强大画图模型的原因。

四、语义导航：CLIP 它是如何听懂人话的？

为什么 AI 知道“猫”应该长什么样？这得益于 Open AI 开发的 CLIP (Contrastive Language-Image Pre-training) 架构。

CLIP 将文字和图片映射到了同一个坐标系中。在这个坐标系里，单词“狗”的向量，与成千上万张不同品种狗的图片向量，在空间位置上是极度接近的。

            在生成过程中，你的 Prompt（提示词）就像是航海的指南针。它不断给去噪过程施加一个“条件梯度”，拉扯着噪声向符合文字描述的方向演化。
        

五、 2026 年的新纪元：从 2D 到世界模型

到了 2026 年，扩散模型已经不再局限于静态图片。通过引入时间维度（3D U-Net），我们实现了视频生成的物理连贯性。

现代模型（如 Sora 2.0 或 Gemini Vision）已经进化到了“隐式物理引擎”阶段。当它生成一个水杯破碎的画面时，它并不是在模仿像素移动，而是在其深层参数空间里模拟了重力和碰撞带来的噪声分布变化。

六、结语：数学之美的最高形式

扩散模型向我们展示了一个深刻的宇宙真理：混沌之中蕴含着秩序，而秩序可以通过学习重获。 每一张惊艳世界的 AI 绘画，本质上都是一段数百万次的矩阵运算，在虚无中打捞出的真理镜像。

            教授语录： 
            “不要把 AI 绘画看作创作，而要把它看作是从无限可能的像素海洋中，通过人类意图进行的一次精准钓鱼。”
        

一、 哲学起源：雕刻大卫的艺术

二、 数学核心：马尔可夫链与高斯噪声

三、 降维打击：潜在空间（Latent Space）的奥秘