← 返回智库列表

03 扩散模型:在像素的荒原上重建秩序

当你输入“梵高风格的赛博朋克城市”时,Midjourney 或 Stable Diffusion 并不是在素材库里搜索图片,而是在一堆毫无意义的“电视雪花点(噪声)”中,通过成百上千次的微调,硬生生地“看”出了那座城市。 这种化腐朽为神奇的过程,背后的核心技术被称为扩散模型(Diffusion Model)


一、 哲学起源:雕刻大卫的艺术

米开朗基罗曾说:“大卫就在大理石里,我只是去掉了多余的部分。”

扩散模型生成图片的过程与之惊人相似。它不是“画”图,而是“去噪”。它将生成任务看作是一个两步走的物理过程: 前向扩散(Forward Diffusion)是将完美的图片逐渐打碎成纯粹的噪声;而反向去噪(Reverse Diffusion)则是训练 AI 学习如何将这个过程逆转。

二、 数学核心:马尔可夫链与高斯噪声

在前向过程中,我们不断给图片注入极小的随机噪声。经过 $T$ 个时间步后,图片会完全丧失结构信息。数学上,这被定义为一个马尔可夫链过程。

每一层噪声的注入都遵循高斯分布。而 AI 的核心任务,是学习一个“分数函数(Score Function)”,即在给定的噪声状态下,预测出“刚才被加进去的噪声长什么样”

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I})$$

AI 不需要记住千万张图,它只需要掌握一个技能:在任何模糊的阴影中,识别出那一丝不属于噪声的结构感。

三、 降维打击:潜在空间(Latent Space)的奥秘

如果直接在高清像素(如 1024x1024)上进行去噪,计算量会大到让普通显卡爆炸。2026 年主流的 Stable Diffusion 采用了更加聪明的做法:潜在扩散(LDM)

它先通过一个变分自编码器(VAE),将庞大的像素矩阵压缩成一个精简的“潜在向量”。

AI 在这个缩小的维度里反复去噪,最后再由解码器还原成华丽的高清大图。这也就是为什么 2026 年的手机也能本地运行强大画图模型的原因。

四、 语义导航:CLIP 它是如何听懂人话的?

为什么 AI 知道“猫”应该长什么样?这得益于 Open AI 开发的 CLIP (Contrastive Language-Image Pre-training) 架构。

CLIP 将文字和图片映射到了同一个坐标系中。在这个坐标系里,单词“狗”的向量,与成千上万张不同品种狗的图片向量,在空间位置上是极度接近的。

在生成过程中,你的 Prompt(提示词)就像是航海的指南针。它不断给去噪过程施加一个“条件梯度”,拉扯着噪声向符合文字描述的方向演化。

五、 2026 年的新纪元:从 2D 到世界模型

到了 2026 年,扩散模型已经不再局限于静态图片。通过引入时间维度(3D U-Net),我们实现了视频生成的物理连贯性

现代模型(如 Sora 2.0 或 Gemini Vision)已经进化到了“隐式物理引擎”阶段。当它生成一个水杯破碎的画面时,它并不是在模仿像素移动,而是在其深层参数空间里模拟了重力和碰撞带来的噪声分布变化。

六、 结语:数学之美的最高形式

扩散模型向我们展示了一个深刻的宇宙真理:混沌之中蕴含着秩序,而秩序可以通过学习重获。 每一张惊艳世界的 AI 绘画,本质上都是一段数百万次的矩阵运算,在虚无中打捞出的真理镜像。

教授语录: “不要把 AI 绘画看作创作,而要把它看作是从无限可能的像素海洋中,通过人类意图进行的一次精准钓鱼。”