当你输入“梵高风格的赛博朋克城市”时,Midjourney 或 Stable Diffusion 并不是在素材库里搜索图片,而是在一堆毫无意义的“电视雪花点(噪声)”中,通过成百上千次的微调,硬生生地“看”出了那座城市。 这种化腐朽为神奇的过程,背后的核心技术被称为扩散模型(Diffusion Model)。
米开朗基罗曾说:“大卫就在大理石里,我只是去掉了多余的部分。”
扩散模型生成图片的过程与之惊人相似。它不是“画”图,而是“去噪”。它将生成任务看作是一个两步走的物理过程: 前向扩散(Forward Diffusion)是将完美的图片逐渐打碎成纯粹的噪声;而反向去噪(Reverse Diffusion)则是训练 AI 学习如何将这个过程逆转。
在前向过程中,我们不断给图片注入极小的随机噪声。经过 $T$ 个时间步后,图片会完全丧失结构信息。数学上,这被定义为一个马尔可夫链过程。
每一层噪声的注入都遵循高斯分布。而 AI 的核心任务,是学习一个“分数函数(Score Function)”,即在给定的噪声状态下,预测出“刚才被加进去的噪声长什么样”。
AI 不需要记住千万张图,它只需要掌握一个技能:在任何模糊的阴影中,识别出那一丝不属于噪声的结构感。
如果直接在高清像素(如 1024x1024)上进行去噪,计算量会大到让普通显卡爆炸。2026 年主流的 Stable Diffusion 采用了更加聪明的做法:潜在扩散(LDM)。
它先通过一个变分自编码器(VAE),将庞大的像素矩阵压缩成一个精简的“潜在向量”。
AI 在这个缩小的维度里反复去噪,最后再由解码器还原成华丽的高清大图。这也就是为什么 2026 年的手机也能本地运行强大画图模型的原因。
为什么 AI 知道“猫”应该长什么样?这得益于 Open AI 开发的 CLIP (Contrastive Language-Image Pre-training) 架构。
CLIP 将文字和图片映射到了同一个坐标系中。在这个坐标系里,单词“狗”的向量,与成千上万张不同品种狗的图片向量,在空间位置上是极度接近的。
到了 2026 年,扩散模型已经不再局限于静态图片。通过引入时间维度(3D U-Net),我们实现了视频生成的物理连贯性。
现代模型(如 Sora 2.0 或 Gemini Vision)已经进化到了“隐式物理引擎”阶段。当它生成一个水杯破碎的画面时,它并不是在模仿像素移动,而是在其深层参数空间里模拟了重力和碰撞带来的噪声分布变化。
扩散模型向我们展示了一个深刻的宇宙真理:混沌之中蕴含着秩序,而秩序可以通过学习重获。 每一张惊艳世界的 AI 绘画,本质上都是一段数百万次的矩阵运算,在虚无中打捞出的真理镜像。