47年前经典影片另类重制，从宇宙到原子皆是生成

47年前经典影片另类重制，从宇宙到原子皆是生成

机器之心报道

作者：大盘鸡

从广角视图到微距拍摄，每一步由你来决定。

以躺在草坪上的男人为中心，将镜头画面按照 10 倍的比例不断扩展，你将看到一亿光年外的场景。

以躺在草坪上的男人为中心，每次画面镜头缩减 90%，单个质子将充满整个镜头。

让人震惊的是，这两组画面来自 1977 年的经典短片《Powers of Ten》。在评论区中，有人表示这个视频在 2022 年依然被当做经典出现在课堂中。

有网友对于这个视频的制作表示无法想象。从银河系外层直达细胞内部，这样的跨度让人更加直观地感受到了宇宙中存在的巨大尺度。

原视频观看地址：https://www.bilibili.com/video/BV1Rx411y7i9/?vd_source=339fb2e79b91dc2f5d8eb2025c2d4c90

不过在当时，制作类似的动画或互动体验需要训练有素的艺术家，并且他们要花费大量的繁琐劳动。技术进步，尽管人们希望用生成模型来取代这一过程，但现有的方法尚未证明有能力在多个缩放级别生成一致的内容。不过，文本到图像模型的最新进展带来了变革性的应用，或许这能够给我们一些新的启发。

来自华盛顿大学与谷歌等机构的研究者提出了一种方法：利用文本到图像模型在多个图像尺度上生成一致的内容，从而实现场景的极端语义缩放，例如从森林的广角视图到坐在树枝上的昆虫的微距拍摄。他们通过一种联合多尺度扩散采样方法实现了这一目标，这种方法既能保持不同尺度之间的一致性，又能保持每个单独采样过程的完整性。

论文链接：https://arxiv.org/pdf/2312.02149.pdf

项目页面 https://powers-of-10.github.io/

由于每个生成的尺度都由不同的文本提示引导，因此与传统的超分辨率方法相比，该方法可以实现更深层次的缩放，而传统的超分辨率方法可能难以在截然不同的尺度上创建新的上下文结构。本文还将其方法与其他图像超分辨率和扩图技术进行了定性比较，结果表明本文提出的方法在生成一致的多尺度内容方面最为有效。

方法概览

传统的超分辨率方法是以原始图像的像素为条件生成更高分辨率的内容，与此不同的是，极端缩放会暴露出全新的结构，例如，放大一只手以显示其下面的皮肤细胞。生成这样的缩放需要人体解剖学的语义知识。在本文中，研究者专注于解决这一语义缩放问题，即实现文本条件下的多尺度图像生成，以创建类似于《Powers of Ten》的缩放视频。

本文方法需要一系列描述场景不同尺度的文本提示作为输入，并生成一个多尺度图像表示作为输出，该图像表示可以进行交互式探索或渲染为无缝缩放视频。这些文本提示可以由用户定义，允许对不同缩放级别的内容进行创造性控制，也可以在大型语言模型的帮助下制作。

‍ 本文方法的核心是一种联合采样算法，它使用一组分布在不同缩放级别的并行扩散采样过程。这些采样过程通过迭代频带整合过程协调一致，在此过程中，中间图像预测会在不同尺度之间进行一致的合并。与通过反复提高有效图像分辨率来实现类似目标的现有方法不同，本文的采样过程一次性对所有尺度的内容进行联合优化，从而实现每个尺度上的合理图像和跨尺度的一致内容。

此外，现有方法在探索大尺度范围的能力方面受到限制，因为它们主要依赖输入图像内容来确定后续缩放级别的新增细节。在很多情况下，图像片段包含的上下文信息不足以为更深的缩放级别细节提供信息。与此不同，本文方法在文本提示中为每个缩放比例提供依据，允许在极端缩放级别上构思新的结构和内容。在实验中，研究者将他们的方法与其他方法进行比较，并证明了该方法生成的缩放视频明显更加一致。

本文的缩放堆栈表示法用 L= ( L_0, ..., L_N-1 ) 表示，其设计目的是允许在任意缩放级别 p_0,...,p_N-1 下渲染图像。如图 3 所示，该表示法包含 N 个形状为 H × W 的图像，每个缩放级别对应一个图像，其中第 i 个图像 L_i 保存了与第 i 个缩放级别 p_i 相对应的像素。

本文完整的多尺度联合采样过程如下图所示。

图 4 展示了一个采样步骤，每个缩放级别中的噪声图像 z_i，t 与相应的提示 y_i 并行输入预训练的扩散模型，以预测噪声，从而计算出估计的干净图像。利用多分辨率混合技术，干净图像被合并成一个缩放堆栈，然后在所有缩放级别上进行渲染，生成一致的图像。然后，这些图像将与输入 z_t 一起用于 DDPM 更新步骤，以计算下一个 z_t-1。

图 5 展示了多分辨率融合过程的概要，该过程使用拉普拉斯金字塔（Laplacian pyramids）选择性地融合每个观测级别的适当频带，从而防止混叠和过度模糊。

实验

图 6、图 7、图 8、图 9 和图 10 展示了本文方法成功生成了一致的高质量变焦序列，适用于任意相对变焦系数和各种场景。

图 8 比较了使用本文方法和非本文方法生成的缩放序列，即每个尺度独立采样。

研究者还将本文方法与两种自动生成缩放序列的方法进行比较：Stable Diffusion 的扩图模型和 Stable Diffusion 的「upscale」超分辨率模型。图 9 展示了具有代表性的定性结果。

与渐进式扩图相比。扩图基线从生成放大到最大的图像开始，通过对之前生成的图像进行低采样并对周围区域进行扩图，逐步生成更粗的比例。与本文方法一样，每一层的修复都以相应的文本提示为条件。图 9 显示，由于自回归过程的因果关系，扩图方法的误差会逐渐累积，也就是说，当某一步出现错误时，后面的扩图迭代可能难以生成一致的图像。

与渐进式超分辨率相比。超分辨率基线从放大程度最高的图像开始，根据相应的文字提示，通过对放大的中心图像区域进行超分辨率处理来生成后续比例。低分辨率输入提供了强大的结构信息，制约着下一张放大图像的布局。从图 9 可以看到，这种超分辨率基线无法合成只出现在更精细的放大比例中的新对象。‍

图 10 展示了本文方法与更简单版本的定性比较，以检验设计决策的效果。