彩陶是中国新石器时代最具标志性的物质文化遗存之一,不仅是先民审美意识的实证,更是重建史前文化序列、探究文化交流及族群互动等问题的关键线索。中国出土的器型多样、纹饰繁复的彩陶构成了庞大的“史前视觉档案”。
准确的记录是进行彩陶研究的前提。在传统的考古学研究中,对彩陶的记录长期依赖于二维媒介——平面摄影与线图绘制。近年来,文物的三维数字化正受到越来越多的关注。对彩陶而言,相较于传统的手工绘图易受绘图者经验影响、二维摄影存在视角盲区等局限,三维数字化技术能够全方位、高保真地捕捉彩陶的几何形态与纹饰细节,建立起包含完整空间信息的数字档案。这使得研究者能够在虚拟环境中进行精确的形态测量、容积估算、碎片拼接模拟以及成型工艺的分析等,极大地拓展了信息提取的深度与广度。
在现有的数字化手段中,主动式三维扫描与基于多视图的立体视觉重建技术是获取文物高精度三维数据的主流途径。前者主要利用光学的三角测量或飞行时间原理,通过向物体表面投射激光束或结构光栅,捕捉表面的空间点云数据,从而还原器物的形态;后者则基于计算机视觉算法,通过解算环绕文物拍摄的多张重叠照片中的特征点视差,反向推导出物体在空间中的深度信息。尽管这两类技术已趋于成熟,但其应用瓶颈十分显著。它们本质上都属于“实物依赖型”技术,必须直接接触或近距离拍摄文物实体。这意味着高昂的专用设备成本、耗时的数据采集流程,以及对光照环境和物体表面材质(如高反光彩陶或弱纹理区域)的严苛要求。
在上述背景下,“单张照片三维重建”的理念应运而生。如何在不接触实物的前提下,仅凭现有的平面图像资料,重建文物的三维模型?我们对基于人工智能生成算法的单张图像三维重建技术进行了探索。
利用人工智能从一张照片推测物体的立体形状曾一度被视为难题,但近年来这一领域已取得了令人瞩目的进展。不过,这些新方法能否有效应用于带有复杂纹饰的彩陶文物还有待验证,而且究竟哪种方案效果最佳也不明确。为此,我们对几种有代表性的单张照片三维重建技术进行了评估和参数调整,尝试将其应用于彩陶。结果表明,一种融合了扩散式多视角图像合成模型和大型前馈重建网络的混合策略表现出最高的重建质量。
为了避免陷入纯粹的技术术语堆砌,我们可以从认识论的角度来理解这一过程。当一位经验丰富的考古学家看到一张陶罐的正面照片时,能够基于以往对同类器型的认知(先验知识),在脑海中合理推测出该陶罐背面的大致形状和底部的收束方式。生成式人工智能在某种程度上正是对这一认知过程的数学模拟。
在我们的技术路径中,系统首先通过学习海量的三维物体数据,掌握物理世界中物体在不同光照、不同视角下的几何变换规律,这一过程被称为“学习几何先验”。当我们输入一张彩陶的平面照片时,基于扩散算法的生成模型并不仅仅是在处理像素,而是在进行一种“概率性预测”。它依据已习得的规律,推算出该陶器在侧面、背面及俯视角度可能呈现的图像,从而生成一组这一器物的“多视角合成图”。随后,前馈重建网络介入,将这些合成的多视角图像作为基础数据,通过空间算法进行立体拼合,最终构建出包含几何结构与表面纹理的三维网格模型。这一过程无需人工干预,能够在数秒至数分钟内完成。值得注意的是,这项技术并非简单的图像拼接,而是一种基于深度学习的“知识推理”。它使得计算机能够处理图像中的遮挡区域,对不可见部分进行符合逻辑的补全。这标志着考古数字化从“被动记录”向“智能生成”迈出了关键一步。
为了验证该技术在考古学研究中的适用性,我们选取了《中国出土彩陶全集》中的典型样本进行实验。实验对象涵盖了从简单的圜底钵到复杂的大双耳罐等多种器型。
研究发现,在几何形状的还原方面,人工智能表现出了较高的准确性,生成的三维模型能够精确复原彩陶器的形状。这意味着,研究者可以利用这些模型进行较为可靠的形态演变分析和类型学排队等研究。例如,通过对大量生成的数字模型进行聚类分析,可以更直观地量化不同文化类型间陶器口沿折度的细微变化,从而为文化传播路径的研究提供数据支持。
在纹饰复原方面,该技术呈现出“视觉合理性”与“细节非确定性”并存的特征。对于照片中可见区域的纹饰,模型能够实现高保真的三维映射;而对于照片遮挡区域(如器物背面),算法则会根据正面纹理的风格特征进行智能延展和补全。虽然这种补全在视觉上具有高度的连贯性和观赏性,足以应用于博物馆的数字化展示和公众科普,但在用于特定目的的学术研究时,我们仍需保持审慎的态度,明确区分“原始数据”与“生成数据”的边界。作为考古工作者,在为技术进步欢呼的同时,我们也必须保持审慎的批判性思维。人工智能生成的模型,究竟是“历史的真实”,还是“算法的幻觉”?这是我们在研究中反复自问的问题。
此外,该技术在处理非对称性极强或严重残损的器物时,仍面临一定挑战。这提示我们,基于人工智能的文物单张照片三维重建方法目前尚无法完全替代基于实物的传统记录手段,应将其作为一种辅助工具,填补实物研究与平面资料之间的空白。
这项研究的意义,不止于彩陶记录技术层面的效率提升,更在于它为考古学方法论带来的启示。首先,它推动了考古资源的资产活化。基于单张照片的三维重建技术使得大量封存在图录甚至历史老照片中的文物影像,都可以被低成本地转化为可交互、可测量的三维数字资产。其次,它促进了“计算考古学”的发展。人工智能的介入使得大规模的定量分析成为可能,当成千上万件彩陶或其他文物被转化为标准化的三维模型后,计算机就可以辅助学者发现人类肉眼难以察觉的形态演变规律,从统计学的角度揭示史前工匠的技术标准化程度及区域间的文化互动强度等问题。最后,它重塑了公众与文化遗产的交互方式。读者不再是被动地观看图录中的静态照片,而是可以在虚拟空间中任意翻转、缩放那些由历史影像复原而来的文物,观察其器型或纹饰特征。这种具身性的认知体验,极大地拉近了现代人与史前文明的距离。
当然,从单张照片生成的三维模型永远无法完全取代实物的“原真性”。但在人工智能的时代浪潮下,这种从平面到立体的重构,为我们提供了一种全新的观看历史的视角——让破碎的变完整,让平面的变立体,让沉睡的档案重新流动起来。
(作者系上海科技大学人文科学研究院助理教授)