模型坍缩edit

解释递归模型训练中退化性分布漂移的概念页。

模型坍缩 是模型在递归使用生成或有偏数据训练时，逐渐丢失原始数据分布信息的退化过程。坍缩可以表现为模式丢失、多样性下降、类别比例扭曲或样本质量随代际恶化。¹

在本 wiki 中的作用edit

本页为更广泛的合成数据专题提供失效概念。合成数据并非天然有害；失效取决于生成数据如何被选择、混合和复用。模型坍缩是负面终点，因此激励更谨慎的数据治理和协作验证。低资源视角在这里尤其重要：如果尾部区域一开始就覆盖不足，坍缩可能更早发生，并且更严重影响代表不足的内容。

与乔鑫宝工作的关系edit

乔鑫宝的 ICML 2026 论文研究样本选择偏差在低资源验证场景下如何促成模型坍缩。该工作连接 Wasserstein 几何，因为分布距离可以提供漂移信号；也连接数据孤岛，因为没有单一参与方掌握完整分布。在传记中，模型坍缩属于更广泛的可靠性议题：即使模型结构不变，数据过程也可能悄然退化模型。

参见edit

Footnotesedit

Shumailov 等人在递归生成数据背景下定义了模型坍缩，并在语言模型、变分自编码器和高斯混合模型中报告了该现象。 ↩