English

模型坍缩edit

解释递归模型训练中退化性分布漂移的概念页。

模型坍缩 是模型在递归使用生成或有偏数据训练时,逐渐丢失原始数据分布信息的退化过程。坍缩可以表现为模式丢失、多样性下降、类别比例扭曲或样本质量随代际恶化。1

在本 wiki 中的作用edit

本页为更广泛的 合成数据 专题提供失效概念。合成数据并非天然有害;失效取决于生成数据如何被选择、混合和复用。模型坍缩是负面终点,因此激励更谨慎的数据治理和协作验证。

与乔鑫宝工作的关系edit

乔鑫宝的 ICML 2026 论文研究样本选择偏差在何种条件下促成模型坍缩。该工作连接 Wasserstein 几何,因为分布距离可以提供漂移信号;也连接 数据孤岛,因为没有单一参与方掌握完整分布。在传记中,模型坍缩属于更广泛的可靠性议题:即使模型结构不变,数据过程也可能悄然退化模型。

参见edit

Footnotesedit

  1. Shumailov 等人在递归生成数据背景下定义了模型坍缩,并在语言模型、变分自编码器和高斯混合模型中报告了该现象。