数据选择edit

解释在可靠性约束下选择训练或评估数据的概念页。

数据选择 是为训练、剪枝、评估或合成数据复用选择样本的过程。在本 wiki 中，它是核心的数据中心操作：选择可以降低成本、提升质量，但有偏选择也会扭曲模型对目标分布的理解。

在本 wiki 中的作用edit

本页把数据中心 ML 同 AI 与网络和合成数据连接起来。在去中心化或数据孤岛设置中，选择通常是局部的：每个参与方只看到一部分数据，并按本地目标或约束选择样本。因此，选择不是单纯的统计预处理，而是网络化学习问题的一部分。

数据选择出现在样本选择偏差何以促成模型坍缩中：有偏的本地选择会加剧递归合成数据训练的分布退化，并使低资源社区更容易发生尾部模式损失。在机器遗忘论文中，选择又以删除或重加权的形式出现。