数据孤岛edit
解释数据分布在不同持有者之间时的学习与评估问题。
数据孤岛 是组织、法律、技术或地理隔离造成的状态,使所有训练数据无法被汇集到一个地方。在本 wiki 中,该词指各自只持有目标分布局部视角的机构、设备或客户端。
在本 wiki 中的作用edit
数据孤岛是 AI 与网络 区别于普通中心化机器学习的关键原因。当每一方只看到本地数据时,训练和评估必须面对通信、隐私和代表性约束。孤岛能保护数据所有权,但也会让全局诊断更困难:偏差可能在本地不可见,只有比较多方证据时才显现。
与乔鑫宝工作的关系edit
数据孤岛是 样本选择偏差何以促成模型坍缩 的核心设置,论文研究局部样本选择偏差下的递归合成数据训练。在这一设置中,问题不是单纯模型精度,而是多方如何在不假定完整数据访问的情况下协调。