面向企业数据孤岛的联邦排序学习

Journal of Software(2021)

引用 3|浏览8
暂无评分
摘要
排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询记录、文档等诸多隐私信息,数据孤岛难以融合打通,这制约了排序学习模型的训练.联邦学习能够让多数据拥有方在隐私保护的前提下联合训练模型,是一种打通数据孤岛的新方法.在其启发下,提出了一种新的框架,即面向企业数据孤岛的联邦排序学习,它同时解决了联邦学习场景下排序学习所面临的两大挑战,即交叉特征生成与缺失标签处理.为了应对多方交叉特征的生成问题,使用了一种基于略图(sketch)数据结构与差分隐私的方法,其相比于传统加密方法具有更高的效率,同时还具有隐私性与结果精度的理论保证.为了应对缺失标签问题,提出了一种新的联邦半监督学习方法.最终,通过在公开数据集上的大量实验,验证了所提方法的有效性.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要