当前位置:首页  商业热点

商业热点

机器学习基础设施中顶级AI的研究进展

2021-10-12 15:12:51

随着深度学习模型在现实世界的商业应用中越来越流行,训练数据集越来越大,机器学习(ML)基础设施正在成为许多公司的关键问题。

机器学习基础设施的顶级AI研究进展

为了帮助您了解ML基础设施的最新研究进展,我们总结了最近在该领域介绍的一些最重要的研究论文。在阅读这些摘要时,你会学习到领先科技公司(包括谷歌、微软和领英)的经验。

我们选择的论文涵盖了数据标注和数据验证框架、不同的ML模型分布式训练方法、生产中ML模型性能跟踪的新方法等。

机器学习基础设施的顶级AI研究进展

标记训练数据日益成为部署机器学习系统的最大瓶颈。我们展示了第一个系统“浮潜”,它使用户能够在不手动标记任何训练数据的情况下训练最先进的模型。相反,用户编写表示任意启发式的标签函数,这些函数可能具有未知的准确性和相关性。

通过集成我们最近提出的机器学习范例数据编程的第一个端到端实现,浮潜在不知道真实情况的情况下去噪了输出。根据我们过去一年与公司、代理商和研究实验室的合作经验,我们提供了一个灵活的接口层来编写标签功能。

机器学习基础设施的顶级AI研究进展

在用户研究中,主题专家构建模型的速度提高了2.8倍,平均预测性能提高了45倍。与人工标注7小时相比,减少了5%。我们研究了这种新设置下的建模权衡,并提出了一种自动权衡决策的优化器,可以将流水线执行速度提高1.8倍。

通过与美国退伍军人事务部和美国食品药品监督管理局的两次合作,在代表其他部署的四个开源文本和图像数据集上,与以前的启发式方法相比,浮潜的预测性能平均提高了132%,不超过大规模人工策展训练集预测性能的3.60%。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。