?

Facebook AI科学家:我们正在给算法模型喂垃圾数据

【数据猿导读】 Moustapha Cissé说到:“你吃什么,你就是什么,而我们正在给算法模型喂垃圾食品”

Facebook AI科学家:我们正在给算法模型喂垃圾数据

在最近的一次谈话中,Facebook人工智能研究科学家Moustapha Cissé告诉我,“你吃什么,你就是什么,而我们正在给算法模型喂垃圾食品”。

如果你不知道食物中有什么,你就很难合理饮食。同理,如果你不理解训练数据的原理,就不能训练出偏差更小的模型。

这就是为什么最近的论文“给数据集创建数据手册” https://arxiv.org/abs/1803.09010 如此有趣的原因。在这篇论文中,来自微软研究的Timnit Gebru及其同事与来自其他学术研究机构的合著者们为数据集提出了相当于食物营养标签的标准。

很多机器学习和深度学习模型,大多倾向于使用像ImageNet或COCO 这样的公共数据集,或是私人创造的数据集,这些数据集能够将训练数据集的内容、偏差和其他相关素材传输给有兴趣的用户是非常重要的。

“数据手册”这篇论文探讨了使用标准化数据手册,将这些信息传递给数据集、商业化API和预构建模型用户的方案。除了能协助用户交流数据偏差外,作者还指出这种数据手册能够提升信息的透明度,并为数据的可靠性背书。

除了潜在的伦理问题外,当使用第三方数据进行训练的模型不能充分归纳到不同语境时,隐藏的数据偏差会造成部署系统的不可预测性,甚至失败。当然,最好的选择是收集第一方数据,并使用由该领域里具有专业知识和深刻见解的专家们构建和训练的模型。

广泛可用的公共数据集、更易上手的机器学习工具,能便捷访问的人工智能API和预购建模型促进AI民主化,使得越来越多的开发人员将AI技术运用到他们的应用中。作者建议,为AI数据集和工具创建数据手册可以为那些没有专长领域的工程师提供基础的信息,有助于减少由数据集误用引发的问题。

信息安全公司Terbium实验室的CTO Clare Gollnick,在与我们讨论科学和人工智能中的再现性?;?,提出了类似观点。她担心开发人员往往把重心放在用更深层、更复杂的模型解决问题,而当这些模型被应用到生产中时,通?;嵊龅椒夯奈侍?。相反地,她发现,当研究人员利用该领域里现有的专业知识和深刻见解去解决AI问题时,成果将更为稳健。

Gebru和合作者在论文中指出,AI尚未经受以往伴随着新兴行业(如汽车、医药和电气行业)发展而逐步完善的安全法规的检验。文中提到:

当汽车首次在美国出现时,没有车速限制、停车标志、交通信号灯、驾驶员教育,与安全带或醉酒驾驶有关的规定。因此,1900年代早期,碰撞、超速和鲁莽驾驶造成了许多人员伤亡。

几十年来,汽车及其它行业都在不断地修改完善旨在?;す怖娴姆ü?,同时其自身的技术革新也没有停滞。论文认为,是时候开始考虑为AI制定相关的法律法规了,特别是当我们开始将其用于健康和公共部门等高风险实践中时。欧洲即将出台的通用数据?;ぬ趵℅DPR)就将处理这些问题。

论文提出的“数据手册”来源于电气组件相关的概念。每一个售出的电子组件都附带相应的“数据手册”,上面列出了组件的功能、特性、运行电压、物理细节等。当用户需要在购买前了解某个零件的性能,以及误操作情况下可能出现的反应时,这些数据手册就能提供用户所需的支持。

Facebook_AI科学家_算法模型_垃圾数据_大数据-1

(图片来源于网络)

作者建议,数据集或API的提供方应该附带一份“数据手册”来解决一系列标准化问题,这份“数据手册”应该包含以下主题:

•    数据集创建的动机

•    数据集的组成

•    数据收集过程

•    数据预处理

•    数据的分布

•    数据的维护

•    法律和伦理方面的考虑

对于上面所列主题的具体详解,可以参照该论文;它还包含了一系列补充细节,并为Wild数据集中的UMAS Labeled Faces 提供示例“数据手册”。这是一个完整全面、易于使用,并将具有影响力的模型。

这样的“数据手册”允许用户了解他们使用的数据的优点和局限性,并防止出现诸如偏差和过度拟合之类的问题。同时,“数据手册”还能全方位的促使数据集的创作者和用户对数据源进行不同角度的思考,并理解数据其实并非‘事实上’的存在,而是需要谨慎对待和维护的具有生命力的资源。

虽然我不是个电气工程师,但是我非常欣赏这个有趣的想法。

注:本文由【友盟+】翻译,原作者:SAMCHARRINGTON,原文链接:https://venturebeat.com/2018/05/02/datasheets-could-be-the-solution-to-biased-ai/


来源:友盟+

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
大数据军演新疆展开:山东高速不停车交费
大数据军演新疆展开:山东高速不停车交费
2025年全球大数据规模将增长至163ZB,如何将数据世界变革为智能世界?
2025年全球大数据规模将增长至163ZB,如何将数据世界变革为智...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部
  • 世界杯成中国企业营销升级大战场 2019-02-16
  • IT热点摩拜启动百城免押 揭电商定制版“猫腻” 2019-02-15
  • 早晨空腹饮水有利健康?正确饮水你需要知道这些 2019-02-14
  • 岳麓书院院长肖永明:“文化之道”在当代贯穿始终 2019-02-13
  • ABB机器人重庆应用中心挂牌 再添智造生力军  2019-02-12
  • 风眼沙龙:新消费时代二手车市场的机遇和挑战 2019-02-11
  • DJ音乐绽放江西之巅 萍乡武功山帐篷节成功举办 2019-02-10
  • 楼市下半年或持续降温 房地产长效机制加速推进 2019-02-09
  • 哈里王子大婚,王妃最爱的是Givenchy? 2019-02-08
  • 五月来电排行榜——五大热盘最火 ——凤凰网房产北京 2019-02-07
  • 西安体育学院体育传媒系与西部网签约校媒合作 2019-02-07
  • 数百人吃发芽糙米 三个月收获健康 2019-02-06
  • 你总是肆意歪曲客观事实及其规律而满脑胡思乱想,所以才死抱着相对论旧谬误不放,肆意诋毁科学新真理,这才真是“蚍蜉撼树也”! 2019-02-06
  • 调理心脑血管要注意饮食吗?心脑血管病如何饮食 2019-02-05
  • QFII政策调整引增量资金入场 “成长+大消费”或成布局重点 2019-02-05
  • 25| 44| 135| 491| 464| 458| 701| 208| 231| 31|