生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

麻省理工学院人工智能全新突破,零数据样本的算法学习成为可能

9月13日 托天庙投稿
  孩子们有时不需要任何实例就能认出一头独角兽,人工智能(AI)算法能做到这一点么?全新的次单样本学习使算法模型能够识别的对象远多于它所训练的样本量,数据样本的需求甚至可以接近为零。
  机器学习通常需要海量的数据样本。要让AI模型识别一匹马,你需要向它展示数千张马的图片。这就是该项技术计算成本高昂并且与人类学习截然不同的原因。而一个孩子通常只需看到一个物体的几个甚至一个实例,就一辈子都能认出它来。
  事实上,孩子们有时不需要任何实例就能辨别事物。当他们看到一匹马和一头犀牛的照片,并被告知独角兽介乎两者之间时,他们第一次在绘本中看到这个神秘生物就能认出它。
  嗯,好吧,也不全都是这样。
  现在来自安大略省滑铁卢大学的一篇新论文指出,AI模型也应该能做到这一点,研究者称之为次单样本学习(Lessthanoneshotlearning)。换句话说,AI模型应该能准确识别出比它所训练的样本数量更多的对象。这对于一个越来越昂贵和难以达到的领域来说可能是件大事,因为所用的数据集变得日益庞大。
  次单样本学习的工作原理
  研究人员首次证明这一想法,是在实验被称为MNIST的流行计算机视觉数据集时。MNIST包含6万张从0到9的手写数字训练图像,常被用来测试该领域的新想法。
  在此前的一篇论文中,麻省理工学院研究人员引入一项技术,将海量数据集蒸馏成小数据集,作为概念验证,他们将MNIST压缩到只有10张图片。图片不是从原始数据集中选择,而是经过精心设计和优化,包含了完整数据集的同等信息量。因此,当专门训练这10张样本图片时,AI模型能实现的精度与训练MNIST的全部图片几乎相同。
  MNIST数据集中的样本图片
  新技术使AI模型的手写数字识别精度达到94
  滑铁卢大学的研究人员想进一步研究这种蒸馏过程。如果能把6万张图片压缩到10张,为什么不把它们压缩到5张呢?他们意识到,诀窍在于创建混合多个数字的图片,然后将它们输入带有混合或软标签的AI模型。(想想带有部分独角兽特征的马和犀牛。)
  滑铁卢大学博士生、该论文第一作者IliaSucholutsky说:想想数字3,它也有点像数字8,但一点也不像数字7。软标签试图捕捉这些共有特征。因此,我们不是告诉机器,‘这张图片是数字3,’我们会说,‘这张图片是数字3的可能性是60,是数字8的可能性是30,是数字0的可能性是10。’
  次单样本学习的局限性
  当研究人员成功地使用软标签在MNIST上实现次单样本学习时,他们开始琢磨这个想法究竟能走多远。能够让AI模型从小样本量中识别的类别数量有限制吗?
  令人惊讶的是,答案似乎是否定的。使用精心设计的软标签,即使只有两个样本,理论上也能编码出任意数量的类别。Sucholutsky说:通过两个点,你可以分出一千个类别、一万个类别或一百万个类别。
  按重量和颜色为苹果(绿点和红点)和橙子(橙点)绘图
  这正是研究人员在其最新论文中用纯数学探究所展示的。他们用一种最简单的机器学习算法K近邻算法(Knearestneighbors,KNN)来实现这一概念,该算法使用图形方法对对象进行分类。
  要理解KNN的工作原理,让我们以水果分类为例。如果你想训练KNN模型理解苹果和橙子之间的差异,就必须首先选择你打算用来代表每个水果的所有特征。
  或许你会选择颜色和重量,将每个苹果和橙子的颜色作为x值、重量作为y值给KNN提供一组数据点。KNN算法再将所有数据点绘制在一个2D图表上,并沿着苹果和橙子的中间直线画出一条边界线。
  在这一点上,图被整齐地分成两类,算法现在能根据新的数据点落在直线的哪一边来决定它们是代表这一类还是那一类。
  为了探究使用KNN算法的次单样本学习,研究人员创建了一系列小型合成数据集并精心设计其软标签。然后他们让KNN绘制它看到的边界线,发现它成功地将该图分成了更多类别而不是数据点。研究人员对边界线落在何处也有严格的控制。通过对软标签进行各种调整,他们能让KNN算法绘制出花朵形状的精确图案。
  如上图,研究人员用软标签样本训练KNN算法来给日益复杂的边界线编程,将图表分割成更多类别而不是数据点。图中的每个有色区域代表一个不同的类别,而每个图旁边的饼图显示了每个数据点的软标签分布情况。
  当然,这些理论探索也有一定的局限性。尽管次单样本学习的理念应该转移到更复杂的算法,但设计软标签样本的任务实际上更困难了。
  KNN算法具有可解释性和可视性,这使由人类来设计标签成为可能。神经网络既复杂又难以理解,这意味着同样的情况可能不是真的。
  用于为神经网络设计软标签样本的数据蒸馏还有个重大缺陷:它要求从一个海量数据集开始,以便将其缩小为更高效的数据集。
  Sucholutsky说,他现在正致力于寻找其他方法来设计这些小型合成数据集,不管是人工设计还是使用其他算法。尽管存在这些额外的研究挑战,然而,这篇论文为次单样本学习提供了理论基础。他说:结论取决于你拥有哪种类型的数据集,你也许能获得巨大的效率提升。
  这正是王同州(音)最感兴趣的,他是麻省理工学院博士生,领导了早期的数据蒸馏研究。这篇论文建立在一个真正新颖而重要的目标之上:从小数据集学习强大的算法模型,他谈到Sucholutsky的贡献时说。
  蒙特利尔人工智能伦理研究所(MontrealAIEthicsInstitute)研究员RyanKhurana也赞同这种观点:最重要的是,‘次单样本’学习将从根本上减少构建可运行模型的数据需求。这将使人工智能更容易被迄今为止受该领域数据需求阻碍的公司和行业获得。它还可以提高数据的隐私性,因为只需从个人身上提取更少的信息就能训练出有用的模型。
  Sucholutsky强调,这项研究还处于早期阶段,但他很兴奋。他说每次他开始向同事们展示他的论文时,他们的第一反应都是说这个想法是不可能的。当他们突然意识到事实并非如此时,就会打开一个全新的世界。
  来源:麻省理工学院技术评论,作者:KarenHao
  译者:Sail2008
  声明:著作权所有,转载需授权
  更多精彩内容,请关注我们。
  Comeon,给你的灵魂充充电!
投诉 评论 转载

天之骄子丨一个九败一胜,连续创业的富二代王兴,中国外卖江湖的绝对大佬,美团创始人。他有着多项标签,海归学霸,绝对精英,更是一个狠人,又颇具耐心和隐忍。【富二代的学霸生涯】王兴出生于1979年,一个家境优越……安徽人气很高的一处公园,是国家级森林公园,是合肥城区内最高点当下在对安徽的区域旅游发展过程中说,旅游景点的发展一直是安徽发展的重点,也是能提升安徽对外名气的一种表现方式,尤其是在一些很知名的景区中说,不仅是可以提升安徽对外的地位,也是能……我家的欢乐事暑假里,我们一家三口去长岛旅行,我们来到了海边,一起嬉戏。海风吹在我身上,凉凉的,带着几分咸咸的味道,海浪卷起阵阵银波,伴着我们一家欢乐的笑声,令人回味不已!哗啦哗……语音有一个乡巴佬最爱吃大米粉,但是普通话不标准,将粉念四声高调。有一天,他来到城里肚子饿了,去米粉店里吃米粉。A米粉店,乡巴佬问:老板,有大粪(大米粉)吃吗?老板摇头。……麻省理工学院人工智能全新突破,零数据样本的算法学习成为可能孩子们有时不需要任何实例就能认出一头独角兽,人工智能(AI)算法能做到这一点么?全新的次单样本学习使算法模型能够识别的对象远多于它所训练的样本量,数据样本的需求甚至可以接近为零……如何提高晶振的抗焊裂性能?这份干货请收下石英晶振器件用于各种车载电子设备,例如汽车音频设备、汽车导航系统、胎压监测系统(TPMS)、电动车窗等。作为这些机载电子设备的环境测试,进行了高温和低温之间的重复测试(热循环测……拥抱青春从第一天上的第一堂课起,我就隐隐地感觉到童年渐渐地走远了,12年的童年好像就这么走了,悄无声息地走了。未曾留下一点痕迹!只有心中的不舍。是啊,我已不是那个小孩子了,我,我……地基造句用地基造句大全181、对基础板的设计,干船坞设计规范中介绍了地基基床系数的取用方法。182、因此,对高填方体地基,浸水产生的湿化沉降和位移不容忽视。183、服务项目包括:电动单梁……大悬疑读后感字《大悬疑》是一本由王雁著作,武汉出版的299图书,本书定价:26。80元,页数:201011,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。《大悬疑》精选点评……引力红移是什么?很简单,宇宙大爆炸后的膨胀速率是靠红移测量的科学认识君的《通俗物理100课》系列【第8课:多普勒红移与引力红移】讲引力红移前必须要搞清楚多普勒红移,搞清多普勒红移前,就必须要搞清多普勒效应。多普勒效应我……电机软启动器电机软启动器是采用电力电子技术,微处理技术及现代控制理论而设计生产的具有当今国际先进水平的新型起动设备。该产品能有效地限制交流异步电动机起动时的起动电流,可广泛应用于风机、水泵……互联网创业就是普通人成功的捷径创业,多么让人激动人心的一个词,但是背后往往伴随着:风险,亏损,竟争,比拼,压力,方向不明确。。。。。。你只看见了马云的成功,却没看见马云背后有1000万创业失败的人。其……
辐射的危害检察机关造句用检察机关造句大全打破牛顿第三定律,人类开启了星际大门什么蔬菜有毒蔬菜煮熟后还有营养吗俄罗斯宣布,将在地中海举行军演,专门针对英国航母?所载造句用所载造句大全各年龄段女人抗衰老秘籍肾虚的人可以跑步吗童年我们的快乐城堡项目服务局工作总结江河沙汀试论我国网络法律现状与发展原则

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找