生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

不同于NLP,数据驱动方法与机器学习无法攻克NLU,原因有三

8月12日 程染筱投稿
  选自gradient
  作者:WalidS。Saba
  机器之心编译
  编辑:陈萍
  自然语言理解(NLU)是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。近年来,机器学习虽然被广泛使用,但是却不能很好的解决自然语言理解问题,其中可能涉及很多原因,ONTOLOGIK。AI的创始人和首席NLU科学家WalidSaba给出了自己的观点。
  20世纪90年代早期,一场统计学革命取代了人工智能,并在2000年达到顶峰,而神经网络凭借深度学习成功回归。这一经验主义转变吞噬了人工智能的所有子领域,其中这项技术最具争议的应用领域是自然语言处理。
  以数据为驱动的经验方法在NLP中被广泛使用的原因主要包括:符号和逻辑方法在取得三十年的霸权后未能产生可扩展的NLP系统,从而导致NLP中所谓的经验方法(EMNLP)兴起,这些方法可以用数据驱动、基于语料库、统计和机器学习来统称。
  这种向经验主义转变的背后动机非常简单:在我们对语言是如何工作、以及语言如何与日常口语中谈论的世界知识相关联的,在对这些了解之前,经验和数据驱动的方法有助于构建文本处理应用程序。正如EMNLP的先驱之一KennethChurch所解释的那样,在NLP领域,倡导数据驱动和统计方法的科研人员,他们对解决简单的语言任务感兴趣,其动机从来不是暗示语言就是这样工作的,而是做简单的事情总比什么都不做要好。Church认为这种转变动机被严重误解了,正如McShane在2017年所指出的,后来的几代人误解了这种经验趋势。
  EMNLP会议创立者、先驱之一KennethChurch。
  这种被误导的趋势导致了一种不幸的情况:坚持使用大型语言模型(largelanguagemodel,LLM)构建NLP系统,这需要巨大的计算能力,而且试图通过记忆大量数据来接近自然语言对象,这种做法是徒劳的。这种伪科学的方法不仅浪费时间和资源,而且会误导新一代的年轻科学家,错误地让他们认为语言就是数据。更糟糕的是,这种做法还阻碍了自然语言理解(NLU)的发展。
  相反,现在应该重新思考NLU方法,因为对于NLU来说,大数据方法不但在心理上、认知上,甚至计算上都让人难以置信,而且盲目数据驱动的方法在理论上和技术上也是有缺陷的。
  自然语言处理VS自然语言理解
  虽然自然语言处理(NLP)和自然语言理解(NLU)经常互换使用,但是两者之间存在实质性差异,突出这种差异至关重要。事实上,区分自然语言处理和自然语言理解之间的技术差异,我们可以意识到以数据驱动和机器学习的方法虽然适用于NLP任务,但这种方法与NLU无关。以NLP中最常见的下游任务为例:摘要;主题抽取;命名实体识别;语义检索;自动标签;聚类。
  上述任务与PAC(ProbablyApproximatelyCorrect,可能近似正确)范式一致。具体地,NLP系统的输出评估是主观的:没有客观的标准来判断诸如一个摘要优于另一个,或某个系统提取的主题、短语比另一个系统提取的更好等等。然而,自然语言理解不允许有这样的自由度。要完全理解一个话语或一个问题,需要理解说话者试图表达的唯一思想。为了理解这个复杂的过程,以自然语言查询为例:
  我们是否有一位退休的BBC记者在冷战期间驻扎在东欧国家?
  在数据库中,对上述查询将有且只有一个正确答案。将上述表达转化为正确的SQL或者SPARQL查询具有很大的挑战性。这个问题背后的关键点包括:需要正确解读退休的BBC记者,即所有曾在BBC工作、现已退休的记者的集合;通过保留那些曾经也在一些东欧国家工作过的退休BBC记者来进一步过滤上述内容。除了地理限制,还有时间限制,那些退休的BBC记者的工作时间必须是冷战期间;以上意味着将介词短语在冷战期间附加到驻扎而不是东欧国家;进行正确的量词范围界定:我们寻找的不是在某个东欧国家工作的一个(单一)记者,而是在任何东欧国家工作的任何记者。
  以上对语义的理解不会是可能、大致正确,而是非常确定的绝对正确。换句话说,我们必须从对上述问题的多种可能解释中得出唯一一种含义,根据常识知识,推出提问者问题背后的想法。总而言之,对普通口语的真正理解与单纯的文本(或语言)处理是完全不同的问题。在文本(或语言)处理中,我们可以接受近似正确的结果结果在可接受的概率下也是正确的。
  通过这个简短的描述,我们应该可以清楚地了解为什么NLP与NLU不同,以及为什么NLU对机器来说是困难的。但是NLU的困难到底是什么呢?
  NLU难点在于缺失文本现象
  所谓的缺失文本现象(missingtextphenomenon,MTP),可以将其理解为NLP任务挑战的核心。语言交流的过程如下图所示:说者将思想编码为某种语言表达,然后听者将该语言表达解码为说者意图传达的思想。
  图1:说者和听者的语言交流过程。
  解码过程就是NLU中的U也就是说,理解语言话语背后的思想正是解码过程需要做的事情。此外,在这个解码过程中没有近似或任何自由度也就是说,从一个话语的多种可能意义来看,说话人想要表达的思想只有一个,而解码过程中的理解必须达到这一个思想,这正是NLU困难的原因。
  在这种复杂的交流中,有两种可能的优化方案:(1)说者可以压缩(和最小化)在编码中发送的信息量,并希望听者在解码(解压缩)过程中做一些额外的工作;(2)说者尽最大努力传递所有必要的信息来传达思想,而听者几乎什么也不用做。
  随着过程的自然演变,上述两种方案似乎已经得到一个很好的平衡,即说者和听者的总体工作都得到了同样的优化。这种优化导致说者可以编码尽可能少的信息,而忽略其他信息。遗漏的信息对于说者和听者来说,是可以通过安全假设获得的信息,这正是我们经常说的普通背景知识。
  为了理解这一过程的复杂性,以下图为例:黄色框中的是未优化的信息,以及我们通常所说的信息量同等但小得多的文本信息(绿色框中信息)。
  绿色框中信息要短很多,这正是我们说话的方式,语言虽短,但传达的是与较长信息相同的思想。通常我们不会明确地说出所有想要表达的东西:
  也就是说,为了有效地沟通,我们在交流中通常不会说认为对方说都知道的信息。这也正是为什么我们都倾向于忽略相同的信息因为我们都了解每个人都知道的,而这正是我们所谓的共同背景知识。人类在大约20万年的进化过程中,发展出的这一天才优化过程非常有效。但这就是NLU的问题所在:机器不知道我们遗漏了什么信息,因为机器不知道我们都知道什么。最终结果导致NLU是非常困难的,因为如果一个软件程序不能以某种方式揭示人类在语言交流中遗漏和隐含的所有东西,它就不能完全理解我们语言话语背后的思想。这实际上才是NLU的挑战,而不是解析、词干分析、词性标记、命名实体识别等。
  图2:NLU中很多挑战都是因为缺失文本现象造成的:图中缺失的文本(隐式的假设)用红色表示。
  上述示例表明,NLU的挑战在于发现缺失信息,并隐含地认为这些信息是共享背景知识。下图3进一步解释了缺失文本现象:
  我们在下文给出三个原因来解释为什么机器学习和数据驱动方法不能解决NLU问题。
  ML方法与NLU无关:ML是压缩,语言理解需要解压缩
  用机器来实现自然语言理解是非常困难的,因为我们日常口语所表达的都是高度压缩信息,理解的挑战在于解压缩出丢失文本。这对人类来说是很简单的事情,但对机器来说却大不相同,因为机器不知道人类掌握的知识。但MTP现象恰恰说明了为什么数据驱动与机器学习方法会在NLP任务中有效,但是在NLU中不起作用。
  研究者在数学上已经建立了可学习性和可压缩性(COMP)之间的等价关系。也就是说,只有当数据高度可压缩(即它有很多冗余)时,在数据集中才会发生可学习性,反之亦然。虽然证明可压缩性和可学习性之间的关系相当复杂,但直观上很容易理解:可学习性是关于理解大数据的,它在多维空间中找到一个函数可以覆盖所有的数据集信息。因此,当所有数据点都可以压缩成一个流形时,就会发生可学习性。但是MTP告诉我们NLU是关于解压缩的。以下列内容为例:
  机器学习是将大量数据泛化为单个函数。另一方面,由于MTP,自然语言理解需要智能的解压缩技术,以发现所有缺失和隐式假设文本。因此,机器学习和语言理解是不相容的事实上,它们是矛盾的。
  ML方法甚至与NLU无关:统计意义不大
  ML本质上是一种基于数据发现某些模式(相关性)的范式。研究者希望在自然语言中出现的各种现象在统计上存在显著差异。举例来说:1。奖杯装不进手提箱,因为它太
  1a。小
  1b。大
  同义词与反义词(例如小和大,开和关等)以相同的概率出现在上下文中,因此,在统计上来说(1a)和(1b)是等价的,然而(1a)和(1b)所代表的内容也是相当不同的:在此句中,它在(1a)中隐含的意思是指手提箱小,但在(1b)中是指奖杯大,尽管它们的语义相差很大,但是(1a)和(1b)在统计上是等价的。因此,统计分析不能建模(甚至不能近似)语义。
  ML方法甚至与NLU无关:intenSion
  逻辑学家长期以来一直在研究一种称为intension的语义概念。为了解释什么是intension,首先要从所谓的语义三角(meaningtriangle)开始讲起,如下图所示:
  在语义三角中,每个事物(或每个认知对象)都具有三部分:一个指代概念符号,以及这个概念(有时)具有的一些实例。以独角兽这个概念为例,在现实生活中并没有实际的示例。概念本身是其所有潜在实例的理想化模板,可以想象,几个世纪以来,哲学家、逻辑学家和认知科学家一直在争论概念的本质及其定义,不管那场辩论如何,我们可以在一件事情上达成一致:一个概念(通常由某个符号标签引用)由一组特性集合和属性定义,也许还有附加公理和既定事实等。然而,一个概念与实际(不完美)实例不同,在完美的数学世界中也是如此。举例而言,虽然下面的算术表达式都具有相同的扩展,但它们具有不同的intension:
  上图中所有表达式的值都是16,在某种意义(它们的值)上来说是相等的,但这只是属性之一。事实上,上面的表达式还有其他几个属性,比如语法结构(为什么a和d是不同的)、运算符的数量等。其中值只是一个属性,可以称为扩展(extension),而所有属性的集合是intension。在应用科学(工程、经济学等)中,我们可以认为这些对象是相等的,如果它们在值上是相等的,但在认知中,这种相等是不存在的。举例来说:
  假设(1)是真的也就是说,假设(1)确实发生了,并且我们见证了它。尽管如此,这并不意味着我们可以假设(2)为真,尽管我们所做的只是将(1)中的16替换为一个(假设),而该假设等于它的值。我们用一个假定等于它的对象替换了陈述中的一个对象,并且我们从真实的事物推断出不真实的事物!虽然在物理科学中可以很容易地用一个属性的对象来替换它,但这在认知中是行不通的。
  总结来说,本文讨论了机器学习和数据驱动方法与NLU无关的三个原因(尽管这些方法可能用于一些本质上是压缩任务的文本处理任务)。在传达思想时,我们传递的是高度压缩的语言信息,需要大脑来解释和揭示所有缺失但隐含的背景信息。在很多方面,构建大语言模型时,机器学习和数据驱动方法都在徒劳地试图寻找数据中根本不存在的东西。我们必须意识到,日常的口语信息,并不是理想的语言数据。
  原文链接:https:thegradient。pubmachinelearningwontsolvethenaturallanguageunderstandingchallenge
投诉 评论 转载

每天跑5km对人有什么影响?用脱胎换骨来形容都不为过!人都有一个共同点就是不满足于现状,都想着不断进步,努力坚持做一件事,这是因为人是可以成长的,不仅仅是思维方面的成长,身体的成长才是重重之本!说起坚持,笔者觉得坚持运动就是……两栖登陆困难重重,若只有14天时间,我军能否突破海峡防线呢?如果真的在海峡区域采取两栖行动,从纯军事的角度上来说当然是可以取胜的,反正我军占着绝对的军事实力优势,打不了就靠体量质量双重优势打持久战。但战争永远是政治的延续。从政治上来说,……公元前年发生了什么为何说这一年在历史文飞鱼说史如果有人要问,我们华夏民族有多少年的历史呢?大多数人一定会脱口而出,五千年啊,并且对这个问题的提问者嗤之以鼻,觉得没文化真可怕。也是,上下五千年,这……不同于NLP,数据驱动方法与机器学习无法攻克NLU,原因有三选自gradient作者:WalidS。Saba机器之心编译编辑:陈萍自然语言理解(NLU)是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的……向您造句用向您造句大全31天空已经成为我们的领地,而我们永远都不会忘记,是您给了我们飞翔的信念和力量。老师!向您致十二万分的祝福:中秋快乐!32九十年,风风雨雨,党的风采依旧;历史的史册里,不……我的傻弟弟停停停今晚的碗我全包了!谁都不许跟我抢!晚饭后,刚满十一岁的老弟拦住老妈,哎,吃太饱了,得运动运动,减减肥,瞧,我的肚腩都这么大了!老弟这是洗碗洗成习惯了,不用老妈喊,就……个步骤教你做出好吃的清蒸虾5个步骤教你做出好吃的清蒸虾1、挑虾清蒸的虾要选用虾壳比较硬的虾,这样蒸出来的肉质饱满而且能保持鲜嫩。相反,如果做油焖大虾等就要选择虾壳比较软的虾,这样炒出来更容易……运动减肥的办法有什么现如今越来越多的人开始注重健康,对自己的身材也有了越来越高的要求,面对肥胖的问题,还是需要尽快想办法解决的。很多的减肥方法可供大家选择,不过从健身和瘦身这些功效上考虑,还是要运……生活用品造句用生活用品造句大全六十一、屋里不仅安装了空调,还配备了床,各种生活用品一样不少,另外还有很多切割机、塑封机、拆装包、复写纸、锡纸、芝麻糊、莲子羹等工具和设备。六十二、女俘进所后,除按上级规……冬天可以穿什么裙子满足裙子粉的心愿冬天穿裙子是不是傻,不冷吗?冬天肯定可以穿裙子,3种裙装满足爱穿裙子的少女们,在冬天你会发现裙装真的太好穿惹,既不用费心搭配,还能挡住不完美的小肉肉,更重要的是轻薄的裙子与厚重……幼儿过早学步损伤视力婴幼儿过早学步易患近视的原因1。周岁以内的婴儿视力发育尚不完全,而爬行可使孩子看清自己能看到的东西,有利于视力的健康发育。相反,如果幼儿过早学步的话,因看不清眼前较远的景……由光压测量反思Emc1899年,俄国物理学家列别捷夫就通过实验证明了光压的存在,并且还发现了一个这样的关系式,如果我们用P表示光压,E作为光的能量,c是光速,那么可以得到P2Ec2mc……
草原飞行大会开幕驴友频遇难,责任谁来负?本周新游推荐丨暗黑2重制地狱来袭柯娜精神之桥奇幻秘境哈特37分伊柳克31分,湖人骑士双加时大战,紫金军团3分险胜梦想与现实之间!国足冲击世界杯还是需要归化球员的,不然呢?尿检警告!隆指导大爆发送威少回会议室,球迷隆多,抱歉大连万达瑞典外援佩莱发来深情文字怀念我的中国教练迟尚斌先生第95分钟,C罗,绝杀!曼联主场21击沉黄色潜水艇,欧冠赛季好样的!朱婷报案2天后初见成效,多个体育自媒体大V账号被封禁25分大败,火箭主帅暗批塔克?求胜心消磨殆尽,航天城该放他走拒绝与恩师李春江握手?网上指责杜锋输了风度,另外角度还原真相首奖奖金2万元!首届白居易诗歌奖在洛颁奖我是脑瘫,不配拥有知识和爱吗?她用34年来证明自己下直你的公众号推送和10万爆文之间,只隔着5个问题!三星UA55ES68000支持AllShare(DLNA)吗老婆在外怎么查位置(怎么定位别人的手机所在位置)日记仅得6分!施罗德成湖人最差引援,跟隆多没法比,詹姆斯也尴尬职工意外伤害保险和工伤保险区别带着天然恶意的人,是什么样子?卡戴珊姊妹花5人,你喜欢?收据怎么写,写收据需要注意的事项有哪些?脸上长斑是什么原因脸惹了“谁”染上斑1955年,省委书记接见老红军,问了几个问题后直呼此人是冒牌

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找