按照通行的说法,一般认为智商是由注意力,观察力,记忆力,想象力,思维力等五种能力构成的。这五种能力分别对应到计算机组成上去,会得到什么?观察力,毋庸置疑应当映射为计算机的输入。其中,占据了人类输入信息80以上的视觉系统,自然对应到摄像头的视觉图像输入。听觉自然对应到麦克风输入。记忆力,顺理成章的,我们可以把它对应到计算机的存储系统,思维力,可以对应到计算机的cpu计算模块上去。这其实有点问题,但为了描述方便,我们先这么来,等碰到问题,我们再来澄清。 现在剩下的主要问题是,注意力和想象力是怎么一回事呢? 这两个词似乎很好理解,但是要说明白也不容易。所以我把知乎和百度上都仔细看了一遍,得到了一点信息。这篇文章主要讨论注意力。想象力下次再说。 注意力的百科解释,是指人的心理活动指向和集中于某种事物的能力。如何理解?以视觉为例,就是指我们聚焦在某个对象,而忽略其他细节的能力。 我们经常会犯一种很有趣的错误,叫做视而不见。在大学的时候,老婆(当时还是女朋友)常常嘲笑我。因为对面如果走过来一对年轻男女,我常常是看到那个女生长得真漂亮啊,却没看到旁边那位男生是我同学。 这就是注意力造成的。 这是有理由的。以视觉为例,当我们睁开眼睛,我们面对的是两眼最大视角188度,深度无穷大,精度无穷小,变化无穷快的世界。面对无穷的世界,我们有穷的眼睛必须设定必要的界限。 比方说,在空间上,人眼分辨率通常约为二千分之一至五千分之一。也就是从10千米高空俯瞰地面,能清晰地看见宽度5米以上的物体;在时间上,人眼的反应速度一般是10帧24帧秒。 即便如此,人眼每秒要传回大脑的数据量也是惊人的。考虑到神经元的传输速度和有限带宽,人类的视觉图像编码效率一定是超高的。 所以注意力,其实是一种分配有限的信息处理能力的选择机制。眼睛在最快的时间内,把图片发送给大脑,并在大脑的指引下,将目光聚焦在筛选出来的重要的对象上,进一步寻找我们需要的内容。 简而言之,注意力并不对应到计算机的任何硬件,它应当是一种协议算法。 通常认为,人类的注意力是有两种驱动力机制的。一种是自下而上,比如给你看一张图,并请你对他进行描述。 另一种是自上而下,比如先给你一道题,然后再让你去看一张图片。(很多大师的注意力提升法其实都是类似操作)通常,这样做能快速高效的找到问题的答案,因此也被大部分人称之为注意力高度集中。 但是要知道,在这种状态下,视而不见的现象也就高概率的发生。甚至对事物的描述也有可能完全牛头不对马嘴。 看一个找千里马的经典故事。秦穆公问伯乐:我想找匹好马,可你的年龄很大了,你能给我再推荐一个人来吗?伯乐说:那就只有九方皋啊,他的本事不在我之下。秦穆公就派人找来九方皋,让他去给自己找马。 过了些日子,九方皋来了,说:我已经找到一匹好马了。秦穆公很高兴,问他在什么地方。九方皋回答:在沙丘。秦穆公又问:什么样的马?九方皋回答:黄色的母马。 秦穆公派人去把马找来,一看,却是匹黑色的公马。秦穆公很生气,找来伯乐对他说:看看你给我推荐的这人,连马的颜色公母都搞不对,还能指望他什么? 伯乐说:那是因为他只关注了马的内在品质,根本就不屑于去看马的外表。秦穆公让人去试那匹马,果然是天下罕见的骏马。 徐悲鸿《九方皋》 先不管这个故事的真假。但是它真是注意力的一个非常有趣的例子。注意力的提升,实际上是以某些观察力的丢失为代价的。 所以注意力高度集中到底是好还是不好呢? 你得意识到,你的注意力始终是会集中到一个或者某几个地方去的。所以这个问题的标准回答实际上和任何其他优化问题都是一样的在经济学原理中。 当你的大脑的价值体系和评价者的价值体系不一样的时候,你就会被判定为注意力不集中。比方说,你在上语文课的时候,被课本上的蝴蝶的颜色所吸引,那么必然会招来语文老师注意力不集中的评价。因为他认为语文课就该认真听讲。而你的大脑可能认为,欣赏蝴蝶的美是我人生乐趣。 从这个意义上看,所谓孩子小的时候,注意力不集中,实际上是因为孩子还不理解成人世界的价值观,他们会更发散的处理他们看到的世界。 我们和三四岁的孩子在一起看书,强迫他们认字、读古诗的时候,你会经常被孩子不知所云的笑点或者泪点弄得七窍生烟,就是这个道理双方不在一个价值观世界中。 所以这时候,家长应该做的,首先是给孩子一些理解。毕竟等他们再大一些的时候,他们也将被迫去理解这个世界并对自己的生存负起责任。能自由快乐,放纵自我的时光在人生中大概也没有多少。 其次这不妨碍家长培养他们集中注意力的能力,前提是用他们喜爱的玩具,用他们的游戏形式来练习。而不是用成人世界的书籍和题目。 当然,对大部分家长来说,这些在幼儿园的时候老师做的已经足够了。但我只是想说明,家长们不用太过担心孩子的注意力不集中的问题。太早开始参加学习类培训,注意力不能集中是常态。能集中的孩子也往往不是他有多聪明,而是因为他早慧。 但是对于小学以上少年儿童,甚至成人,根据这个原理,我们就应当意识到,要提高我们注意力集中的能力,更有效的方法是训练大脑去了解和适应主流的价值观,培养大脑自发关注的动机。这个我们以后有机会来研究。 现在我们重新来审视注意力的两种驱动方式结合运行的全过程。 假设我们到了一个新的环境。你并不知道眼前的场景(或者书本上的内容)是为了什么而存在的,那么我们的眼睛应当尽可能概要性的将信息传给大脑以便获得下一步指示。 这时候最重要的指标显然是快。而要实现快,眼睛要做的大概是目标分割和概念化(边缘检测是视觉处理最基础和速度最快的操作。概念化可以理解为特征提取,并作概念匹配。概念化可以有效降低处理和传输带宽)。而实现这些功能的神经元则离视觉细胞足够近。这个就是自下而上的驱动过程。 要提升这种能力,可以玩一些简单的识物游戏。比方说将一些物体图片放在小孩面前,让他们最快的说出这是什么。对大人来说,则可以给一些复杂的场景照片,在眼前晃过之后,要求被试者快速的描述看到的场景。 在这些概念化的对象传递到了更深层次的大脑以后,大脑则会生成一些更复杂的联想和计算,产生某些问题并将这些问题反馈给眼睛,指导眼睛聚焦其中一些对象的细节。这个就是自上而下驱动的过程。 这个过程需要应用想象力和思维力。想象力应该怎么映射到大脑的硬件或者软件中,这个话题我们下次继续来聊。 顺便提一句,在网上搜索资料的时候,看到有人结合自下而上和自上而下的注意力机制并搭建了一个模型应用在视觉问答上。作者还在2017年的VQA挑战赛中获得了第一名。所以这应当是一项很有用的研究。《BottomUpandTopDownAttentionforImageCaptioningandVisualQuestionAnswering》 Topdownvisualattentionmechanismshavebeenusedextensivelyinimagecaptioningandvisualquestionanswering(VQA)toenabledeeperimageunderstandingthroughfinegrainedanalysisandevenmultiplestepsofreasoning。Inthiswork,weproposeacombinedbottomupandtopdownattentionmechanismthatenablesattentiontobecalculatedatthelevelofobjectsandothersalientimageregions。Thisisthenaturalbasisforattentiontobeconsidered。Withinourapproach,thebottomupmechanism(basedonFasterRCNN)proposesimageregions,eachwithanassociatedfeaturevector,whilethetopdownmechanismdeterminesfeatureweightings。Applyingthisapproachtoimagecaptioning,ourresultsontheMSCOCOtestserverestablishanewstateoftheartforthetask,achievingCIDErSPICEBLEU4scoresof117。9,21。5and36。9,respectively。Demonstratingthebroadapplicabilityofthemethod,applyingthesameapproachtoVQAweobtainfirstplaceinthe2017VQAChallenge。