生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

我裂开了人类脑海中的画面,被AI解码了?

7月19日 暗影泪投稿
  大数据文摘授权转载自夕小瑶的卖萌屋作者:白鹡鸰
  有没有那么几个瞬间,你要么想把自己脑子里的东西掏出来给别人看,要么想撬开别人的脑子看看里面都装了什么?虽然错过了霍格沃茨的入学时间,但如果从现在开始学习扩散模型和神经学,可能很快你就能实现这个目标了。新加坡国立大学,香港中文大学,和Stanford联手,基于扩散模型实现了从脑电波还原图像的人类视觉解码器。效果奇佳,还开源了代码和数据,这还不来一起看看?
  图1基于脑电波还原的图像与真实图像对比
  论文题目:
  SeeingBeyondtheBrain:ConditionalDiffusionModelwithSparseMaskedModelingforVisionDecoding
  论文链接:
  http:arxiv。orgabs2211。06956
  代码链接:
  https:github。comzjc062mindvis
  背景
  故事要从神经科学的基本理论说起。作为一个唯物主义的麻瓜,我必须相信,我的思维活动都依托于脑神经细胞,其释放的电信号就是大脑内部通信计算的物理媒介。既然我能够流畅地思考,那么脑电波必然传递了某种有意义的信号,而一段数据如果能携带某种信息,它必须要有一定规律可言。因此,从理论上来说,我们可以通过分析进行思维活动时产生的生物电信号,去反推思考的具体内容。这个观点已然不新奇了,大量的研究已经证实了反推大脑思维的可行性,脑机接口蒸蒸日上的热度,则是一个风向标,指示了相关技术在实际生活应用中的潜力。
  当然,高情商的说法是有潜力,换个朴实一点的说法,那就是目前还存在大量技术瓶颈,研究中障碍重重。就拿通过脑电波还原人脑海中的图像这个任务来说,虽然脑电波是有规律的,这种规律却非常复杂。不仅如此,每个人的脑回路不一样也是物理的,也就是说,对同样的刺激(stimuli),每个人大脑做出的反馈都会存在差异。这个问题好解决吗?对于ML人来说,太简单了,大数据驱动。然而,联系到实际问题,脑电数据的采集,特别是有标签(脑电产生者思考内容)的脑电数据的采集,却没有特别丰富的数据。缺乏有标签的数据,缺乏处理数据的方法,是目前这个任务上一直难以取的进展的主要原因。
  方法
  基于fMRI收集的脑电数据
  人脑中有左右的脑细胞,而它们的激活模式是非线性的(一般会用一组复杂的微分方程建模)。为了能观察如此复杂的神经网络的活动,目前广泛采用的是功能性磁共振成像(fMRI,functionalmagneticresonanceimaging)技术。这项技术不会对被试者造成物理上的伤害,包括外部创口(侵入式)和辐射问题。它的原理是利用磁共振技术,追踪大脑在思维活动时的血氧变化,依据于此成像。基于fMRI技术,研究者采集了大量的,特别是当人类在进行各种复杂的任务时的大脑活动数据。经过分析,研究者们发现人们在处理同样的任务时,大脑中被激活的区域基本相近〔1〕。
  作为1991年的Nature封面,fMRI得到了广泛研究,目前采集数据的技术已经相当成熟。但这一块的原理非常复杂,感兴趣的话可以搜索血氧依赖机理,bloodoxygenleveldependent,BOLD。
  图2语言(讲故事)任务中大脑被激活区域
  神经科学方面虽然有相当多fMRI的原始数据,但在实际使用时,会遇到这样一些问题:
  fMRI扫描所得到的数据是以三维形式的体素(voxel)记录的,每个数据点包括了三维坐标,电信号幅度等信息,维度很高。为了避免对体素直接进行运算,一般采用的方法是划兴趣区域(RegionofInterest,ROI),对电信号求时序上的均值,最终获得一列体素,这样的数据在纬度方面和通常处理的图像数据存在相当的差距;邻近的体素往往电信号幅度相近,fMRI收集的信息中存在一定冗余;因为人脑的复杂性,每个个体的数据都会存在一定的域偏移。
  图3fMRI数据的可视化,一列体素,可视化成了一维折线图
  模型结构
  论文将提出的模型命名为MinDVis(SparseMaskedBrainModelingwithDoubleConditionedLatentDiffusionModelforHumanVisionDecoding),也算是给对处理fMRI数据的提示了掩码。由于fMRI数据中存在大量的冗余,即使将相当大一部分的数据进行了遮掩,最后也能重建得大差不离(见图3)。因此,计算时直接加上掩码也不会对模型效果产生太大影响。因为fMRI数据的格式和图像一样,论文采用了新出的MaskedImageModeling〔2〕来生成embeddingvector。
  编码解码部分不是很意外地用了ViT。需要注意的是,中间表达采用的稀疏编码,这是为了保证fMRI表征的细节不被破坏。
  以上是MaskedBrainModeling(图4左)部分的工作,然后就是扩散模型部分,如何从经过如此复杂预处理的fMRI数据中,获取文本信息,并基于此生成图像了(图4右)。
  为了能从抽象的表征中获得视觉信息,论文将解码任务化归成了conditionalsynthesis问题,因此可以使用扩散模型解决。扩散模型的网络包括一个预训练过的UNet模型。生成图像时的限定条件信息基于fMRI数据生成,通过crossattentionhead加入UNet。
  conditionalsynthesis是指限定某些特征后进行数据生成。例如,生成微笑的不同人脸。
  对于一个conditionalgenerative模型而言,生成图像要能在条件限定的特征上尽量稳定,与条件无关的特征上保持多样性。因为人与人的fMRI脑波数据中已经够为多样,在生成图像的时候,需要对UNet进一步约束,强化条件上的限制。
  图4MinDVis结构
  由于模型的结构较为复杂,当前版本的论文中没有进行更为详细的描述,推荐极度好奇的读者直接看开源代码。由于涉及了像MaskedBrainModeling,DiffusionModel这类前沿方法,在没有一定基础的情况下,想彻底吃透方法会需要相当的时间和精力,大家可以量力而行。
  效果
  在大致了解了模型结构之后,还是来到各位最关心的部分,讲讲模型效果。
  由于fMRI的数据主要面向神经科学方向的研究,满足论文任务的数据量不大,模型的训练、验证、测试数据总共来自三个不同的数据集,不同集合的数据域都有所偏移。HumanConnectomeProject〔1〕提供136,000个fMRI数据片段,没有图像,只有fMRI,主要是用来预训练模型的解码部分。GenericObjectDecodingDataset(GOD)〔3〕是主要面向fMRI图像任务的,包含1250张来自200个类别的图像,其中50张被用于测试。Brain,Object,LandscapeDataset(BOLD5000)〔4〕则选取了113组fMRI图像数据对,作为测试。
  由于BOLD5000是第一次用于论文提出的任务,论文没有在这个数据集上与过往工作进行效果对比。在GOD上基于脑波生成的图像,在效果上相比过往研究显然有了显著进步。
  图5GOD数据集上,MinDvis与过往方法效果比较
  论文中还有严谨的消融实验,展示了不同的模型部分对图像生成效果的影响。部分图片较为惊悚,此处不进行展示。感兴趣的读者可以参考图6失败集锦中右下角的图片自行评估承受能力。
  图6MinDvis翻车集锦
  尾声
  终于又到了白鹡鸰的快乐废话环节。
  关于生成图像翻车现象的猜想
  这未必完全是模型的锅。根据多个生成模型的对比,可以假设被试者在看到图像时,其实脑内会有一些特定的特征被激活,但是因为被试者对图像的理解方式、关注点有所区别,激活的特征组也存在差异。之所以会有这种想法,是因为论文附件中的效果展示中,一般细节越复杂,角度越怪的图像,越容易生成失败,这很有可能就是因为图像难以用简单的特征组描述导致的。
  这篇论文意义重大,影响深远,后续工作可能上Nature
  这篇论文展示的图像生成效果非常好,展示了通过fMRI精确还原人们脑内图像信息的可行性。在拥有了更大量的数据之后,人类是如何记忆图像的更多细节的机理,可以通过生成图像与被试者所见图片之间的对比去推测,然后进一步完善、验证。这是神经科学和机器学习成功结合的典范,一个起步的信号。
  除此之外,论文本身能快速拥抱前沿技术,对SOTA模型的熟练应用,以及开源代码的底气也令我相当敬佩。对于论文后续的相关工作,我也会持续跟进。
  参考文献:〔1〕DavidCVanEssen,StephenMSmith,DeannaMBarch,TimothyEJBehrens,EssaYacoub,KamilUgurbil,WuMinnHCPConsortium,etal。Thewuminnhumanconnectomeproject:anoverview。Neuroimage,80:6279,2013。〔2〕He,Kaiming,etal。Maskedautoencodersarescalablevisionlearners。ProceedingsoftheIEEECVFConferenceonComputerVisionandPatternRecognition。2022。〔3〕TomoyasuHorikawaandYukiyasuKamitani。Genericdecodingofseenandimaginedobjectsusinghierarchicalvisualfeatures。Naturecommunications,8(1):115,2017。〔4〕NadineChang,JohnAPyles,AustinMarcus,AbhinavGupta,MichaelJTarr,andElissaMAminoff。Bold5000,apublicfmridatasetwhileviewing5000visualimages。Scientificdata,6(1):118,2019。
投诉 评论 转载

陈式太极拳实用拳法收式的讲解及演示大家好。接下来我们继续讲解陈氏太极拳实用拳法的收式动作。第1种收式动作:首先我们接上一式左转身捣碓这一式子当中的最后一个动作:眼向正前方,身体相对端正,步型松……不必因为事不如愿和言过其实脸红现实中,大家都不喜欢言过其实的人,吹过的牛不实现,总被讥讽和嘲笑。但言过其实真有那么可笑吗?语言和现实之间有很大的距离,相差远着呢。如果许下的诺言最终无法变成……我裂开了人类脑海中的画面,被AI解码了?大数据文摘授权转载自夕小瑶的卖萌屋作者:白鹡鸰有没有那么几个瞬间,你要么想把自己脑子里的东西掏出来给别人看,要么想撬开别人的脑子看看里面都装了什么?虽然错过了霍格沃茨的入……青年旅社竟能男女同住?一晚28元起步,过来人整夜畅谈现在我们中国百姓的生活是越来越好了,也有越来越多的人都加入到旅游的行列中来。不过,对于经济条件有限的人来说,就不能旅游了吗?(此处已添加小程序,请到今日头条客户端查看)……中国电信涨嗨了,多位选手看好一大机会!快来参赛赢大奖,报名只每经编辑:吴永久A股全面注册制开始实施了。今日收盘,上证指数上涨2。06,近3900只个股上涨,中国电信涨停,中国移动和中国联通也大涨,钒电池、钙钛矿概念涨幅居前。前期热……消息称腾讯XR计划引进MetaQuest2,参照任天堂引进合Tech星球2月20日消息,在宣布部分解散XR(扩展现实)团队之后,腾讯并没有完全放弃对XR计划的探索。据36氪,腾讯XR未来将推进引入Meta旗下的QculusQuest2(……别把红米Note12Turbo神化,虽有性价比,与红米K60近期刚刚发布的红米Note12Turbo热度非常高,1999元的起售价也是非常的香。有人说它不仅背刺友商的一加Ace2V,连自家的红米K60都不放过,我觉得这个多少有点太夸张了……中国央企军工大省,甘肃4大军工城市,除了兰州天水白银还有谁?提到甘肃省,很多人第一时间就会想到河西走廊的西部美景和厚重的文化。的确如此,这条狭长的古道就是甘肃省的主动脉。但是,甘肃不止有美景和历史,还是我国的一个军工制造业大省。把……以价值战应对价格战,广汽丰田的电动化新思路华夏时报(www。chinatimes。net。cn)记者刘凯于建平北京报道汽车市场的价格战正在给每一个车企制造焦虑。今年年初,特斯拉对在售Model3及Model……花开别样红醉美桃乡等你来秦安县举办2023年甘肃秦安桃花会旅新天水讯【记者张文都】3月26日,由天水市文旅局、秦安县委、县政府主办的2023年甘肃秦安桃花会旅游宣传推介会在天水市万达广场举行。据了解,本次桃花会着眼于文化领略、美景……舍甫琴科穆德里克来蓝军是正确选择切尔西在为他的未来投资直播吧3月26日讯前乌克兰国脚、曾在切尔西效力过的舍甫琴科本周接受切尔西官网采访时谈到了年轻后辈穆德里克,舍甫琴科认为穆德里克决定来蓝军是正确的选择。我会希望我来到切尔西……北京直飞马尔代夫复航在即!马尔代夫酒店看这篇就够了继等来了1月8日入境免隔离的好消息后,又传来了北京直飞马尔代夫即将复航的另一大喜讯,许多国内的小伙伴早已开始蠢蠢欲动,想赶在2023的开年为自己预定一场久违的蓝色海岛假期。……
九个摧毁你肾脏的坏习惯这些不体面却很赚钱的工作你会做吗检视造句用检视造句大全再次大跌,中概互联还有底吗?曹冲称象的睡前故事自媒体工作室实战操作单人月入万模式复制方法魂惊阿拉伯暖心瞬间上一科目的答案曾是女排最美副攻,23岁赵蕊蕊获奥运冠军,转行当作家婚姻成难中国癌症高发,都是味精惹的祸?提醒真正致癌的是这6种食物如此F1,怎能不泪流满面铁佛寺哭了,红牛奔驰中国车迷哭了阿里云盘文件怎么加密在哪里设置设置密码方法步骤十本值得熬夜看的小说这些小说相当精彩值得熬夜去看描写小兔子的作文500字恒驰汽车路试,能否单骑救主拯救恒大集团?1MOREComfoBudsZ开启预售小巧外观专注于助眠华为2K120Hz屏鸿蒙系统7250mAh大电池,跌至270催化自己的学习能力家用电器行业资金流入榜6股净流入资金超3000万元图热带鱼水温多少合适记住三点才能养好水果中宝宝排毒吃什么好澳大利亚旅游攻略欧菲光智能汽车相关项目开展顺利,订单实现稳步释放

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找