生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显热传

5月5日 先锋客投稿
  文智能相对论
  作者叶远风
  18。8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。
  大模型浪潮下,业界对AI发展的三驾马车算力、算法、数据任何一个维度的关注都到了全新的高度,避免“木桶效应”成为大模型发展首要考虑的问题。
  而在这个过程中,业界对“数据”的关注,往往集中在“量”“质”上,更庞大的数据量与更高的数据质量能推动大模型有更好的训练与应用效果,已经成为共识。
  但是,随着大模型创新对数据需求越来越复杂,单单关注数据的“量”“质”已经不够,能够承载数据、满足大模型需要的存储,同样值得大模型领域从业者关注。
  在刚刚举办的华为全联接大会2023(HC2023)上,华为方面系统介绍了其存储解决方案如何解决大模型训练与应用痛点、支撑大模型创新进程。
  华为的动作,从数据维度全景展示了大模型发展的本质“数据要素”大开发,以及存储创新如何为这种本质提供力量,帮助大模型从业者更好地掘金智能经济时代。
  大模型时代即是数据要素时代,存储作为载体的价值彰显
  毫无疑问,大模型对算力、算法、数据的需求都在急速提高。
  市场研究统计,过去五年,大模型参数增加2000倍,所需计算能力增加5万倍,对数据存储需求增加10万倍,连带网络带宽需求增加8000倍。
  大开大合大需求,需要大设施、大投入。
  但是,如果从创新的视角来看,实际上无论是算法还是算力的提供,其难度都在下降或者说收敛。
  在很多企业都头疼的算力上,虽然需要的量很大,但无非都来自于英伟达、昇腾等GPU硬件资源,是一件主要依赖成本投入的事。换句话说,只要有足够多的预算,算力资源就能供给上来。
  在算法端,虽然各大厂商不断调优迭代,但总体上都在采用Transformer模型基础架构,基于Pytorch、TensorFlow、MindSpore等主流开发框架开发,是逐渐收敛的。
  这时候,压力来到了数据这里。
  随着大模型深入发展,在总量上,数据需求早已从TB级跃升到PB级,需要的“池子”越来越大;而同时,对数据类型的需求又极大丰富,单一文本的模态之外,图片、视频、语音等多模态数据爆发,数据需求越来越复杂,这些都考验着存储的承载力,以及如何在训练、应用过程中更好地与算力、算法协同工作。
  这期间,诸多难题出现,等待存储攻克,主要包括:
  小文件读取性能。大模型在数据需求上以图片文本等海量小文件为主,单台AI服务器每秒能够读取2万多张图片,这往往会导致数据加载效率低(类似于个人PC上的复制动作,同等空间下,内含大量小文件文件夹会比单一大文件要慢很多),影响大模型的训练效率。此时,海量小文件性能就成为瓶颈,万亿参数大模型的基础要求已经达到1000万IOPS。
  CheckPoint断点续训。大模型训练过程中出于参数调优等各种需求,会在不特定时间点中断形成CheckPoint,后续再启动继续训练(需要时间,形成GPU资源利用的空档)。这是一种对长时间训练的模型非常友好的能力,但企业频繁参数调优往往会造成GPU利用率降低(目前业界通常平均每二天就会中断一次,GPU利用率只有40),需要存储具备很强的大文件读写性能,才能减少GPU等待时间、提升昂贵资源利用效率。
  “AI幻觉”问题。大模型输出结果“胡编乱造”,与事实明显冲突的现象是业界十分头疼的问题,这种大模型自以为是的现象称作“AI幻觉”。看起来这是算法上的问题,但实际上,业界在探索中逐渐发现,它的解决需要的是在数据层面不断“求证”(主要是参考上下文信息),本质上要求存储能够提供一个类似于“百科词典”的知识体系,来作为大模型的“海马体”提供准确的行业知识。
  可以看到,在创新层面,解决大模型在存储上面临的挑战,可能要优先于算力和算法。
  这一点,其实也让大模型进一步回归到本质上,即以参数量更大的AI模型进一步挖掘数据要素的价值,推动千行百业实现转型升级。
  现在,数据要素已经作为数字经济和信息社会的核心资源,被认为是继土地、劳动力、资本、技术之后的又一重要生产要素,包括大模型在内的无数创新,都是在围绕数据要素进行价值深度开发。
  大模型的发展过程,可以看作是数据要素不断从原始走向价值输出的过程。
  这一过程中,算法在前方引导方向、走向通用或具体行业,澎湃的算力带来强劲的推动力,而存储则提供支撑与协同能力。当算力主要依赖成本投入、算法逐步收敛,存储作为数据要素载体的创新价值就越来越凸显。
  让数据要素价值落地,华为存储多维度出击解决痛点问题
  如何解决存储面临的挑战,华为高性能知识库存储OceanStorA800产品与对应解决方案在面向行业模型训推场景拥有全面领先的训推效率,总体而言有四大特点:
  1、极高的整体性能,匹配大模型训练需要
  华为存储首要解决的是在整体性能上满足大模型对训练数据的庞大需求,尤其是对小文件读取性能的需求。
  OceanStorA800基于创新数控分离架构,单框IOPS能够达到2400万,训练集加载效率是业界的4倍,而且可以根据客户需求实现性能线性扩展。此外,OceanFS分布式文件系统实现全局均衡打散,消除了CPU瓶颈,能带来海量小文件性能的极致提升体验,满足大量小文件读取需求。
  只要有性能需要,尽管“往上加”,华为存储都“扛得住”。
  2、特殊能力优化,满足断点续训等特定需要
  断点续训等特殊情况下如何更好地提供支撑,是华为存储在大模型训练阶段要同步应对的挑战。
  通过盘控协同、NFS并行文件系统,华为存储实现了单框500GBs超高带宽,能够做到CheckPoint的超快恢复,断点续训恢复速度是业界3倍,TB级CheckPoint读写实现从小时级到分钟级的跨越(即万亿参数大模型平均恢复时间小时级提速到分钟级),减少昂贵的GPU等待。
  只要是优化大模型需要的,客户都能够更加大胆地进行参数调优等操作。
  除此之外,其管控面拥有资源分区统一调度能力,还能够让存储适合不同的业务模型。
  不管客户面向什么业务模型进行开发,不管客户在过程中选择在什么时候暂停,华为存储都能更好地应对。
  3、响应能力强化,满足大模型应用的实时需求
  训练阶段完成后,华为存储要做的,是在应用阶段满足严苛的数据响应需要。
  目前,在大模型应用阶段,得益于内置了向量知识库(以向量的形式储存行业知识),华为存储的QPS达到了25万,已经能够实现毫秒级响应,一方面能够加速推理,使得应用过程中的GPU资源消耗大大减少,有效节约了落地成本当前很多大模型在开放应用阶段的资源消耗十分巨大,有些企业已经不堪重负;另一方面“百科词典”使得大模型更具准确的行业知识,对减少AI幻觉产生起到重要的支撑作用,能大大提升推理的精度。
  4、架构创新,保障整体系统的稳定可靠
  对存储最后一个也是最基本的要求是,无论具备什么样的特性,都要保证稳定可靠的整体结构,不发生安全问题、不“掉链子”。
  华为存储解决一系列大模型数据痛点需求的过程,某种程度上也增加了存储方案与体系的复杂性,但与此同时,华为并没有牺牲系统的可靠性,其创新的全互联AA架构,能够实现5层全方位保护与6个9的超高可靠。
  由此,大模型的数据可靠性及训练稳定性实现了端到端的保障。
  造轮者,先行久远路途
  华为存储能够解决大模型数据痛点问题,根源在于其长期以来在存储上的创新探索。
  OceanStorA800的数控分离架构,就利用了业界前沿的数据读写直通到盘的技术创新,让数据面直通到盘,与控制面分离,实现IO直通,从而减少数据读写时CPU的运算,大大提升存储性能。
  实际上,华为长期以来在存储上进行技术耕耘,已经取得了颇多类似的前沿创新成果。
  目前,华为OceanStor存储在全球拥有12个研发中心、4000研发人员、3000专利,产品涉足高性能NAS存储解决方案、存储防勒索解决方案、容器存储解决方案、数据中心虚拟化等多个领域,获得了广泛好评。
  在全球150多个国家,华为存储已经服务了包括运营商、金融、政府、能源、医疗、制造、交通等行业在内的25000客户。
  可以说,为数据要素价值开发、为大模型创新需求量身定制的存储能力,是华为长期以来在存储赛道上深耕的必然结果华为存储早已做好了为众多领域数据需求(不只有大模型)提供强大承载力与协同力的准备。
  本文图片均来源于网络
  智能相对论Focusingon智能新产业新服务,这是智能的服务NO。240深度解读
  此内容为【智能相对论】原创,
  仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
  部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
  AI产业新媒体;
  澎湃新闻科技榜单月度top5;
  文章长期“霸占”钛媒体热门文章排行榜TOP10;
  著有《人工智能十万个为什么》
  【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI医疗、机器人、物联网、AI金融、AI教育、ARVR、云计算、开发者以及背后的芯片、算法等。
投诉 评论 转载

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显热传 文智能相对论作者叶远风18。8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。大模型浪潮……【产业】儋州:特色黑猪养殖产业势头旺带农增收助推乡村振兴热博 乡村振兴,产业先行。在儋州,特色黑猪生态养殖产业发展有声有色,儋州鑫腾生态养殖场以优化品种结构为重点,加大产业科技投入,积极构筑“引、繁、育、管、推广”一体化的乳酸菌养殖良种猪……登记结婚需要什么证件2021热文聚热点网 一、登记结婚需要什么证件1、中国公民在中国境内申请结婚的。必须双方亲自到一方户口所在地的婚姻登记机关申请结婚登记,申请时,应当持下列证件和证明:(1)户口证明……消息人士称,腾讯将开设元宇宙部门热文聚热点网 路透社上周援引三位熟悉此事的消息人士称,腾讯控股将建立一个扩展现实(XR)部门,其沉浸式部门的任务是为未来的虚拟世界解决方案开发硬件和软件。消息人士在报告中解释说,腾讯将……劳动合同三年试用期是多长时间热闻聚热点网 问:劳动合同三年试用期是多长时间律师解答:1、三年劳动合同试用期最长为六个月。2、《劳动合同法》第十九条劳动合同期限三个月以上不满一年的,试用期不得超过一个月;劳动……五指山牙胡梯田披“绿”装,等风也等你来赏热闻聚热点网 天光接水光远树对斜阳手捧青苗喜自狂南风生金浪走进牙胡梯田的稻田里,前一段时间种下的秧苗已经回青分蘖,绿油油的一片,长势喜人。时下,农户们抢抓农时,犁田、整理、插秧呈……把脉会诊推动共享农庄高质量发展热传聚热点网 9月19日上午,省人大常委会会议厅座无虚席,省七届人大常委会第六次会议联组会议在这里举行,就我省共享农庄建设情况开展专题询问。6名省人大常委会委员带着专题调研中发现的问题询问相……订婚礼金什么时候给?热闻聚热点网 问:订婚礼金什么时候给?律师解答:在我国上下五千年历史文化中,男女结婚是人生当中最重要的时刻,并且结婚之前男方都必须给女方家订婚礼金,那么,订婚礼金什么时候给?下面……60岁安倍夫人瞬间老了太多!无儿无女却一直被宠爱,大秀东方气 前日本首相安倍晋三出事后,夫人安倍昭惠在当地时间7月8日立刻就赶往奈良县。安倍夫妇结婚30多年,两人没有生育孩子,而个性十足的安倍昭惠算是打破了第一夫人的很多传统,安倍昭惠喜欢……有合同的门头房开发商强拆怎么办?详解如何在强拆中维权热文聚热 首先我们要知道门头房是什么?门头房就是门面房,是位于道路一侧的临街的独立式房屋,特指用于商业用途的房屋,或是路边具有独立〔门面的房间,是房屋的一部分,门面房公摊面积不大,原则上……金锁玉关全文详解(值得收藏)热博聚热点网 盘古开天地,混沌之气化生万物。五方:指东、西、南、北、中五个方位。乾为天为阳,坤为地为阴。三纲者:天、地、人。周天万象排星斗天清地浊理阴阳地球围绕太阳一圈,从人的直……观察这些中年女人的穿搭才知道:原来穿衣色彩不过3,才高级热议 上了年纪之后,中年女人的穿着打扮就更加注重衣服的质感,以及整体风格是否和自己的气质匹配,说实话,如果你想要成为一个有气质的女人,一定要遵守的一个原则就是穿衣搭配的色彩不能超过三……
在谍战剧《天衣无缝》中,胡海峰饰演的贵翼大气、睿智,他会成为 《辛普森一家》S31E18为何迎来画风突变?热文聚热点网 最近看了《三千鸦杀》,你最喜欢哪个演员?热闻聚热点网 你觉得电影《兵临城下》怎么样?热传聚热点网 文章同学你这忏悔书是复制粘贴的吧?热评聚热点网 Android版手机QQ5。0正式发布!热闻聚热点网 徐克最新电影《摸金校尉之九幽将军》,你希望谁做男主角?热传聚 三尺讲台诲人不倦的下一句是什么?热文聚热点网 越发愁赚钱的人,越赚不到钱,真正会赚钱的人都有什么样的思维? 杨紫新代言开启预热,代言品牌让人惊讶,曾被黑粉嘲笑商业价值低 天价!联想智能桌面IdeaCentreHorizon正式发布 十八禁!经典复刻《情圣拉瑞:重装上阵》热评聚热点网
英文的名人名言带翻译意甲0斯佩齐亚取两连胜写初三的幸福作文400字热文聚热点网 人生的经典语录【歌词】NewLaw歌手:GloriaCycles热闻聚热点 我的哥哥电动自行车充电服务运营商小绿人科技完成亿元B轮融资,即将启动星巴克才是支付宝的最大潜在威胁一气周流(一气周流小儿推拿)用ChatGPT入门机器学习!机器学习助力料分析案例老人过冬需先呵护五大器官混江龙其三

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西