生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显热议

9月21日 尘世客投稿
  文智能相对论
  作者叶远风
  18。8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。
  大模型浪潮下,业界对AI发展的三驾马车算力、算法、数据任何一个维度的关注都到了全新的高度,避免“木桶效应”成为大模型发展首要考虑的问题。
  而在这个过程中,业界对“数据”的关注,往往集中在“量”“质”上,更庞大的数据量与更高的数据质量能推动大模型有更好的训练与应用效果,已经成为共识。
  但是,随着大模型创新对数据需求越来越复杂,单单关注数据的“量”“质”已经不够,能够承载数据、满足大模型需要的存储,同样值得大模型领域从业者关注。
  在刚刚举办的华为全联接大会2023(HC2023)上,华为方面系统介绍了其存储解决方案如何解决大模型训练与应用痛点、支撑大模型创新进程。
  华为的动作,从数据维度全景展示了大模型发展的本质“数据要素”大开发,以及存储创新如何为这种本质提供力量,帮助大模型从业者更好地掘金智能经济时代。
  大模型时代即是数据要素时代,存储作为载体的价值彰显
  毫无疑问,大模型对算力、算法、数据的需求都在急速提高。
  市场研究统计,过去五年,大模型参数增加2000倍,所需计算能力增加5万倍,对数据存储需求增加10万倍,连带网络带宽需求增加8000倍。
  大开大合大需求,需要大设施、大投入。
  但是,如果从创新的视角来看,实际上无论是算法还是算力的提供,其难度都在下降或者说收敛。
  在很多企业都头疼的算力上,虽然需要的量很大,但无非都来自于英伟达、昇腾等GPU硬件资源,是一件主要依赖成本投入的事。换句话说,只要有足够多的预算,算力资源就能供给上来。
  在算法端,虽然各大厂商不断调优迭代,但总体上都在采用Transformer模型基础架构,基于Pytorch、TensorFlow、MindSpore等主流开发框架开发,是逐渐收敛的。
  这时候,压力来到了数据这里。
  随着大模型深入发展,在总量上,数据需求早已从TB级跃升到PB级,需要的“池子”越来越大;而同时,对数据类型的需求又极大丰富,单一文本的模态之外,图片、视频、语音等多模态数据爆发,数据需求越来越复杂,这些都考验着存储的承载力,以及如何在训练、应用过程中更好地与算力、算法协同工作。
  这期间,诸多难题出现,等待存储攻克,主要包括:
  小文件读取性能。大模型在数据需求上以图片文本等海量小文件为主,单台AI服务器每秒能够读取2万多张图片,这往往会导致数据加载效率低(类似于个人PC上的复制动作,同等空间下,内含大量小文件文件夹会比单一大文件要慢很多),影响大模型的训练效率。此时,海量小文件性能就成为瓶颈,万亿参数大模型的基础要求已经达到1000万IOPS。
  CheckPoint断点续训。大模型训练过程中出于参数调优等各种需求,会在不特定时间点中断形成CheckPoint,后续再启动继续训练(需要时间,形成GPU资源利用的空档)。这是一种对长时间训练的模型非常友好的能力,但企业频繁参数调优往往会造成GPU利用率降低(目前业界通常平均每二天就会中断一次,GPU利用率只有40),需要存储具备很强的大文件读写性能,才能减少GPU等待时间、提升昂贵资源利用效率。
  “AI幻觉”问题。大模型输出结果“胡编乱造”,与事实明显冲突的现象是业界十分头疼的问题,这种大模型自以为是的现象称作“AI幻觉”。看起来这是算法上的问题,但实际上,业界在探索中逐渐发现,它的解决需要的是在数据层面不断“求证”(主要是参考上下文信息),本质上要求存储能够提供一个类似于“百科词典”的知识体系,来作为大模型的“海马体”提供准确的行业知识。
  可以看到,在创新层面,解决大模型在存储上面临的挑战,可能要优先于算力和算法。
  这一点,其实也让大模型进一步回归到本质上,即以参数量更大的AI模型进一步挖掘数据要素的价值,推动千行百业实现转型升级。
  现在,数据要素已经作为数字经济和信息社会的核心资源,被认为是继土地、劳动力、资本、技术之后的又一重要生产要素,包括大模型在内的无数创新,都是在围绕数据要素进行价值深度开发。
  大模型的发展过程,可以看作是数据要素不断从原始走向价值输出的过程。
  这一过程中,算法在前方引导方向、走向通用或具体行业,澎湃的算力带来强劲的推动力,而存储则提供支撑与协同能力。当算力主要依赖成本投入、算法逐步收敛,存储作为数据要素载体的创新价值就越来越凸显。
  让数据要素价值落地,华为存储多维度出击解决痛点问题
  如何解决存储面临的挑战,华为高性能知识库存储OceanStorA800产品与对应解决方案在面向行业模型训推场景拥有全面领先的训推效率,总体而言有四大特点:
  1、极高的整体性能,匹配大模型训练需要
  华为存储首要解决的是在整体性能上满足大模型对训练数据的庞大需求,尤其是对小文件读取性能的需求。
  OceanStorA800基于创新数控分离架构,单框IOPS能够达到2400万,训练集加载效率是业界的4倍,而且可以根据客户需求实现性能线性扩展。此外,OceanFS分布式文件系统实现全局均衡打散,消除了CPU瓶颈,能带来海量小文件性能的极致提升体验,满足大量小文件读取需求。
  只要有性能需要,尽管“往上加”,华为存储都“扛得住”。
  2、特殊能力优化,满足断点续训等特定需要
  断点续训等特殊情况下如何更好地提供支撑,是华为存储在大模型训练阶段要同步应对的挑战。
  通过盘控协同、NFS并行文件系统,华为存储实现了单框500GBs超高带宽,能够做到CheckPoint的超快恢复,断点续训恢复速度是业界3倍,TB级CheckPoint读写实现从小时级到分钟级的跨越(即万亿参数大模型平均恢复时间小时级提速到分钟级),减少昂贵的GPU等待。
  只要是优化大模型需要的,客户都能够更加大胆地进行参数调优等操作。
  除此之外,其管控面拥有资源分区统一调度能力,还能够让存储适合不同的业务模型。
  不管客户面向什么业务模型进行开发,不管客户在过程中选择在什么时候暂停,华为存储都能更好地应对。
  3、响应能力强化,满足大模型应用的实时需求
  训练阶段完成后,华为存储要做的,是在应用阶段满足严苛的数据响应需要。
  目前,在大模型应用阶段,得益于内置了向量知识库(以向量的形式储存行业知识),华为存储的QPS达到了25万,已经能够实现毫秒级响应,一方面能够加速推理,使得应用过程中的GPU资源消耗大大减少,有效节约了落地成本当前很多大模型在开放应用阶段的资源消耗十分巨大,有些企业已经不堪重负;另一方面“百科词典”使得大模型更具准确的行业知识,对减少AI幻觉产生起到重要的支撑作用,能大大提升推理的精度。
  4、架构创新,保障整体系统的稳定可靠
  对存储最后一个也是最基本的要求是,无论具备什么样的特性,都要保证稳定可靠的整体结构,不发生安全问题、不“掉链子”。
  华为存储解决一系列大模型数据痛点需求的过程,某种程度上也增加了存储方案与体系的复杂性,但与此同时,华为并没有牺牲系统的可靠性,其创新的全互联AA架构,能够实现5层全方位保护与6个9的超高可靠。
  由此,大模型的数据可靠性及训练稳定性实现了端到端的保障。
  造轮者,先行久远路途
  华为存储能够解决大模型数据痛点问题,根源在于其长期以来在存储上的创新探索。
  OceanStorA800的数控分离架构,就利用了业界前沿的数据读写直通到盘的技术创新,让数据面直通到盘,与控制面分离,实现IO直通,从而减少数据读写时CPU的运算,大大提升存储性能。
  实际上,华为长期以来在存储上进行技术耕耘,已经取得了颇多类似的前沿创新成果。
  目前,华为OceanStor存储在全球拥有12个研发中心、4000研发人员、3000专利,产品涉足高性能NAS存储解决方案、存储防勒索解决方案、容器存储解决方案、数据中心虚拟化等多个领域,获得了广泛好评。
  在全球150多个国家,华为存储已经服务了包括运营商、金融、政府、能源、医疗、制造、交通等行业在内的25000客户。
  可以说,为数据要素价值开发、为大模型创新需求量身定制的存储能力,是华为长期以来在存储赛道上深耕的必然结果华为存储早已做好了为众多领域数据需求(不只有大模型)提供强大承载力与协同力的准备。
  本文图片均来源于网络
  智能相对论Focusingon智能新产业新服务,这是智能的服务NO。240深度解读
  此内容为【智能相对论】原创,
  仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
  部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
  AI产业新媒体;
  澎湃新闻科技榜单月度top5;
  文章长期“霸占”钛媒体热门文章排行榜TOP10;
  著有《人工智能十万个为什么》
  【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI医疗、机器人、物联网、AI金融、AI教育、ARVR、云计算、开发者以及背后的芯片、算法等。
投诉 评论 转载

【快讯】连界董事长王玥EAC法国艺术文化管理学院《创战略商业 2023年4月8日4月9日,创新战略学者,产业投资人、连界董事长王玥在招商局大厦为EAC法国艺术文化管理学院的30多名MBA学员进行了《创战略商业模式创新》的授课。授课现……WindowsMobile6。5正式版5月11日发布热闻聚热 一年一度的微软TechEd2009大会是微软面向开发人员和IT专业工作者的“技术教育”盛会,通常,微软都会对各种最新版本产品进行更深入地介绍,根据WindowsMobile团队……曲靖专科医院在那里?曲靖九洲医院讲解生殖异常热闻聚热点网 很多男性在遭遇男科问题侵袭的时候,因为爱面子、羞于被他人知晓等缘故,总是选择拖拖拉拉,实在扛不住才会到医院看医生。然而,这时情况已经相当严重了,诊疗难度也很大,因此希望男性患者……曝光“一督就撤”IPO!某券商俩“新人”保代将遭追责热博聚热 现场督导1个案例暗指某IPO企业!某券商俩“新人”保代将遭追责目前本所正在推进对发行人、中介机构及相关人员的监管处理。姓名:辛莉莉性别:女执业机构:长江证券承……大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显热议 文智能相对论作者叶远风18。8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。大模型浪潮……擦A醇脱皮泛红怎么办?4招急救舒缓方法立刻搞定,日常敏感也能 这几年,要说美容界最火的成分,估计很多人都会首选A醇。但是火,也会伴随着争议,很多人使用了含有A醇的护肤品之后,首先遇到的不是肤质变好,而是A醇引发的脱皮泛红等副作用。因此,关……【歌词】把爱放开飞儿乐团歌手:伤感歌曲热传聚热点网 飞儿乐队把爱放开制作我们的爱过了就不再回来直到现在我还默默的等待当你开始追寻你要的自由放开我们紧握的手带走我的爱和天空我不知所措我以为……【歌词】风筝与风Twins歌手:环球群星热闻聚热点网 风筝与风(松日广告主题曲)歌手:twins专辑:happytogether(新曲twins风筝与风(松日广告主题曲)曲:伍乐城词:林夕没有灯背影怎……男性不育的5个征兆,快看看你中招了没!热博聚热点网 男性不育是指男性的生殖系统受到各种原因的影响,导致不孕或不育。男性不育已经成为一个常见的问题,它会给许多夫妻带来巨大的困扰。了解男性不育的早期征兆,可以及时发现问题并采取有效的……一日一禅丨戒躁,别轻易发脾气热文聚热点网 阅读本文前,请您先点击上面的“圣贤文化育天下”,再点击“关注”,这样您就可以继续免费收到文章了。每天都有分享。完全是免费订阅,请放心关注。戒躁,别轻易发脾气;戒卑,别认为……五一假期,都江堰这些机关单位停车位可免费停车热闻聚热点网 五一假期都江堰500个机关单位停车位可免费停车!“五一”假日,不少游客选择自驾前往都江堰游玩。为缓解外来游客“停车难”的问题,“五一”假日期间,都江堰市为各地……【产业】琼中营根朝参村活用庭院空地打造小果园带动村容美百姓富 10月10日,琼中黎族苗族自治县营根镇朝参村驻村工作队来到村民王丽娜家,看到绿油油的百香果在藤蔓间若隐若现,还有一些白瓣紫心的花朵正在竞相开放,寓示着新的百香果即将到来。……
每天做50个俯卧撑,坚持一个月,有多少人能坚持到?热文聚热点 你知道哪些,关于体育圈的冷知识?热博聚热点网 UltraEdit是什么。怎么用?热闻聚热点网 沪指跌破3600点,股民关灯吃面增多,本轮牛市行情结束了吗? 万兴科技清仓减持,你怎么看?热传聚热点网 孩子(小学生)不爱学习怎么办?热传聚热点网 汽车车身贴膜有必要吗?热博聚热点网 阴阳师傀儡师哪里多?热传聚热点网 哪些家具比较好?热文聚热点网 有哪些台词曾经让你深深感动过?热博聚热点网 有没有类似《士兵突击》这样在部队中逐渐成长为兵王的电视剧?热 合肥是个怎样的城市?热文聚热点网
微信怎么查自己某一天的聊天记录(怎么找到微信的其他聊天记录)交通事故要求赔偿有没有时间限制【歌词】为何祝福歌手:叶倩文热博聚热点网 莫兰特4110,布克3875!但今天最佳只能是詹姆斯,砍37网吧wifi接入可以做认证吗陪伴才是最好的家庭教育我的心事表示心累的文案心情累的文案大全春节儿童防病指南春节看电视玩手机太high,娃的视力怎么办?边城读书笔记给朋友的幽默个性晚安心语卖包包如何线上引流推广?微商卖包包怎么找客源

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西