生活工程体验信仰哲学精神
快软网
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

“偏科”的国产大模型:长于文本、弱于数理、作画凑合热评聚热点

12月4日 凉夕夏投稿
  采写王舒然
  编辑万天南
  国产大模型集体交答卷了。
  8月31日,首批11家国产大模型获批上线,包括百度的“文心一言”、商汤科技的“商量SenseChat”、智谱AI的“智谱清言”、MiniMax的“ABAB”、上海人工智能实验室的书生通用大模型、抖音的“云雀”、百川智能的“百川”以及中科院旗下的“紫东太初”、科大讯飞的“讯飞星火认知大模型”、阿里“通义千问”、360智脑。
  其中,文心一言、商量SenseChat、抖音基于“云雀”研发的AI智能助手“豆包”、智谱清言、MiniMax的“ABAB”、“讯飞星火认知大模型”已经面向公众开放测试。
  另据第一财经报道,阿里“通义千问”、360智脑也预计在未来一周左右陆续开放。
  自今年2月ChatGPT掀起“生成式AI”热后,国产大模型齐齐备战,7个月后的今天,到了验收成果的时候。
  就速度而言,不可谓不惊喜,但真正让人关心的还是效果如何。
  《财经故事荟》体验了上述6家已经开放测试的大模型,从文本创作、数理计算、作画、信息检索等角度与其做了对话,发现这些大模型已经能解决相当一部分问题,尤其在文本创作方面颇有些亮点。当然,有瑕疵也在所难免,但就短短半年的沉淀而言,总体值得给一个肯定。
  需要说明的是,大模型输出的结果存在随机性,即便是同一指令,每次生成的内容也有差异,因而不能就有限的体验去定论模型的高下。
  不过,国内大模型榜单SuperCLUE发布的大模型8月排行榜,倒是能体现出这些大模型的总体水平。排行榜显示,在国产大模型中,百川智能的Baichuan13BChat(V2)拿下榜首,MiniMax的MiniMaxabab5及百度的文心一言(V2。2。3)紧随其后。
  文本创作:颇有亮点
  文本处理是这些大模型的主攻方向之一,其中,基于文本的创作是重头戏,其一直肩负着解放生产力的众望。
  此次体验重点针对写诗、起标题、构思文章、润色作文的能力进行。
  其一,写诗方面,这些大模型总体表现都不错,创作的诗基本都有合理的语义和语境,而不只是词与词的无逻辑拼凑。
  比如,指令是“写一首诗,关键词包含江湖、菩提、相逢”时,文心一言、商量大模型、MiniMax大模型均表现不错,尤其掌握了押韵的精髓。
  (左:文心一言,中:商量,右:MiniMax)
  相对而言,百川大模型、讯飞星火、智谱清言、抖音“豆包”在押韵方面有时不够稳定。
  (左:讯飞星火,右:智谱清言)
  其二,起标题方面,这些大模型也基本能抓住中心思想,虽然代替人的思考还不现实,但可以提供参考。
  比如,输入《财经故事荟》之前写的关于“短视频造假背后的流量经济及造假产业链”的段落后,文心一言、讯飞星火、智谱清言、百川大模型的结果如下:
  (左上:智谱清言,左下:商量,右上:讯飞星火,右下:百川)
  而颇让人有点惊喜的是MiniMax大模型的标题,其看起来不只是“组合”已有关键词,而是有自己的归纳,部分直接拿来用也未尝不可:《短视频造假屡禁不止:揭秘背后的利益链和传播机制》、《短视频造假乱象:“流量为王”时代的道德困境》、《短视频造假:一场博人眼球的“游戏”》、《造假短视频:平台、创作者与看客的共谋》、《短视频造假:技术与人性的扭曲》。
  值得一提的是,在上述体验过程中,百川大模型有一个比较迷惑的现象,其似乎在“某些内容输入字数过多”时无法处理,会提示回答不了,缩减段落后才会给出结果。
  比如,上述测试段落有1600多字,缩减为1200多字后才能回答,但在尝试另一个1400多字的段落时,却可以正常处理,原因无从得知。
  其三,润色文章方面,各家水平可圈可点,彼此难分上下。
  一方面,它们都能处理基本的错别字、标点、语法等问题,只不过处理方式有差异。
  比如,对于“我们自天性来说,本是娇小的,本是弱小的”的润色,文心一言会处理成“从天性来说,我们本是娇小且弱小的”,而百川、智谱清言、讯飞星火则倾向于更简洁的处理,类似于“我们天生就是渺小的,脆弱的”。
  但这种处理风格并不固定,比如,对于“我打小住在乡村,我十分稀爱下雨天,每次偶然对上下雨,我都很激动”的润色,文心一言的处理更简洁“我从小在乡村长大,对雨天有着深深的喜爱”;讯飞星火则是在原有表达基础上做简单修饰“我自幼生活在乡村,我非常喜爱下雨天。每当偶然遇到下雨天,我总是兴奋不已。”可见,AI算法带有强烈的“随机性”。
  文心一言的结果
  另一方面,在一些语义理解上,各家的识别与处理也有差异。
  以润色“因为下雨啊,可以让一个人获得成长,使其变得更美好呀!”为例,文心一言、抖音“豆包”的处理更好一些,它们都将“下雨让人获得成长”调整成“下雨让生命或万物得到滋润”,显然更合适,而其他大模型则没有如此调整。
  其四,在构思文章方面,几家大模型的表现均有一定惊喜。
  比如,输入指令“分析钟薛高进军平价雪糕市场所面临的挑战”,几家大模型都关注到了“与蒙牛、伊利等品牌的竞争”、“对钟薛高品牌形象的影响”、“成本控制”的角度。
  尤其值得称赞的是,文心一言、抖音“豆包”还特别关注到“钟薛高将面临的销售渠道挑战”这完全能给写稿者提供一定思路。
  抖音“豆包”的结果
  不过,瑕疵也在所难免,在“分析钟薛高推出低价雪糕的原因”问题上,几家大模型虽然都给出了34点分析角度,但其实有些角度的本质含义一样,均指向“扩大消费群体,开拓市场份额”,是可以合并的。
  以文心一言为例:
  这说明在语义理解上,这些大模型还有不小的进步空间。
  实际上,在体验过程中,就曾在语义理解上出现过比较离谱的现象。
  比如,在“制定老年人爱看的2024年春晚节目单”问题上,讯飞星火、智谱清言、百川大模型、商量大模型、抖音“豆包”的人员名单中都出现了“邓丽君”或“赵丽蓉”等已过世明星。
  讯飞星火的结果
  再比如,在“请写一个‘火腿肠炒鼠标’的菜谱”问题上,智谱清言、讯飞星火、商量大模型、抖音“豆包”均指出鼠标不能食用,百川大模型则很配合,还特意标注“使用废弃不用的鼠标”,着实有点冷幽默。
  百川大模型的结果
  文心一言更是有求必应,“将鼠标去除内脏”的步骤让人啼笑皆非。
  文心一言的结果
  但总的来说,短短7个月就能交付上述结果,这些大模型均值得一个肯定。
  数理计算:水平不稳定
  在解答数学题方面,《财经故事荟》抽取了10道初中数学题进行测试,结果是:文心一言、讯飞星火、商量大模型均答对5道,智谱清言答对4道,抖音“豆包”答对3道,百川大模型只答对2道。
  比如,在比较简单的“大于0。5而小于4的整数共有多少个?”问题上,文心一言、商量大模型答对,是4个,其余均错误。
  而且,智谱清言“错上加错”,其列举了5个数,但说成了7个。
  智谱清言结果
  在解答物理题方面,关于物理现象的解释,这些大模型普遍没有问题,《财经故事荟》抽样了10道初中物理现象解释题,它们均能答对910道。
  比如,在“为什么池水深度看起来比实际的浅?”问题上,它们都能答出“折射原理”。
  这或许是因为,物理现象解释更偏文本检索和归纳,本质还是文本处理能力,这正中大模型的主攻方向。
  当然,现阶段出现一些离谱解释也在所难免。
  比如,在“医生给病人检查时,常把一把小镜子在酒精灯上烧一烧,然后再放入病人的口腔,为什么?”问题上,百川大模型就答多错多,其额外提到了“镜子会吸附口水,而口水含有丰富的矿物质等,对于治疗某些疾病具有辅助效果”的奇怪解释。
  而在物理计算方面,这些大模型普遍表现欠佳。
  在10道涉及物理运动、质量与密度、压强、电学等不同题型的初中物理试题中,商量大模型表现较为突出,答对了4道,文心一言、百川大模型、抖音“豆包”答对2道,讯飞星火、智谱清言则只答对1道。
  比如,在“甲乙两个同学沿相反的方向拉测力计,各用力200牛,则测力计的示数是多少?”问题上,答案是200牛,只有商量大模型答对,且解题思路正确。文心一言、讯飞星火、百川大模型、智谱清言给出的答案都是0,抖音“豆包”则认为是400牛。
  商量大模型结果
  再比如,在“某同学用刻度尺测量钢球的直径,测得的四次结果是1。82CM,1。87CM,1。68CM,1。81CM,则小球的直径应该取多少?”问题上,也只有商量大模型答对1。83CM,文心一言、百川大模型、讯飞星火都是1。79CM,抖音“豆包”是1。825CM,智谱清言解题思路正确,但最终结果算错为1。82CM。
  智谱清言结果
  但需要备注的是,大模型的数理计算结果仍旧不稳定。
  就如上述直径问题,智谱清言第一次结果是错误的1。82CM,但重新询问时又给出了1。83CM的正确答案;而在上述测力计问题上,讯飞星火第一次回答是错误的0,重新询问又回答成错误的400N。
  总的来说,在有标准答案的数理问题上,这些大模型表现都不能算及格。
  作画水平“拉胯”,“触雷”概率较大
  在6家大模型中,目前只有文心一言、讯飞星火支持作画。
  不过,目前这两家大模型的作画能力尚未达到理想状态,“触雷”概率不低。
  其一,有些画作看起来有些“假”,不够真实。
  以“马”、“风景”为例,以下是文心一言的刻画。
  讯飞星火的风景画在意境方面更好一些,但马的刻画风格跟文心一言一样,有点不真实。
  其二,它们对语义的理解还有欠缺。
  以“请画一幅李清照和苏轼在下棋的画”为例,文心一言的画作上只呈现了一个人。
  提示之后才增加,但“李清照”下棋坐的位置明显不对。
  而讯飞星火方面,虽然呈现了两个人,但都是男性,也不符合需求。
  经提示后,其竟然无法再重新生成图片,且尝试多次均如此。
  比如,“画一碗牛蛙面”,讯飞星火的很离谱面里有整只牛蛙。
  (左:文心一言,右:讯飞星火)
  再比如,“画一只正在睡觉的俄罗斯蓝猫”,讯飞星火将俄罗斯蓝猫理解成蓝色的猫,而文心一言虽理解正确,但顾此失彼,对睡觉有些“误解”。
  (左:文心一言,右:讯飞星火)
  其三,在面部等细节的刻画上,大模型还有不少问题。
  比如文心一言画的人,眼睛有时会出现“斗鸡眼”,或者面部、手脚成“模糊的一团”。
  讯飞星火也存在相似问题,比如下图中“牧羊少年”的面部就有些畸形的诡异感。
  试图引导其优化,结果引来了更“灾难”的画面:
  当然,也有值得肯定之处,在不需要刻画太多细节的场景下,作品还是能让人“驻足欣赏”一下。
  比如下述两家大模型给出的山水画。
  (左:文心一言,右:讯飞星火)
  总的来说,相比文本能力,大模型的作画水平需要更多“调教”,在这个过程中,不仅需要算法和数据层面的持续调优,也需要人在指令层面与其磨合,以充分挖掘其潜力。
  正如李彦宏所说,未来提出问题比解决问题更重要,10年后,全世界可能有50的工作是提示词工程。
  信息检索:准确度待提升
  如果把大模型当搜索工具用,就需要其在信息更新的及时性、全面度和准确性上达到合格水平。
  体验发现,在部分搜索场景下,这些大模型能提供准确信息。
  比如,在“曹操为什么娶林黛玉?”、“张三丰为什么杀张无忌?”、“花生为什么长在树上?”等问题陷阱里,每一家都能准确告知不存在这个现象。
  文心一言结果
  再比如,关于“是谁提出了新三民主义?”、“淞沪会战是什么时候?”、“是谁首次培育出了杂交水稻?”等具体问题上,这些大模型也都能正确回答。
  但在一些数据统计层面,它们表现很不理想。
  一方面,有些大模型缺失最新数据,或者缺少某些特定领域的数据储备。
  比如,在统计中国年度新增人口时,文心一言、讯飞星火最新可统计到2022年,但智谱清言只能查到2020年,百川大模型、抖音“豆包”则只能查到2021年,商量大模型完全统计不到此类数据。
  百川大模型结果
  同样的,在统计中国年度GDP时,百川大模型最新也只能查到2021年,商量大模型也完全统计不到。
  商量大模型结果
  再比如,在部分有关线下店面信息的问题上,MiniMax大模型、智谱清言、百川大模型、抖音“豆包”会表示无法查询。
  还有一些历史信息,部分大模型也缺失相关内容,比如,问“中国成功爆炸第一颗氢弹是什么时候”,智谱清言和百川大模型均提示无法查询。
  另一方面,数据的准确度也普遍欠佳。
  比如,在“请统计下最近5年中国GDP数据”问题上,以国家统计局网站上的数据为标准,没有一家是完全正确的。
  其中,文心一言只有2021年的数据不正确,其显示是114。37亿元,而国家统计局是114。92亿元。
  经过提示后,再重新提问,其做了更正:
  百川大模型、讯飞星火、抖音“豆包”则是每一年的数据都不正确;MiniMax大模型是2021、2022年不一致;智谱清言则只有2020年是正确的。
  此外,在这几家大模型中,只有MiniMax将“2022年划分到最近5年”,其余均默认最新显示到2021年。
  MiniMax结果
  其实,准确度欠佳的问题不止出现在数据统计上。
  比如,在“鲁智深为什么三打白骨精”的问题陷阱中,只有文心一言、商量大模型、抖音“豆包”回答不存在,其他大模型都开始“编故事”了。
  再比如,在询问“父母之爱子,则为之计深远”的典故时,也只有文心一言、商量大模型、抖音“豆包”回答正确,百川大模型认为没有特定典故,讯飞星火、智谱清言则说错了典故出处。
  抖音“豆包”结果
  还有,查询电影信息时也有类似现象,在“为陈思诚监制的电影《消失的她》写影评”问题上,只有文心一言、商量大模型、抖音“豆包”描述的事实与电影相符,百川大模型、讯飞星火、智谱清言则有点“串场”,都提到了没有参演的黄渤。
  百川大模型结果
  类似的现象在评价最新电影《封神》时也有出现,只有文心一言对剧情的描述正确,其余大模型均将其误认为是之前的电影《封神传奇》;而当输入指令更明确为“2023年上映的《封神第一部:朝歌风云》”时,百川大模型、商量大模型、讯飞星火仍然错误,智谱清言、抖音“豆包”则做了更正。
  可以看到,现阶段如果把大模型当搜索用,还是让人不放心。
  其实,除了上述四大类能力外,这几家大模型还都具备跨语言处理能力。《财经故事荟》以最简单的“我爱你”为例,进行中文与法语、德语等语言的互翻,都能得到准确回答。当然,更复杂的跨语言处理能力还有待继续挖掘。
  综上,仅以上述体验结果看,现阶段的大模型在文本创作方面基本迈过了及格线,在某些场景下还能“制造”一些惊喜感,这颇为难得。但其也像一个偏科的学生,在数理方面普遍一般,BUG较多;作画水平更是有待优化,“雷人”概率比较大;信息检索方面还不稳定,用起来不太放心。
  那么问题来了,对照当下的现实,再回看当初大模型被“吹捧”上神坛的那些观点:“AI的iPhone时刻”“大模型将改变世界”这些观点所构建的未来还值得期待吗?
  答案毋庸置疑:值得,“莫欺少年穷”!大模型今天交付的答卷只是其漫漫长路上的起点,在此后的每一天,甚至每一小时里,大模型可能都处在无止境的进化中。
投诉 评论 转载

MC本周资讯:基岩收纳袋交互泄露!Minecraft大电影将 Minecraft本周资讯:JEBE持续发挥摆烂的传统技能;基岩版收纳袋更新内容泄露;基岩版全新UI设计泄露;Minecraft新版启动器可直接访问服务器;以及Minecraf……东莞水乡数字储能产业创新中心挂牌加快构建“数字经济新能源”产 【来源:东莞市人民政府东莞要闻】6月28日,水乡数字储能产业创新中心挂牌暨数字储能产业联盟共建仪式在中铁水乡科技智造中心举行,这意味着东莞水乡片区将结合数字经济与新能源两……暑假云南跟团游,云南跟团游6天攻略,看到就是赚到!热传聚热点 云南属于高原地区,刚到云南建议先休整一下,不要做剧烈运动避免高原反应。云南昆明,大理,敞篷吉普车,环游洱海,丽江古城,玉龙雪山。我的云南游,就如那首歌一样,也许爱情就在洱海边等……【歌词】心缘歌手:齐旦布热博聚热点网 心缘演唱:遥远(柱子)作曲:心中(谢江霞)作词:张继科谢江霞编曲:起航音乐空间在相遇的那一瞬间你就闯进我心里面静静感受到这份缘从……阅文终于不再是一家“矛盾的公司”了热议聚热点网 我跟很多人讨论过阅文集团,其中既有互联网业内人士也有投资人。关于阅文,我听到最多的评价是:“这是一家矛盾的公司。”矛盾,不一定是坏词汇,但是肯定对应着一些问题。矛盾是需要解决的……办理结婚登记的程序是怎样的热闻聚热点网 一、如何办理结婚登记的程序结婚登记的程序大致分为申请、审查和登记三个步骤。1、申请结婚的男女双方必须亲自持本人居民身份证、户籍证明、照片、所在单位或村民委员会……法院限制出行怎么撤销热闻聚热点网 问:法院限制出行怎么撤销律师解答:被法院限制出行后被执行人提供确实有效的担保或者经申请执行人同意,人民法院可以撤销限制出行。被执行人履行完毕生效法律文书确定的义务,……“偏科”的国产大模型:长于文本、弱于数理、作画凑合热评聚热点 采写王舒然编辑万天南国产大模型集体交答卷了。8月31日,首批11家国产大模型获批上线,包括百度的“文心一言”、商汤科技的“商量SenseChat”、智谱AI的……自愿放弃社保协议书有法律效力吗热传聚热点网 一、自愿放弃社保协议书有法律效力吗根据我国法律规定:社会保险具有强制性,因此劳动者自愿放弃社保协议书是不具有法律效力的。为劳动者缴纳社保,是用人单位的一种义务。二、……疫情来袭,延迟上班工资、假期怎么算?热评聚热点网 1月31日至2月2日延长春节假期期间,若企业安排职工上班工资待遇当如何计算?本次延长的春节假期并不是国家的法定节假日,如果因疫情防控或其他原因,职工在延长春节假期期间提供……发生车祸责任方拒绝赔偿怎么办热议聚热点网 发生车祸责任方拒绝赔偿的可以向法院提起道路交通事故人身损害赔偿之诉。在肇事方不肯赔付赔偿金并不愿意配合调解时,受害方只能向法院提起民事诉讼。并且目前保险公司的保险金一般也只能通……郑州民事律师不让看孩子可以报警吗?热博聚热点网 问:郑州民事律师不让看孩子可以报警吗?律师解答:不让看孩子可以报警吗?离婚后,对方不让我们看孩子的,我们可以选择报警,只不过作用不大,最好的选择是向法院起诉,……
魅族官网开售M9翻新机售价2099元热闻聚热点网 Android2。3。3第三方ROM放出一天下载15万热文聚 Android版UC浏览器7。4正式更新热传聚热点网 几种常用于网站SEO的搜索指令【易云智能yyzn。com】热 胡琼华:龙之谷疲劳几点刷啊?热闻聚热点网 真正渡你的人,不是一直对你好,而是用以下几种方式待你!热传聚 张艾亚:青岛华尔文理学院到底怎么样热评聚热点网 康菲:请用张筱雅作诗热博聚热点网 何睦:感冒上火喝香雪抗病毒口服液可以吗热闻聚热点网 王小琰:求《学生会长的忠告OVA3》中文字幕无删减版热传聚热 日峰:DNF57以后去哪练级最快热传聚热点网 档案管理制度热博聚热点网
居里夫人传读后感老郭的经典套路爱情传奇编排扯淡夸张荒诞我的新同桌UC生态渐露锋芒,2022年更新迭代的生态应用将有哪些?4个超强自学网站,厉害的不行乡愁是首歌LED灯对眼睛有伤害吗?每个人都应该有阳光样的人生励志文章励志格言大全爱需要表达永远经典观后感有感常见植物教学设计范文

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西