生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

WAIC知乎CTO李大海基于AI的智能社区多模态数据融合研究

7月27日 夜如影投稿
  机器之心报道
  机器之心编辑部
  在WAIC2021AI开发者论坛上,知乎合伙人兼CTO李大海发表主题演讲《基于AI的智能社区多模态数据融合研究与实践》。在演讲中,他主要介绍了知乎在智能社区时代多模态数据融合中的研究以及实践进展。
  以下为李大海在WAIC2021AI开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:
  我今天的主题是基于AI的智能社区多模态数据融合应用实践。
  多模态最近很火,刚刚好未来的吴总也讲了这个主题。虽然都是多模态,但大家业务场景不同,使用的侧重面不一样。我们更侧重于对比学习利用多模态把视频和文本对齐这个角度上做工作。
  简单说一下知乎,知乎是一个以问答为主的在线社区,今年已经是知乎上线的第十个年头,在十年里面,经历了四个阶段,第一个阶段是封闭阶段,封闭运营,运营两年,从2013年开始开放,就不断的在拓展讨论的场景和讨论话题,用户规模不断扩大。2018年知乎提出了智能社区的概念跟战略,通过技术升级把人工智能技术全面应用在内容生产、内容分发、社区治理等领域里面。
  这也是我第二次带参加AI开发者大会,去年因为疫情关系,通过直播参与。这两年我们也看到,也是由于疫情和5G技术的发展,视频、直播等的形态越来越普及。知乎上也是一样,有越来越多用户,在知乎上通过视频分享自己的知识、经验、见解。在这个过程中我们也认识到视频跟图文有各自的优缺点和适用场景,视频会更直观,图文有非线性的结构,喜欢用户可以快速略过,可以在不同模块之间进行跳动,两个适用场景不一样。
  一、图文多模态预训练
  当知乎决定把视频当成主要的媒介形态时,我们希望通过媒介升级,让它变成知乎内容的重要承载形式。这个是我们的一个认知,进行这样的工作在技术上需要对视频进行智能化。
  从业务和产品上来看,视频在知乎的发展,不是凭空出现的,是从一个个问题和图文回答中逐步涌现出来的,因此,在技术上,我们也不应该从零搭建针对视频的算法体系,那样既不经济,还需要考虑图文和视频两套系统之间的兼容性问题。举个例子,经过这么多年的发展,知乎已经有一个超过50万话题的话题树,我们没有必要在视频上放弃这套系统,那样既会增加产品复杂度,也需要考虑两套话题系统的对齐问题。
  在规划视频智能化技术工作的时候,很自然的就考虑以多模态为核心工作,后面逻辑很简单,因为利用多模态的算法对齐能力,能够很快地把知乎过去积攒数据的能力和积攒的各种数据用起来,在工作里面首先做最基本的图文多模态的预训练。
  预训练模型采用的是双流对比学习框架,很像是在推进里面用的双塔模型,左边是图像流,右边是文本流。
  文本流这边会采用成熟的自然语言预训练模型BertRoberta。左边的图像流我们做了较多的尝试。大家看到右侧模型是当前做完尝试以后,在线上发现效果比较好的,是由三部分组成。
  第一部分是用ResNet预训练模型去提取图像全局的信息,第二部分是利用Detectron2预训练模型去抽取图像的对象检测位置跟边界信息,第三部分是在图像里面进行对象检测以后得到的文本信息。对三个信息进行融合以后,作为图片流的输出;这部分输出与文本流的输出进行比对,将画面中的目标位置、目标类别与文本描述进行对齐,利用知乎上的上亿级图片及图片附加的描述信息作为训练样本,可以实现较好的对图片的理解能力。
  图文的多模态预训练模型在视频领域已经可以有很好的应用了。下面展示产品化其中一个工作,在去年下半年发布了一款图文一键转视频工具,内部也叫做PPT视频创作工具,是给我们的图文创作者使用的。知乎上的图文创作者可以利用这样一个工具,快速把自己的文字回答或者文章转化成为一个视频。
  这个转化过程中,主要思路就是把文章里每一段话或者每一个句子通过模型找到相对应的图片或者动图或者一段短视频,通过预训练模型可以把每一段文字跟素材库里面的图片进行相关性计算。相关性高的可以主动拿出来,通过这种方式可以去生成还不错的PPT视频。
  同时还有另一个应用,创作者可以主动输入关键词,在素材库里面找到和关键词匹配度最高图片,让它自己主动构建视频素材流。
  二、视频搜索相关性
  完成了这些基础的工作以后,就具备了文本跟图片的对齐能力,可以开始基于能力去构造视频跟文本的对齐功能,形成对齐网络。
  在实际工作中会把视频里面的关键帧抽取出来,通过训练模型对每个关键帧生成表示,通过Transformer模型进行转化,转化完以后再用搜索的query进行预训练,就可以得到搜索query和视频相关性的预测。在线上实际结果,使用模型会比线上的用户搜索满意度提高1的绝对值,效果还是非常显著的。
  三、视频话题匹配与排序
  知乎本身经过这么多年发展,构建了超过50万的话题数。除了视频搜索之外,在用户发布一条视频的时候,我们也希望视频能够跟50万个话题产生关系,能够自动标注出视频跟哪个话题相关。有了这样一个标注后,对于后续视频的分发,视频的理解以及其他用户可见的产品特性都是非常有帮助的,尤其是基于前面的模型构建视频与话题的匹配度的应用。
  这个应用首先的基础关键帧抽取没有变化,但同时还会利用视频的标题,再去融合到一个Encoder中。然后会跟话题进行相关性的计算,这是一个Ranking的部分,在Ranking之前有50万的话题基础,可以说是一个极限多匹配的典型场景。
  在这个场景里面,真实落地会有召回动作。在实操上综合使用多种索引方式去做召回,有PMI的索引,有Embedding的索引,以及简单的LablelName的索引。这些索引用的都是视频的标题,在我们的产品里面,视频可以是视频实体,本身就有标题,也可以是视频回答,视频回答本身是跟问题相关的。
  不管怎么样都会有对应文本信息,例如搜索饭后吃苹果的八大好处吃苹果都会有什么好处,可以通过基本的文本信息,从几十万的话题里面招回几百个话题再进行精排。
  四、后深度学习时代的AI应用
  这次的主题是《后深度学习时代的AI应用》,其实在对比后深度学习时代和前深度学习时代,可以看到业界、学术界的进展更多聚焦在相对底层的领域,比如学习框架、调参的方法论,模型结构都在不断往前发展。但是到最近一两年,方法论加上数据结合在一起产生的预训练模型,也生产出了大量的计算结果。
  知乎更偏向于利用AI技术去开发应用,那么在后深度学习时代AI技术怎么用?基于AI技术的应用要如何做?这是我们要面临的挑战。
  我们需要用到预训练模型,用到抽象程度更高的,业界公认的最好的训练成果。刚刚展示的我们的产品和工作成果中,大量运用了各种各样的预训练模型。用了预训练模型以后,再针对场景去构建自己的训练样本,并基于目标做微调,这是在知乎内部重点做的工作。
  在AI时代,重要的是前人栽树,后人乘凉。我们也在思考,用优秀的预训练模型完成自己工作的同时,能为后人带来什么呢?在我今天的分享里面提到的模型都是已经上线,已经产生收益的具体模型,知乎还在不断去构建综合图文、视频还有声音等媒介统一的大型预训练模型,这样预训练模型基于知乎积累的大量图文视频数据会越来越成熟。
  希望当我们工作做的比较成熟的时候,可以把这些模型完全开放出来,提供给学界和工业界更多的开发者朋友们使用。
  当然,在整个知乎视频智能化工作中,光有多模态学习也是不够的,我们还做了很多其他工作,这里我简单介绍下一项技术:语音复刻技术。这项技术是在我们推出的一个图文一键转视频的工具上。通过批量化复刻语音,提高生产效率。
  下面请知乎的吉祥物刘看山来展示一下我们做的语音合成工作,画面是做的动态模拟,声音是复刻我本人的声音。请大家观看。
  视频加载中。。。
投诉 评论 转载

袁大头三年粗发版辛亥革命以后,袁世凯就任临时大总统之职,后又成为正式大总统。当时,为了巩国内政局稳定,发展民族经济,也为制宪和称帝作准备,于是毅然决定在全国统一币制。是年(民国3年,即1914……除了导航,北斗还能做什么?北斗总师杨长风图源:央视《开讲啦》很多人可能认为北斗的作用就是导航其实,北斗系统具有实时导航、快速定位、精确授时、位置报告和短报文通信服务五大功能……WAIC知乎CTO李大海基于AI的智能社区多模态数据融合研究机器之心报道机器之心编辑部在WAIC2021AI开发者论坛上,知乎合伙人兼CTO李大海发表主题演讲《基于AI的智能社区多模态数据融合研究与实践》。在演讲中,他主要介……2020年,生活不易,请捂紧你的口袋2020年,在中国你有没有感觉跟往年不同,今年是鼠年,也是庚子年,民间有灾年的说法。的确,年前猪流感大面积爆发,导致猪肉价格暴涨,这过了半年猪肉价格仍然高启不下,黎民百姓……他的书法一绝,后世称之为书圣!但未必知道他是因何离去公元353年暮春三月的一天,晴空万里,清风徐徐,山阴城里一座山上的亭子里,一大群豪门贵族子弟在这里娱乐生平,饮着美酒,开着派对,无比的惬意。饮酒作诗,从来就是文人的雅兴。借着酒……金辉沉睡玩具唤醒计划让爱心传递,我们在行动每一件玩具都承载着童真的爱与陪伴当孩子们渐渐长大这些玩具或许早已沉睡在家中的角落没有了用武之地在这个美好的夏天金辉用最好的方式赋予玩具全新的……顽皮狗仅负责神秘海域盗贼遗产合集PS5版本《神秘海域》是顽皮狗旗下最大的IP之一。目前顽皮狗正在参与《神秘海域:盗贼遗产合集》的制作。不过,顽皮狗参与的只有合集的PS5版本,而PC版的制作交给了另一家不同的工作室。……终于来了!国人期待已久的重拳反击,美国错在不该招惹中国美国这些年为了遏制中国发展,可谓使用了各种办法,因为担心没有正当理由,在国际上挂不住面子,美国政府甚至开始胡言乱语,将一些莫须有的头衔扣在中国头上。为了反对西方国家这种单边制裁……被誉为小孔明的他,他为国家做的事你又知道多少张冲(1901年1980年),云南省弥勒县人。1901年1月25日,张冲生于云南省泸西县,幼年的张冲读过私塾,后入乡和县城小学读书。他生活的少年时代,正是中国风云变幻的年……三星堆考古轶事真文物被挖掘占为己有,三老外识真货力挽狂澜从1921年仰韶遗址发掘至今,中国考古已走过了百年,百年的考古发掘和调查史中有不少轶事趣闻,今天我来分享一段关于三星堆遗址挖掘的鲜为人知的轶事。自2019年1月至2020年的5……牛叉叉,我国空间站与国际空间的区别人类目前共有四代空间站,中国要建设的是一个相当于第三代空间站水平的天宫空间站,总大小在80100吨级,有潜力扩展实验舱成100吨级,预计在2022年完成,寿命十年,亦可通过维护……飞碟的基地在哪里?一直以来,飞碟爱好者都认为,飞碟是外星人探访地球的飞行器。那么,外星人在地球上有飞碟基地吗?如果有的话,什么地方是最理想的飞碟基地呢?许多飞碟专家对这些问题很感兴趣。大多……
冰箱强行播广告关不了上热搜,网友买了块广告牌回家哈佛商业评论排练乔布斯魔力演讲的真正秘诀温补晶振的应用领域和常用频率我为群众办实事丨快递小哥有家了!南庄镇首个快递小哥红色驿站揭人类无神,但有神性,神在心中神经刺激可穿戴设备与增强游戏化数字疗法结合大幅降低焦虑感百事可乐把LOGO给藏起来了?宇文护为何多次罢黜皇帝,极力稳定朝堂,维护自身地位时隔30年,人类再次探索金星,这次人类能如愿么?重拳出击!中国拿下非洲最大铁矿,澳大利亚坐不住了屏障的Secret(六)声屏障LevelUp成道路小品不锈钢材料在海水中是否会生锈腐蚀?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西