生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

什么是基于代码的机器学习

9月17日 多上心投稿
  鸣叫
  分享5
  什么是基于代码的机器学习
  代码机器学习(MLonCode)不仅可以帮助公司简化其代码库和软件交付流程,而且还可以帮助组织更好地理解和管理其工程人才。
  随着IT组织的发展,其代码库的大小以及开发人员工具链的复杂性也在不断增长。工程负责人对其代码库,软件开发过程和团队状态了解的非常有限。通过将现代数据科学和机器学习技术应用于软件开发,大型企业有机会显著提高其软件交付性能和工程效率。
  在过去的几年中,许多大型公司,例如Google,Microsoft,Facebook以及类似Jetbrains等较小的公司已经与学术研究人员合作,为基于代码的机器学习奠定了基础。
  VadimMarkovtsev,机器学习工程师
  什么是基于代码的机器学习?
  代码机器学习(MLonCode)是一个新的跨学科研究领域,涉及自然语言处理,编程语言结构以及社会和历史分析,例如贡献图形和提交时间序列。MLonCode旨在从大规模的源
  16
  代码数据集中学习,从而能自动执行软件工程任务,例如辅助代码审查,代码重复数据删除,软件专业知识评估等。
  为什么MLonCode很难?
  某些MLonCode问题要求零错误率,例如与代码生成有关的错误率。自动程序修复是一个特定的示例。一个微小的单一错误预测可能会导致整个程序的编译失败。
  在其他一些情况下,错误率必须足够低。理想的模型应犯的错误应尽可能少,所以用户(软件开发人员)的信噪比仍是可承受且值得信赖的。因此,可以使用与传统静态代码分析工具相同的方式来使用该模型。最佳实践挖掘就是一个很好的例子。
  最后,绝大多数MLonCode问题是无监督的,或至多是弱监督的。手动标记数据集可能会非常昂贵,因此研究人员通常必须开发相关的启发式方法。例如,有许多相似性分组任务,
  26
  例如向相似的开发人员展示或根据专业领域帮助团队。我们在本主题中的经验在于挖掘代码格式化规则,并将其应用于修复错误,这与短绒一样,但完全不受监督。有一个相关的学术竞赛来预测格式问题,称为CodRep。
  MLonCode问题包括各种数据挖掘任务,这些任务从理论上讲可能是微不足道的,但由于规模或对细节的关注,在技术上仍然具有挑战性。示例包括代码克隆检测和类似的开发人员聚类。此类问题的解决方案在年度学术会议采矿软件存储库中进行了介绍。
  采矿软件存储库会议徽标。
  解决MLonCode问题时,通常用以下方式之一表示源代码:
  频率字典(加权词袋,BOW)。示例:函数内的标识符;文件中的存储库的依赖性;可以通过TFIDF加权频率等。这些表示是最简单,可伸缩性最高的。
  36
  顺序令牌流(TS),对应于源代码解析序列。该流通常通过指向相应抽象语法树节点的链接来增强。此表示形式对常规自然语言处理算法(包括序列到序列深度学习模型)很友好。
  一棵树,它自然地来自抽象语法树。在进行不可逆的简化或标识符后,我们执行各种转换。这是最强大的表示形式,也是最难使用的表示形式。以下是相关的ML模型包括各种图嵌入和门控图神经网络。
  46
  解决MLonCode问题的许多方法都基于所谓的自然假说(Hindle等):
  从理论上讲,编程语言是复杂,灵活且功能强大的,但很多人实际上编写的程序大多是简单且相当重复的,因此它们具有有用的可预测统计属性,可以在统计语言模型中捕获并用于软件工程、任务。
  该声明证明了大代码的有用性:分析的源代码越多,强调的统计属性越强,并且训练有素的机器学习模型所获得的指标越好。底层关系与当前最新的自然语言处理模型相同:如XLNet,ULMFiT等。类似地,通用MLonCode模型可以在下游任务中进行训练和利用。
  有这么大的代码数据集。当前的最终资源是GitHub上的开源资源库。如果克隆成千上万个Git存储库可能存在技术问题,因此需要存在下游数据集,例如
  PublicGitArchive,GHTorrent和SoftwareHeritageGraph。
  结论
  随着软件继续吞噬世界,我们正在积累数十亿行代码,由多种编程语言,框架和基础架构构建的数百万个应用程序。MLonCode不仅可以帮助公司简化其代码库和软件交付流程,
  56
投诉 评论 转载

干性皮肤一周用几次面膜好在贴完面膜的时候,发现几乎没有什么护肤效果,这其实并不是面膜本身没有滋养的效果,而是你没有针对肌肤类型来使用面膜。干性皮肤一周用几次面膜好呢?就让本站的小编和你一起去了解一下吧……秋天摄影技你必须了解慢快门x创意构图有时不妨把快门刻意放慢,并有目的地移动相机(例如110s或120s),在拍摄时垂直移动相机来拍摄树干,你可以拍出更具艺术性的抽象相片。移动时最好按轨……腔调造句用腔调造句大全【腔调qingdio】:1。指音乐戏曲歌曲等的调子。2。指诗词文章的声律格调。3。指说话的声音语气;亦指人动作的模样。(1)知了,以它的奔放的歌喉激情的腔调,还有不知疲惫……超市买的八宝粥米要泡多久超市经常会有各种散装的谷物类出售,比如大米、糯米、红豆、薏仁、粳米、芸豆等等,有的还会专门给你配好一些煮粥需要的各类米,方便直接装袋购买。那么我们从超市买回来的八宝粥米要怎么浸……什么是基于代码的机器学习鸣叫分享5什么是基于代码的机器学习代码机器学习(MLonCode)不仅可以帮助公司简化其代码库和软件交付流程,而且还可以帮助组织更好地理解和管理其工程人才。……裸藻对海洋生态有哪些影响说到裸藻这种东西的时候,相信大家都会想到我们平时吃的海带或者是紫菜,它们也是属于海藻类的东西,而且对于身体的好处都很多,然而也是有危害的,那么裸藻对海洋生态有哪些影响?下面我们……自认为造句用自认为造句大全1、选几个自认为能靠得住的人组成良好、稳固、有力的人际关系的核心。这首选的几个人可以包括自己的朋友、家庭成员和那些在你职业生涯中彼此联系紧密的人。他们构成你的影响力内圈,因为他……难忘的阮夏令营暑假里,我怀着无比激动的心情踏上了千岛湖阮夏令营之旅!我们的目的地叫天清岛,我觉得这个小岛的天一定十分湛蓝,水也会非常清澈,在这里生活的鱼儿一定十分自由自在吧!当我一推开……理睬造句用理睬造句大全(61)厨房炉灶上,开水自沸腾,无人理睬还悲伤。青山七惠(62)血清素像百忧解一样会影响你的情绪。许多科学家相信,如果你拥有某些版本的“尚武的基因”,你的大脑就不会理睬血……准妈妈饮食有哪些禁忌呢了解一下吧怀孕是女人一生中的一个特殊时期,孕期的准妈妈们在各方面都需要注意,特别是在饮食方面。准妈妈饮食有哪些禁忌呢?了解一下吧!本站和您一起来看一下!准妈妈饮食有哪些禁忌1……五部吸血鬼的电影吸血鬼电影粉最爱僵尸行动吸血鬼在西方神话中是恐怖可怕的象征,不过近年来拍的吸血鬼电影给人的感觉并不可怕,反而是充满了奇幻色彩。主要原因是这类电影重点不是显示吸血鬼的恐怖,而是着重写他们的感情经历、人生……说猫春天是多么美好,就连小猫也出来晒太阳。一对刚刚放学的小学生路过,女生一:好可爱的小猫咪。女生二:他是男生还是女生?女生一:你帮忙抓住它的胳膊。女生二:哇……
九年级月份训练计划手指型小香蕉是转基因的吗农村住宅风水最全的条禁忌决心贵在真第一次独自睡觉离开雷锋的日子观后感字如何用西班牙语说我爱你我爱仙人掌老人有这大兴趣更养生劳动生产率造句用劳动生产率造句大全个设计实例深挖让用户愉悦的小惊喜为何铝超标易引发痴呆

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找