生活工程体验信仰哲学精神
投稿投诉
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

在数据清理中更好的数据胜过更高级的算法

7月19日 霸王亭投稿
  数据清理的步骤和技术因数据集而异,我们没有办法在一篇文章中穷尽所有会出现的问题。这篇文章介绍了数据清理的一些常见步骤,例如修复结构性错误,处理丢失的数据以及过滤观察值。
  更好的数据更高级的算法
  数据清理是每个人都要做的事情之一,但很少有人专门讨论这件事,原因很简单,这不是机器学习的最性感的部分。而且,没有什么可供挖掘的隐藏技巧和秘密。
  但事实上,数据清理可能会加快或中断整个项目进程,专业的数据科学家通常在此步骤上花费很大一部分时间。
  他们为什么要这么做呢?机器学习中存在一个很简单的事实:
  更好的数据胜过更高级的算法。
  换句话说,输入垃圾数据,得到的也是垃圾结果。
  如果我们的数据集经过了正确的清洗,那么即使是简单的算法也可以从中得到深刻的启发!
  不同类型的数据需要不同的清洗方法,但是本文中阐述的系统方法可以作为一个很好的学习起点。
  删除不需要的观测结果
  数据清理的第一步是从数据集中删除不需要的观测结果,包括重复或不相关的观测结果。
  1。重复的观测结果
  重复的观测结果最常见于数据收集期间,例如:
  合并多个来源的数据集时
  抓取数据时
  从客户其他部门接入数据时
  2。不相关的观测结果
  不相关的观测结果实际上与我们要解决的特定问题不符。
  例如,如果我们仅为单户住宅构建模型,则不希望对其中的公寓也进行观测。
  这时候,我们也可以在上一步的探索性分析中判断出来。我们可以查看类别特征的分布图,以查看是否有不相关的类存在。
  在做工特征工程之前,我们也可以检查是否存在不相关的观察结果。
  修复结构性错误
  结构性错误是在测量、数据传输或其他的不良内部管理过程中出现的错误。
  例如,我们可以检查拼写错误或大小写不一致的问题。这些主要和分类特征有关。
  这是一个例子:
  从上图中可以看到:
  Composition与composition相同
  asphalt应为Asphalt
  shakeshingle应为ShakeShingle
  asphalt,shakeshingle也可能只是ShakeShingle
  替换错字和大小写不一致后,整个分类变得更加整洁:
  最后,检查标签错误的类,即实际上应该相同的类。
  例如:如果NA和NotApplicable显示为两个单独的类,则应将其合并。
  例如:IT和informationtechnology应该是同一个类。
  过滤不需要的异常值
  异常值可能会导致某些模型出现问题。例如,线性回归模型对异常值的鲁棒性不如决策树模型。
  通常,如果我们有合理的理由要删除异常值,则可以提高模型的性能。
  但是,在证明异常值无用之前,我们永远不要仅仅因为它是一个大数字就删除它,因为这个数字可能对我们的模型有很大帮助。
  这一点很重要:在删除异常值之前必须要有充分的理由,例如不是真实数据的可疑度量。
  处理缺失的数据
  在机器学习应用过程中,数据缺失看上去是一个很棘手的问题。
  为了清楚起见,我们不能简单地忽略数据集中的缺失值。由于大多数算法都不接受缺失值,因此,我们必须通过某种方式来处理这一点。
  1。常识在这里并不灵验
  根据我们的经验,处理丢失数据的两种最常用的推荐方法实际上都不怎么有用。
  这两种方法分别是:
  删除具有缺失值的观测值
  根据其他观察结果估算缺失值
  删除缺失值不是最佳选择,因为删除观察值时会删除信息。
  缺失值本身可能会提供一些参考
  在现实世界中,即使缺少某些功能,我们也经常需要对新数据进行预测
  插入缺失值也不是最佳选择,因为该值最初是缺失的,但如果我们将其填充,无论插入缺失值的方法多么精确得当,总是会导致信息丢失。
  同样,遗漏本身几乎总是有用的,我们应该告诉算法是否存在缺少值。
  即使我们重新建立了模型来估算值,也没有添加任何实际信息这样做仅仅在增强其他功能已经提供的模式。
  丢失数据就像丢失了一块拼图。如果将其放下,就好像在假装不存在拼图槽;如果进行估算,那就像是试图从拼图上的其他地方挤一块儿进去。
  简而言之,自始至终,我们都应该告诉算法,缺少值是因为缺少可提供信息。
  具体怎么做呢?告诉算法该值一开始就已丢失。
  2。缺少分类特征的数据
  处理分类特征缺失的数据的最佳方法是简单地将其标记为缺失!
  这样做实质上是在为该特征添加新的类。
  告诉算法缺少该值。
  满足了技术需求,即要求没有任何缺失值。
  3。缺少数字数据
  对于缺少的数字数据,应标记并填充值。
  使用缺失的指示变量标记观察结果;
  为了满足没有任何缺失值的技术需求,用0填充原始丢失值。
  通过标记和填充,从本质上讲,我们可以让该算法估算缺失的最佳常数,而不仅仅是用均值填充。
投诉 评论 转载

不怀造句用不怀造句大全【不怀bhui】:1。不安。2。不爱。3。不思念。4。不臣服。1、相信一些东西,并且永不怀疑。对于其余,则时刻保持警惕。2、我从不怀疑自己的能力,只怀疑自己有没有努……根根造句用根根造句大全151老妇很伤心,将鸡毛一根根捡回来,洗净晒干,然后用白泥土身,硬纸皮皮,把鸡毛一根根黏上去,看上去栩栩如生。152为了防止放射物泄漏,核燃料被放在一根根由金属锆包壳密封……在数据清理中更好的数据胜过更高级的算法数据清理的步骤和技术因数据集而异,我们没有办法在一篇文章中穷尽所有会出现的问题。这篇文章介绍了数据清理的一些常见步骤,例如修复结构性错误,处理丢失的数据以及过滤观察值。更……等你瘦到斤我就娶你等你瘦到95斤我就娶你!他的嘴角扬起一丝轻蔑,然后邪恶的笑容开始在他脸上绽放开来。胖妹看了看自己160斤重的圆滚滚的身体,哀求道:95斤实在太难了,说一点现实的好不好?……大学生毕业三年身家达千万创业成功回母校招聘江苏科技大学2011届本科毕业生潘卫国,毕业三年后通过创业已成为身家千万业内新秀。近日,他又带着自己的公司回母校招纳人才,为学弟学妹们提供就业岗位。2007年秋天,刚进入……谁是最可爱的人危险来袭,他们勇敢前行,拯救一条条生命;面对牺牲,他们义无反顾,冲向救灾的现场。他们全力奔跑在与死神较量的赛道上,他们是消防员。那一天我在家午休,突然一阵剧烈的警笛声在楼……师出无名的故事公元前206年,刘邦率军攻占秦都咸阳,推翻秦朝统治。不久,项羽率大军进入咸阳,杀了秦朗的降王子婴,烧了秦朝的宫室,大火三个月都不熄灭。接着,他派人向他所拥立的楚怀王禀报了入秦的……批评造句用批评造句大全181。他的错误言论,理所当然地受到同学们的严肃批评。182。文艺批评中,离开规律,牵肠挂肚抓住个别词句上纲上线,这种“左”的形而上学的倾向,早已为人们所深恶痛绝了。……无心法师柳青鸾母亲被谁害死的凶手是柳金鹏吗猴妖帮无心看到的未来,正在一幕幕应验,看来猴妖并非信口开河。柳青鸾的确不是一般的普通人,她能挣脱锁妖铃,证明她体内存在灵气。后来柳家传来噩耗,青鸾的母亲被害,凶手下落不明。无心……教师的非专业成长也要重视近日,有媒体报道,一位校长这样批评一位语文教师不好好钻研教材,写什么散文小说,这是不务正业。闻之,倍感惊讶,它反映了两个问题:一是学校管理者急功近利;二是我们对教师成长存在着认……美丽的春天春天到了,春回大地,万紫千红,莺歌燕舞,我迫不及待地走出家门。小草从土里探出头来,那是春姑娘的眉毛,柳条随风飘动,让我想起了唐朝诗人贺知章的一首诗《咏柳》:碧玉妆成一树高……三国徐晃是怎么打败关羽的徐晃是怎么打败关羽的?关羽击败樊城的曹仁,曹操派大将于禁督七军救援樊城,结果,遇到秋雨,于禁七军皆没,庞德被关羽所杀,关羽威震华夏,兵锋正盛,曹操吓得要迁都。最后派大将徐……
我是马大哈春天到,校园变经济法产生的社会基础争吵400字的作文五一游北海公园四年级作文400字元史管如德传原文及翻译中性笔的自述四年级状物作文400字我爱祖国以治待乱以静待华的精髓是什么孙子兵法适用哪些场合拖地板小学作文400字金色拱门的幻灭麦当劳为何没落招聘官最头疼的三大面试现象

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找