机器学习之不良数据的处理

易诚云教育2019-02-28 08:05:11

大量数据的收集、储存和处理可以说是对于机器学习,或者说人工智能的发展起着重要的作用。许多问题都需要大数据的支持来解决,幸运的是,现在收集、存储和处理大数据的成本比以前要小得多,速度也要快得多。但是数据的质量问题仍然是一个不可忽视的大问题

"数据质量不佳是阻碍广泛发展的主要原因"—数据质量管理的先驱者之一,数据博士 Thomas C. Redman 如是说,当然这样想的不止他一个人。

众所周知,训练数据决定了机器学习系统的性能。高质量的数据可以得到更好的结果,不好的数据会流经整个系统产生没用的信息。可以这样说,数据的好坏直接决定着数据项目是否成功!

Redman 提醒我们"不良数据的引入可能会出现在两个地方:第一个便是用于训练模型的数据,第二个便是用于测试的新数据。虽说数据科学家和工程师正在努力的精炼他们的人工智能、机器学习和深度学习算法,但是"只有 %3 的公司"能够提供符合基本质量标准的数据。


我们不能将失败归结于机器,但是我们可以采取一些措施解决不良数据产生的影响。

常见的不良数据问题有以下几个方面:1,数据缺失或者不完整

很多时候,由于某些信息不能直接获取到,数据会被组合或者某些字段进行留空。或者当数据被收集时执行的分析和当前的分析的目标不同,导致某些值被省略。数据缺失在数据挖掘中是最常遇到的问题,也是我们能花费很长时间做数据处理的原因,而且机器学习的训练和预测很难通过不完整的信息来实现。

面对上述问题,对应的解决方案是:尽管消除问题数据的方法对结果会有很大提升,如果在问题数据所占比例较小时候,这种方法的直接去除效果会比较好。另一种方案是使用合成数据:通过算法创建符合真实数据特征的模拟数据。合成数据是一种新兴技术,可以帮助消除访问完整训练数据的障碍。比如:可以根据前后的值填充平均值,也可以填充字段整体的平均值,或者众数,又或者中位数,当然,具体怎么填充要根据具体的业务来选择2,数据不准确、异常值

在做机器学习项目时是在训练预测模型之前清洗数据。但清洗数据并不总能识别或纠正每一个错误,并且数据仍然可能会不准确。 数据科学家已经花费了大部分时间来对抗这一问题,然而,一个预测模型的输出会作为后续模型的输入,这意味着即使是一个小错误也会产生显著的负面影响。

面对上述问题,对应的解决方案是:提供足够的时间清洗数据,评估数据源并在每个阶段对性能进行测试。数据有偏差在机器学习训练过程中,如果数据存在偏差,数据的完整性会受损,这会直接影响到预测结果。

另外异常值其实经常有着特殊的含义。直接忽略异常值可能忽略掉潜在的数据价值,所以对待异常值不能单纯的选择去除,如果是对业务很重要的字段,要先研究以下异常值的意义,比如:在什么情况下出现异常值,为什么会出现异常值,出现的异常值有什么特殊的含义等等3,数据单位不统一

这个问题也经常会遇到,不过相对好办,在建模的时候可以直接进行单位调整4,数据方差过大

同一个字段,值相差过大,这对使用距离的模型会产生很大的偏差性,我们要尽可能的消除这种影响,标准化和归一化都是不错的选择。



咨询电话:133-1336-1361

课堂教学馆


 

军事训练馆

 

 

个人风采馆



校园综合馆


  

  联系我们



Copyright © 古田计算器虚拟社区@2017