首页

文章

简要阐述数据预处理原理

发布网友 发布时间:2022-03-23 15:30

我来回答

2个回答

懂视网 时间:2022-03-23 19:51

数据预处理的方法主要有:

  

     1、墓于粗糙集( Rough Set)理论的约简方法。粗糙集理论是一种研究不精确、不确定性知识的数学工具。现在受到了KDD的广泛重视,利用粗糙集理论对数据进行处理是一种十分有效的精简数据维数的方法。

  

  2、基于概念树的数据浓缩方法。在数据库中,许多属性都是可以进行数据归类,各属性值和概念依据抽象程度不同可以构成一个层次结构,概念的这种层次结构通常称为概念树。概念树一般由领域专家提供,它将各个层次的概念按一般到特殊的顺序排列。

  

  3、信息论思想和普化知识发现。特征知识和分类知识是普化知识的两种主要形式,其算法基本上可以分为两类:数据立方方法和面向属性归纳方法。

  

  4、基于统计分析的属性选取方法。可以采用统计分析中的一些算法来进行特征属性的选取,比如主成分分析、逐步回归分析、公共因素模型分析等。这些方法的共同特征是,用少量的特征元组去描述高维的原始知识基。

  

  5、遗传算法(GA,  Genetic Algo}thrn)。遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。遗传算法的基本思想是:将问题的可能解按某种形式进行编码,形成染色体。随机选取N个染色体构成初始种群。再根据预定的评价函数对每个染色体计算适应值。选择适应值高的染色体进行复制,通过遗传运算(选择、交叉、变异)来产生一群新的更适应环境的染色体,形成新的种群。

热心网友 时间:2022-03-23 16:59

数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
中文名
数据预处理
外文名
data preprocessing
定义
主要的处理以前对数据进行处理
方法
数据清理,数据集成,数据变换等
目标
格式标准化,异常数据清除
快速
导航
预处理内容

方法
基本介绍
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。  数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。[1]
预处理内容
数据审核
从不同渠道取得的统计数据,在审核的内容和方法上有所不同。[1]
对于原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全。准确性审核主要是包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象,此方法主要适合对定性(品质)数据的审核。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于对定量(数值型)数据的审核。[1]
对于通过其他渠道取得的二手资料,除了对其完整性和准确性进行审核外,还应该着重审核数据的适用性和时效性。二手资料可以来自多种渠道,有些数据可能是为特定目的通过专门调查而获得的,或者是已经按照特定目的需要做了加工处理。对于使用者来说,首先应该弄清楚数据的来源、数据的口径以及有关的背景资料,以便确定这些资料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,对于有些时效性较强的问题,如果取得的数据过于滞后,可能失去了研究的意义。一般来说,应尽可能使用最新的统计数据。数据经审核后,确认适合于实际需要,才有必要做进一步的加工整理。[1]
数据审核的内容主要包括以下四个方面:
1.准确性审核。主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。[2]
2.适用性审核。主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。[2]
3.及时性审核。主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。[2]
4.一致性审核。主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。[2]
数据筛选
对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误地数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查、经济分析、管理决策中是十分重要的。
特别精辟的个性签名(非常经典的个性句子) 特别经典的个性签名(非常惊艳的个性句子) 文艺范十足的个性签名(温柔治愈的个性签名句子) wps文字怎么设置每页头和尾 27岁的女人需要补充哪些营养元素 27岁该重视美容了吗?都可以用哪些方法好些呢? airpods连不上手机怎么回事 - 知百科 腰肌劳损能养好吗? 有一段相声讲的是原始人打猎,唱歌,学说话的,请问名字是什么? 个人征信逾期记录的修复攻略,手把手传授 抖音火山版在哪注销账号 注销账号方法介绍 支付宝怎么把余额宝冻结的钱转出来? 余额宝冻结金额怎么解冻? 支付宝余额锁定怎么解除?可以简单介绍一下吗? 母乳跟气血有关系吗 穿jk发朋友圈俏皮的文案 穿jk制服发朋友圈的文案 福鼎绿雪芽茶历史传说 福鼎太姥绿雪芽曾与武夷山名茶齐名 石蛙保护级别是多少? 是田螺吗?还是别的什么? 昆虫头上像丝一样的感觉器官是表示什么词语 感什么器什么的词语感x器x式的四字词语 三控开关怎么接线方法图片 独立IP和共享IP的区别以及各自的优势有哪些 什么是共享和独享IP、动态和静态IP、固定IP? 连接电脑的wifi如何查名称怎么查看电脑wifi 千变表情是什么意思? kmose正确使用方法? 单位高温防护欠缺致员工中暑如何对待 狗狗为什么爱看视频 360浏览器怎么设置倍速播放 ...先讲女主的灵魂飘荡了一段时间,然后重生,请问是那本? 拯救者散热器怎么开 电脑如何一键还原系统电脑一键还原怎么操作 神舟笔记本电脑怎么重新设置神舟战神bios恢复出厂设置 神舟电脑恢复出厂设置神舟战神怎么恢复原厂系统 水泥楼梯如何铺木楼梯 家里面楼梯是水泥的不想铺地毯或者地砖还能铺什么 楼梯的水泥台阶上可以铺地板革吗 手机腾讯会议共享屏幕播放视频没声 腾讯会议共享屏幕没声音怎么办 微信寄快递怎么取消订单_取消订单方法介绍 300兆宽带用什么路由器好? 请问高分子井盖具体材料有那些?谢谢 井盖骨架有哪些材料 ...一个女主是空姐,她和男主第一次在去巴黎飞机上相遇,约定如果三次... 找一部电影 记得结局是主角上了私人飞机,然后和空姐,可能是情人... 360借条怎么开通? 脚踝系红绳是什么意思 痤疮 痘痘 黑头 粉刺必看的终结绿色治疗 大数据预处理的方法有哪些 iphone恢复出厂设置还能找回数据吗 苹果手机恢复出厂设置后还能恢复数据吗? 苹果手机恢复了出厂数据,所有东西都清空了,但是后悔了可以恢复吗?_问一问 苹果手机还原了还能恢复数据吗 苹果手机恢复出厂设置后怎么找回数据 苹果手机恢复出厂后数据能找回来吗? 苹果手机恢复出厂设置后还能恢复数据吗 iphone恢复出厂设置不备份恢复以后还能恢复吗? 苹果手机没有备份,恢复出厂设置后还能不能恢复之前的数据了? 红米note8pro安装未知应用在哪里设置 小米禁止安装未知应用在手机哪里设置 小米8未知来源怎么设置 小米8手机禁止未知来源在哪里设置 小米手机未知应用安装设置在哪里 小米未知应用权限在哪里设置 小米手机允许安装未知应用权限在哪里设置 小米8青春版未知允许安装在哪里 小米8手机怎么禁止安装未知来源应用 华为p9里面vr launcher怎么用 大数据的预处理过程包括 大数据预处理的方法有哪些? 数据预处理主要针对哪些数据 数据预处理的方法 数据预处理的常用方法有那些,分别如何处理的,列举一些数据预处理的代码实例_问一问 别人装备完全无回答的情况常常采用的数据预处理方法是 数据预处理的流程是什么 华为扬声器沙哑声音了怎么办? 扬声器进水声音变沙哑怎么办? vivo手机打游戏喇叭变沙哑怎么回事? 手机喇叭进水了,声音变沙哑了,怎么解 手机喇叭进水了,声音沙哑怎么办? 手机喇叭进水声音嘶哑怎么办? 手机音响有沙哑的声音自己怎么处理。不用拿去修的。就是一些小方法之类的。 vivoz6手机掉进水里扬声器的声音沙哑该怎么办? 手机的喇叭进水了,声音变得很小,很嘶哑怎么办 极速投屏本地怎么投? 极速投屏视频坚屏的办法 怎样把股票软件投屏到电视? 厦华电视怎么安装极速投屏功能?
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com