首页

文章

数据归约的定义

发布网友 发布时间:2022-04-20 03:35

我来回答

1个回答

热心网友 时间:2023-09-08 04:34

一、数据归约基本知识:

  对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。

  对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。

  在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:

  (1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。

  (2)预测/描述精度:估量了数据归纳和概括为模型的好坏。

  (3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。

  数据归约算法特征:

  (1)可测性

  (2)可识别性

  (3)单调性

  (4)一致性

  (5)收益增减

  (6)中断性

  (7)优先权

 二、数据归约方法:

  1、特征归约:

  用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得的性能。特征归约处理的效果:

  (1)更少的数据,提高挖掘效率

  (2)更高的数据挖掘处理精度

  (3)简单的数据挖掘处理结果

  (4)更少的特征。

  和生成归约后的特征集有关的标准任务有两个:

  (1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法

  (2)特征构成:特征构成依赖于应用知识。

  特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。方法的近似:

  (1)只对有前景的特征子集进行检查

  (2)用计算简单的距离度量替换误差度量

  (3)只根据大量数据的子集选择特征。

  特征归约处理期望达到的效果:

  (1)提高模型生成过程和所得模型本身的性能

  (2)在不降低模型质量的情况下减少模型维度

  (3)帮助用户可视化有更少维数的可能结果,改进决策。

  2、主成分分析:

  主成分分析是大型数据集归约的一种统计方法。是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集,转换的目标是将不同样本中的信息集中在较小的维度中。

  一个n维向量样本集X={x1,x2,x3,…,xm},转换为另一个相同维度的集Y={y1,y2,…,ym}

  Y把大部分信息内容存在前几个维中,可以让我们以低信息损失讲数据集减小到较小的维度。

  Y=A*X

 3、值归约:

  特征离散化技术:减少已知特征的离散值数目,将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。

  (1)分割点选择

  (2)怎样选择区间描述

  几种自动离散化技术:

  (1)特征离散化

  ChiMerge算法:

  a.对已知特别数据进行升序排列

  b.定义初始区间,使特征的每个值都在一个单独的区间内

  c.重复进行直到任何两个相临区间的X2都不小于阈值。

  4、案例归约:

  初始数据集中和最关键的维度数就是案例或样本的数目。在案例规约之前,我们消除了异常点,有时也需要消除有丢失值的样本。取样误差是固有的。

  取样方法分类:

  (1)普通用途取样

  a.系统化取样

  b.随机取样:不回放/回放

  基本形式有增量取样,平均取样,

  c.分层取样

  d.逆取样

  (2)特殊用途取样
八月中国最凉快的地方 八月份哪里最凉快,去哪旅游好?美丽的地方 乱字同韵字是什么意思 华硕笔记本电脑触摸板怎么开笔记本电脑触摸板怎么开启和关闭_百度知 ... 陕西职务侵占案立案准则 结婚后我的恋情维系了十年,怎么做到的? 玉米仁子饭产自哪里 中国期货交易所的交易品种有哪些? 历史要怎么读,有啥诀窍 高中历史诀窍 年终会活动策划方案 深度解析:第一财经回放,探索财经新风向 逆水寒手游庄园怎么邀请好友同住 逆水寒手游 逆水寒不同区可以一起组队吗? 逆水寒手游 逆水寒怎么进入好友世界? 逆水寒手游 逆水寒怎么去别人的庄园? 使用puppeteer实现将htmll转成pdf 内卷时代下的前端技术-使用JavaScript在浏览器中生成PDF文档 【译】将HTML转为PDF的几种实现方案 变形金刚08动画怎么样 变形金刚08动画的问题 变形金刚08动画日语版剧情介绍 高分!换显卡nvidia控制面板被我卸了,重新安装显卡驱动后没了nvidia控... 我的nvidia控制面板被卸载了 怎么找回啊 卸载后 这个画面看着很奇怪_百 ... 李卓彬工作简历 林少明工作简历 广东工业职业技术学院怎么样 郑德涛任职简历 唐新桂个人简历 土地入股的定义 ups快递客服电话24小时 贷款记录在征信保留几年? 安徽徽商城有限公司公司简介 安徽省徽商集团新能源股份有限公司基本情况 安徽省徽商集团有限公司经营理念 2019哈尔滨煤气费怎么有税? 快手删除的作品如何恢复 体育理念体育理念 有关体育的格言和理念 什么是体育理念 万里挑一算彩礼还是见面礼 绿萝扦插多少天后发芽 绿萝扦插多久发芽 扦插绿萝多久发芽 炖牛排骨的做法和配料 网络诈骗定罪标准揭秘 “流水不争先”是什么意思? mc中钻石装备怎么做 为什么我的MC里的钻石块是这样的?我想要那种。是不是版本的问题?如果是... 带“偷儿”的诗句 急求bcc pr3打印机驱动 南天PR2E和HCCPR3哪个好 不属于数据报的特点是哪一项 数据规约方法有哪些 南天pr2打印机和pr3的色带能互用么?用了会怎么用 变量的转换属不属于调查数据的统计预处理包括的内容 我的蓝天PR3打印机打印自检页没问题,打印快递单能... 数据规约的种类 HCCPR3打印机进纸后打印一点就停止了,电源故障灯... 7 .关系模型允许定义 3 类数据约束,不属于数据约... 南天打印机pr3和pr2e哪个好谁了解吗 蓝天PR3打印机打印一半就自动停了,然后最上面的等... 南天pr3打印机安装什么驱动,安装了很多都不管用,... P20导航信号怎么办 脸颊两边老是泛红用洋甘菊纯露能改善嘛?可以长期... 脸颊容易红的皮肤适合用什么样的隔离霜? 入秋以后,我的脸颊一直是泛红状态,想问问敏感肌... 肤色偏黄但是脸颊泛红用什么色的粉底液 脸颊两边泛红,有什么可以改善的方法? 脸颊有红血丝要用什么护肤品 hccpr3打印机怎么安装驱动,安装了一下午就是安装... 数据冗余是不是应该消除干净? PR3打印机 打印时打时停,是何原因? 下列不属于信息的是? 西南民族大学期末考试网络安全基础题型 HCC PR3与南天PR2E打印机哪个更好? 2020年计算机二级JAVA考试每日一练(6月16日) 淘宝店打印快递单,那款针式打印机比较好用 ? hcc pr3针式打印机开机闪EJECT LQ灯不进纸,请问怎... 不属于计算机数据处理的应用是( )。(2分) hcc pr3打印机驱动怎么用 几个计算机基础的题目求解。 hcc 湘计 pr3针式发票打印机驱动装不上,xp 系统。。 求一组数据的人数,但不够整数,是约等,还是写具... PR3如何矫正页边距? 在数据库中integer为什么不属于整型数据类型 HCC pr3打印机的驱动哪里有呢? 求解 程序中5/3为什么等于1?不是约等于1.666...吗... HCC PR3(发票打印机)驱动 网约车的前景怎么样
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com