基于D-S证据理论的不确定数据清洗

樊金辉 岳昆 张骥先 刘惟一

引用本文:
Citation:

基于D-S证据理论的不确定数据清洗

    作者简介: 樊金辉(1987-),男,云南人,硕士生,主要研究方向为数据挖掘与知识发现.E-mail:563029737@qq.com.
       ;
  • 基金项目:

    国家自然科学基金(61163003,61472345)

    云南省中青年学术技术带头人后备人才培养计划(2012HB004)

    云南省应用基础研究计划 (2014FA023,2013FB010)

    云南大学高水平创新团队培育计划.

  • 中图分类号: TP 392

Cleaning uncertain data based on the D-S evidence theory

  • CLC number: TP 392

  • 摘要: 数据清洗的任务是检测数据中存在的错误、缺失或不一致,通过删除、填充、修改等方法提高数据质量.针对存在元组级不确定性的数据表上的选择投影连接操作,基于D-S证据理论中置信区间的概念,给出辨识框架构建和置信区间计算的方法,提出了一种基于待测数据项置信区间来检测查询结果中错误数据的方法.实验结果表明,提出的不确定数据错误检测方法具有高效性、准确性和可用性.
  • [1] 肖 清陈红梅王丽珍 . 基于D-S理论挖掘Top-k空间co-location模式. 云南大学学报(自然科学版), 2014, 36(S2): 14-22. doi: 10.7540/j.ynu.2014a03
    [2] 杨建红胡俊王清生 . Poisson分布中未知参数的精确置信区间. 云南大学学报(自然科学版), 2004, 26(2): 112-114.
    [3] 王顺芳王学仁 . 不完全2×2列联表中基于置信区间的样本量研究. 云南大学学报(自然科学版), 2007, 29(2): 109-113.
    [4] 王科 . 信息不确定条件下的鲁棒数据包络分析建模. 云南大学学报(自然科学版), 2013, 35(2): 146-154. doi: 10.7540/j.ynu.20130054
    [5] 肖清陈红梅王丽珍 . 基于DS理论的不确定空间co-location模式挖掘. 云南大学学报(自然科学版), 2011, 33(S2): 182-187.
    [6] 刘云向婵 . 基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究. 云南大学学报(自然科学版), 2017, 39(1): 33-38. doi: 10.7540/j.ynu.20160221
    [7] 罗洪严伟峰杨世兵 . 电网调度数据资源的主数据管理. 云南大学学报(自然科学版), 2013, 35(S2): 69-. doi: 10.7540/j.ynu.2013b59
    [8] 秦海林王丽珍谭晓玲陈克平 . 联机数据挖掘中的数据预处理. 云南大学学报(自然科学版), 2005, 27(4): 310-313.
    [9] 刘新月姜东华罗正刚张怀志 . 茶叶水分测定的不确定度评定. 云南大学学报(自然科学版), 2011, 33(S2): 467-469.
    [10] 张文专石磊 . 数据矩阵条件指数的影响评价. 云南大学学报(自然科学版), 2004, 26(4): 292-296,300.
    [11] 夏姜虹 . 数据挖掘技术的常用方法分析. 云南大学学报(自然科学版), 2011, 33(S2): 173-175.
    [12] 胡茂胡盛 . 半结构数据中的结构推理. 云南大学学报(自然科学版), 2003, 25(1): 17-21.
    [13] 许永张霞刘巍马燕曹红云杨帅芮晓东金永灿缪明明 . 卷烟主流烟气中氢氰酸测定不确定度评价. 云南大学学报(自然科学版), 2011, 33(5): 586-589,593.
    [14] 陈涛王丽珍 . 基于时序数据的空间面向属性归纳算法. 云南大学学报(自然科学版), 2004, 26(5): 386-391.
    [15] 谭晓玲王丽珍 . 构建大型企业的数据仓库. 云南大学学报(自然科学版), 2004, 26(5): 401-405.
    [16] 卿跃周清张慧王敏 . 基于GPRS通信功能实现数据采集及传输. 云南大学学报(自然科学版), 2013, 35(S2): 75-. doi: 10.7540/j.ynu.2013b17
    [17] 何斌颖刘荣 . Oracel和SQL Server数据库安全基线审查. 云南大学学报(自然科学版), 2013, 35(S2): 63-. doi: 10.7540/j.ynu.2013b45
    [18] 周熙然邵振峰周寿章 . 基于地理本体的空间传感网数据处理. 云南大学学报(自然科学版), 2011, 33(S2): 196-201.
    [19] 陈骏张颂王靖洲朱聪 . 观测数据对宇宙透明度的限制. 云南大学学报(自然科学版), 2017, 39(3): 390-394. doi: 10.7540/j.ynu.20160324
    [20] 岳昆王贵松刘惟一 . 一种用于Web服务合成过程建模的不确定性事件代数方法. 云南大学学报(自然科学版), 2008, 30(5): 448-453,459.
  • 加载中
计量
  • 文章访问数:  256
  • HTML全文浏览量:  38
  • PDF下载量:  147
  • 被引次数: 0
出版历程
  • 收稿日期:  2014-03-21
  • 刊出日期:  2014-11-10

基于D-S证据理论的不确定数据清洗

    作者简介:樊金辉(1987-),男,云南人,硕士生,主要研究方向为数据挖掘与知识发现.E-mail:563029737@qq.com.
       
  • 1. 云南大学 信息学院 计算机科学与工程系,云南 昆明 650091
基金项目:  国家自然科学基金(61163003,61472345)云南省中青年学术技术带头人后备人才培养计划(2012HB004)云南省应用基础研究计划 (2014FA023,2013FB010)云南大学高水平创新团队培育计划.

摘要: 数据清洗的任务是检测数据中存在的错误、缺失或不一致,通过删除、填充、修改等方法提高数据质量.针对存在元组级不确定性的数据表上的选择投影连接操作,基于D-S证据理论中置信区间的概念,给出辨识框架构建和置信区间计算的方法,提出了一种基于待测数据项置信区间来检测查询结果中错误数据的方法.实验结果表明,提出的不确定数据错误检测方法具有高效性、准确性和可用性.

English Abstract

目录

    /

    返回文章
    返回