R语言 出现矩阵/缺失值的解决方案
缺失值处理一般包括三步:
1. 识别缺失数据;
2. 检查导致数据缺失的原因;
3. 删除包含缺失值的实例或用合理的数值代替(插补)缺失值。
1.判断缺失值
函数is.na()、is.nan()和is.infinite()可分别用来识别缺失值、不可能值和无穷值。每个返回结果都是
TRUE或FALSE
na表示缺失值
nan表示NOT A NUMBER
infinite表示+-Inf
一定要亲手试x = 0/0,以及x = 1/0
>x <- NA > is.na(x) [1] TRUE > is.nan(x) [1] FALSE > is.infinite(x) [1] FALSE
函数complete.cases()可用来识别矩阵或数据框中没有缺失值的行
超级好用
#加载数据集 >data(sleep,package = "VIM") #没有缺失值的行 >sleep[complete.cases(sleep),] #列出有一个或多个缺失值的行 >sleep[!complete.cases(sleep),]
2.图形探究缺失数
#自己生成图形 >library("VIM") >aggr(sleep,prop = FALSE,numbers = TRUE)
matrixplot()函数可生成展示每个实例数据的图形
#自己生成图形 marginplot(sleep[c("Gest","Dream")],phc=c(20),col=c("darkgray","red","blue"))
3.删除缺失值
函数complete.cases()可以用来存储没有缺失值的数据框或者矩阵形式的实例(行):
#可以把mydata替换成sleep,延续上面的代码 >newdata <- mydata[complete.cases(mydata),]
同样的结果可以用na.omit函数获得:
#可以把mydata替换成sleep,延续上面的代码 >newdata <- na.omit(mydata)
两行代码表示的意思都是:mydata中所有包含缺失数据的行都被删除,然后结果才存储到newdata中,以后拟合就用新数据newdata.
处理含缺失值的数据集时,成对删除常作为行删除的备选方法使用。对于成对删除,观测只是当它含缺失数据的变量涉及某个特定分析时才会被删除:
>cor(sleep,use = "pairwise.complete.obs")
3.1补全缺失值
函数mice()首先从一个包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。
每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。
由于插补有随机的成分,因此每个完整数据集都略有不同。
然后,with()函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型),最 后 ,pool()函数将这些单独的分析结果整合为一组结果。
最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。
>library(mice) >data("sleep",package = "VIM") >imp <- mice(sleep,seed = 1234) #imp <- mice(sleep) >fit <- with(imp,lm(Dream~Span+Gest)) fit >pooled <- pool(fit) >summary(pooled) imp >dataset2 <- complete(imp,action = 2) >cor(sleep,use = "pairwise.complete.obs")
dataset2 is the newData
下图为完整缺失值处理图片:
补充:R语言读取数据空值
一、Txt文件
1. 文件中的内容有双引号,空值的时候是一对双引号
filename.txt 文件内容形如:
"ID" "ITEM"
"1080254842" "汉字"
"1080254842" "中文"
"1080594798" ""
"1080594798" ""
导入数据:
test <-read.table("filename.txt",header=TRUE)
空值部分并不是NA,R语言不会把他识别为NA,改为下面的语句,即可解决。
test <-read.table("filename.txt",header=TRUE,na.strings = "")
2. 文件中内容无双引号,空值即直接空白,形如下面:
ID ITEM
1080254842 汉字
1080254842 中文
1080594798
1080594798
导入数据:
test <-read.table("filename.txt",header=TRUE)
会出现错误:Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :3行没有2元素
第三行第二元素没有。
修改为如下即可:
test <-read.table("filename.txt",header=TRUE,fill=TRUE)
导入数据成功,但是,空值仍然不是NA,还需加上na.strings = "",
test <-read.table("filename.txt",header=TRUE, fill=TRUE, na.strings = "")
成功导入。
二、csv文件
test <-read.csv("test.csv",header=TRUE,sep=",",na.strings = "")
其中:
header =TRUE
,表示把第一行作为标题。
sep=","
,因为csv文件的列是用逗号分开的,加上sep=","
,帮助R通过识别逗号来分割列。如果没加,会出现原本多列数据导入后变为一列的情况。
na.strings = ""
:处理缺失值问题。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持猪先飞。如有错误或未考虑完全的地方,望不吝赐教。
相关文章
- 本篇文章主要介绍C语言中char的知识,并附有代码实例,以便大家在学习的时候更好的理解,有需要的可以看一下...2020-04-25
- vector是表示可以改变大小的数组的序列容器,本文主要介绍了C++STL标准库std::vector的使用详解,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2022-03-06
一文彻底理解js原生语法prototype,__proto__和constructor
作为一名前端工程师,必须搞懂JS中的prototype、__proto__与constructor属性,相信很多初学者对这些属性存在许多困惑,容易把它们混淆,下面这篇文章主要给大家介绍了关于js原生语法prototype,__proto__和constructor的相关资料,需要的朋友可以参考下...2021-10-24- 我们这里介绍php与KindEditor编辑器使用时如何利用KindEditor编辑器的分页功能实现文章内容分页,KindEditor编辑器在我们点击分页时会插入代码,我们只要以它为分切符,就...2016-11-25
Jupyter Notebook读取csv文件出现的问题及解决
这篇文章主要介绍了JupyterNotebook读取csv文件出现的问题及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教...2023-01-06php错误提示 open_basedir restriction in effect 解决
今天在帮助一个朋友配置一台服务器时发现网站配置好了缓存目录读写不成功,在打开错误时发现提示 Warning: file_exists() [function.file-exists]: open_basedir restr...2016-11-25python-for x in range的用法(注意要点、细节)
这篇文章主要介绍了python-for x in range的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-10- 在程序员中,尤其是go新手,经常听到的一个讨论话题是:如何处理错误,这篇文章主要给大家介绍了关于Go应用中优雅处理Error的一些相关技巧,需要的朋友可以参考下...2021-09-08
基于vue-simple-uploader封装文件分片上传、秒传及断点续传的全局上传插件功能
这篇文章主要介绍了基于vue-simple-uploader封装文件分片上传、秒传及断点续传的全局上传插件,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-02-23- 这篇文章主要介绍了Swagger中@ApiIgnore注解的使用,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教...2021-10-21
详解redis desktop manager安装及连接方式
这篇文章主要介绍了redis desktop manager安装及连接方式,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下...2021-01-15mybatis 返回Integer,Double,String等类型的数据操作
这篇文章主要介绍了mybatis 返回Integer,Double,String等类型的数据操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-11-25- overlay就是在地图上以另外一种形式浮现在地图上,常见的地图覆盖物为这三种类型,如:popup 弹窗、label标注信息、text文本信息等,接下来跟随小编看下openlayers6之地图覆盖物overlay详解,一起看看吧...2021-09-15
vue项目页面嵌入代码块vue-prism-editor的实现
这篇文章主要介绍了vue项目页面嵌入代码块vue-prism-editor的实现,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2020-10-30MyBatisPlus-QueryWrapper多条件查询及修改方式
这篇文章主要介绍了MyBatisPlus-QueryWrapper多条件查询及修改方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教...2022-06-27- 这篇文章主要给大家介绍了关于iOS给border设置渐变色的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-03-09
- 这篇文章主要介绍了使用Python的pencolor函数实现渐变色功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-03-09
解决vue的router组件component在import时不能使用变量问题
这篇文章主要介绍了解决vue的router组件component在import时不能使用变量问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-27深入研究mysql中的varchar和limit(容易被忽略的知识)
为什么标题要起这个名字呢?commen sence指的是那些大家都应该知道的事情,但往往大家又会会略这些东西,或者对这些东西一知半解,今天我总结下自己在mysql中遇到的一些commen sense类型的问题。 ...2015-03-15- ceil 是向上进位得到一个值的函数;floor 是舍掉小数位得到一个值的函数;round 是用来四舍五入的函数ceil定义和用法:ceil() 函数向上舍入为最接近的整数。...2013-09-28