R语言数据的输入和输出操作
数据的载入
R本身已经提供了超过50个数据集,而在众多功能包中,默认的数据集被存放在datasets程序包中,通过函数data()k可以查看系统提供所有的数据包,同时可以通过函数library()加载程序包中的数据。
矩阵型数据最常用的读取方式是read.table()具体的调用格式是()
read.table(file, header = FALSE, sep = "", quote = "\"'",dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),row.names, col.names, as.is = !stringsAsFactors, na.strings = "NA", colClasses = NA, nrows = -1,skip = 0, check.names = TRUE, fill = !blank.lines.skip,strip.white = FALSE, blank.lines.skip = TRUE, comment.char = "#",allowEscapes = FALSE, flush = FALSE,stringsAsFactors = default.stringsAsFactors(), fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
file是要读的数据文件名称;header = TURE表示文件第一行变化变量名,sep = ""表示文件中的分割符为空格,dec = "."用来表示小数点的字符,
row.names, col.names,用来表示向量的行名与列名, na.strings = "NA"用来表示缺失值,skip = 0跳过前几行
读入数据后,可以通过简单的函数来查看数据的基本信息。mode(),names(),dim(), 且使用attach()函数,便可以直接通过变量名来获取变量中的信息,函数detach()用于执行相反的操作。
处理其他格式的软件
当数据量较少时,在EXCEL中复制好要用的数据然后导入到R中。
> data.excel = read.delim("clipboard") > data.excel X X1 X2 value 1 1 Be Be 1.00000000 2 2 B Be -0.20154586 3 3 Mg Be -0.31724811 4 4 Al Be -0.03359098
当数据量很多时,利用RODBC软件包(提供r和各类数据库的一个借口如access和SQL server等)所提供的方法便可以实现对Excel数据的直接访问~
读取来自网页的数据
在实际的应用中,从网站上直接获取数据也是非常常见的,例如国家统计局官方发布的权威统计数据,中国人民银行网站发布的经济数据或其他专业财经网站提供的股市、期货、债券数据都是进行宏观数据分析工作时常用的数据源。R读取网页中的HTML表格数据,需要用到XML程序包提供的readHTMLTable()函数。
readHTMLTable(doc, header = NA, colClasses = NULL, skip.rows = integer(), trim = TRUE, elFun = xmlValue, as.data.frame = TRUE, which = integer(), ...)
doc给出的是HTML文件或者网页地址,which是返回网页中的那几个表格,注意如果网址较长没在输入时需要换行,使用函数gsub将字符中的换行符删去。
baseURL = gsub("\\n", "", baseURL)
数据的保存
数据处理的结果或者中间结果应该被妥善保存,最基本的保存工作的函数为cat()函数。
cat(... , file = "", sep = " ", fill = FALSE, labels = NULL, append = FALSE)
参数file指定了输出的文件名,若文件已存在则原来的内容将被覆盖,若将参数append = T,则是在文件末尾追加内容。
> car = file("K:/car.txt") > cat("Make lp100km mass.kg List.price", "\"Alpha Remeo\" 9.5 1242 38500", "\"Audi A3\" 8.8 1160 38700", file = car, sep = "\n") > close(car)
更常用的写文件方式是把一个矩阵或者数据框以矩形块的形式整体写入文件,用write.table()函数
write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ", eol = "\n", na = "NA", dec = ".", row.names = TRUE, col.names = TRUE, qmethod = c("escape", "double"), fileEncoding = "")
数据预处理
常用的数学函数
sum(x) 对x中的元素求加和,
prod(x)对x中的元素求乘积,
max(x)/min(x)求x中元素的最大值和最小值,
range(x)返回取值范围,相当于[min(x),max(x)],
length(x)返回x中元素的个数,
median(x)返回x中元素的中位数,
var(x)求x中元素的方差,
sd(x)求x中元素的标准差,
cov(x,y)求x和y的协方差,
cor(x,y)求x和y的相关系数,
round(x,n)对x中的元素四舍五入,保留小数点后的第n位,
sort(x)/order(x)排序,默认升序,
rev(x)对x中的元素取逆序,
unique(x)对x中重复的元素只取一个,
table(x)统计x中完全相同的数据个数。
修改数据标签
names()函数可以获取数据集的列标签,dimnames()[[1]]表示对行标签进行操作如:dimnames()[[1]][1:3] = c("1","2","3")将数据的取1-3行的标签改为1-3,dimnames()[[2]]表示列。
缺失值的处理
> air_data = airquality[1:7,1:4] > is.na(air_data) Ozone Solar.R Wind Temp 1 FALSE FALSE FALSE FALSE 2 FALSE FALSE FALSE FALSE 3 FALSE FALSE FALSE FALSE 4 FALSE FALSE FALSE FALSE 5 TRUE TRUE FALSE FALSE 6 FALSE TRUE FALSE FALSE 7 FALSE FALSE FALSE FALSE > sum(is.na(air_data)) [1] 3 > complete.cases(air_data) [1] TRUE TRUE TRUE TRUE FALSE FALSE TRUE > complete.cases(air_data$Ozone) [1] TRUE TRUE TRUE TRUE FALSE TRUE TRUE is.na用来分析数据中是否含有缺失值,complete.cases则是判断每一行是否有缺失值,当数据量变大时,利用aggr()函数进行判断。 > air_data = airquality[1:31,1:4] > aggr(air_data, las = 1, numbers = T)
图中的的小长条的长度表示各个变量的缺失数据的比例,可见wind和temp变量数据是完整的。
删除缺失样本
> data = air_data[complete.cases(air_data),] > dim(data) [1] 24 4 > data = na.omit(air_data) > dim(data) [1] 24 4
替换掉缺失值
用均值或者中位数去代替缺失值是通常的处理策略。
> air_data$Ozone[is.na(air_data$Ozone)] = median(air_data$Ozone[!is.na(air_data$Ozone)])
补充:R语言学习笔记--数据框输出和查看
(1)将数据框C输出为.csv文件
write.table(C,file="ABC.csv",sep = ",",row.names=FALSE)
#ABC.csv将保存在R的工作目录下,当不加sep = " "时,输出的数据会在同一个单元格里,因此要加“,”。
(2)查看数据框C的行数和列数
行数:length(C[1, ])
列数:length(C[ ,1])
行数+列数:dim(C)
(3)查看数据框C的变量名即列名
colnames(C)
(4)查看数据框C的变量x1中不同值的个数
length(unique(C$x1))
(5)在console里的不同的输出方式
print()
cat ( )
换行的话加“\n”
以上为个人经验,希望能给大家一个参考,也希望大家多多支持猪先飞。如有错误或未考虑完全的地方,望不吝赐教。
相关文章
- 本文给大家分享C#连接SQL数据库和查询数据功能的操作技巧,本文通过图文并茂的形式给大家介绍的非常详细,需要的朋友参考下吧...2021-05-17
- 最基础的对数据的增加删除修改操作实例,菜鸟们收了吧...2013-09-26
- 这篇文章主要介绍了解决Mybatis 大数据量的批量insert问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-01-09
- 这篇文章主要介绍了R语言作图:坐标轴的设置方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
Antd-vue Table组件添加Click事件,实现点击某行数据教程
这篇文章主要介绍了Antd-vue Table组件添加Click事件,实现点击某行数据教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-11-17- 这篇文章主要介绍了详解如何清理redis集群的所有数据,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-18
- 这篇文章主要介绍了R语言删除指定变量或对象的操作方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
- 这篇文章主要介绍了vue 获取到数据但却渲染不到页面上的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-11-19
- 在php中解析xml文档用专门的函数domdocument来处理,把json在php中也有相关的处理函数,我们要把数据xml 数据存到一个数据再用json_encode直接换成json数据就OK了。...2016-11-25
- 这篇文章主要介绍了R语言基本画图函数与多图多线的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
- 这篇文章主要介绍了mybatis-plus 处理大数据插入太慢的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-12-18
- 这篇文章主要介绍了postgresql数据添加两个字段联合唯一的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-02-04
Vue生命周期activated之返回上一页不重新请求数据操作
这篇文章主要介绍了Vue生命周期activated之返回上一页不重新请求数据操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-26- 这篇文章主要介绍了解决Pycharm 运行后没有输出的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-02-06
- 这篇文章主要介绍了c# socket网络编程,server端接收,client端发送数据,大家参考使用吧...2020-06-25
- 这篇文章主要介绍了解决vue watch数据的方法被调用了两次的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-11-07
- 这篇文章主要介绍了vue 数据(data)赋值问题的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-29
- 这篇文章主要介绍了Python3 常用数据标准化方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-24
- 这篇文章主要介绍了vue:el-input输入时限制输入的类型操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-08-05
- 这篇文章主要介绍了R语言-将list转换为向量的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06