1. 导入CSV文件
基本用法
# 使用 read.csv 导入CSV文件
data <- read.csv("path/to/your/file.csv", header = TRUE, sep = ",")
# 查看数据结构
str(data)
实际案例:处理不同分隔符
TAB
),可以调整 sep
参数:data <- read.csv("path/to/your/file.txt", sep = "\t")
处理中文文件名和编码
data <- read.csv("path/to/your/中文文件.csv", fileEncoding = "UTF-8")
读取大文件
data.table
包加速:install.packages("data.table")
library(data.table)
data <- fread("path/to/your/large_file.csv")
2. 导入Excel文件
readxl
包能轻松读取Excel文件,支持.xlsx
和.xls
格式。基本用法
install.packages("readxl")
library(readxl)
# 导入指定工作表
data <- read_excel("path/to/your/file.xlsx", sheet = 1)
实际案例:只读取特定单元格范围
range
参数指定范围:data <- read_excel("path/to/your/file.xlsx", range = "A1:C50")
写入Excel文件
writexl
包是一个简单的选择:install.packages("writexl")
library(writexl)
write_xlsx(data, "path/to/your/output.xlsx")
3. 导入网络数据
直接读取CSV格式的网络数据
url <- "https://example.com/data.csv"
data <- read.csv(url)
使用 httr
包处理复杂网络请求
install.packages("httr")
library(httr)
response <- GET("https://example.com/data.csv")
data <- read.csv(text = content(response, "text"))
实际案例:读取JSON格式的网络数据
jsonlite
包:install.packages("jsonlite")
library(jsonlite)
url <- "https://example.com/data.json"
data <- fromJSON(url)
4. 导入SQL数据库数据
基本用法
install.packages("DBI")
library(DBI)
# 建立连接
con <- dbConnect(RSQLite::SQLite(), "path/to/your/database.sqlite")
# 执行SQL查询
query <- "SELECT * FROM your_table"
data <- dbGetQuery(con, query)
# 关闭连接
dbDisconnect(con)
实际案例:与MySQL数据库连接
install.packages("RMySQL")
library(RMySQL)
con <- dbConnect(RMySQL::MySQL(),
dbname = "your_database",
host = "your_host",
user = "your_username",
password = "your_password")
data <- dbGetQuery(con, "SELECT * FROM your_table WHERE value > 100")
dbDisconnect(con)
导入部分数据以节省内存
query <- "SELECT column1, column2 FROM your_table LIMIT 1000"
data <- dbGetQuery(con, query)
小结
1. CSV文件:简单易用,适合处理结构化数据。
2. Excel文件:支持表格格式,常用于共享小型数据集。
3. 网络数据:方便获取开放数据资源,实现数据自动化更新。
4. SQL数据库:适用于大规模数据的存储和高效查询。