-
Notifications
You must be signed in to change notification settings - Fork 0
概率论与数理统计
-
包管理
install.packages() # 安装包 library() # 导入包 detach(package:xx) # 卸载已加载的包
-
赋值给变量
a <- 3 A <<- 6 # 强制赋值为全局变量 b = 9 # 多作为函数参数使用
-
显示当前工作空间所有对象名称
ls() ls.str() # 更加详细的显示
-
删除变量
rm() rm(list = ls()) # 删除所有变量、
-
输出单个元素
print(x, ...)
-
拼接为字符串
paste(..., sep = ' ', collapse = NULL) paste0(..., collapse = NULL) # 缩减版
- sep: 分隔符
- collapse: 元素内部折叠坍塌,例如拼接向量1:10
-
输出多个元素,使用","分割元素
cat("A", pi*2, ...)
-
构造向量
c(1:10, "hello") # 同时拼接数字和字符串会成为字符串类型
-
生成数列
m:n # R从m到n都有,Python没有n seq(from = 1, to = 5, by = 2) # 增量不为1的数列 seq(from = 0, to = 20, length.out = 5) # 指定数列数量,自动计算增量
-
生成重复值
rep(pi, times = 5)
-
索引
fib[c(1, 4, 9)] # 选择下表1,4,9元素 fib[1:3] # R下标从1开始 fib[-(1:3)] # 负数表示忽略1到3
- 此外,R也支持类似Numpy中的使用 bool 索引
-
二元运算符
符号 含义 %% 取模 %/% 取余 %*% 矩阵乘法 %in% 右边是否包含左边 %>% 左侧传递给右侧 管道 -
导入数据集
data(dsname, package = "pkgname")
-
执行R文件
source("Script.R")
-
常用统计函数
函数 说明 离散型 连续型 mean(x) 平均数 $E(X)=\frac{\sum_{i=1}^n x_i}{n}$ $E(X)=\int_{-oo}^{+oo}xf(x)dx$ median(x) 中位数 - sd(x) 标准差 $\sqrt{D(X)}$ var(x) 方差 $Var(X)=\frac{\sum_{i=1}^n(x_i-E(X))^2}{n}$ cov(x, y) 协方差 $Cov(X,Y)=E(XY)-E(X)E(Y)$ cor(x, y) 相关系数 $r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$ - 忽略NA值
x <- c(0, 1, 1, 2, 3, NA) sd(x, na.rm = TRUE)
- 忽略NA值
-
标准化(同标准正态分布)
$$\frac{X-EX}{\sqrt{DX}}$$ -
k阶矩
- k阶原点矩(简称k阶矩)
$$ \mu_k = E(X^k) $$ - k阶中心矩
$$E[(X-E(X))^k] = \int_{-oo}^{+oo}(x-\mu )^kf(x)dx $$
1阶原点矩为期望,2阶中心矩为方差
-
混合矩
$$E(X^kY^l)$$ 如上,称为$X$和$Y$的$k+l$阶混合矩.$$E([\mu_x^k][\mu_y^l])$$ 称为$X$和$Y$的$k+l$阶混合中心矩. -
k阶标准矩
$$\frac{\mu_k}{\sigma^k} = \frac{E[(X-\mu)^k]}{(E[(X-\mu)^2])^{k/2}}$$ k阶标准矩为,k阶原点矩 比 标准差k次方,也是标准化后的结果的k次方.
- k阶原点矩(简称k阶矩)
-
协方差矩阵
若随机变量$ {X_1,X_2,...,X_n}$的二阶混合中心距
$$ c_{ij} = Cov(X_i,X_j) = E(X_iX_j)-E(X_i)E(X_j)$$
都都存在,则得到的矩阵$C$即为随机变量${X_1,X_2,...,X_n}$的协方差矩阵,由于$c_{ij}=c_{ji}$,所以以上矩阵为一个对称矩阵. -
偏度
偏度(skewness)可以用来度量随机变量概率分布的不对称性。wiki
偏度为三阶标准矩:$$\frac{\mu_3}{\sigma^3}$$ 当偏度<0时,概率分布图左偏(负偏),左侧的尾部更长,分布的主体集中在右侧。
当偏度=0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布。
当偏度>0时,概率分布图右偏(正偏),右侧的尾部更长,分布的主体集中在左侧。 -
峰度
峰度(Kurtosis)可以用来度量随机变量概率分布的陡峭程度。wiki
峰度定义为四阶标准矩
$$\frac{\mu_4}{\sigma^4}$$
峰度的取值范围为[1,+∞),完全服从正态分布的数据的峰度值为 3,峰度值越大,概率分布图越高尖,峰度值越小,越矮胖。
在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3:$$\frac{\mu_4}{\sigma^4} - 3$$
这也被称为超值峰度(excess kurtosis),“减3”是为了让正态分布的峰度为0。