Skip to content

概率论与数理统计

Starslayerx edited this page Jul 16, 2021 · 40 revisions

R

R基础

  • 包管理

    install.packages() # 安装包
    library() # 导入包
    detach(package:xx) # 卸载已加载的包
    
  • 赋值给变量

    a <- 3
    A <<- 6 # 强制赋值为全局变量
    b = 9   # 多作为函数参数使用
  • 显示当前工作空间所有对象名称

    ls()
    ls.str() # 更加详细的显示
  • 删除变量

    rm()
    rm(list = ls()) # 删除所有变量、
  • 输出单个元素

    print(x, ...)
  • 拼接为字符串

    paste(..., sep = ' ', collapse = NULL)
    paste0(..., collapse = NULL) # 缩减版
    • sep: 分隔符
    • collapse: 元素内部折叠坍塌,例如拼接向量1:10
  • 输出多个元素,使用","分割元素

    cat("A", pi*2, ...)
  • 构造向量

    c(1:10, "hello") # 同时拼接数字和字符串会成为字符串类型
  • 生成数列

    m:n  # R从m到n都有,Python没有n
    seq(from = 1, to = 5, by = 2) # 增量不为1的数列
    seq(from = 0, to = 20, length.out = 5) # 指定数列数量,自动计算增量
  • 生成重复值

    rep(pi, times = 5)
  • 索引

    fib[c(1, 4, 9)] # 选择下表1,4,9元素
    fib[1:3] # R下标从1开始
    fib[-(1:3)] # 负数表示忽略1到3
    • 此外,R也支持类似Numpy中的使用 bool 索引
  • 二元运算符

    符号 含义
    %% 取模
    %/% 取余
    %*% 矩阵乘法
    %in% 右边是否包含左边
    %>% 左侧传递给右侧 管道
  • 导入数据集

    data(dsname, package = "pkgname")
  • 执行R文件

    source("Script.R")

统计量

  • 常用统计函数

    函数 说明 离散型 连续型
    mean(x) 平均数 $E(X)=\frac{\sum_{i=1}^n x_i}{n}$ $E(X)=\int_{-oo}^{+oo}xf(x)dx$
    median(x) 中位数 -
    sd(x) 标准差 $\sqrt{D(X)}$
    var(x) 方差 $Var(X)=\frac{\sum_{i=1}^n(x_i-E(X))^2}{n}$
    cov(x, y) 协方差 $Cov(X,Y)=E(XY)-E(X)E(Y)$
    cor(x, y) 相关系数 $r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$
    • 忽略NA值
      x <- c(0, 1, 1, 2, 3, NA)
      sd(x, na.rm = TRUE)
  • 标准化(同标准正态分布) $$\frac{X-EX}{\sqrt{DX}}$$

  • k阶矩

    • k阶原点矩(简称k阶矩)
      $$ \mu_k = E(X^k) $$
    • k阶中心矩 $$E[(X-E(X))^k] = \int_{-oo}^{+oo}(x-\mu )^kf(x)dx $$

    1阶原点矩为期望,2阶中心矩为方差

    • 混合矩 $$E(X^kY^l)$$ 如上,称为$X$和$Y$的$k+l$阶混合矩. $$E([\mu_x^k][\mu_y^l])$$ 称为$X$和$Y$的$k+l$阶混合中心矩.

    • k阶标准矩 $$\frac{\mu_k}{\sigma^k} = \frac{E[(X-\mu)^k]}{(E[(X-\mu)^2])^{k/2}}$$ k阶标准矩为,k阶原点矩 比 标准差k次方,也是标准化后的结果的k次方.

  • 协方差矩阵
    若随机变量$ {X_1,X_2,...,X_n}$的二阶混合中心距
    $$ c_{ij} = Cov(X_i,X_j) = E(X_iX_j)-E(X_i)E(X_j)$$
    都都存在,则得到的矩阵$C$即为随机变量${X_1,X_2,...,X_n}$的协方差矩阵,由于$c_{ij}=c_{ji}$,所以以上矩阵为一个对称矩阵.

  • 偏度
    偏度(skewness)可以用来度量随机变量概率分布的不对称性。wiki
    偏度为三阶标准矩: $$\frac{\mu_3}{\sigma^3}$$

    当偏度<0时,概率分布图左偏(负偏),左侧的尾部更长,分布的主体集中在右侧。
    当偏度=0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布。
    当偏度>0时,概率分布图右偏(正偏),右侧的尾部更长,分布的主体集中在左侧。

    skew

  • 峰度
    峰度(Kurtosis)可以用来度量随机变量概率分布的陡峭程度。wiki
    峰度定义为四阶标准矩
    $$\frac{\mu_4}{\sigma^4}$$
    峰度的取值范围为[1,+∞),完全服从正态分布的数据的峰度值为 3,峰度值越大,概率分布图越高尖,峰度值越小,越矮胖。
    在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3: $$\frac{\mu_4}{\sigma^4} - 3$$
    这也被称为超值峰度(excess kurtosis),“减3”是为了让正态分布的峰度为0。

参数估计

点估计

区间估计

假设检验

方差分析

回归分析

Clone this wiki locally