简写为:i.i.d (Independent and Identically Distributed) 统计学上重要的假设。
假设
对于一个随机变量 X,i.i.d 假设 X 的每次抽取都是独立的,且来自于同一个分布。这意味着同时满足了独立性和同分布:
- 独立性:X 的每次观测都不会被其他因素影响,“自己决定自己的命运”
- 同分布:X 的每次观测都来自同一个分布,“背后的随机分布永不变”
一个例子,最简单的抛一枚硬币。每次抛硬币的过程都是 i.i.d,因为每次抛硬币都是独立的,前一次和后一次之间不会有影响。也是同分布的,因为硬币没有变,那么正面向上和背面向上的概率值就不会变。
简化统计学的计算
还是简化。就和数学上的众多假设一样。假设使世界变得简单,而让我们可以用模型来描述。
有了 i.i.d 的简化,找到统计量的分布就简单了,就无须考虑各种变量之间的相关性。在机器学习中更是,通过假设训练集中的变量是 i.i.d 的,我们就能进行各种分析和处理,例如损失函数相关的各种处理。
如何验证
i.i.d 毕竟只是一个假设,这个假设在现实世界中基本不存在。验证这个假设的方法主要有:
- 相关系数检验,算一下 X 和 Y 之间的相关系数,就可以知道它们之间是否“独立”
- KS检验可以比较两个样本分布是否相同
- 多重测试矫正,在多个独立性测试时,确定 p 的调整是否正确
- 核密度估计和KL散度
机器学习中的应用
损失函数的等价性:如果 i.i.d 成立,那么机器学习中的单个数据集中的总体损失函数和单个样本的损失函数就可以等效。
但是经常被违反:对于时序数据,肯定就是不遵循 i.i.d 的,那么交叉验证方法就会失效。这也很好理解,因为数据集里面随机变量背后的分布形式都变了,训练集和交叉验证集都尿不到一个壶里。
如何矫正
为了应对实际中 i.i.d 基本不存在的问题,应对方法主要有
- 特征工程:对于相关性强的变量,筛选掉就行了
- 一些统计方法,例如 isd 方法,处理非参数估计的独立同分布问题
- k折交叉验证,即使 i.i.d 有点被轻微违反,还可以继续运转
- 改变模型和重新理解问题,找到更多的解决方案
混合分布联系和区别
混合分布是分布的性质,表示由多个变量来混合,而 i.i.d 是随机变量的性质。两个概念的角度不太一样。
混合分布是由多个变量组成的分布,可以是由多个 i.i.d 变量组合而成的也可能不是。混合分布关注不同变量之间在同一个分布之间的权重和关系。
举个例子,有一个幼儿园里面有很多小朋友,假设每个小朋友是一个分布,i.i.d 描述的是这个小朋友本身的性质,而混合分布描述的是幼儿园的性质。两者不冲突,只是视角不同。