概率分布
二项分布
二项试验(binomial experiment):满足以下条件的试验:
- (a)一次试验只有两种可能的结果(“成功”和“失败”);
- (b)试验可以在同样的条件下重复进行;
- (c)可以用计数来表示成功或失败的次数;
- (d)各次试验中成功的概率 相同,失败的概率 也相同,且
- (e)各次试验的结果相互独立。
二项分布(binomial distribution):重复进行 次二项试验后不同的成功次数所对应的概率分布。它是用 次方的二项展开式来表达在 次二项试验中不同的成功次数( )的概率分布。
正态分布
概率密度函数(probability density function):如果函数 的曲线与 轴围成的面积等于 ,则称 为连续型随机变量 的概率密度函数。
- 正态分布(normal distribution):如果随机变量 的概率密度函数为 ,则称 服从正态分布。记作:
- 标准正态分布(standard normal distribution):如果随机变量X的概率密度函数为 ,则称 服从标准正态分布。记作:
- 标准分数(standard score,Z-score):服从正态分布的 变量用 或 进行 转换得到的 Z 值。
- T分数(T-score):将 Z 分数进行线性转换所获得的分数,转换公式为 。
补充
深藍色區域是距平均值小於一個標準差之內的數值範圍。在正态分布中,此範圍所佔比率為全部數值之68%,根據正态分布,兩個標準差之內的比率合起來為95%;三個標準差之內的比率合起來為99%。
在實際應用上,常考慮一組數據具有近似於正态分布的概率分布。若其假設正確,則約68.3%數值分布在距離平均值有 1 個標準差之內的範圍,約95.4%數值分布在距離平均值有 2 個標準差之內的範圍,以及約99.7%數值分布在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」或「經驗法則」。
標準差值 | 機率 | 包含之外比例 | |
---|---|---|---|
百分比 | 百分比 | 比例 | |
0.318639σ | 25% | 75% | 3 / 4 |
0.674490σ | 50% | 50% | 1 / 2 |
0.994458σ | 68% | 32% | 1 / 3.125 |
1σ | 68.2689492% | 31.7310508% | 1 / 3.1514872 |
1.281552σ | 80% | 20% | 1 / 5 |
1.644854σ | 90% | 10% | 1 / 10 |
1.959964σ | 95% | 5% | 1 / 20 |
2σ | 95.4499736% | 4.5500264% | 1 / 21.977895 |
2.575829σ | 99% | 1% | 1 / 100 |
3σ | 99.7300204% | 0.2699796% | 1 / 370.398 |
3.290527σ | 99.9% | 0.1% | 1 / 1000 |
3.890592σ | 99.99% | 0.01% | 1 / 10000 |
4σ | 99.993666% | 0.006334% | 1 / 15787 |
4.417173σ | 99.999% | 0.001% | 1 / 100000 |
4.5σ | 99.9993204653751% | 0.0006795346249% | 1 / 147159.5358 3.4 / 1000000 (每一邊) |
4.891638σ | 99.9999% | 0.0001% | 1 / 1000000 |
5σ | 99.9999426697% | 0.0000573303% | 1 / 1744278 |
5.326724σ | 99.99999% | 0.00001% | 1 / 10000000 |
5.730729σ | 99.999999% | 0.000001% | 1 / 100000000 |
6σ | 99.9999998027% | 0.0000001973% | 1 / 506797346 |
6.109410σ | 99.9999999% | 0.0000001% | 1 / 1000000000 |
6.466951σ | 99.99999999% | 0.00000001% | 1 / 10000000000 |
6.806502σ | 99.999999999% | 0.000000001% | 1 / 100000000000 |
7σ | 99.9999999997440% | 0.000000000256% | 1 / 390682215445 |
t 分布和泊松分布、指数分布
- t 分布(t-distribution):又称“学生 t 分布”,如果随机变量 t 的概率密度函数为 ,则称 t 服从 t 分布。
- 自由度(degree of freedom):总体参数估计量中变量值独立自由变化的个数。
- 泊松分布(Poisson distribution):若随机变量 的概率分布为 其中, ,则称随机变量 服从参数为 的泊松分布。
- 指数分布(exponential distribution):若随机变量 的概率密度函数为 ,则称 服从参数为 的指数分布。
参考资料
[1]. 邵志芳,心理统计学,轻工业出版社
[2]. 齐伟,机器学习数学基础,北京:电子工业出版社
[3]. 维基百科:正态分布
作者: 老齐
链接: http://math.itdiffer.com/chapter04.html
来源: 机器学习
本文原创发布于「机器学习」,转载请注明出处,谢谢合作!