概率分布
設
X
{\displaystyle X}
是具有分布函数
F
{\displaystyle F}
的连续随机变量,且F的一階導數處處存在,則其導函數
f
(
x
)
=
d
F
(
x
)
d
x
{\displaystyle f(x)={\frac {\operatorname {d} F(x)}{\operatorname {d} x}}}
称为
X
{\displaystyle X}
的機率密度函数。每个機率密度函数都有如下性质:
∫
−
∞
∞
f
(
x
)
d
x
=
1
{\displaystyle \int _{-\infty }^{\infty }f(x)\,{\rm {d}}x=1}
∫
a
b
f
(
x
)
d
x
=
P
(
a
≤
X
≤
b
)
=
F
(
b
)
−
F
(
a
)
{\displaystyle \int _{a}^{b}f(x)\,{\rm {d}}x=\operatorname {P} (a\leq X\leq b)=F(b)-F(a)}
第一个性质表明,機率密度函数与
x
{\displaystyle x}
轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间
[
a
,
b
]
{\displaystyle [a,b]}
的概率值等于密度函数在区间
[
a
,
b
]
{\displaystyle [a,b]}
上的积分,也即是与
X
{\displaystyle X}
轴在
[
a
,
b
]
{\displaystyle [a,b]}
内形成的区域的面积。因为
0
≤
F
(
x
)
≤
1
{\displaystyle 0\leq F(x)\leq 1}
,且
f
(
x
)
{\displaystyle f(x)}
是
F
(
x
)
{\displaystyle F(x)}
的导数,因此按照积分原理不难推出上面两个公式。
正态分布、指数分布、
t
{\displaystyle t}
-分布,
F
{\displaystyle F}
-分布以及
χ
2
{\displaystyle \chi ^{2}}
-分布都是連續分布。
常見的連續機率分布族有:
均匀分布
编辑
主条目:连续型均匀分布
正态分布
编辑
主条目:正态分布
连续随机变量的機率密度函数如果是如下形式,
f
(
x
)
=
1
σ
2
π
e
(
−
1
2
(
x
−
μ
σ
)
2
)
{\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}}
那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中
μ
{\displaystyle \mu }
是平均值,
σ
{\displaystyle \sigma }
是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,常態機率密度函数具有和普通機率密度函数类似的性质:
∫
−
∞
∞
f
(
t
)
d
t
=
1
{\displaystyle \int _{-\infty }^{\infty }f(t)\,{\rm {d}}t=1}
F
(
x
)
=
1
σ
2
π
∫
−
∞
x
e
(
−
1
2
(
t
−
μ
σ
)
2
)
d
t
{\displaystyle F(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}e^{\left(-{\frac {1}{2}}\left({\frac {t-\mu }{\sigma }}\right)^{2}\right)}\,{\rm {d}}t}
如果给出一个正态分布的平均值
μ
{\displaystyle \mu }
以及标准差
σ
{\displaystyle \sigma }
,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助
z
{\displaystyle z}
-变换以及标准正态分布表格(
z
{\displaystyle z}
-表格)。
中间值
μ
=
0
{\displaystyle \mu =0}
以及标准差
σ
=
1
{\displaystyle \sigma =1}
的正态分布被称之为标准正态分布,其累積分布函数是
Φ
(
z
)
=
1
2
π
⋅
∫
−
∞
z
e
−
1
2
t
2
d
t
{\displaystyle \Phi (z)={\frac {1}{\sqrt {2\pi }}}\cdot \int _{-\infty }^{z}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t}
将普通形式的正态分布变换到标准正态分布的方法是
z
=
x
−
μ
σ
{\displaystyle z={\frac {x-\mu }{\sigma }}}
例如,已知
X
{\displaystyle X}
服從正态分布,且
μ
=
5
{\displaystyle \mu =5}
,
σ
=
3
{\displaystyle \sigma =3}
,求区间概率值
P
(
4
<
X
≤
7
)
{\displaystyle P(4 。计算过程如下: 設另一隨機變量 Z = X − 5 3 {\displaystyle Z={\frac {X-5}{3}}} ,則 Z {\displaystyle Z} 服從標準常態分佈,且 4 < X ≤ 7 ⟺ 4 − 5 3 < Z ≤ 7 − 5 3 ⟺ − 1 / 3 < Z ≤ 2 / 3 , {\displaystyle {\begin{aligned}&\qquad \quad 4 所以 P ( 4 < X ≤ 7 ) = P ( − 1 / 3 < Z ≤ 2 / 3 ) = Φ ( 2 / 3 ) − Φ ( − 1 / 3 ) ≈ 0.7475 − 0.3694 = 0.3781 , {\displaystyle P(4 其中 Φ ( z ) {\displaystyle \Phi (z)} 值通过查 z {\displaystyle z} -表格获得。 正态分布与二项分布的关系 编辑 在离散分布中如果试验次数 n {\displaystyle n} 值非常大,而且单次试验的概率 p {\displaystyle p} 值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是: n ⋅ p ⋅ ( 1 − p ) ≥ 9 {\displaystyle n\cdot p\cdot (1-p)\geq 9} 。从二项分布中获得 μ {\displaystyle \mu } 和 σ {\displaystyle \sigma } 值的方法是 期望值 μ = n ⋅ p {\displaystyle \mu =n\cdot p} 標準差 σ = n ⋅ p ⋅ ( 1 − p ) {\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}} 如果 σ > 3 {\displaystyle \sigma >3} ,则必须采用下面的近似修正方法: P ( x 1 ≤ X ≤ x 2 ) = ∑ k = x 1 x 2 ( n k ) ⋅ p k ⋅ ( q ) n − k ⏟ E F ≈ Φ ( x 2 + 0.5 − μ σ ) − Φ ( x 1 − 0.5 − μ σ ) ⏟ Z F {\displaystyle P(x_{1}\leq X\leq x_{2})=\underbrace {\sum _{k=x_{1}}^{x_{2}}{n \choose k}\cdot p^{k}\cdot (q)^{n-k}} _{\mathrm {EF} }\approx \underbrace {\Phi \left({\frac {x_{2}+0.5-\mu }{\sigma }}\right)-\Phi \left({\frac {x_{1}-0.5-\mu }{\sigma }}\right)} _{\mathrm {ZF} }} (注: q = 1 − p {\displaystyle q=1-p} ;EF:二项分布;ZF:正态分布) 上(下)临界值分别增加(减少)修正值0.5的目的是在 σ {\displaystyle \sigma } 值很大时获得更精确的近似值,只有 σ {\displaystyle \sigma } 很小时,修正值0.5可以不被考虑。 例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下, μ = n ⋅ p = 64 ⋅ 0.5 = 32 {\displaystyle \mu =n\cdot p=64\cdot 0.5=32} σ = n ⋅ p ⋅ ( 1 − p ) = 64 ⋅ 0.5 ⋅ 0.5 = 4 {\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}={\sqrt {64\cdot 0.5\cdot 0.5}}=4} n ⋅ p ⋅ q = 16 ≥ 9 {\displaystyle n\cdot p\cdot q=16\geq 9} ,符合近似规则,应用 z {\displaystyle z} -变换: P ( 32 ≤ X ≤ 42 ) ≈ Φ ( 42 + 0.5 − 32 4 ) − Φ ( 32 − 0.5 − 32 4 ) {\displaystyle P(32\leq X\leq 42)\approx \Phi \left({\frac {42+0.5-32}{4}}\right)-\Phi \left({\frac {32-0.5-32}{4}}\right)} = Φ ( 2.63 ) − Φ ( − 0.13 ) = 0.0517 + 0.4957 = 0.5474 {\displaystyle =\Phi \left(2.63\right)-\Phi \left(-0.13\right)=0.0517+0.4957=0.5474} 标准正态分布 N ( 0 , 1 ) {\displaystyle N(0,1)} 下的 z {\displaystyle z} -表格 在运用 z {\displaystyle z} -表格时注意到利用密度函数的对称性来求出 z {\displaystyle z} 为负值时的区域面积。 伽瑪分布 编辑 主条目:伽玛分布 指数分布 编辑 主条目:指数分布 其他連續型常用分布 编辑 貝它分布 编辑 主条目:貝它分布 雙指數分布 编辑 主条目:拉普拉斯分布 對數常態分布 编辑 主条目:对数正态分布 柏拉圖分布 编辑 主条目:帕累托分布 柯西分布 编辑 主条目:柯西分布 多元常態分布 编辑 主条目:多元正态分布