山东机关建设网站,怎样做网站营销,免费建筑图纸下载网站,苏州中车建设工程有限公司网站文章目录 正态分布二项分布验证 正态分布
正态分布#xff0c;最早由棣莫弗在二项分布的渐近公式中得到#xff0c;而真正奠定其地位的#xff0c;应是高斯对测量误差的研究#xff0c;故而又称Gauss分布。测量是人类定量认识自然界的基础#xff0c;测量误差的普遍性最早由棣莫弗在二项分布的渐近公式中得到而真正奠定其地位的应是高斯对测量误差的研究故而又称Gauss分布。测量是人类定量认识自然界的基础测量误差的普遍性使得正态分布拥有广泛的应用场景或许正因如此正太分布在分布族谱图中居于核心的位置。
正态分布 N ( μ , σ ) N(\mu, \sigma) N(μ,σ)受到期望 μ \mu μ和方差 σ 2 \sigma^2 σ2的调控其概率密度函数为 1 2 π σ 2 exp [ − ( x − μ ) 2 2 σ 2 ] \frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{(x-\mu)^2}{2\sigma^2}] 2πσ2 1exp[−2σ2(x−μ)2]
当 μ 0 \mu0 μ0而 σ 1 \sigma1 σ1时为标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)对应概率分布函数为 Φ ( x ) 1 2 π exp [ − x 2 2 ] \Phi(x)\frac{1}{\sqrt{2\pi}}\exp[-\frac{x^2}{2}] Φ(x)2π 1exp[−2x2]形状如下 在scipy.stats中分别封装了正态分布类norm和标准正态分布类halfnorm。
二项分布
二项分布是非常简单而又基础的一种离散分布貌似是高中学到的第一个分布就算不是第一个也是第一批。在 N N N次独立重复的伯努利试验中设A在每次实验中发生的概率均为 p p p。则 N N N次试验后A发生 k k k次的概率分布就是二项分布记作 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)则 P { X k } ( n k ) p k ( 1 − p ) n − k P\{Xk\}\binom{n}{k}p^k(1-p)^{n-k} P{Xk}(kn)pk(1−p)n−k
其中 ( n k ) n ! k ! ( n − k ) ! \binom{n}{k}\frac{n!}{k!(n-k)!} (kn)k!(n−k)!n!高中的写法一般是 C n k C^k_n Cnk。
记 q 1 − p q1-p q1−p令 x k k − n p n p q x_k\frac{k-np}{\sqrt{npq}} xknpq k−np当 n n n趋近于无穷大时根据De Moivre–Laplace定理有 lim n → ∞ n ! k ! ( n − k ) ! p k q n − k ≈ 1 2 π n p q e ( k − n p ) 2 2 n p q \lim_{n\to\infty}\frac{n!}{k!(n-k)!}p^kq^{n-k}\approx\frac{1}{\sqrt{2\pi npq}}e^{\frac{(k-np)^2}{2npq}} n→∞limk!(n−k)!n!pkqn−k≈2πnpq 1e2npq(k−np)2
即服从 σ 2 n p q , μ n p \sigma^2npq, \munp σ2npq,μnp的高斯分布。
验证
下面通过scipy.stats对二项分布和高斯分布之间的关联进行验证
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as ssp,q 0.2, 0.8
ns [10, 100, 1000, 10000]fig plt.figure()
for i,n in enumerate(ns):rs ss.binom(n, p).rvs(50000)rv ss.norm(n*p, np.sqrt(n*p*q))st, ed rv.interval(0.999)xs np.linspace(st, ed, 100)ys rv.pdf(xs)ax fig.add_subplot(2,2,i1)ax.hist(rs, densityTrue, binsauto, alpha0.2)ax.plot(xs, ys)plt.title(fn{n})plt.show()效果如下可见随着 n n n越来越大二项分布的随机数越来越靠近正态分布的概率密度曲线