公司做推广做网站好还是,企业展厅综合建设公司,wordpress 缓存 iis,seo就业文章目录 一、信息论#xff08;熵、联合熵、条件熵#xff09;二、Bernoulli熵三、联合熵和条件熵四、互信息五、相对熵(KL距离)六、微分熵七、最大熵分布常需要的不等式公式 一、信息论#xff08;熵、联合熵、条件熵#xff09;
熵定义#xff1a; H ( X ) E [ − l … 文章目录 一、信息论熵、联合熵、条件熵二、Bernoulli熵三、联合熵和条件熵四、互信息五、相对熵(KL距离)六、微分熵七、最大熵分布常需要的不等式公式 一、信息论熵、联合熵、条件熵
熵定义 H ( X ) E [ − l o g 2 p ( x ) ] − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X)E[-log_2p(x)]-\sum_{x\in X}p(x)log_2p(x) H(X)E[−log2p(x)]−x∈X∑p(x)log2p(x) note
H(X)是X的平均香农信息内容H(X)是每个符号的平均信息量二元问题(抛硬币)H(X)取值为[H(X),H(X)1] 为什么用 l o g 2 ( . ) log_2(.) log2(.)衡量信息 非负性 f ( p ) ≥ 0 f(p)\ge0 f(p)≥0, 0 ≤ p ≤ 1 0\le p\le1 0≤p≤1 特殊点当p0, f ( p ) ∞ f(p)\infty f(p)∞ 可加性 单调递增连续性 二、Bernoulli熵
符号集 χ [ 0 , 1 ] \chi[0,1] χ[0,1]对应的概率 p ⃗ [ p , 1 − p ] \vec{p}[p,1-p] p [p,1−p] Bernoulli熵 H ( X ) H ( p ) − p l o g 2 p − ( 1 − p ) l o g 2 ( 1 − p ) H(X)H(p)-plog_2p-(1-p)log_2(1-p) H(X)H(p)−plog2p−(1−p)log2(1−p) note
通常用 H ( p ) H(p) H(p)表示 H ( X ) H(X) H(X)p0 or 1时 H ( p ) 0 H(p)0 H(p)0 H ( p ) H(p) H(p)是p的凸函数p0.5 H ( p ) H(p) H(p)最大 H ( p ) H(p) H(p)的取值范围 0 ≤ H ( p ) ≤ l o g 2 ∣ χ ∣ 0\le H(p)\le log_2|\chi| 0≤H(p)≤log2∣χ∣ 三、联合熵和条件熵
联合熵 H ( X , Y ) − E l o g p ( x , y ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) H(X,Y)-Elogp(x,y)-\sum_{x\in X} \sum_{y\in Y} p(x,y)logp(x,y) H(X,Y)−Elogp(x,y)−x∈X∑y∈Y∑p(x,y)logp(x,y) 条件熵 H ( Y ∣ X ) − E l o g ( y ∣ x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( y ∣ x ) H(Y|X)-Elog(y|x)-\sum_{x\in X} \sum_{y\in Y}p(x,y)logp(y|x) H(Y∣X)−Elog(y∣x)−x∈X∑y∈Y∑p(x,y)logp(y∣x) H ( Y ∣ X ) ∑ x ∈ X p ( x ) H ( Y ∣ X x ) H(Y|X)\sum_{x\in X}p(x)H(Y|Xx) H(Y∣X)x∈X∑p(x)H(Y∣Xx) 熵的链式法则 H ( X , Y ) H ( X ) H ( Y ∣ X ) H(X,Y)H(X)H(Y|X) H(X,Y)H(X)H(Y∣X) H ( X , Y ∣ Z ) H ( X ∣ Z ) H ( Y ∣ X , Z ) H(X,Y|Z)H(X|Z)H(Y|X,Z) H(X,Y∣Z)H(X∣Z)H(Y∣X,Z) H ( X 1 , X 2 , . . . . X n ) ∑ i 1 n H ( X i ∣ X i − 1 , . . . . X 1 ) H(X_1,X_2,....X_n)\sum_{i1}^{n}H(X_i|X_{i-1},....X_1) H(X1,X2,....Xn)∑i1nH(Xi∣Xi−1,....X1)
四、互信息
定义 I ( X ; Y ) H ( X ) − H ( X ∣ Y ) H ( X ) H ( Y ) − H ( X , Y ) I(X;Y)H(X)-H(X|Y)H(X)H(Y)-H(X,Y) I(X;Y)H(X)−H(X∣Y)H(X)H(Y)−H(X,Y) 互信息具有对称性 I ( X ; Y ) H ( X ) − H ( X ∣ Y ) H ( Y ) − H ( Y ∣ X ) I(X;Y)H(X)-H(X|Y)H(Y)-H(Y|X) I(X;Y)H(X)−H(X∣Y)H(Y)−H(Y∣X) I ( X ; Y ) H ( X ) H ( Y ) − H ( X , Y ) I(X;Y)H(X)H(Y)-H(X,Y) I(X;Y)H(X)H(Y)−H(X,Y) I ( X ; Y ) I ( Y , X ) I(X;Y)I(Y,X) I(X;Y)I(Y,X) I ( X ; X ) H ( X ) I(X;X)H(X) I(X;X)H(X) I ( X ; Y ) ≥ 0 I(X;Y)\ge0 I(X;Y)≥0当且仅当X Y互相独立时等号成立 互信息的链式法则 I ( X 1 , X 2 , . . . . X n ; Y ) ∑ i 1 n I ( X i ; Y ∣ X i − 1 , . . . . , X 1 ) I(X_1,X_2,....X_n;Y)\sum_{i1}^nI(X_i;Y|X_{i-1},....,X_1) I(X1,X2,....Xn;Y)i1∑nI(Xi;Y∣Xi−1,....,X1)
五、相对熵(KL距离) D ( p ⃗ ∣ ∣ q ⃗ ) ∑ x ∈ X p ( x ) l o g q ( x ) p ( x ) E p ⃗ [ − l o g q ( x ) ] − H ( p ⃗ ) D(\vec{p}||\vec{q})\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}E_{\vec{p}}[-logq(x)]-H(\vec{p}) D(p ∣∣q )x∈X∑p(x)logp(x)q(x)Ep [−logq(x)]−H(p ) D ( p ⃗ ∣ ∣ q ⃗ ) D(\vec{p}||\vec{q}) D(p ∣∣q )测量的是两个概率分布 p ⃗ \vec{p} p 和 q ⃗ \vec{q} q 间的距离并非真实距离 D ( p ⃗ ∣ ∣ q ⃗ ) ≥ 0 D(\vec{p}||\vec{q})\ge 0 D(p ∣∣q )≥0当且仅当 p ⃗ \vec{p} p q ⃗ \vec{q} q 等号成立
六、微分熵
对于连续型随机变量一个以f(x)为密度函数的连续型随机变量X的微分熵h(x)为 h ( x ) ∫ − ∞ ∞ f X ( x ) l o g f X ( x ) d x E − l o g f X ( x ) h(x)\int_{-\infty}^{\infty}f_X{(x)}logf_X(x)dxE-logf_X(x) h(x)∫−∞∞fX(x)logfX(x)dxE−logfX(x) note
微分熵仅依赖于随机变量的概率密度函数有时候将微分熵写为h(f)微分熵可以为负值
微分熵分类
均匀分布的微分熵高斯分布的微分熵多元高斯分布的微分熵前提条件:随机变量服从均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b)高斯分布 X ∼ U ( μ , σ 2 ) X\sim U(\mu,\sigma^2) X∼U(μ,σ2) X 1 : n ∼ N ( m ⃗ , k ⃗ ) X_{1:n}\sim N(\vec{m},\vec{k}) X1:n∼N(m ,k )pdf f ( x ) { 1 b − a , x ∈ ( a , b ) ) 0 e l s e f(x)\left\{\begin{matrix}\frac{1}{b-a} ,x\in(a,b)) \\ 0 else \end{matrix}\right. f(x){b−a1,0x∈(a,b))else f ( x ) 1 ( 2 π σ 2 ) 1 2 e x p { − 1 2 σ 2 ( x − μ ) 2 } f(x)\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\} f(x)(2πσ2)211exp{−2σ21(x−μ)2} f ( x ) ∣ 2 π k ⃗ ∣ 1 2 e x p { − 1 2 ( x − m ⃗ ) T k ⃗ − 1 ( x − m ⃗ ) } f(x)|2\pi\vec{k}|^\frac{1}{2}exp\{-\frac{1}{2}(x-\vec{m})^T\vec k^{-1}(x-\vec m)\} f(x)∣2πk ∣21exp{−21(x−m )Tk −1(x−m )}m均值矢量 k ⃗ \vec k k 协方差矢量微分熵 h ( x ) ∫ a b f ( x ) l o g f ( x ) d x l o g ( b − a ) h(x)\int_a^bf(x)logf(x)dxlog(b-a) h(x)∫abf(x)logf(x)dxlog(b−a)当b-a1时,h(x)0 h ( x ) − l o g e ∫ − ∞ ∞ f ( x ) l n f ( x ) d x 1 2 l o g ( 2 π e σ 2 ) h(x)-loge\int_{-\infty}^{\infty}f(x)lnf(x)dx\frac{1}{2}log(2\pi e\sigma^2) h(x)−loge∫−∞∞f(x)lnf(x)dx21log(2πeσ2) h ( x ) 1 2 l o g ∣ 2 π e k ⃗ ∣ h(x)\frac{1}{2}log|2\pi e\vec k| h(x)21log∣2πek ∣
七、最大熵分布 条件一幅值约束对于r有限长范围(a,b)使其最大熵的分布是均匀分布 u ( x ) 1 b − a → u(x)\frac{1}{b-a} \rightarrow u(x)b−a1→、 0 ≤ D ( f ∣ ∣ x ) → h f ( x ) l o g ( b − a ) 0 \le D(f||x) \rightarrow h_f(x)log(b-a) 0≤D(f∣∣x)→hf(x)log(b−a) 条件二功率约束给定协方差矩阵 k ⃗ \vec k k 零均值的多元高斯分布能使熵在 ( − ∞ , ∞ ) n (-\infty,\infty)^n (−∞,∞)n上最大 ϕ ( x ) ∥ 2 π k ⃗ ∥ 1 2 e x p { − 1 2 x T k ⃗ − 1 x ⃗ } \phi (x)\|2\pi\vec{k}\|^\frac{1}{2}exp\{-\frac{1}{2}x^T\vec k^{-1}\vec x\} ϕ(x)∥2πk ∥21exp{−21xTk −1x }; 0 ≤ D ( f ∣ ∣ x ) h f ( x ) − E f l o g ϕ ( x ) → h f ( x ) ≤ − ( l o g e ) E f ( − 1 2 l n ∣ 2 π k ⃗ ∣ − 1 2 x T k ⃗ − 1 x ) h ϕ ( x ) 0 \le D(f||x)h_f(x)-E_flog\phi(x) \rightarrow h_f(x)\le-(loge)E_f(-\frac{1}{2}ln|2\pi \vec k|-\frac{1}{2}x^T \vec k^{-1}x)h_{\phi (x)} 0≤D(f∣∣x)hf(x)−Eflogϕ(x)→hf(x)≤−(loge)Ef(−21ln∣2πk ∣−21xTk −1x)hϕ(x)
常需要的不等式公式 H ( Y ∣ X ) ≤ H ( X ) H(Y|X)\le H(X) H(Y∣X)≤H(X),X和Y互相独立时等号成立 H ( X 1 , X 2 , . . . . X n ) ≤ ∑ i 1 n H ( X i ) H(X_1,X_2,....X_n)\le \sum_{i1}^nH(X_i) H(X1,X2,....Xn)≤∑i1nH(Xi)当且仅当 X i X_i Xi互相独立时等号成立
参考文章通信算法基础知识汇总5、通信算法基础知识汇总8