458 次浏览

信息论基础知识cook

信息是对不确定性的消除

信息论对于机器学习的影响是广泛的,例如,概率图模型中的应用,对数线性模型等等。此篇博客也是整理一下相关内容作为一个类似于《matrix cookbook》的内容展示,方便查阅。

一个消息之所以会含有信息 , 正是因为它具有不确定性 , 一个不具有不确定性的消息 是不会含有任何信息的,而通信的目的就是为了消除或部分消除这种不确定性 .比如,在 得知硬币的抛掷结果前 , 我们对于结果会出 现正面 还是 反面 是不确 定的 , 通 过通信 , 我 们 得知了硬币的抛掷结果,消除了不确定性,从而获得了信息 .因此,信息是对事物运动状态 或存在方式的不确定性的描述 .这就是香农信息的定义 .
用数学的语言来讲,不确定性就是随机性,具有不确定性的事件就是随机事件 .因此, 可运用研究随机事件的数学工具——概率——来测度不确定性的大小 .在信息论中,我们 把消息用随机事件表示,而发出这些消息的信源则用随机变量来表示 .比如,抛掷一枚硬 币的试验可以用一个随机变量来表示 , 而抛掷结果可以是正面或反面 , 这个具体的消息则 用随机事件表示 .(reference 1)

事件发生概率越大,提供的自信息越少,事件发生概率越小,提供的自信息越多。

一个事件发生提供的自信息:假设事件\(\)\(x_i\)\(\)的概率\(\)\(p(x_i)\)\(\),则自信息量的定义是\(\)\(I(x_i)=-log p(x_i)\)\(\),\(\)\(I(x_i)\)\(\)表示事件发生前的不确定性,或在事件发生后所提供的信息量。

信息熵(平均自信息):随机变量\(\)\(X\)\(\)的每一个可能取值的自信息\(\)\(I(x_i)\)\(\)的统计平均值。即:\(\)\(H(X)=E[I(x_i)]=-\sum ^n _{i=1}p(x_i)logp(x_i)=H(p_1,p_2,\ldots, p_n)\)\(\),信息熵有如下性质:
a. 对称性:\(\)\(H(p_1,p_2,\ldots, p_n)=H(p_2,p_1,\ldots, p_n)=H(p_n,p_1,\ldots, p_{n-1})\)\(\)
b. 确定性:\(\)\((p_1,p_2,\ldots, p_n)\)\(\),若其中一个分量是1,则其他分量必定都是0
c. 非负性
d. 极值性:即熵的最大值在均匀分布取到(机器学习中最大熵模型用的就是这里)

自信息,信息熵需要满足三个条件使用log函数进行表达是合理且唯一的:
a. 在概率分布上的连续性
b. 等概率条件下单调增函数的特性
c. 信息度量的可加性

联合熵:将一个随机变量分布的推广到多个随机变量分布,\(\)\(H(XY)=-\sum _{x \in X} \sum _{y \in Y}p(x,y)log p(x, y)\)\(\)

条件熵:表示一直X时,y的平均不确定性,\(\)\(H(Y|X)=\sum _{x \in X}p(x)H(Y|X=x)=-\sum _{x \in X}p(x)\sum _{y \in Y}p(y|x)log p(y|x)=-\sum _{x\in X}\sum_{y\in Y}p(x, y)log p(y|x)\)\(\)

信息熵联合熵条件熵之间的关系:\(\)\(H(XY)=H(X)+H(Y|X)\)\(\)

事物之间是存在普遍联系的,随机变量之间也存在着相关关系
互信息:因为条件熵是减少了不确定性的(因为给定了一个信息),所以对于互信息而言,就是信息熵减去条件熵:\(\)\(I(X,Y)=H(X)-H(X|Y)\)\(\),互信息有如下性质:
a. 对称性,\(\)\(I(X, Y)=I(Y, X)\)\(\)
b. 非负性,\(\)\(I(X, Y)\geq 0\)\(\)
c. 极值性,\(\)\(I(X, Y) \leq min(H(X), H(Y))\)\(\)

KL散度(鉴别信息):表示两个分布之间的距离:\(\)\(D(p||q)=\sum _{x\in X}p(x)log \frac{p(x)}{q(x)}\)\(\),KL散度满足距离度量(metric space)的非负性(使用\(\)\(log x \leq x-1\)\(\)这一信息即可证明),但是不满足对称性和三角不等式.

KL散度与信息熵、互信息之间的关系:
a. \(\)\(H(X)=logN – D(p||u)\)\(\)(N为试验次数,u为等概率分布),KL散度D代表等概分布与实际分布之间的差值。
b. \(\)\(I(X, Y) = D(p(x, y)||p(x)(y))\)\(\),KL散度D代表假设X,Y两个分布独立与实际两个分布关系的差值。
c. KL散度、信息熵、互信息都是凸函数。

微分熵:是对连续变量的信息熵表达(微分熵不一定非负),省略了一些信息,我们无法对于一个连续变量的完整信息表达,例如,我们无法写完\(\)\(\pi\)\(\)小数点后面的所有数字。
连续变量信息熵:\(\)\(h(X) = -\int ^{+\infty}_{-\infty}p(x)log p(x)dx\)\(\)
连续变量联合熵:\(\)\(h(XY) = -\int \int p(x, y)log p(x, y)dxdy\)\(\)
连续变量条件熵:\(\)\(h(X|Y)=-\int \int p(x, y)logp(x|y)dxdy = -\int p(x)\int p(x|y)log p(x|y)dxdy\)\(\)
三者关系:同离散情况,\(\)\(h(XY)=h(X)+h(X|Y)=h(Y)+h(Y|X)\)\(\)
高斯分布的微分熵:\(\)\(h(x)=\frac{1}{2}log2 \pi e \sigma ^2\)\(\)
连续变量的互信息:\(\)\(h(x)=\int \int p(x, y)log \frac{p(x, y)}{p(x)p(y)}dxdy\)\(\)

reference
1. 李亦农,李梅《信息论基础教程》
2. https://www.bilibili.com/video/av28661250?p=52