互信息

更新时间:2023-01-06 07:00

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

定义

设两个随机变量 的联合分布为 ,边缘分布分别为 ,互信息 是联合分布 与边缘分布 的相对熵,即

性质

互信息性质

对任意随机变量,,其互信息满足:

平均互信息量不是从两个具体消息出发, 而是从随机变量X和Y的整体角度出发, 并在平均意义上观察问题, 所以平均互信息量不会出现负值。或者说从一个事件提取关于另一个事件的信息, 最坏的情况是0, 不会由于知道了一个事件,反而使另一个事件的不确定度增加。

链法则

不等式

如果 构成马式链,则

其他

某个词t和某个类别Ci传统的互信息定义如下:

互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。

含义

互信息与多元对数似然比检验以及皮尔森 校验有着密切的联系。

信息的含义

信息是物质、能量、信息及其属性的标示。逆维纳信息定义

信息是确定性的增加。逆香农信息定义

信息是事物现象及其属性标识的集合。

互信息的含义

信息论中的互信息

一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)。

根据熵的连锁规则,有

因此,

这个差叫做X和Y的互信息,记作I(X;Y)。

按照熵的定义展开可以得到:

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}