互信息
参考:https://zh.wikipedia.org/zh-hans/%E4%BA%92%E4%BF%A1%E6%81%AF
两个随机变量的互信息(Mutual Information,简称MI)是两个变量相互依赖性的量度。
$$I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)$$
直观地说,如果把熵$$H(Y)$$ 看作一个随机变量不确定度的量度,那么 $$H(Y|X)$$ 就是随机变量$$X$$ 没有涉及到的随机比变量$$Y$$的部分的不确定度的量度。这就是“在$$X$$ 已知之后$$Y$$ 的剩余不确定度的量”,于是第一个等式的右边就可以读作“$$Y$$的不确定度,减去在 X 已知之后 Y 的剩余不确定度的量”,此式等价于“移除知道 X 后 Y 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量(即不确定度的减少量)。