反直觉事实(48):为什么明天太阳升起不是一条新闻?
付费文章香农熵:信息的本质是"意外",废话的比特数是零
一、 假设我想让你猜我手里硬币是正面还是反面。 你需要问我几个问题? 只需要问一个:"是正面吗?" 我回答"是"或"否",不确定性就消除了。 这叫**1比特(Bit)**的信息量。
二、 如果你要猜一个骰子是几点(6种可能)。 你需要问大约2.58个问题——log₂(6)。 如果你要猜我想的是哪一张扑克牌(52张)。 你需要问5.7个问题——log₂(52)。 信息量取决于不确定性的大小。
三、 但如果我让你猜"明天太阳会不会升起"。 你会觉得这个问题很无聊。 因为你知道答案肯定是"会"。 这件事发生的概率接近100%。不确定性为0。 所以,无论我在新闻联播里用多大声音喊出这行字,哪怕喊一万遍。 我传递给你的信息量都是0比特。
四、 1948年,克劳德·香农用一个公式震撼了世界: 信息不是数据。信息是用来消除不确定性的东西。 或者更通俗点:信息 = 意外(Surprise)。 一件事情发生的概率越小,它发生时带来的惊奇感越强,它包含的信息量就越大。 "狗咬人"不是新闻(常态)。 "人咬狗"才是新闻(意外)。
五、 这就是**香农熵(Shannon Entropy)**的本质。 它用数学衡量了"信息量"这个模糊的概念。 如果一件事100%会发生,它发生时传递的信息量是0。 如果一件事50%会发生,它发生时传递的信息量是1比特。 如果一件事只有0.1%会发生,它发生时传递的信息量极大。 越意外,越有信息。
六、 这个理论像一把手术刀,切开了现代社会的很多毒瘤。
七、 废话文学。 "听君一席话,如听一席话。" "我上次这么无语还是在上次。" "这个东西的好处就是非常的好。" 这些句子有长度,有语法。 但它们的香农熵接近于0。 你读完后,没有消除任何不确定性,没有获得任何新知。 它们是语言的泡沫。 比特数为零。
八、 形式主义的会议。 如果领导在台上讲了一个小时,全都是:
登录以继续阅读
这是一篇付费内容,请登录您的账户以访问完整内容。
AI实践知识库