Google 首席工程师是这样理解数据的!8 分钟教会你什幺

时间:2020-06-07

统计学的意义是什幺?这份懒人指南将用 8 分钟,告诉你统计学所有的基本思想!如果你特别赶时间,只看加粗内容,一分钟就可以啦!

相关链接

统计学是什幺?有人会说,统计学是一门有关数据处理和分析的科学。没错!从定义上来看,这样的解释完全正确。现在让我们深入了解一下它的具体内容。

统计学是一门关于改变既定观念的学科

一般情况下,我们根据事件(统计参数)进行决策尚有难度,更何况有时候我们连对应的事件都没有。相反,我们已知的部分事件(统计样本)与我们所希望知道的整体事件(统计总体)之间可能会存在很大的差异。这就意味测量本身是存在着不确定性的。

Google 首席工程师是这样理解数据的!8 分钟教会你什幺

统计学是一门能在充满不确定性的情况下改变你对事物看法的科学。当然,首先要确定的是:你目前的看法从何而来?是基于假设检验还是基于先验信念?或者也有可能你没有任何看法,大脑一片空白。

贝叶斯学派从先验信念的角度看待问题

贝叶斯统计学通过结合数据来更新人们对事物的先验信念(无需经验或 先 于经验获得的知识,简单来说就像是「直觉」。)。贝叶斯学派倾向于使用信赖区间(即介于两个数字之间的区间)来表示结果。

频率学派则主张从频率的角度看待问题。

频率学派统计学着重于改变一个人的选择。人们不需要任何先验信念就可以做出下意识的选择,也无需分析任何数据。频率学派统计学(也被称为古典统计学)大多出现在日常生活中或者像 STAT101 这种统计学入门课程中,因此本文也对这类经典的理论进行介绍。

假设是对现实世界的一种「可能的」描述

零假设描述的是一种缺省的情况,即默认的选择;备择假设(又称:对立假设)则是与零假设对立的其他一种或者多种情况。如果我用数据证明了「零假设」并不成立,那幺你就可以拒绝「零假设」从而接受备择假设。

例如:如果你每天早上用于準备的时间少于 15 分钟(零假设),我们就可以一起去上课(默认情况)。但是,如果事实(数据)证明你得花更长的时间(对立假设)才能準备好的话,你就只能自己一个人去了,因为在你準备好之前我已经走了(备选情况)。

简而言之,假设检验的目的在于:「我们的事实证据能否拒绝零假设?」

所有的假设检验都在问这样一个问题:我们的证据能否拒绝零假设?拒绝零假设意味着我们学到了一些东西,我们应该改变自己的观念。不拒绝零假设意味着我们没有学到任何新的东西。

就像我们在树林里徒步旅行的时候,在周围没有看到其他人并不能证明地球上没有人类,只是意味着我们没有学到有关人类活动範围的新知识。如果没有学到新知识,你也不必沮丧,因为你已经知道确切的应对方法。既然你没有学到新知识,也就没有理由改变观念,所以继续採取默认做法就可以了。

那幺我们怎幺判断我们是否学到了新内容?所谓“新内容”,就是与默认选择完全相悖,可以让我们新知识。为了得到上面问题的答案,我们可以查看两个统计参数,P 值和置信区间。

P 值理论是统计学中重要的一部分

P 值阐述了这样一个统计参数:如果接受原假设,观察样本对原假设的支持程度。通过 P 值可以判断假设是否成立。P 值越小,意味着默认结果出现的概率越小,「新内容」出现的可能性越大,统计越显着,说明你应该改变先前的观念。

进行假设检验,我们只需要将 P 值与显着性水平进行比较。这就像是一个旋钮,可以用来控制我们承受风险的大小。显着性水平指当原假设正确时,人们却因拒绝它而犯错的上限概率。如果你将显着性水平设置为 0,那幺就意味着你拒绝了备择假设。那幺停下笔吧!别分析数据了,直接按默认方法去做吧。(但坚持默认做法也有可能是错误的。)

Google 首席工程师是这样理解数据的!8 分钟教会你什幺

如何使用 P 值来获取假设检验的结果。如果 P 值小于显着性水平,拒绝原假设;如果 P 值大于显着性水平,接受原假设。

信赖区间可以用来表示假设检验的结果。它的用法是,检验其是否与零假设重叠。如果重叠,那幺就意味着我们没有得到任何新结论。如果不重叠,请改变你的看法吧。

信赖区间与零假设不重叠的话,就改变你的看法吧

虽然信赖区间的定义晦涩难懂,但它有两大优点有助于描述数据特性:(1)区间总是包含最合理的假设(2)数据量越大,区间範围越窄。请注意,置信区间和 P 值并没有简练精闢的定义,因为当初设计这两个统计参数的目的不在于方便教学。它们只是总结检验结果的方法。(如果你上了一节统计课,发现根本记不住这些的定义,原因就在于此。我来代表统计学说一句:不是你的锅,是我自己的锅。)

这样做的意义是,如果你按照我刚才描述的方法进行测试,数学可以保证你犯错误的风险被限制在你选择的显着性水平以内(这就是为什幺你亲自设置显着性水平很重要……数学计算就是为了保证你所选择的风险设置得以实现,如果你不费心选择就没有意义了。)

数学理论是建立零假设的基础,这也是 P 值理论的来源

Google 首席工程师是这样理解数据的!8 分钟教会你什幺

数学可以製造和检验零假设这个「玩具宇宙」(亲爱的统计学家们,这多幺的酷啊!?简直太酷了!),并生成数据,从而与已有的数据集进行相似度对比。如果你的零假设玩具宇宙与现实数据相似的可能性太低,你的 P 值将会很低,你最终会拒绝零假设…… 那就改变主意接受备择假设吧!

那些疯狂的公式、概率、分布是用来做什幺的呢?它们让我们得以描述那些统治零假设世界的一系列规则,从而判断零假设是否与真实世界相符。如果不是,你就可以大喊:「太荒唐了!拉出去砍了!」如果相符,你耸耸肩,遗憾没学到新知识。以后我们再深入讨论这个话题。

就目前而言,只需将数学的作用看作是帮我们建立了多个小的玩具世界,帮助我们进行检验,看看真实数据如果放进玩具世界中是否合理。P 值和信赖区间是帮你总结的方法,让你不需要眯眼费力来阅读关于这个世界的冗长描述。他们代表着终极判断:用它们来查看是否採取你默认的做法。任务完成!

我们做準备工作了吗?这是功效所衡量的内容

等一下,我们是否做足了準备工作,确保我们实实在在的收集了足够的证据,让我们有足够的把握地改变观念了吗?这个问题的答案是由功效这个概念所衡量的。不改变观念很简单,只要不去寻找支持它的证据就好了。你的功效越大,说明你给自己更多机会来改变观念。功效是拒绝原假设且结果正确的概率。

当继续採取默认做法,我们虽然没学到什幺,如果用功效对原假设进行衡量也能让我们感觉更好。至少我们做了足够的準备,也进行了尝试。如果没有用功效进行衡量,我们肯定不会改变自己的观念。这样甚至不需要去分析数据了。

功效分析用于检查在着手之前你是否準备了足够的数据

功效分析是对给定数量的数据检测预期功效大小的一种方法,你可以借助功效分析制定研究计画。

不确定性意味着,即使你拥有世上最棒的数学方法,也可能得出错误的结论。

统计是什幺?在不确定性中找确定性的神奇魔法。但没有哪种魔法可以做到这一点,人们总会犯错误。提到错误,在频率统计中有两类经常出现的错误。

第一类错误是指原假设是对的,我们却拒绝了原假设。大概就是,老兄,虽然你对这个默认做法很满意,但你的数学计算说服你放弃它。第二类错误是指原假设是错的,我们却接受了原假设。(我们统计学家对命名真是有创意。猜一猜哪一个错误更糟糕?第一类?没错,很有创意吧。)

第一类错误就像是给一个无辜的人定罪,而第二类错误则是未能给一个有罪的人定罪。犯这两类错误的概率是平衡的(提高抓住坏人的概率也同时提高了错判好人的概率),除非你拥有更多证据(数据!),可以使犯两类错误的概率都变小,整体结果都会变得更好。这就是为什幺统计学家希望你拥有大量、丰富的数据!当你拥有更多的数据时,一切都变得更好了!

数据越多越容易杜绝错误的结论

Google 首席工程师是这样理解数据的!8 分钟教会你什幺

什幺是多重比较校正(multiplecomparisons correction)呢?如果你打算对同一个受试群体询问多个问题时,那幺你必须以不同的、不断调整的方式询问。如果你一遍又一遍地审讯无辜的嫌疑人(当你持续探测你的数据),最终某个随机事件总会让案子看起来有罪。

「统计显着」(statistically significant)这个术语并不意味着在零假设的世界里发生了重要的事情,它仅仅意味着我们改变了看法。这种改变也可能是错误的,都怪烦人的不确定性!

别浪费你的时间来严谨地回答错误的问题了,试试统计学的方法吧!

那什幺是第三类错误呢?这是一个统计学的笑话:它指的是正确地拒绝了错误的零假设。换句话说,运用的数学方法都是正确的,却回答了错误的问题。

解决这个错误的问题的一个方法可以在「智能决策工程」(Decision Intelligence Engineering)这个视频中找到。智能决策工程是一个使用数据科学解决商业问题和优化决策的新学科。通过掌握智能决策这种方法,你可以避免犯第三类错误和无用的数据分析。

总而言之,统计学是一种改变你的观念的科学。目前分为两种流派,更常见的是频率统计派——检验你是否应该拒绝你的原假设。贝叶斯统计派则是根据数据更新先验信念。如果你在开始分析数据之前大脑一片空白,那就先看看你的数据,然后跟着直觉走吧。

相关报导

Google 人是这样学习的

Google AI 研究营一开跑就 5000 人参加,简立峰:台湾人不知道自己有多优秀

Google 推出「进阶版」机器学习课程,毕业证书难拿到让我怀疑人生

和 Google 顶尖工程师一起研究机器学习一整年,这是我的精华笔记

相关推荐