首页 > 产品 > 网站优化 > 正文

人人都需要掌握的 5 个基本统计概念

5daofeng2019-01-10 16:55:56阅读次数:3998

在数据科学艺术的执行中,统计可以说是一个强大的工具。从高层次来看,统计学是利用数学对数据进行分析的学科。基本的可视化(柱状图等)会给受众一些深层的信息,但通过统计,我们可以用一种更富有信息驱动力和更有针对性的方式对数据进行操作。统计中的数学可以帮助我们对数据形成具体的结论,而不仅仅是猜测。



3、维数约简(Dimensionality Reduction)


维数约简这个术语很好理解:有一个数据集,我们想减少它的维度数量。在数据科学中,这个数量是特征变量的数量。维数约简的意义就是降低原来的维数,并保证原数据库的完整性,在约简后的空间中执行后续程序将大大减少运算量,提高数据挖掘效率,且挖掘出来的结果与原有数据集所获得结果基本一致。更广泛的说就是防止了维数灾难的发生。看下图获得更详细的解释:



维数约简


立方体代表我们的样本数据集,它有三个维度,共1000个点。以现有的计算能力,1000个点很容易就能处理,但处理更大范围的数据还是会遇到问题。然而,仅仅从二维的角度来看数据集,比如从立方体的一侧来看,我们可以看到区分所有的颜色还是很容易的。通过维数约简,我们可以将三维数据投射(project)到二维平面上。这把我们需要计算的点数减少到100,有效地节约了大量的计算时间。


另一种维数约简的方式是特征修剪(feature pruning)。利用特征修剪,我们基本可以删去对我们的分析不重要的特征。例如,研究一个数据集之后,我们可能发现该数据集有10个特征,其中,有7个特征与输出有很高的相关性,而其余3个相关性不高。那么这3个低相关性特征可能就不值得计算了,我们可以在不影响输出的情况下从分析中删掉它们。


最常用的维数约简方法是主成分分析(PCA),本质上是创建新的向量,这些向量可以尽可能多地反映原始变量的信息特征(即它们的相关性)。


PCA可用于上述两种维数约简方式。在这个教程中可以获得更多相关信息。


4、过采样和欠采样(Over and Under Sampling)


过采样和欠采样是用于分类问题的统计技术。有时,分类数据集可能过于偏向于一边。例如,类别1有2000个样本,类别2只有200个。我们能够用来建模、预测的许多机器学习技术都没法用了!但是,过采样和欠采样可以解决这个问题。请看这张图:



欠采样(左)和过采样(右)


上图里,两张数据图中蓝色类别的样本比橙色多多了。在这种情况下,我们有两个预处理选项,可以帮助训练我们的机器学习模型。


欠采样意味着我们从多数类中选择一些数据,只使用和少数类数量一致的样本。这种选择不是随便挑选的,而是要保证类的概率分布不变。这很容易!我们选取少量样本,使样本数据集更加均匀。


过采样意味着创建少数类样本的副本,使少数类与多数类拥有数量一致的样本。副本创建需要保证少数类的概率分布不变。我们不需要收集更多的样本就能使样本数据集更加均匀。

5、贝叶斯统计(Bayesian Statistics)


想要完全理解为什么我们要用贝叶斯统计,首先需要理解频率统计(Frequency Statistics)的缺陷。频率统计是大多数人听到“概率”一次时首先会想到的一种统计类型,频率统计检测一个事件(或者假设)是否发生,它通过长时间的试验计算某个事件发生的可能性(试验是在同等条件下进行的),唯一计算的数据是先验数据(prior data)。



可以看这个例子。假如我给你一个骰子,问你掷出6的几率是多少。大多数人会说是1/6。确实如此,如果做频率分析,某人抛掷骰子10000次,计算每个数字出现的频率,那么我们可以看到结果每个数字出现的频率大约是1/6。


但如果有人告诉你,给你的骰子不那么规整,总是6朝上呢?由于频率分析只考虑了之前的数据,上述分析中,骰子不规整的因素没有被考虑进去。


而贝叶斯统计就考虑了这一点。我们可以用下图的贝叶斯法则(Baye’s Theoram)来说明:



贝叶斯法则


方程中,H代表一个事件,E代表另一个,P即某事件发生的概率。


P(H)即先验概率,基本上就是数据分析的结果,即之前事件H发生的概率。


P(E|H)被称作相似度,指假设事件H成立时,事件E发生的概率。


P(E)指事件E成立的先验概率,也被称作标准化常量。


P(H|E)即后验概率,指E发生后,发生H的概率。


例如,如果你想投掷骰子10000次,前1000次全掷出的是6,你很怀疑骰子不规整了。如果我告诉你骰子确实不规整,你是相信我,还是认为这是个骗局呢?


如果频率分析没有什么缺陷,那么我们会比较自信地认定接下来的投掷出现6的概率仍是1/6。而如果骰子确实不规整,或是不基于其自身的先验概率及频率分析,我们在预测接下来数字出现的概率时,就必须要考虑到骰子的因素。当我们不能准确知悉一个事物的本质时,可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。正如你从方程式中能能看到的,贝叶斯统计把所有因素都考虑在内了。当你觉得之前的数据不能很好地代表未来数据和结果的时候,就应该使用贝叶斯统计。


作者|George Seif


原题|The 5 Basic Statistics Concepts Data Scientists Need to Know


源自|towardsdatascience.com


(编辑:5daofeng)
5daofeng
分享到:0