首页 > 产品 > 网站优化 > 正文

人人都需要掌握的 5 个基本统计概念

5daofeng2019-01-10 16:55:56阅读次数:3939

在数据科学艺术的执行中,统计可以说是一个强大的工具。从高层次来看,统计学是利用数学对数据进行分析的学科。基本的可视化(柱状图等)会给受众一些深层的信息,但通过统计,我们可以用一种更富有信息驱动力和更有针对性的方式对数据进行操作。统计中的数学可以帮助我们对数据形成具体的结论,而不仅仅是猜测。

在数据科学艺术的执行中,统计可以说是一个强大的工具。从高层次来看,统计学是利用数学对数据进行分析的学科。基本的可视化(柱状图等)会给受众一些深层的信息,但通过统计,我们可以用一种更富有信息驱动力和更有针对性的方式对数据进行操作。统计中的数学可以帮助我们对数据形成具体的结论,而不仅仅是猜测。


通过统计,我们可以获得更深入、更细致入微的见解,能够了解数据的确切结构,并在此基础上了解如何应用其他数据科学技术来获取更多信息。


今天,我们来看看数据科学家需要掌握的5个基本统计概念及其应用。


1、统计特征(Statistical Features)


统计特征可能是数据科学中最常用的统计概念。它通常是你在研究数据集时使用的第一种统计技术,包括偏差(bias)、方差(variance)、平均值(mean)、中位数(median)、百分位数(percentiles)等。这很好理解,在代码中也非常容易实现。下图可以说明这些特征。



一个基本的箱须图(box- whisker-plot)


中间的那条线是数据的中位数(median),中位数比平均值(mean)更常用,因为它更不容易受到极端数值的影响。第一四分位数(first quartile,Q1)实际上是第25%的数,换句话说,是样本所有数值由小到大排列后第25%的数字。第三四分位数(third quartile,Q3)是第75%的数,即样本所有数值由小到大排列后第75%的数字。上限和下限即样本数据非异常范围内的最大值和最小值。第一四分位数和第三四分位数组成箱须图中的箱子(box plot),第一四分位数-下限以及第三四分位数-上限连接的线段即须(whisker)


箱须图完美地说明了我们可以用基本统计特征得出什么结论:


(1)当箱子较短时,意味着样本的数据差别不大,因为在较小范围里有许多值。

(2)当箱子较长时,意味着样本的数据差别很大,因为数据分散在较大范围内。

(3)如果中位数接近箱子底部,那么就意味着样本中更多数据的数值较小,呈左偏态分布;如果中位数接近箱子顶部,那么就意味着样本中更多数据的数值较大,呈右偏态分布。基本上,如果中位数的那条线不在箱子中间,那么就意味着数据分布偏态。

(4)“须”很长?这意味着你的样本数据有较高的标准差和方差,换句话说,数据分布分散。如果箱子一边有很长的须,而另一边较短,那么你的数据可能只在一个方向上更为分散。

(5)所有这些信息都来自于很容易计算的简单统计特征!当你需要快速获取有意义的数据统计图时,你可以试着画箱须图。

2、概率分布(Probability Distributions)


概率能够反映随机事件出现的可能性大小。在数据科学中,概率通常被量化在0-1之间,概率为0意味着不可能事件(一定条件下必然不发生的事件),概率为1表示必然事件(一定条件下必然发生的事件)。概率分布是一个函数,表示实验中所有可能值的概率。下图可以帮你理解概率分布。



常见的概率分布。


均匀分布(左)、正态分布(中)、泊松分布(右)


(1)均匀分布(Uniform Distribution)是3种概率分布中最基本的一种。它在区间内只有一个值,也就是说在相同长度间隔的分布概率是等可能的,范围之外的概率都是0。相当于一个“开或关”的分布。我们也可以把它看作是一个有两个类别的分类变量:0或者那个一定的值。你的分类变量可能有多个值,不仅仅是0,但我们可以把它看作多重均匀分布的分段函数。

(2)正态分布(Normal distribution),又称高斯分布(Gaussian Distribution),由其平均值和标准差定义。正态分布的对称轴是样本平均值,随着样本平均值的变化在坐标轴上左右移动,标准差描述了正态分布的离散程度(即数据是广泛分布还是高度集中)。它由平均数所在处开始,分别向左右两侧逐渐均匀下降。与其他分布(如泊松分布)相比,正态分布的标准偏差在所有方向上都是相同的。因此,通过正态分布,我们就可以清楚知道样本的平均值和离散程度。

(3)泊松分布(Poisson Distribution)和正态分布相似,但多了偏斜率。如果偏度值非常小,那么泊松分布在各个方向上的分布就和正态分布相似,相对均匀。但当偏度值很大时,数据在不同方向上的分布就不同:在一个方向上,它将非常分散;而在另一个方向上,它将高度集中。泊松分布很适合描述单位时间内随机事件发生的次数。

还得说一句题外话,除了上述三种分布之外,还有其他非常多的概率分布,你都可以深入研究,但这三种分布已经给我们提供了相当多的价值。


我们可以用均匀分布快速查看和解释分类变量。如果看到高斯分布,那我们知道有许许多多算法,它们在默认情况下都会执行地非常优异,我们应该选择它们。对于泊松分布,我们发现必须谨慎地选择一种算法,它拥有足够的鲁棒性应对时空的变量。


(编辑:5daofeng)
5daofeng
分享到:0