描述统计

描述统计学研究分布的性质, 比如中心位置, 散布范围, 和分布形状. 这里我们所介绍的函数可以用来做数据列表的描述性统计分析. 你可以利用 "连续分布""离散分布" 里介绍的函数来计算各种已知分布的一些标准描述性统计信息.

这些统计量是根据假设每个数据值 的概率为 来计算的, 其中 是数据中元素的数目.

Mean[data]平均值
Median[data]中位数 (中值)
Commonest[data]具有最高出现频率的元素列表
GeometricMean[data]几何平均数
HarmonicMean[data]调和平均数
RootMeanSquare[data]均方根
TrimmedMean[data,f]当一部分 从有序数据列表的两端删除时, 剩余项的均值
TrimmedMean[data,{f1,f2}] 的部分从有序数列的两端删除时, 剩余项的均值
Quantile[data,q] 次分位数
Quartiles[data]list 里第 , , 四分位元素列表

位置统计量.

位置统计量描述了数据的位置. 最常见的功能包括集中趋势的测量, 比如均值, 中位数, 和众数. Quantile[data, q] 给我们提供了分布中达到百分之 的数据之前的位置. 换言之, Quantile 提供了 的值, 并使概率 小于或等于 , 而且概率 大于或等于 .

这里是一个数据集.
In[1]:=
Click for copyable input
Out[1]=
这里给出数据的平均值和中位数.
In[2]:=
Click for copyable input
Out[2]=
这是当列表中最小的项被排除后得到的均值. TrimmedMean 让你可以描述排除了异常值的数据.
In[3]:=
Click for copyable input
Out[3]=
Variance[data]方差的无偏估计,
StandardDeviation[data]标准差的无偏估计
MeanDeviation[data]平均绝对偏差,
MedianDeviation[data]中位数绝对偏差, 值的中位数
InterquartileRange[data]第一和第三四分位数之间的差距
QuartileDeviation[data]四分位间距的一半

离散统计量.

离散统计量总结了数据的散布或扩散情况. 这些函数中的大部分描述了从某一特定位置的偏离度. 例如, 方差是相对均值而言偏离度的度量, 而标准差就是方差的开方.

这里给出数据方差的无偏估计, 并以 作为除数.
In[4]:=
Click for copyable input
Out[4]=
这里比较三种类型的偏差.
In[5]:=
Click for copyable input
Out[5]=
Covariance[v1,v2]列表 之间的协方差系数
Covariance[m]矩阵 m 的协方差矩阵
Covariance[m1,m2]矩阵 的协方差矩阵
Correlation[v1,v2]列表 的相关系数
Correlation[m]矩阵 m 的相关系数矩阵
Correlation[m1,m2]矩阵 的相关系数矩阵

协方差和相关系数统计量.

协方差是方差的多元化扩展. 对于两个长度相等的向量来说, 协方差是一个数值. 对于一个单矩阵 m 来说, 协方差矩阵的第  个元素m 的第 i 列和第 j 列之间的协方差. 对于两个矩阵 来说, 协方差矩阵的第 个元素是 的第 i 列和 的第j 列之间的协方差.

协方差测量散布程度, 而相关系数测量相互关系. 两个向量之间的相关系数等于向量之间的协方差除以这些向量的标准差. 同样, 相关系数矩阵的元素等于相应的协方差矩阵的元素用适当的列标准差进行尺度化后得到的结果.

这里给出 data 和一个随机向量之间的协方差.
In[6]:=
Click for copyable input
Out[6]=
这是一个随机矩阵.
In[7]:=
Click for copyable input
Out[7]=
这里是矩阵 m 的相关系数矩阵.
In[8]:=
Click for copyable input
Out[8]=
这里是协方差矩阵.
In[9]:=
Click for copyable input
Out[9]=
对协方差矩阵的每个项通过适当的标准差进行尺度化后,我们得到了该相关系数矩阵.
In[10]:=
Click for copyable input
Out[10]=
CentralMoment[data,r]r 阶中心矩
Skewness[data]偏度系数
Kurtosis[data]峰度系数
QuartileSkewness[data]四分偏度系数

形状统计量.

你可以用形状统计数据得到一些分布的形状信息. 这里, 偏度是描述变量取值分布不对称性的统计量. 而峰度是描述在峰值附近和两端尾部的数据集中度与两侧翼的数据集中度的对比度的统计量.

Skewness 通过把三阶中心矩除以总体标准差的立方来计算. Kurtosis 由四阶中心矩除以数据总体方差的平方计算, 就等于 CentralMoment[data, 2]. (总体方差就是二阶中心矩, 而总体标准差就是其平方根.)

QuartileSkewness 是根据数据的四分位数计算的. 它等于 , 其中 , , 和 分别是第一, 第二, 和第三四分位数.    

这是数据的二阶中心矩.
In[11]:=
Click for copyable input
Out[11]=
负值的偏度表明数据的分布有很长的左侧尾部.    
In[12]:=
Click for copyable input
Out[12]=
Expectation[f[x],xDistributedlist]函数 f 的期望值,自变量 x 是关于 list 中的数值

期望值.

函数 对于数值列表 , , , 的期望或期望值是 . 许多描述统计量都是期望. 例如, 均值是 的期望值, 而 第 阶中心矩是 的期望值, 其中 的均值.

这里是数据的 Log 的期望值.
In[13]:=
Click for copyable input
Out[13]=
New to Mathematica? Find your learning path »
Have a question? Ask support »