基本统计

Mean[list]均值 (平均值)
Median[list]中位数 (中值)
Max[list]最大值
Variance[list]方差
StandardDeviation[list]标准差
Quantile[list,q]q 次分位数
Total[list]总和

基本描述统计学操作.

给定一个有 个元素 的列表, 我们定义其均值 Mean[list].

对实数,我们定义其方差 Variance[list]. (对于复数, .)

相应地,其离差 StandardDeviation[list].

如果 list 中的元素被认为是根据一些概率分布随机选择的话, 那么均值给我们提供了关于分布中心点位置的估计, 而标准差给我们提供了关于在分布中扩散宽度的估计.

中位数 Median[list] 给我们提供了在有序化列表 list 中寻找中间点数值的有效方法. 通常情况下,因为这种方法较少地依赖于异常点或孤立点,所以我们认为这是一种比均值来说对分布中心更稳健的度量方法.

分位数 Quantile[list, q] 给我们提供了在有序化的列表 list 中寻找第 个数的数值的有效方法.

对于一个长度为 的列表, MathematicaQuantile[list, q] 定义为 s[[Ceiling[n q]]], 其中 Sort[list, Less].

然而,在应用中,我们还有其他10种对中位数的不同定义方法, 所有这些方法都有可能产生一些稍微不同的结果. Mathematica 通过以 Quantile[list, q, {{a, b}, {c, d}}] 的形式引进4个中位数参数. 参数 有效地定义了在整个列表中应该被认为是 分比的位置. 如果这对应于一个整数位置, 那么在该位置的元素被认为是 分位数. 如果这不是一个整数位, 那么我们就要采用两边元素的线性组合, 正如 给我们描述的信息一样.

在一个有序化列表 分位数的位置被定义为 . 如果 是一个整数, 那么相应的分位数是 . 否则的话, 就应该是 , 如果索引值超过范围,我们就视情况而定把相应的索引值设为 .

{{0,0},{1,0}}逆累积分布函数 (默认)
{{0,0},{0,1}}线性插值方法 (California 方法)
{{1/2,0},{0,0}}在排号里最接近 的元素
{{1/2,0},{0,1}}线性插值方法 (水文方法)
{{0,1},{0,1}}基于均值的估计 (Weibull 方法)
{{1,-1},{0,1}}基于众数的估计
{{1/3,1/3},{0,1}}基于中位数的估计
{{3/8,1/4},{0,1}}正态分布估计

中位数参数的通常选项.

任何时候当 , 第  次分位数总是等于在 list 里的一些实际元素, 因此当 变化时,我们得到的结果总是不连续地变化. 当 , 第 次分位数在 list 的连续元素中线性插入.在我们的定义中,中位数 Median 就采用这样的插值方法.

注意到当 Quantile[list, q] 产生中位数,当 产生百分位数.

Mean[{x1,x2,...}] 的均值
Mean[{{x1,y1,...},{x2,y2,...},...}] 的均值组成的列表

多维数据的处理.

有时候,我们数据中的每一项可能包括由一些数值组成的一个列表. 在这种情况下 Mathematica 中的基本统计函数可以自动地应用于这些列表中的所有元素.

下面的例子分别寻找每列数据的均值.
In[1]:=
Click for copyable input
Out[1]=

注意,我们可以用 list[[All, i]] 提取一个多维列表中的第 列.

New to Mathematica? Find your learning path »
Have a question? Ask support »