基本统计
| Mean[list] | 均值 (平均值) |
| Median[list] | 中位数 (中值) |
| Max[list] | 最大值 |
| Variance[list] | 方差 |
| StandardDeviation[list] | 标准差 |
| Quantile[list,q] | q |
| Total[list] | 总和 |
给定一个有
个元素
的列表, 我们定义其均值 Mean[list] 为
.
对实数,我们定义其方差 Variance[list] 为
. (对于复数,
.)
相应地,其离差 StandardDeviation[list] 为
.
如果 list 中的元素被认为是根据一些概率分布随机选择的话, 那么均值给我们提供了关于分布中心点位置的估计, 而标准差给我们提供了关于在分布中扩散宽度的估计.
中位数 Median[list] 给我们提供了在有序化列表 list 中寻找中间点数值的有效方法. 通常情况下,因为这种方法较少地依赖于异常点或孤立点,所以我们认为这是一种比均值来说对分布中心更稳健的度量方法.
第
分位数 Quantile[list, q] 给我们提供了在有序化的列表 list 中寻找第
个数的数值的有效方法.
对于一个长度为
的列表, Mathematica 把 Quantile[list, q] 定义为 s[[Ceiling[n q]]], 其中
是 Sort[list, Less].
然而,在应用中,我们还有其他10种对中位数的不同定义方法, 所有这些方法都有可能产生一些稍微不同的结果. Mathematica 通过以 Quantile[list, q, {{a, b}, {c, d}}] 的形式引进4个中位数参数. 参数
和
有效地定义了在整个列表中应该被认为是
分比的位置. 如果这对应于一个整数位置, 那么在该位置的元素被认为是
分位数. 如果这不是一个整数位, 那么我们就要采用两边元素的线性组合, 正如
和
给我们描述的信息一样.
在一个有序化列表
中
分位数的位置被定义为
. 如果
是一个整数, 那么相应的分位数是
. 否则的话, 就应该是
, 如果索引值超过范围,我们就视情况而定把相应的索引值设为
或
.
| {{0,0},{1,0}} | 逆累积分布函数 (默认) |
| {{0,0},{0,1}} | 线性插值方法 (California 方法) |
| {{1/2,0},{0,0}} | 在排号里最接近 |
| {{1/2,0},{0,1}} | 线性插值方法 (水文方法) |
| {{0,1},{0,1}} | 基于均值的估计 (Weibull 方法) |
| {{1,-1},{0,1}} | 基于众数的估计 |
| {{1/3,1/3},{0,1}} | 基于中位数的估计 |
| {{3/8,1/4},{0,1}} | 正态分布估计 |
任何时候当
, 第 ![]()
list 里的一些实际元素, 因此当
变化时,我们得到的结果总是不连续地变化. 当
, 第
次分位数在 list 的连续元素中线性插入.在我们的定义中,中位数 Median 就采用这样的插值方法.
注意到当
Quantile[list, q] 产生中位数,当
产生百分位数.
有时候,我们数据中的每一项可能包括由一些数值组成的一个列表. 在这种情况下 Mathematica 中的基本统计函数可以自动地应用于这些列表中的所有元素.
| In[1]:= |
| Out[1]= |
注意,我们可以用 list[[All, i]] 提取一个多维列表中的第
列.
