WordCounts

WordCounts["string"]

给出一个关联,其中的键是 string 中的不同单词,值为 string 中单词出现的次数.

WordCounts["string",n]

给出 string 中由 n 个单词组成的不同的 n-gram 的数量.

WordCounts[{"string1","string2",},]

给出每个 stringi 的统计结果.

更多信息和选项

  • WordCounts[string,] 以与 TextWords 相同的方式识别 string 中的单词.
  • WordCounts[string,n] 中,视为 n-gram 一部分的单词必须在 string 中连续出现,没有用除了空白键的非单词字符分隔.
  • WordCounts 具有选项 IgnoreCase. 在设置 IgnoreCase->True 下,在计算前字母实际上都转化为小写的.

范例

打开所有单元关闭所有单元

基本范例  (3)

统计字符串中的不同单词的数量:

计算字符串中不同的 2-gram 单词序列的数量:

统计每个字符串中不同单词的数量:

范围  (1)

单词可以包含数字和连字符,但不包含大多数标点符号:

选项  (2)

IgnoreCase  (2)

默认设置 IgnoreCase->False 将大写和小写字符视为不同的字符:

IgnoreCase->True 将仅大小写不同的单词视为相同:

统计 n-grams 的数量,忽略大小写:

应用  (2)

计算在阿瑟·柯南·道尔的几本小说中主要角色夏洛克·福尔摩斯和约翰·华生被提到的次数:

可视化结果:

ExampleData 中获取米格尔·塞万提斯的小说《唐吉可德》来测试齐夫定律(Zipf's law):

产生该文本中所有单词的频次表:

齐夫定律(Zipf's law) 声称一个单词出现的频率与其在频次表中的排名在双对数曲线图中大致成线性关系. 在前 1000 个最常用的单词上检测这种说法:

结果接近 . 在图中同时显示拟合曲线和实际数据:

巧妙范例  (1)

找出文本中最常出现的 20 个单词:

对 2 个单词组成的序列执行相同操作:

Wolfram Research (2015),WordCounts,Wolfram 语言函数,https://reference.wolfram.com/language/ref/WordCounts.html (更新于 2024 年).

文本

Wolfram Research (2015),WordCounts,Wolfram 语言函数,https://reference.wolfram.com/language/ref/WordCounts.html (更新于 2024 年).

CMS

Wolfram 语言. 2015. "WordCounts." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/WordCounts.html.

APA

Wolfram 语言. (2015). WordCounts. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/WordCounts.html 年

BibTeX

@misc{reference.wolfram_2024_wordcounts, author="Wolfram Research", title="{WordCounts}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/WordCounts.html}", note=[Accessed: 21-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_wordcounts, organization={Wolfram Research}, title={WordCounts}, year={2024}, url={https://reference.wolfram.com/language/ref/WordCounts.html}, note=[Accessed: 21-November-2024 ]}