Wolfram 语言与系统参考资料中心

TextCases

TextCases[text,form]

给出 text 中类型 form 的所有情况列表.

TextCases[text,{form₁,form₂,…}]

给出封装在关联中所有 form_i 的列表.

TextCases[text,formspecprop]

给出每种情况指定的属性.

TextCases[text,formspec{prop₁,prop₂,…}]

给出每个找到的结果的属性列表.

TextCases[text,spec,n]

给出前 n 种情况.

TextCases

TextCases[text,form]

给出 text 中类型 form 的所有情况列表.

TextCases[text,{form₁,form₂,…}]

给出封装在关联中所有 form_i 的列表.

TextCases[text,formspecprop]

给出每种情况指定的属性.

TextCases[text,formspec{prop₁,prop₂,…}]

给出每个找到的结果的属性列表.

TextCases[text,spec,n]

给出前 n 种情况.

更多信息和选项

TextCases 被用于执行多种自然语言处理任务，如词性标注或已命名实体识别.
在 TextCases[text,…] 中，text 可以是一个字符串，一个由 File[…] 表示的纯文本文件，一个 ContentObject 表达式或这些文本对象的列表.
TextCases[{text₁,text₂,…},…] 给出每个 text_i 的情况.
识别类型 form 可以是：

	"type"	任何文本内容类型（例如， "Noun"、"City" ）
	Entity[…,…]	文本内容类型的指定实体
	form₁\|form₂\|…	匹配任何 form_i 的格式
	Containing[outer,inner]	包含类型 inner 的类型 outer 格式
	Verbatim["string"]	精确匹配的指定字符串
	pattern	匹配的字符串模式

属性 prop 的可能选择有：

	"String"	（默认的）识别文本的字符串
	"Position"	text 中字符串的开始和结束位置
	"Probability"	估计情况正确的概率
	"Interpretation"	识别的字符串的标准诠释
	"Snippet"	识别的字符串周围的片段
	"HighlightedSnippet"	识别的字符串突出显示的片段
	f	把 f 应用于包含所有属性的关联
	{prop₁,prop₂,…}	属性规范列表

可以给出以下选项：

AcceptanceThreshold	Automatic	接受识别的最小概率
PerformanceGoal	Automatic	带有特定优势的有利算法
TargetDevice	"CPU"	CPU 或 GPU 计算是否应该用于实体检测
VerifyInterpretation	False	是否应该验证可诠释性

TextCases 使用机器学习. 其方法、训练集和包含的偏差可能会在不同版本的 Wolfram 语言中发生变化并给出不同的结果.
TextCases 可能会下载将保存在本地对象存储（位于 $LocalBase）中的资源，可用 LocalObjects[] 列出资源，用 ResourceRemove 将其删除.

范例

打开所有单元关闭所有单元

基本范例 (6)

查找文本中的城市：

查找句中的名词：

查找货币量并获得诠释：

寻找文本中的城市、国家和日期：

获取这些情况的概率和诠释：

查找所有地点并获取位置：

找到文本中对纽约市的所有引用：

范围 (5)

单词和句子分割 (2)

找出 ContentObject 中和颜色有关的单词：

找到 File 中的量：

Alternatives 和 Containing (2)

用 Alternatives 匹配多个类型：

找出字符串中含有货币额的所有句子：

找出字符串中含有国家的所有句子：

结合 Alternatives 和 Containing 来形成高度结构化查询：

返回类型 (1)

指定多个返回类型：

显示 Association 中所有可用属性：

创建带有多个类型实体的属性的数据集：

获取文本中出现的地点的大地位置：

选项 (3)

AcceptanceThreshold (1)

默认情况下，所有检测到实体具有估计概率高于 0.5：

通过设置高的 AcceptanceThreshold 可以获取极有可能正确的实体：

PerformanceGoal (1)

使用 PerformanceGoal->"Speed" 可以帮助加速检测，但是低精度：

VerifyInterpretation (1)

默认情况下，某些实体不能被诠释，可能是因为它们不正确或者还没有在知识库. 在这种情况下，会返回字符串而不是一个诠释：

使用 VerifyInterpretation 过滤不能被诠释的实体：

应用 (6)

单词和句子分割 (2)

分词保留语法元素，如电子邮件地址，URL 和 Twitter 句柄：

所有非空白字符都由 "Word" 和 "Punctuation" 形式抓取：

句子分割智能地忽略了首字母缩略词和其他误导性界限：

词性 (2)

返回所有给定词性的单词：

根据词性制造单词云表格：

实体和可诠释对象 (2)

查找国家：

返回作为 Entity 对象的被诠释的字符串：

在一篇维基百科文章中找出货币额：

转化成另一种货币：

属性和关系 (4)

TextCases 处理与 TextPosition 和 TextContents 相同的类型，并总是为给定类型标识这些函数的同样子字符串：

TextCases 是 TextPosition 的广义性：

类似于 TextContents 输出的数据集可以使用 TextCases 获取：

TextSentences 等价于 TextCases[…,"Sentence"]：

TextStructure 把文本分割成同样的句子：

TextWords 等同于 TextCases[…,"Word"]：

TextStructure 把文本分割成与 TextCases[…,"Word"|"Punctuation"] 一样的单词和标点符号：

巧妙范例 (2)

可在地图上标出许多实体（城市、国家等）. TextCases 可一次性找出所有这样的实体.

来看维基百科有关大米的文章：

查找所有可以定位到某个位置的实体：

可视化识别出的位置及其在文本中出现的次数：

显示提及每个大陆和国家的次数：

来看维基百科有关世界大战的文章：

查找所有包含日期的句子，并提取其对应的 DateObject 解释：

在时间轴上显示这些日期：

在时间轴上显示提取的句子：

Top

更多学习资源

技术支持

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

成人教育计划

青少年教育计划

欢迎阅读

TextCases

更多信息和选项

范例

基本范例 (6)

范围 (5)

单词和句子分割 (2)

Alternatives 和 Containing (2)

返回类型 (1)

选项 (3)

AcceptanceThreshold (1)

PerformanceGoal (1)

VerifyInterpretation (1)

应用 (6)

单词和句子分割 (2)

词性 (2)

实体和可诠释对象 (2)

属性和关系 (4)

巧妙范例 (2)

文本

CMS

APA

BibTeX

BibLaTeX

TextCases

更多信息和选项

范例

基本范例 (6)

范围 (5)

单词和句子分割 (2)

Alternatives 和 Containing (2)

返回类型 (1)

选项 (3)

AcceptanceThreshold (1)

PerformanceGoal (1)

VerifyInterpretation (1)

应用 (6)

单词和句子分割 (2)

词性 (2)

实体和可诠释对象 (2)

属性和关系 (4)

巧妙范例 (2)

参见

相关指南

相关链接

历史

文本

CMS

APA

BibTeX

BibLaTeX