TextCases

TextCases[text,form]

给出 text 中类型 form 的所有情况列表.

TextCases[text,{form1,form2,}]

给出封装在关联中所有 formi 的列表.

TextCases[text,formspecprop]

给出每种情况指定的属性.

TextCases[text,formspec{prop1,prop2,}]

给出每个找到的结果的属性列表.

TextCases[text,spec,n]

给出前 n 种情况.

更多信息和选项

  • TextCases 被用于执行多种自然语言处理任务,如词性标注或已命名实体识别.
  • TextCases[text,] 中,text 可以是一个字符串,一个由 File[] 表示的纯文本文件,一个 ContentObject 表达式或这些文本对象的列表.
  • TextCases[{text1,text2,},] 给出每个 texti 的情况.
  • 识别类型 form 可以是:
  • "type"任何文本内容类型(例如, "Noun""City"
    Entity[,]文本内容类型的指定实体
    form1|form2|
  • 匹配任何 formi
  • 的格式
    Containing[outer,inner]包含类型 inner 的类型 outer 格式
    Verbatim["string"]精确匹配的指定字符串
    pattern匹配的字符串模式
  • 属性 prop 的可能选择有:
  • "String"(默认的)识别文本的字符串
    "Position"text 中字符串的开始和结束位置
    "Probability"估计情况正确的概率
    "Interpretation"识别的字符串的标准诠释
    "Snippet"识别的字符串周围的片段
    "HighlightedSnippet"识别的字符串突出显示的片段
    ff 应用于包含所有属性的关联
    {prop1,prop2,}属性规范列表
  • 可以给出以下选项:
  • AcceptanceThreshold Automatic接受识别的最小概率
    PerformanceGoal Automatic带有特定优势的有利算法
    TargetDevice"CPU"CPU 或 GPU 计算是否应该用于实体检测
    VerifyInterpretation False是否应该验证可诠释性
  • TextCases 使用机器学习. 其方法、训练集和包含的偏差可能会在不同版本的 Wolfram 语言中发生变化并给出不同的结果.
  • TextCases 可能会下载将保存在本地对象存储(位于 $LocalBase)中的资源,可用 LocalObjects[] 列出资源,用 ResourceRemove 将其删除.

范例

打开所有单元关闭所有单元

基本范例  (6)

查找文本中的城市:

查找句中的名词:

查找货币量并获得诠释:

寻找文本中的城市、国家和日期:

获取这些情况的概率和诠释:

查找所有地点并获取位置:

找到文本中对纽约市的所有引用:

范围  (5)

单词和句子分割  (2)

找出 ContentObject 中和颜色有关的单词:

找到 File 中的量:

Alternatives 和 Containing  (2)

Alternatives 匹配多个类型:

找出字符串中含有货币额的所有句子:

找出字符串中含有国家的所有句子:

结合 AlternativesContaining 来形成高度结构化查询:

返回类型  (1)

指定多个返回类型:

显示 Association 中所有可用属性:

创建带有多个类型实体的属性的数据集:

获取文本中出现的地点的大地位置:

选项  (3)

AcceptanceThreshold  (1)

默认情况下,所有检测到实体具有估计概率高于 0.5:

通过设置高的 AcceptanceThreshold 可以获取极有可能正确的实体:

PerformanceGoal  (1)

使用 PerformanceGoal->"Speed" 可以帮助加速检测,但是低精度:

VerifyInterpretation  (1)

默认情况下,某些实体不能被诠释,可能是因为它们不正确或者还没有在知识库. 在这种情况下,会返回字符串而不是一个诠释:

使用 VerifyInterpretation 过滤不能被诠释的实体:

应用  (6)

单词和句子分割  (2)

分词保留语法元素,如电子邮件地址,URL 和 Twitter 句柄:

所有非空白字符都由 "Word""Punctuation" 形式抓取:

句子分割智能地忽略了首字母缩略词和其他误导性界限:

词性  (2)

返回所有给定词性的单词:

根据词性制造单词云表格:

实体和可诠释对象  (2)

查找国家:

返回作为 Entity 对象的被诠释的字符串:

在一篇维基百科文章中找出货币额:

转化成另一种货币:

属性和关系  (4)

TextCases 处理与 TextPositionTextContents 相同的类型,并总是为给定类型标识这些函数的同样子字符串:

TextCasesTextPosition 的广义性:

类似于 TextContents 输出的数据集可以使用 TextCases 获取:

TextSentences 等价于 TextCases[,"Sentence"]

TextStructure 把文本分割成同样的句子:

TextWords 等同于 TextCases[,"Word"]

TextStructure 把文本分割成与 TextCases[,"Word"|"Punctuation"] 一样的单词和标点符号:

巧妙范例  (2)

可在地图上标出许多实体(城市、国家等). TextCases 可一次性找出所有这样的实体.

来看维基百科有关大米的文章:

查找所有可以定位到某个位置的实体:

可视化识别出的位置及其在文本中出现的次数:

显示提及每个大陆和国家的次数:

来看维基百科有关世界大战的文章:

查找所有包含日期​​的句子,并提取其对应的 DateObject 解释:

在时间轴上显示这些日期:

在时间轴上显示提取的句子:

Wolfram Research (2015),TextCases,Wolfram 语言函数,https://reference.wolfram.com/language/ref/TextCases.html (更新于 2019 年).

文本

Wolfram Research (2015),TextCases,Wolfram 语言函数,https://reference.wolfram.com/language/ref/TextCases.html (更新于 2019 年).

CMS

Wolfram 语言. 2015. "TextCases." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2019. https://reference.wolfram.com/language/ref/TextCases.html.

APA

Wolfram 语言. (2015). TextCases. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/TextCases.html 年

BibTeX

@misc{reference.wolfram_2024_textcases, author="Wolfram Research", title="{TextCases}", year="2019", howpublished="\url{https://reference.wolfram.com/language/ref/TextCases.html}", note=[Accessed: 17-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_textcases, organization={Wolfram Research}, title={TextCases}, year={2019}, url={https://reference.wolfram.com/language/ref/TextCases.html}, note=[Accessed: 17-November-2024 ]}