文本操作

Wolfram 语言具有独特灵活的处理文本数据的能力. 它可以在字符串和字符级别上或单词和句子级别上进行操作. 它也可以通过扩展的内置的自然语言理解能力以及使用 LLM 能力,包括通过 Wolfram Prompt Repository 进行语义操作.

文本获取

Import 从文件或网络导入数据

"Text", "PDF", "TeX", "HTML" 选取纯文本、表格数据等

NotebookImport 从笔记本中导入文本

FindList 搜寻包含特殊字符串纪录的文件

TextString 把任意表达式转换为文本

TextRecognize 使用 OCR 从图像中提取文本

文本标准化 »

ToLowerCase  ▪  ToUpperCase  ▪  RemoveDiacritics  ▪  CharacterEncoding  ▪  ...

DeleteStopwords 从字符串中删除标准的停用词("the"、"and"等)

StringSplit 在新行或其他分隔符处分割字符串

StringReplace  ▪  StringDelete  ▪  StringTrim  ▪  ...

结构化文本操作

TextCases 提取符号式指定的元素

TextSentences 提取句子列表

TextWords 提取单词列表

SequenceAlignment 找文本中匹配序列

搜索与模式匹配 »

StringExpression 一般字符串模式

StringMatchQ  ▪  StringCases  ▪  StringCount  ▪  ...

基于 LLM 的文本操作 »

LLMResourceFunction 根据 Wolfram Prompt Repository 应用操作

LLMFunction 应用自然语言描述指定的操作

LLMExampleFunction 应用基于范例的操作

LLMSynthesize  ▪  LLMPrompt  ▪  LLMTool  ▪  ...

文本分析 »

WordCounts 计数单词和 元频率

LetterCounts  ▪  CharacterCounts  ▪  WordCount

Classify 基于训练数据或者内置分类器对字符串分类

自然语言处理

LanguageIdentify 确定文本的语言

DictionaryLookup 在英文和其他字典中查询单词

WordData 查找单词的语义、语法、形态等属性

TextStructure 把文本剖析为语法结构

TextContents 产生文本中识别元素的数据集

SpellingCorrectionList 拼写错误单词的拼写建议

自然语言理解 »

Interpreter 尝试解释各种类型的字符串

SemanticInterpretation  ▪  SemanticImportString  ▪  AmbiguityFunction  ▪  ...

生成文本 »

StringTemplate  ▪  StringRiffle  ▪  TextString  ▪  LLMSynthesize  ▪  ...