文本操作
Wolfram 语言具有独特灵活的处理文本数据的能力. 它可以在字符串和字符级别上或单词和句子级别上进行操作. 它也可以通过扩展的内置的自然语言理解能力以及使用 LLM 能力,包括通过 Wolfram Prompt Repository 进行语义操作.
文本获取
Import — 从文件或网络导入数据
"Text", "PDF", "TeX", "HTML" —选取纯文本、表格数据等
NotebookImport — 从笔记本中导入文本
FindList — 搜寻包含特殊字符串纪录的文件
TextString — 把任意表达式转换为文本
TextRecognize — 使用 OCR 从图像中提取文本
文本标准化 »
ToLowerCase ▪ ToUpperCase ▪ RemoveDiacritics ▪ CharacterEncoding ▪ ...
DeleteStopwords — 从字符串中删除标准的停用词("the"、"and"等)
StringSplit — 在新行或其他分隔符处分割字符串
StringReplace ▪ StringDelete ▪ StringTrim ▪ ...
结构化文本操作
TextCases — 提取符号式指定的元素
TextSentences — 提取句子列表
TextWords — 提取单词列表
SequenceAlignment — 找文本中匹配序列
搜索与模式匹配 »
StringExpression — 一般字符串模式
StringMatchQ ▪ StringCases ▪ StringCount ▪ ...
基于 LLM 的文本操作 »
LLMResourceFunction — 根据 Wolfram Prompt Repository 应用操作
LLMFunction — 应用自然语言描述指定的操作
LLMExampleFunction — 应用基于范例的操作
LLMSynthesize ▪ LLMPrompt ▪ LLMTool ▪ ...
文本分析 »
WordCounts — 计数单词和 元频率
LetterCounts ▪ CharacterCounts ▪ WordCount
Classify — 基于训练数据或者内置分类器对字符串分类
自然语言处理
LanguageIdentify — 确定文本的语言
DictionaryLookup — 在英文和其他字典中查询单词
WordData — 查找单词的语义、语法、形态等属性
TextStructure — 把文本剖析为语法结构
TextContents — 产生文本中识别元素的数据集
SpellingCorrectionList — 拼写错误单词的拼写建议
自然语言理解 »
Interpreter — 尝试解释各种类型的字符串
SemanticInterpretation ▪ SemanticImportString ▪ AmbiguityFunction ▪ ...
生成文本 »
StringTemplate ▪ StringRiffle ▪ TextString ▪ LLMSynthesize ▪ ...