自然语言处理

自然语言处理处理像人类一样理解文本和口语. 它是许多人机交互(语音助手、听写软件、语音操作系统)、文本处理、分析(建议、关键字定位、翻译)等等的基本组成部分. Wolfram 语言自然语言处理功能是基于规则和机器学习语言模型的组合,包括 LLMs. 它建立在高级文本挖掘和字符串操作功能之上,并与大型可视化套件和广泛的内置语言数据集成.

Text Generation & Acquisition

LLMSynthesize 使用 LLM 根据提示词生成文本

TextRecognize  ▪  ResourceData  ▪  WikipediaData

Import 从文件或网络中导入文本

"Text"  ▪  "PDF"  ▪  "HTML"  ▪  "CSV"  ▪  ...

基于 LLM 的操作 »

LLMResourceFunction 根据 Wolfram Prompt Repository 应用操作

LLMFunction 应用自然语言描述指定的操作

LLMPromptGenerator 将与上下文有关的消息添加到 LLM 提示词中

LLMPrompt  ▪  LLMTool  ▪  ChatEvaluate  ▪  ...

文本挖掘

SemanticSearch 根据词语的上下文含义进行搜索

TextSearch 搜索索引或目录,返回文档列表

Find, FindList 在文件中搜索包含特定字符串的记录

StringTake  ▪  StringReplace  ▪  StringCases  ▪  RegularExpression  ▪  ...

文本规范化 »

RemoveDiacritics 删除变音符号,例如重音符号、变音符号等

CharacterNormalize 将字符归约或分解为规范形式(例如 ¼ to 1⁄4)

TextTranslation  ▪  Transliterate  ▪  DeleteStopwords  ▪  WordStem  ▪  ToLowerCase  ▪  ...

令牌化

StringSplit 在空格或其他分隔符处拆分字符串

StringCases 找到匹配的字符串模式

TextCases  ▪  TextSentences  ▪  TextWords  ▪  TextStructure

特征提取

FeatureExtraction 从文本中提取数字特征

NetModel 用于文本特征提取的预训练网络

"GloVe"  ▪  "BERT"  ▪  "ELMo"  ▪  "GPT2"  ▪  ...

NetGraph  ▪  LongShortTermMemoryLayer  ▪  AttentionLayer

"Tokens"  ▪  "SubwordTokens"  ▪  "Characters"  ▪  ...

内容提取

TextSummarize 自动产生不同类型的总结

FindTextualAnswer 尝试从文本中找到问题的答案

TextContents, TextCases, TextPosition 提取文本中的语义元素

文本分类

Classify 根据训练数据或内置分类器对字符串进行分类

"Language"  ▪  "Profanity"  ▪  "Sentiment"  ▪  ...

LanguageIdentify 识别文本的语言

文本聚类

FindClusters 在字符串数据中查找聚类

ClusteringTree  ▪  ClusteringComponents  ▪  ClusterClassify

文本分析 »

WordCounts 计数单词或 -grams

CharacterCounts  ▪  WordFrequency  ▪  WordData  ▪  PartOfSpeech  ▪  ...

文本可视化

WordCloud 根据词频或权重产生词云

Snippet 提取一段文本

Style, Highlighted 带有颜色、字体、大小、背景等设置的样式文本