自然语言处理
自然语言处理处理像人类一样理解文本和口语. 它是许多人机交互(语音助手、听写软件、语音操作系统……)、文本处理、分析(建议、关键字定位、翻译……)等等的基本组成部分. Wolfram 语言自然语言处理功能是基于规则和机器学习语言模型的组合,包括 LLMs. 它建立在高级文本挖掘和字符串操作功能之上,并与大型可视化套件和广泛的内置语言数据集成.
Text Generation & Acquisition
LLMSynthesize — 使用 LLM 根据提示词生成文本
TextRecognize ▪ ResourceData ▪ WikipediaData
Import — 从文件或网络中导入文本
"Text" ▪ "PDF" ▪ "HTML" ▪ "CSV" ▪ ...
基于 LLM 的操作 »
LLMResourceFunction — 根据 Wolfram Prompt Repository 应用操作
LLMFunction — 应用自然语言描述指定的操作
LLMPromptGenerator — 将与上下文有关的消息添加到 LLM 提示词中
LLMPrompt ▪ LLMTool ▪ ChatEvaluate ▪ ...
文本挖掘
SemanticSearch — 根据词语的上下文含义进行搜索
TextSearch — 搜索索引或目录,返回文档列表
Find, FindList — 在文件中搜索包含特定字符串的记录
StringTake ▪ StringReplace ▪ StringCases ▪ RegularExpression ▪ ...
文本规范化 »
RemoveDiacritics — 删除变音符号,例如重音符号、变音符号等
CharacterNormalize — 将字符归约或分解为规范形式(例如 ¼ to 1⁄4)
TextTranslation ▪ Transliterate ▪ DeleteStopwords ▪ WordStem ▪ ToLowerCase ▪ ...
令牌化
StringSplit — 在空格或其他分隔符处拆分字符串
StringCases — 找到匹配的字符串模式
TextCases ▪ TextSentences ▪ TextWords ▪ TextStructure
特征提取
FeatureExtraction — 从文本中提取数字特征
NetModel — 用于文本特征提取的预训练网络
"GloVe" ▪ "BERT" ▪ "ELMo" ▪ "GPT2" ▪ ...
NetGraph ▪ LongShortTermMemoryLayer ▪ AttentionLayer
"Tokens" ▪ "SubwordTokens" ▪ "Characters" ▪ ...
内容提取
TextSummarize — 自动产生不同类型的总结
FindTextualAnswer — 尝试从文本中找到问题的答案
TextContents, TextCases, TextPosition — 提取文本中的语义元素
文本分类
Classify — 根据训练数据或内置分类器对字符串进行分类
"Language" ▪ "Profanity" ▪ "Sentiment" ▪ ...
LanguageIdentify — 识别文本的语言
文本聚类
FindClusters — 在字符串数据中查找聚类
ClusteringTree ▪ ClusteringComponents ▪ ClusterClassify
文本分析 »
WordCounts — 计数单词或 -grams
CharacterCounts ▪ WordFrequency ▪ WordData ▪ PartOfSpeech ▪ ...
文本可视化
WordCloud — 根据词频或权重产生词云
Snippet — 提取一段文本
Style, Highlighted — 带有颜色、字体、大小、背景等设置的样式文本