Enable JavaScript to interact with content and submit forms on Wolfram websites. Learn how

自然语言处理

自然语言处理处理像人类一样理解文本和口语. 它是许多人机交互（语音助手、听写软件、语音操作系统……）、文本处理、分析（建议、关键字定位、翻译……）等等的基本组成部分. Wolfram 语言自然语言处理功能是基于规则和机器学习语言模型的组合，包括 LLMs. 它建立在高级文本挖掘和字符串操作功能之上，并与大型可视化套件和广泛的内置语言数据集成.

Text Generation & Acquisition

LLMSynthesize — 使用 LLM 根据提示词生成文本

TextRecognize ▪ ResourceData ▪ WikipediaData

Import — 从文件或网络中导入文本

"Text" ▪ "PDF" ▪ "HTML" ▪ "CSV" ▪ ...

基于 LLM 的操作 »

LLMResourceFunction — 根据 Wolfram Prompt Repository 应用操作

LLMFunction — 应用自然语言描述指定的操作

LLMPromptGenerator — 将与上下文有关的消息添加到 LLM 提示词中

LLMPrompt ▪ LLMTool ▪ ChatEvaluate ▪ ...

文本挖掘

SemanticSearch — 根据词语的上下文含义进行搜索

TextSearch — 搜索索引或目录，返回文档列表

Find, FindList — 在文件中搜索包含特定字符串的记录

StringTake ▪ StringReplace ▪ StringCases ▪ RegularExpression ▪ ...

文本规范化 »

RemoveDiacritics — 删除变音符号，例如重音符号、变音符号等

CharacterNormalize — 将字符归约或分解为规范形式（例如 ¼ to 1⁄4)

TextTranslation ▪ Transliterate ▪ DeleteStopwords ▪ WordStem ▪ ToLowerCase ▪ ...

令牌化

StringSplit — 在空格或其他分隔符处拆分字符串

StringCases — 找到匹配的字符串模式

TextCases ▪ TextSentences ▪ TextWords ▪ TextStructure

特征提取

FeatureExtraction — 从文本中提取数字特征

NetModel — 用于文本特征提取的预训练网络

"GloVe" ▪ "BERT" ▪ "ELMo" ▪ "GPT2" ▪ ...

NetGraph ▪ LongShortTermMemoryLayer ▪ AttentionLayer

"Tokens" ▪ "SubwordTokens" ▪ "Characters" ▪ ...

内容提取

TextSummarize — 自动产生不同类型的总结

FindTextualAnswer — 尝试从文本中找到问题的答案

TextContents, TextCases, TextPosition — 提取文本中的语义元素

文本分类

Classify — 根据训练数据或内置分类器对字符串进行分类

"Language" ▪ "Profanity" ▪ "Sentiment" ▪ ...

LanguageIdentify — 识别文本的语言

文本聚类

FindClusters — 在字符串数据中查找聚类

ClusteringTree ▪ ClusteringComponents ▪ ClusterClassify

文本分析 »

WordCounts — 计数单词或 -grams

CharacterCounts ▪ WordFrequency ▪ WordData ▪ PartOfSpeech ▪ ...

文本可视化

WordCloud — 根据词频或权重产生词云

Snippet — 提取一段文本

Style, Highlighted — 带有颜色、字体、大小、背景等设置的样式文本

顶部