文本分析
Wolfram 语言包含越来越尖端的工具,用于从结构上和语义上分析和可视化文本.
文本源
Import ▪ ExampleData ▪ WikipediaData
WordCount — 计数文本中的单词
WordCounts — 不同单词或 元的频率
WordFrequency — 词频或 元
LetterCounts ▪ CharacterCounts
Sort — 按字母顺序排序
Classify — 基于训练数据或内置分类器分类字符串
Nearest — 从列表中找到最接近匹配字符串
FindClusters — 查找字符串数据中的聚类
ClusteringTree ▪ ClusteringComponents ▪ ClusterClassify
Dendrogram — 相似性的分层图
EditDistance — 编辑或 Levenshtein 距离
LanguageIdentify — 识别文本使用的是何种语言
DictionaryLookup ▪ WordData ▪ WordStem ▪ PartOfSpeech ▪ Transliterate
WordFrequencyData — 在典型现代和历史文本中的词频数据
SemanticImport — 导入带有语义理解的文本
基于 LLM 的分析 »
LLMFunction — 将自然语言指定的基于 LLM 的操作应用于文本
LLMResourceFunction — 根据 Wolfram Prompt Repository 应用基于 LLM 的操作
LLMExampleFunction ▪ LLMPrompt ▪ LLMSynthesize ▪ LLMTool
文本可视化
Style — 带有颜色、字体或大小的样式文本
WordCloud — 根据字频或权重产生词云
Snippet — 提取文本片段
StringPartition — 把字符串分割成等大小的块
InsertLinebreaks — 把字符串分成多行
文本剖析
TextStructure — 把文本剖析成语份结构
文本比较 »
SequenceAlignment ▪ Diff ▪ Diff3 ▪ LongestCommonSubsequence ▪ DistanceMatrix ▪ ...
内容分析
TextContents — 产生文本中识别元素的数据集
提取内容
TextCases — 提取符号式指定的元素
Containing ▪ Alternatives ▪ Entity
TextPosition — 符号式指定的元素的位置
FindTextualAnswer — 尝试找到文字问题的答案
文本标准化 »
TextWords ▪ TextSentences ▪ DeleteStopwords ▪ RemoveDiacritics ▪ ...