文本分析

Wolfram 语言包含越来越尖端的工具,用于从结构上和语义上分析和可视化文本.

文本源

Import  ▪  ExampleData  ▪  WikipediaData

WordCount 计数文本中的单词

WordCounts 不同单词或 元的频率

WordFrequency 词频或

LetterCounts  ▪  CharacterCounts

Sort 按字母顺序排序

KeySort  ▪  TakeLargest

Classify 基于训练数据或内置分类器分类字符串

Nearest 从列表中找到最接近匹配字符串

FindClusters 查找字符串数据中的聚类

ClusteringTree  ▪  ClusteringComponents  ▪  ClusterClassify

Dendrogram 相似性的分层图

EditDistance 编辑或 Levenshtein 距离

LanguageIdentify 识别文本使用的是何种语言

DictionaryLookup  ▪  WordData  ▪  WordStem  ▪  PartOfSpeech  ▪  Transliterate

WordFrequencyData 在典型现代和历史文本中的词频数据

SemanticImport 导入带有语义理解的文本

基于 LLM 的分析 »

LLMFunction 将自然语言指定的基于 LLM 的操作应用于文本

LLMResourceFunction 根据 Wolfram Prompt Repository 应用基于 LLM 的操作

LLMExampleFunction  ▪  LLMPrompt  ▪  LLMSynthesize  ▪  LLMTool

文本可视化

Style 带有颜色、字体或大小的样式文本

WordCloud 根据字频或权重产生词云

Snippet 提取文本片段

StringPartition 把字符串分割成等大小的块

InsertLinebreaks 把字符串分成多行

文本剖析

TextStructure 把文本剖析成语份结构

文本比较 »

SequenceAlignment  ▪  Diff  ▪  Diff3  ▪  LongestCommonSubsequence  ▪  DistanceMatrix  ▪  ...

内容分析

TextContents 产生文本中识别元素的数据集

提取内容

TextCases 提取符号式指定的元素

Containing  ▪  Alternatives  ▪  Entity

TextPosition 符号式指定的元素的位置

FindTextualAnswer 尝试找到文字问题的答案

文本标准化 »

TextWords  ▪  TextSentences  ▪  DeleteStopwords  ▪  RemoveDiacritics  ▪  ...