テキスト解析
Wolfram言語には,テキストを構造的に,または意味的に解析し,可視化するためのさらに高度になったツールが含まれている
テキストのソース
Import ▪ ExampleData ▪ WikipediaData
WordCount — テキスト中の全単語数
WordCounts — 単語または -gramの数
WordFrequency — 単語または -gramの出現頻度
LetterCounts ▪ CharacterCounts
Sort — アルファベット(字母)順にソートする
Classify — 訓練データまたは組込み分類子を使って文字列を分類する
Nearest — リストから最もよく合致する文字列を探す
FindClusters — 文字列データからクラスタを求める
ClusteringTree ▪ ClusteringComponents ▪ ClusterClassify
Dendrogram — 類似性の階層的プロット
EditDistance — 編集距離(レーベンシュタイン(Levenshtein)距離)
LanguageIdentify — テキストの言語を判定する
DictionaryLookup ▪ WordData ▪ WordStem ▪ PartOfSpeech ▪ Transliterate
WordFrequencyData — 典型的な現在および過去のテキストにおける単語の出現頻度についてのデータ
SemanticImport — テキストの意味を理解してインポートする
大規模言語モデルベースの解析 »
LLMFunction — 自然言語によって指定された大規模言語モデルベースの操作をテキストに適用する
LLMResourceFunction — Wolfram Prompt Repositoryから大規模言語モデルベースの操作を適用する
LLMExampleFunction ▪ LLMPrompt ▪ LLMSynthesize ▪ LLMTool
テキストの可視化
Style — テキストの色,フォント,サイズのスタイルを指定する
WordCloud — 単語の出現頻度や重みからワードクラウドを生成する
Snippet — テキストの断片を抽出する
StringPartition — 文字列を等しい大きさのブロックに区切る
InsertLinebreaks — 文字列を複数の行に分割する
テキストの解釈
TextStructure — テキストの文法構造を解釈する
テキストの比較 »
SequenceAlignment ▪ Diff ▪ Diff3 ▪ LongestCommonSubsequence ▪ DistanceMatrix ▪ ...
内容分析
TextContents — テキスト中の認識された要素のデータ集合を生成する
内容の抽出
TextCases — 記号的に指定した要素を抽出する
Containing ▪ Alternatives ▪ Entity
TextPosition — 記号的に指定された要素の位置
FindTextualAnswer — テキストからの質問の解を求めようと試みる
テキストの正規化 »
TextWords ▪ TextSentences ▪ DeleteStopwords ▪ RemoveDiacritics ▪ ...