自然言語処理

自然言語処理は人間と同じようにテキストや話し言葉を理解することを扱う.これは音声アシスタント,読み上げソフトウェア,音声操作システム等,人間と機械のさまざまな交流,提案,キーワードスポッティング,翻訳のようなテキストの処理や解析等の基本的なコンポーネントである. Wolfram言語の自然言語処理機能は,ルールベース言語モデルと大規模言語モデルを含めた機械学習言語モデルの組み合わせである.高度なテキストマイニングおよび文字列操作の機能の上に構築されており,多くの可視化関数と広範な組み込みの言語データとが統合されている.

テキストの生成と獲得

LLMSynthesize 大規模言語モデルを使ってプロンプトからテキストを生成する

TextRecognize  ▪  ResourceData  ▪  WikipediaData

Import ファイルやウェブからテキストをインポートする

"Text"  ▪  "PDF"  ▪  "HTML"  ▪  "CSV"  ▪  ...

大規模言語モデルベースの操作 »

LLMResourceFunction Wolfram Prompt Repositoryからの操作を適用する

LLMFunction 自然言語の記述によって指定された操作を適用する

LLMPromptGenerator コンテキスト依存のメッセージを大規模言語モデルのプロンプトに加える

LLMPrompt  ▪  LLMTool  ▪  ChatEvaluate  ▪  ...

テキストマイニング

SemanticSearch 項目の文脈の意味に基づいて検索する

TextSearch 索引またはディレクトリを検索し,ドキュメントのリストを返す

Find, FindList 特定の文字列を含む文書をファイルで検索する

StringTake  ▪  StringReplace  ▪  StringCases  ▪  RegularExpression  ▪  ...

テキストの正規化 »

RemoveDiacritics アクセントやウムラウト等の付加記号を削除する

CharacterNormalize 文字列を正規化フォームに簡約または分解する (例:¼ を 1⁄4 に変更)

TextTranslation  ▪  Transliterate  ▪  DeleteStopwords  ▪  WordStem  ▪  ToLowerCase  ▪  ...

トークン化

StringSplit 文字列を空白文字や他の区切り文字で分割する

StringCases 文字列パターンの事例を見付ける

TextCases  ▪  TextSentences  ▪  TextWords  ▪  TextStructure

特徴抽出

FeatureExtraction テキストから数値的な特徴を抽出する

NetModel テキストの特徴を抽出した訓練済みのネットワーク

"GloVe"  ▪  "BERT"  ▪  "ELMo"  ▪  "GPT2"  ▪  ...

NetGraph  ▪  LongShortTermMemoryLayer  ▪  AttentionLayer

"Tokens"  ▪  "SubwordTokens"  ▪  "Characters"  ▪  ...

コンテンツ抽出

TextSummarize 自動的にさまざまな種類の要約を作成する

FindTextualAnswer テキストから質問の答えを見付けようとする

TextContents, TextCases, TextPosition テキスト中の意味要素を抽出する

テキスト分類

Classify 訓練データまたは組み込みの分類器を基に文字列を分類する

"Language"  ▪  "Profanity"  ▪  "Sentiment"  ▪  ...

LanguageIdentify テキストの言語を特定する

テキストのクラスタリング

FindClusters 文字列データからクラスタを見付ける

ClusteringTree  ▪  ClusteringComponents  ▪  ClusterClassify

テキスト解析 »

WordCounts 単語または -gramの数

CharacterCounts  ▪  WordFrequency  ▪  WordData  ▪  PartOfSpeech  ▪  ...

テキストの可視化

WordCloud 単語の出現頻度や重みからワードクラウドを生成する

Snippet テキストの断片を抽出する

Style, Highlighted 色,フォント,サイズ,背景等でテキストを整える