自然言語処理
自然言語処理は人間と同じようにテキストや話し言葉を理解することを扱う.これは音声アシスタント,読み上げソフトウェア,音声操作システム等,人間と機械のさまざまな交流,提案,キーワードスポッティング,翻訳のようなテキストの処理や解析等の基本的なコンポーネントである. Wolfram言語の自然言語処理機能は,ルールベース言語モデルと大規模言語モデルを含めた機械学習言語モデルの組み合わせである.高度なテキストマイニングおよび文字列操作の機能の上に構築されており,多くの可視化関数と広範な組み込みの言語データとが統合されている.
テキストの生成と獲得
LLMSynthesize — 大規模言語モデルを使ってプロンプトからテキストを生成する
TextRecognize ▪ ResourceData ▪ WikipediaData
Import — ファイルやウェブからテキストをインポートする
"Text" ▪ "PDF" ▪ "HTML" ▪ "CSV" ▪ ...
大規模言語モデルベースの操作 »
LLMResourceFunction — Wolfram Prompt Repositoryからの操作を適用する
LLMFunction — 自然言語の記述によって指定された操作を適用する
LLMPromptGenerator — コンテキスト依存のメッセージを大規模言語モデルのプロンプトに加える
LLMPrompt ▪ LLMTool ▪ ChatEvaluate ▪ ...
テキストマイニング
SemanticSearch — 項目の文脈の意味に基づいて検索する
TextSearch — 索引またはディレクトリを検索し,ドキュメントのリストを返す
Find, FindList — 特定の文字列を含む文書をファイルで検索する
StringTake ▪ StringReplace ▪ StringCases ▪ RegularExpression ▪ ...
テキストの正規化 »
RemoveDiacritics — アクセントやウムラウト等の付加記号を削除する
CharacterNormalize — 文字列を正規化フォームに簡約または分解する (例:¼ を 1⁄4 に変更)
TextTranslation ▪ Transliterate ▪ DeleteStopwords ▪ WordStem ▪ ToLowerCase ▪ ...
トークン化
StringSplit — 文字列を空白文字や他の区切り文字で分割する
StringCases — 文字列パターンの事例を見付ける
TextCases ▪ TextSentences ▪ TextWords ▪ TextStructure
特徴抽出
FeatureExtraction — テキストから数値的な特徴を抽出する
NetModel — テキストの特徴を抽出した訓練済みのネットワーク
"GloVe" ▪ "BERT" ▪ "ELMo" ▪ "GPT2" ▪ ...
NetGraph ▪ LongShortTermMemoryLayer ▪ AttentionLayer
"Tokens" ▪ "SubwordTokens" ▪ "Characters" ▪ ...
コンテンツ抽出
TextSummarize — 自動的にさまざまな種類の要約を作成する
FindTextualAnswer — テキストから質問の答えを見付けようとする
TextContents, TextCases, TextPosition — テキスト中の意味要素を抽出する
テキスト分類
Classify — 訓練データまたは組み込みの分類器を基に文字列を分類する
"Language" ▪ "Profanity" ▪ "Sentiment" ▪ ...
LanguageIdentify — テキストの言語を特定する
テキストのクラスタリング
FindClusters — 文字列データからクラスタを見付ける
ClusteringTree ▪ ClusteringComponents ▪ ClusterClassify
テキスト解析 »
WordCounts — 単語または -gramの数
CharacterCounts ▪ WordFrequency ▪ WordData ▪ PartOfSpeech ▪ ...
テキストの可視化
WordCloud — 単語の出現頻度や重みからワードクラウドを生成する
Snippet — テキストの断片を抽出する
Style, Highlighted — 色,フォント,サイズ,背景等でテキストを整える