テキストの正規化

Wolfram言語はテキスト解析や可視化等のためにテキストを正規化する,強力な知識ベースのツールを提供する.

文字レベルでの正規化

ToLowerCaseToUpperCase すべての文字を大文字および小文字に変換する

IgnoreCase 文字の大文字・小文字の区別をしないためのオプション

RemoveDiacritics アクセントやウムラウト等の付加記号を削除する

CharacterNormalize 文字を正規化形式に簡約または分解する(例: ¼ 1⁄4ï

Transliterate ASCIIまたはその他の文字体系に書き換える

PrintableASCIIQ テキストに含まれているのが印字可能のASCII文字だけであるかどうかを検証する

CharacterEncoding 想定する文字コードを指定する

文字列の構造的な正規化

StringSplit 文字列を改行文字やその他の区切り文字で分割する

StringDelete 部分文字列またはパターンを削除する

StringReplace 部分文字列またはパターンを置換する

StringDrop  ▪  StringTake  ▪  StringCases

StringTrim 空白文字またはその他のパターンを文字列から切り取る

StringPadLeftStringPadRight 固定幅になるように充填する

StringExtract 文字列の指定の部分を抽出する

テキストレベルでの正規化

TextSentences 文のリストを抽出する

TextWords 単語のリストを抽出する

DeleteStopwords 標準のストップワード(「the」,「and」等)を削除する

内容の抽出

TextCases 記号的に指定した要素を抽出する

Containing  ▪  Alternatives  ▪  Entity

形態的および言語的正規化

WordStem 単語の語幹を与える

DictionaryLookup 単語を辞書で検索する

Interpreter 自然言語から多くの形式に変換する

SpellingCorrectionList 綴り間違いのある単語に対する綴りの提案のリスト

DictionaryWordQ 単語が辞書に含まれている正しい綴りの単語であるかどうかを検証する

言語の翻訳

LanguageIdentify テキストの言語を判定する

WordTranslation 単語の翻訳を与える

TextTranslation 統合された外部サービスを使ってテキストを翻訳する

単語リストの正規化

AlphabeticSort 文字列をアルファベット(字母)順にソートする

WordCounts  ▪  LetterCounts  ▪  CharacterCounts

WordFrequency テキスト中の単語または -gramの出現頻度

WordFrequencyData 一般的なテキスト中の全体的な単語の出現頻度についてのデータ

大規模言語モデルベースの正規化 »

LLMResourceFunction Wolfram Prompt Repositoryからの操作を適用する

LLMExampleFunction  ▪  LLMFunction  ▪  LLMTool  ▪  ...

外部データの正規化

Import ファイルまたはWebからデータをインポートする

"Text""PDF""TeX""HTML" プレーンテキスト,表データ等を抽出する

ImportString 文字列を特定の外部形式で変換する