テキストの正規化
Wolfram言語はテキスト解析や可視化等のためにテキストを正規化する,強力な知識ベースのツールを提供する.
文字レベルでの正規化
ToLowerCase,ToUpperCase — すべての文字を大文字および小文字に変換する
IgnoreCase — 文字の大文字・小文字の区別をしないためのオプション
RemoveDiacritics — アクセントやウムラウト等の付加記号を削除する
CharacterNormalize — 文字を正規化形式に簡約または分解する(例: ¼ 1⁄4,ï ī )
Transliterate — ASCIIまたはその他の文字体系に書き換える
PrintableASCIIQ — テキストに含まれているのが印字可能のASCII文字だけであるかどうかを検証する
CharacterEncoding — 想定する文字コードを指定する
文字列の構造的な正規化
StringSplit — 文字列を改行文字やその他の区切り文字で分割する
StringDelete — 部分文字列またはパターンを削除する
StringReplace — 部分文字列またはパターンを置換する
StringDrop ▪ StringTake ▪ StringCases
StringTrim — 空白文字またはその他のパターンを文字列から切り取る
StringPadLeft,StringPadRight — 固定幅になるように充填する
StringExtract — 文字列の指定の部分を抽出する
テキストレベルでの正規化
TextSentences — 文のリストを抽出する
TextWords — 単語のリストを抽出する
DeleteStopwords — 標準のストップワード(「the」,「and」等)を削除する
内容の抽出
TextCases — 記号的に指定した要素を抽出する
Containing ▪ Alternatives ▪ Entity
形態的および言語的正規化
WordStem — 単語の語幹を与える
DictionaryLookup — 単語を辞書で検索する
Interpreter — 自然言語から多くの形式に変換する
SpellingCorrectionList — 綴り間違いのある単語に対する綴りの提案のリスト
DictionaryWordQ — 単語が辞書に含まれている正しい綴りの単語であるかどうかを検証する
言語の翻訳
LanguageIdentify — テキストの言語を判定する
WordTranslation — 単語の翻訳を与える
TextTranslation — 統合された外部サービスを使ってテキストを翻訳する
単語リストの正規化
AlphabeticSort — 文字列をアルファベット(字母)順にソートする
WordCounts ▪ LetterCounts ▪ CharacterCounts
WordFrequency — テキスト中の単語または -gramの出現頻度
WordFrequencyData — 一般的なテキスト中の全体的な単語の出現頻度についてのデータ
大規模言語モデルベースの正規化 »
LLMResourceFunction — Wolfram Prompt Repositoryからの操作を適用する
LLMExampleFunction ▪ LLMFunction ▪ LLMTool ▪ ...
外部データの正規化
Import — ファイルまたはWebからデータをインポートする
"Text","PDF","TeX","HTML" — プレーンテキスト,表データ等を抽出する
ImportString — 文字列を特定の外部形式で変換する