テキストデータの処理

Wolfram言語には,膨大な量のテキストデータを処理するための非常に柔軟な機能がある.多くの場合,文字列として表されているデータは,Wolfram言語のパワフルな言語コンストラクトで操作できるリストや他のコンストラクトに変換される.

参照項目参照項目

Import ファイルやWebからデータをインポートする

"Text""PDF""TeX""HTML" テキスト,表,データなどを抽出する

FindList 特定の文字列を含む記録をファイルから検索する

StringSplit 文字列を単語,文等に分割する

StringCount 単語等の発生回数を数える

StringCases 文字列パターンの例を探す

StringExpression 記号的文字列パターンに合致させる

Sort アルファベット順にソートする

Counts 文字列の発生回数を与える

Classify トレーニングデータまたは組込み分類子を使って文字列を分類する

Nearest リストから最も近い文字列を見付ける

FindClusters 文字列データからクラスタを探す

EditDistance 編集距離またはレーベンシュタイン(Levenshtein)距離

SequenceAlignment 文字列から合致する列を探す

Hash さまざまな方法を使ってハッシュコードを求める

DictionaryLookup 英語やその他の辞書から単語を探す

WordData 意味,文法,形態等の属性を調べる

Interpreter 幅広い種類の文字列の解釈を試みる

SemanticInterpretation  ▪  SemanticImportString

TextRecognize 画像中のテキストをOCR処理する