TextCases
テキストのコンテンツタイプのリスト »TextCases[text,form]
text 中のタイプ form と識別されたテキストのすべての例のリストを与える.
TextCases[text,{form1,form2,…}]
すべてのタイプ formiについての結果の連想を与える.
TextCases[text,formspecprop]
求まった各結果について指定された特性を与える.
TextCases[text,formspec{prop1,prop2,…}]
求まった各結果についての特性のリストを与える.
TextCases[text,spec,n]
出現する最初の n 個の例を与える.
詳細とオプション
- TextCasesは,品詞のタグ付けや名前付き実体の認識等,いくつかの自然言語処理タスクに使われる.
- TextCases[text,…]の text は,文字列,File[…]で表されるテキストファイル,ContentObject式,あるいはこれらのテキストオブジェクトのリストでよい.
- TextCases[{text1,text2,…},…]は,各 textiの例を与える.
- 識別タイプ form には以下がある.
-
"type" 任意のテキストのコンテンツタイプ(例:"Noun","City") Entity[…,…] テキストのコンテンツタイプの特定の実体 form1form2… - 任意の formiにマッチするフォーム
Containing[outer,inner] タイプ inner を含むタイプ outer のフォーム Verbatim["string"] 厳密にマッチされる文字列 pattern マッチされる文字列パターン - 次は,特性 prop の可能な選択肢である.
-
"String" 識別されたテキスト文字列(デフォルト) "Position" text 中の文字列の始点と終点の位置 "Probability" 識別が正しいという推定の確率 "Interpretation" 識別された文字列の標準的な解釈 "Snippet" 識別された文字列周辺のスニペット "HighlightedSnippet" 識別された文字列がハイライトされた,テキストのスニペット f すべての特性を含む連想に f を適用する {prop1,prop2,…} 特性指定のリスト - 次は,使用可能なオプションである.
-
AcceptanceThreshold Automatic 識別を許容する最小確率 PerformanceGoal Automatic 特定の利点があるアルゴリズムを優先する TargetDevice "CPU" 実体検出にCPUまたはGPUの計算を使うべきかどうか VerifyInterpretation False 解釈可能性を確認するかどうか - TextCasesは機械学習を使う.含まれるメソッド,訓練集合,バイアスは使用するWolfram言語のバージョンによって変わることがあり,返される結果も異なることがある.
- TextCasesはリソースをダウンロードすることがある.ダウンロードされたリソースは,$LocalBaseのローカルなオブジェクトストアに保存され,LocalObjects[]でリストしたりResourceRemoveで削除したりできる.
例題
すべて開くすべて閉じる例 (6)
スコープ (5)
ContentObjectとファイル (2)
代替と包含 (2)
Alternativesを使って複数のタイプをマッチさせる:
AlternativesとContainingを組み合せて高度に構造化されたクエリを作る:
戻り型 (1)
オプション (3)
AcceptanceThreshold (1)
デフォルトで,検出された実体の推定確率は,すべて0.5より上である:
AcceptanceThresholdを高くして,ほぼ確実に正しい実体だけを得る:
PerformanceGoal (1)
PerformanceGoal->"Speed"を使うと,確度は低くなるが,検出速度が上がる:
VerifyInterpretation (1)
デフォルトで,実体の中には,正しくないあるいはまだ知識ベースに収録されていないという理由で解釈できないものがある.その場合は,解釈の代りに文字列が返される:
VerifyInterpretationを使って解釈できない実体を除外する:
アプリケーション (6)
単語と文の分割 (2)
単語の分割は,電子メールアドレス,URL,Twitterのハンドル等の統語的要素を保存する:
"Word"と"Punctuation"の形式で,非空白文字がすべて取り出された:
実体と解釈可能オブジェクト (2)
特性と関係 (4)
TextCasesはTextPositionやTextPositionと同じタイプを扱い,与えられたタイプについて常にこれらの関数と同じ部分文字列を識別する:
TextCasesはTextPositionの一般化である:
TextCasesを使ってTextContentsの出力に似ているデータ集合を得ることができる:
TextSentencesはTextCases[…,"Sentence"]に等しい:
TextStructureは,テキストを同じ文に分割する:
TextWordsはTextCases[…,"Word"]に等しい:
TextStructureはテキストをTextCases[…,"Word" "Punctuation"]と同じ単語と句読点に分解する:
おもしろい例題 (2)
都市や国のように多くの実体を地図上に示すことができる.TextCasesを使うとこれらの実体を一度に求めることができる.
日付を含むすべての文を求め,それぞれに対応するDateObjectの解釈を抽出する:
テキスト
Wolfram Research (2015), TextCases, Wolfram言語関数, https://reference.wolfram.com/language/ref/TextCases.html (2019年に更新).
CMS
Wolfram Language. 2015. "TextCases." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2019. https://reference.wolfram.com/language/ref/TextCases.html.
APA
Wolfram Language. (2015). TextCases. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/TextCases.html