TextCases[text,form]

text 中のタイプ form と識別されたテキストのすべての例のリストを与える.

TextCases[text,{form1,form2,}]

すべてのタイプ formiについての結果の連想を与える.

TextCases[text,formspecprop]

求まった各結果について指定された特性を与える.

TextCases[text,formspec{prop1,prop2,}]

求まった各結果についての特性のリストを与える.

TextCases[text,spec,n]

出現する最初の n 個の例を与える.

詳細とオプション

  • TextCasesは,品詞のタグ付けや名前付き実体の認識等,いくつかの自然言語処理タスクに使われる.
  • TextCases[text,]text は,文字列,File[]で表されるテキストファイル,ContentObject式,あるいはこれらのテキストオブジェクトのリストでよい.
  • TextCases[{text1,text2,},]は,各 textiの例を与える.
  • 識別タイプ form には以下がある.
  • "type"任意のテキストのコンテンツタイプ(例:"Noun""City"
    Entity[,]テキストのコンテンツタイプの特定の実体
    form1|form2|
  • 任意の formiにマッチするフォーム
  • Containing[outer,inner]タイプ inner を含むタイプ outer のフォーム
    Verbatim["string"]厳密にマッチされる文字列
    patternマッチされる文字列パターン
  • 次は,特性 prop の可能な選択肢である.
  • "String"識別されたテキスト文字列(デフォルト)
    "Position"text 中の文字列の始点と終点の位置
    "Probability"識別が正しいという推定の確率
    "Interpretation"識別された文字列の標準的な解釈
    "Snippet"識別された文字列周辺のスニペット
    "HighlightedSnippet"識別された文字列がハイライトされた,テキストのスニペット
    fすべての特性を含む連想に f を適用する
    {prop1,prop2,}特性指定のリスト
  • 次は,使用可能なオプションである.
  • AcceptanceThreshold Automatic識別を許容する最小確率
    PerformanceGoal Automatic特定の利点があるアルゴリズムを優先する
    TargetDevice"CPU"実体検出にCPUまたはGPUの計算を使うべきかどうか
    VerifyInterpretation False解釈可能性を確認するかどうか
  • TextCasesは機械学習を使う.含まれるメソッド,訓練集合,バイアスは使用するWolfram言語のバージョンによって変わることがあり,返される結果も異なることがある.
  • TextCasesはリソースをダウンロードすることがある.ダウンロードされたリソースは,$LocalBaseのローカルなオブジェクトストアに保存され,LocalObjects[]でリストしたりResourceRemoveで削除したりできる.

例題

すべて開くすべて閉じる

  (6)

テキスト中の都市名を求める:

文中の名詞を求める:

通貨額を求め,解釈を得る:

テキスト中の都市名,国名,日付要素を求める:

確率と解釈を得る:

すべての場所とその位置を求める:

テキスト中の「New York City」についての言及箇所をすべて求める:

スコープ  (5)

ContentObjectとファイル  (2)

ContentObject内の色の例を求める:

File内の数量を求める:

代替と包含  (2)

Alternativesを使って複数のタイプをマッチさせる:

文字列中の文で通貨額を含むものをすべて求める:

文字列中の文で国を含むものをすべて求める:

AlternativesContainingを組み合せて高度に構造化されたクエリを作る:

戻り型  (1)

複数の戻り型を指定する:

Associationで使用可能な全特性を示す:

実体のいくつかのタイプの特性からデータ集合を作る:

テキスト中の場所の測地位置を得る:

オプション  (3)

AcceptanceThreshold  (1)

デフォルトで,検出された実体の推定確率は,すべて0.5より上である:

AcceptanceThresholdを高くして,ほぼ確実に正しい実体だけを得る:

PerformanceGoal  (1)

PerformanceGoal->"Speed"を使うと,確度は低くなるが,検出速度が上がる:

VerifyInterpretation  (1)

デフォルトで,実体の中には,正しくないあるいはまだ知識ベースに収録されていないという理由で解釈できないものがある.その場合は,解釈の代りに文字列が返される:

VerifyInterpretationを使って解釈できない実体を除外する:

アプリケーション  (6)

単語と文の分割  (2)

単語の分割は,電子メールアドレス,URL,Twitterのハンドル等の統語的要素を保存する:

"Word""Punctuation"の形式で,非空白文字がすべて取り出された:

文の分割は頭字語やその他の紛らわしい境界を知的に無視する:

品詞  (2)

指定された品詞の単語をすべて返す:

品詞からワードクラウドの表を作る:

実体と解釈可能オブジェクト  (2)

国を求める:

解釈された文字列をEntityオブジェクトとして返す:

ウィキペディアの記事中の通貨額を求める:

別の通貨に変換する:

特性と関係  (4)

TextCasesTextPositionTextPositionと同じタイプを扱い,与えられたタイプについて常にこれらの関数と同じ部分文字列を識別する:

TextCasesTextPositionの一般化である:

TextCasesを使ってTextContentsの出力に似ているデータ集合を得ることができる:

TextSentencesTextCases[,"Sentence"]に等しい:

TextStructureは,テキストを同じ文に分割する:

TextWordsTextCases[,"Word"]に等しい:

TextStructureはテキストをTextCases[,"Word"|"Punctuation"]と同じ単語と句読点に分解する:

おもしろい例題  (2)

都市や国のように多くの実体を地図上に示すことができる.TextCasesを使うとこれらの実体を一度に求めることができる.

米についての英語のウィキペディアの記事を取り出す:

地図上に示すことができるすべての実体を求める:

識別された場所とそのテキストの頻度を可視化する:

各大陸と各国の言及数を示す:

世界大戦についての英語のウィキペディアの記事を取り出す:

日付を含むすべての文を求め,それぞれに対応するDateObjectの解釈を抽出する:

これらの日付を時系列で表示する:

抽出された文を時系列で表示する:

Wolfram Research (2015), TextCases, Wolfram言語関数, https://reference.wolfram.com/language/ref/TextCases.html (2019年に更新).

テキスト

Wolfram Research (2015), TextCases, Wolfram言語関数, https://reference.wolfram.com/language/ref/TextCases.html (2019年に更新).

CMS

Wolfram Language. 2015. "TextCases." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2019. https://reference.wolfram.com/language/ref/TextCases.html.

APA

Wolfram Language. (2015). TextCases. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/TextCases.html

BibTeX

@misc{reference.wolfram_2024_textcases, author="Wolfram Research", title="{TextCases}", year="2019", howpublished="\url{https://reference.wolfram.com/language/ref/TextCases.html}", note=[Accessed: 17-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_textcases, organization={Wolfram Research}, title={TextCases}, year={2019}, url={https://reference.wolfram.com/language/ref/TextCases.html}, note=[Accessed: 17-November-2024 ]}