WebExecuteを使って,ノードとその派生ノードのレンダリングされたテキストコンテンツを得る.

直接JavaScriptを使う

セッションを始める

StartWebSessionを使ってセッションを始める:

  • StartWebSessionにブラウザが与えられない場合には,Google Chromeがデフォルトで使われる.

テキストを抽出する

テキストを得たいページを開く:

"JavascriptExecute" コマンドを使って,innerText HTMLタグのコンテンツを返すJavaScriptを直接書く:

Selectを使って,数字と英語以外の単語を削除する:

テキストを分析する

ToLowerCaseを使って単語の重複を減らし,DeleteStopwordsを使って分析から前置詞やそれに類似した単語を削除する:

WordCloudを使って,Webページ上の重要でよく使われる単語のワードクラウドを作成する:

StringRiffleを使って,単語を単一の文字列に連結させ,単語間に空白を入れる:

WordCountsを使って,文字列内に単語が現れる回数を数え,最もよく使われる単語5個を取り出す:

BarChartを使って,単語の頻度を可視化する:

セッションを閉じる

DeleteObjectを使って,Webセッションのプロセスを終了する:

Webページの要素に関連するWebExecuteコマンドを使う

セッションを始める

StartWebSessionを使ってセッションを始める:

  • StartWebSessionにブラウザが与えられない場合には,Google Chromeがデフォルトで使われる.

テキストを抽出する

テキストを得たいページを開く:

"LocateElements"コマンドを使って,contentという名前のID属性を得る:

  • ID属性は一意的に名付けられているので,単一のWebElementObjectを返す.

"ElementText"コマンドを使って,IDからテキストを得る:

Selectを使って,数字と英語以外の単語を削除する:

テキストを分析する

ToLowerCaseを使って単語の重複を減らし,DeleteStopwordsを使って分析から前置詞やそれに類似した単語を削除する:

WordCloudを使って,Webページ上の重要でよく使われる単語のワードクラウドを作成する:

StringRiffleを使って,単語を単一の文字列に連結させ,単語間に空白を入れる:

WordCountsを使って,文字列内に単語が現れる回数を数え,最もよく使われる単語5個を取り出す:

BarChartを使って,単語の頻度を可視化する:

セッションを閉じる

DeleteObjectを使って,Webセッションのプロセスを終了する: