WebExecuteを使って,ノードとその派生ノードのレンダリングされたテキストコンテンツを得る.
直接JavaScriptを使う
セッションを始める
StartWebSessionを使ってセッションを始める:
- StartWebSessionにブラウザが与えられない場合には,Google Chromeがデフォルトで使われる.
テキストを抽出する
テキストを得たいページを開く:
"JavascriptExecute" コマンドを使って,innerText HTMLタグのコンテンツを返すJavaScriptを直接書く:
Selectを使って,数字と英語以外の単語を削除する:
テキストを分析する
ToLowerCaseを使って単語の重複を減らし,DeleteStopwordsを使って分析から前置詞やそれに類似した単語を削除する:
WordCloudを使って,Webページ上の重要でよく使われる単語のワードクラウドを作成する:
StringRiffleを使って,単語を単一の文字列に連結させ,単語間に空白を入れる:
WordCountsを使って,文字列内に単語が現れる回数を数え,最もよく使われる単語5個を取り出す:
BarChartを使って,単語の頻度を可視化する:
セッションを閉じる
DeleteObjectを使って,Webセッションのプロセスを終了する:
Webページの要素に関連するWebExecuteコマンドを使う
セッションを始める
StartWebSessionを使ってセッションを始める:
- StartWebSessionにブラウザが与えられない場合には,Google Chromeがデフォルトで使われる.
テキストを抽出する
テキストを得たいページを開く:
"LocateElements"コマンドを使って,“content”という名前のID属性を得る:
- ID属性は一意的に名付けられているので,単一のWebElementObjectを返す.
"ElementText"コマンドを使って,IDからテキストを得る:
Selectを使って,数字と英語以外の単語を削除する:
テキストを分析する
ToLowerCaseを使って単語の重複を減らし,DeleteStopwordsを使って分析から前置詞やそれに類似した単語を削除する:
WordCloudを使って,Webページ上の重要でよく使われる単語のワードクラウドを作成する:
StringRiffleを使って,単語を単一の文字列に連結させ,単語間に空白を入れる:
WordCountsを使って,文字列内に単語が現れる回数を数え,最もよく使われる単語5個を取り出す:
BarChartを使って,単語の頻度を可視化する:
セッションを閉じる
DeleteObjectを使って,Webセッションのプロセスを終了する: