用 WebExecute 获取节点及其子节点的渲染文本内容。
直接使用 JavaScript...
开始会话
用 StartWebSession 开始会话:
- 如未给 StartWebSession 提供浏览器,则将默认为 Google Chrome.
提取文字
打开您要从中获取文本的页面:
用 "JavascriptExecute" 命令直接编写可返回 innerText HTML 标记内容的 JavaScript:
用 Select 删除数字字符和非英语单词:
分析文字
用 ToLowerCase 减少重复的单词,并用 DeleteStopwords 从分析中删除介词和其他类似的单词:
用 WordCloud 在网页上创建常用非普通单词的单词云:
用 StringRiffle 将单词连接成单个字符串,并用空格分隔:
用 WordCounts 来计算单词在字符串中出现的次数,并获取最常用的前五个单词:
用 BarChart 可视化单词的出现频率:
结束会话
用 DeleteObject 中止网页会话过程:
使用与网页元素相关的 WebExecute 评论...
开始会话
用 StartWebSession 开始会话:
- 如未给 StartWebSession 提供浏览器,则将默认为 Google Chrome.
提取文字
打开您要从中获取文本的页面:
用 "LocateElements" 命令获取 ID 参数 "content":
- ID 属性是唯一命名的,并应该返回独立 WebElementObject.
用 "ElementText" 命令从 ID 获取文本:
用 Select 删除数字字符和非英语单词: