WebScraper使用Integrity v6引擎快速扫描网站,并可以将数据(当前)以CSV或JSON格式输出。
易于扫描网站 - 只需输入起始网址,然后按“开始”
易于导出 - 选择你想要的列
大量的提取选项,包括具有某些类或ID的HTML元素,正则表达式或者多种格式的全部内容(html,纯文本,降价)
配置爬行和输出文件大小的各种限制
版本3.0.2:
添加“文本”作为输出文件格式的选项;这是专为存档网站内容(降价或纯文本)在一个单一的文本文件
修复了Markdown转换中的一些问题 - 添加了包含图片的选项,并在markdown中包含链接网址
通过某些“简单界面”设置修复了新界面中发生的一些奇怪的事情
添加一些检查和平衡,以防止用户做任何不合逻辑的事情,比如改变文件格式并再次按下“导出”而不重新扫描。 (输出文件是在扫描运行时建立的,所以格式和选项不能改变)