网页的每个元素都可以表示为XPath语句,因此我们可以阅读浏览器打开的网站页面的源代码,并通过XPath语句获取网页元素中的文本。
如何获取XPath语句:
通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12打开开发者工具界面。在“ELements”选项卡下,当鼠标移动时,您可以看到Web内容被阴影覆盖。单击三角形符号以进一步。找到确切的位置,直到找到所需的最终数据位置。右键单击找到的文本,在弹出菜单中选择Copy-CopyXPath,然后将其粘贴到记事本中以获取所需的XPath语句。
需要在此解释:如果复制的XPath语句中的/Tbody将影响集合,则问题由程序在内部处理,但在某些特殊情况下可能会影响数据收集,并且可以手动删除。
启动程序-选择模板-单击“捕获数据”按钮旁边的黑色三角形,单击下拉菜单,然后单击要捕获的部分。等待浏览器加载网页,手动输入需要查询的内容,单击查询,找到数据的特定页面,然后单击“收集数据”按钮以查看列表中是否有所需数据在右边。继续打开下拉菜单,然后选择要收集的下一个部分。如果URL更改,请等待浏览器加载并找到所需的数据页。单击“收集数据”按钮以查看是否在右侧列表中获取了数据的第二部分。重复此过程,直到完全收集数据。
如果两个部分的URL相同,则需要在单击下一部分中的下拉菜单之前在浏览器中重新查询新数据。新数据页出来后,单击下拉菜单以选择要收集的下一个部分。(如果URL相同,单击下一部分将直接从网页获取数据。如果浏览器未更改页面,则数据错误。)如果需要重新获取部件,请单击下拉菜单中该部分的名称,然后单击捕获按钮以重复收集(您可以在此时更改浏览器的数据页面,并获取不同公司的数据)。
如果列表中收集的数据存在任何偏差,您可以单击以自行修改。如果XPath语句中有任何错误,您可以自己修改测试结果(XPath语句将在修改后立即重新抓取浏览器数据,因此浏览器最好是一个有效的数据页),修改后的XPath语句程序,不会保存到INI文件,请自行保存。
如果列表中的数据正确且预览窗口中Docx模板的内容正确,则可以单击“创建文档”按钮以填写要生成的文件的名称。该软件将使用捕获的网页数据替换模板中的索引字符串并自动生成。Docx文档。
应该注意的是,右下角的Docx预览窗口不能完全支持Word文档。对于非标准文档,文本可能丢失或放错地方。在这种情况下,您可以忽略它或将模板文件更改为规范文本格式(s单行间距)。