最近,我需要从数千个网页中以相同的编码格式获取元素代码的特定信息。
您可以使用硒做到这一点:
WebClient webClient = new WebClient();
webClient.getOptions().setCssEnabled(false);
webClient.setCssErrorHandler(new SilentCssErrorHandler());
String url = "https://www.google.com";
HtmlPage page = webClient.getPage(url);
System.out.println(page.asXml());
webClient.close();
包括依赖性:
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>htmlunit-driver</artifactId>
<version>2.40.0</version>
</dependency>
如果需要,包括任何其他依赖。
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>htmlunit-driver</artifactId>
<version>2.40.0</version>
</dependency>