我一直在尝试用Java执行此操作,但无法实现此目的。我在Google上搜索,找出了四种方法。他们是 :
1. jsoup: Java HTML Parser
2. Apache Nutch
3. Chrome extension
4. https://github.com/yasserg/crawler4j google crwler
有人可以通过使用一些有效的代码来指导我吗?例如。
Let's say Given URL is google.com
那么输出应该是
Sign In
Gmail
Images
Google Search
I'm Feeling Lucky
Google.co.in offered in
हिन्दी
ગુજરાતી
About
Privacy
**same way other string that i can see over web page.
我可以使用节点js提取所有文本,这是脚本第一步>>将其保存到文件test.html中
var request = require('request');
var cheerio = require('cheerio');
request('https://www.bajajallianz.com/Corp/new-index.jsp', function (error, response, html) {
if (!error && response.statusCode == 200) {
console.log(html);
}
});
第二步
cat test.html | html-to-text > test.txt
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句