搜索

搜索

如何在给定的网站上收集所有可用的字符串

debugcn 发表于 Dev

7

南德

我一直在尝试用Java执行此操作，但无法实现此目的。我在Google上搜索，找出了四种方法。他们是：

1. jsoup: Java HTML Parser
2. Apache Nutch
3. Chrome extension 
4. https://github.com/yasserg/crawler4j   google crwler

有人可以通过使用一些有效的代码来指导我吗？例如。

Let's say Given URL is google.com

那么输出应该是

Sign In
  Gmail
  Images
  Google Search
  I'm Feeling Lucky
  Google.co.in offered in
  हिन्दी
  ગુજરાતી
  About
  Privacy
  **same way other string that i can see over web page.

南德

我可以使用节点js提取所有文本，这是脚本第一步>>将其保存到文件test.html中

var request = require('request');

var cheerio = require('cheerio');

request('https://www.bajajallianz.com/Corp/new-index.jsp', function (error, response, html) {

  if (!error && response.statusCode == 200) {

    console.log(html);

  }


});

第二步

cat test.html | html-to-text > test.txt

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-21

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

如何找到所有特殊字符并将它们打印在给定的字符串中？

来自分类Dev

如何找到所有特殊字符并将它们打印在给定的字符串中？

来自分类Dev

如何从网站上包含特定字符串的所有paragrahs中提取文本

来自分类Dev

如何在给定字符串之后获取子字符串

来自分类Dev

如何在给定字符串后立即grep字符串

来自分类Dev

如何在给定的输出中拆分给定字符串

来自分类Dev

在给定字符串首次出现之前/之后删除所有内容

来自分类Dev

在给定的字符串中打印所有可能的短语（单词的连续组合）

来自分类Dev

在给定字符串首次出现之前/之后删除所有内容

来自分类Dev

如何在给定的字符串中找到多次出现的空格字符？

来自分类Dev

如何在给定的字符串中找到特定字符？

来自分类Dev

在C ++ 11中，如何在以给定字符串开头的字符串向量中查找并返回所有项？

来自分类Dev

如何在R中的给定位置生成给定变量字符的所有可能字符串？

来自分类Dev

如何在R中的给定位置生成给定变量字符的所有可能字符串？

来自分类Dev

如何在给定的URL中添加或更新查询字符串参数？

来自分类Dev

如何在给定位置选择包含特定子字符串的行-Python

来自分类Dev

如何在给定未知格式字符串的情况下对数组进行sprintf？

来自分类Dev

如何在给定的定界符之间grep第n个子字符串？

来自分类Dev

如何在给定的字符串中打印以下元素？

来自分类Dev

如何在JavaScript中获取给定替换字符串的所有组合？

来自分类Dev

如何从字符串数组中收集所有可能的连续字符串并置？

来自分类Dev

Python帮助：在给定可选字符的情况下生成所有可能的字符串

来自分类Dev

对于给定且唯一的字符串，如何查找所有对应的字符串

来自分类Dev

对于给定且唯一的字符串，如何查找所有对应的字符串

来自分类Dev

Matlab。查找所有包含在给定字符串中的字符的字符串单元格数组的索引（无重复）

来自分类Dev

Matlab。查找所有包含在给定字符串中的字符的字符串单元格数组的索引（无重复）

来自分类Dev

如何查找字符串是否在给定字符串的范围内

来自分类Dev

如何在python中保存网站上的所有图像

来自分类Dev

如何在Wordpress网站上显示所有页面

Related 相关文章

文章

热门标签

归档