刮掉网页上所有可见的文字

卡佩拉

是否有一种简单的方法来解析HTML页面以仅获取用户可见的文本?我想摆脱所有标签,链接,JavaScript,并返回页面上的文本内容。

我只想存储信息,以后再回去,但是可以在搜索中使用它。

曾尝试过Nokogiri和Capybara / Poltergeist

doc.css('body').text

但这给了我我不愿看到的各种JavaScript和垃圾。

有没有一种方法可以剥离文本位并将其批处理为字符串,而忽略所有“代码”?

卡佩拉

真的很容易。

使用Capybara(在我的情况下为PhantomJS,尽管我认为这并不重要)

    @session.visit url
    # Grab the text from the page
    @session.text
    # Grab the page title
    @session.title

做得好吗...

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何处理网页上的所有可见字符?

来自分类Dev

如何处理网页上所有可见的字符?

来自分类Dev

如何以未解析的大字符串形式返回网页上所有可见的文本?

来自分类Dev

如何获取网页中的所有可见文本(不是HTML源代码)?

来自分类Dev

使用VBS在网页上保存可见文本

来自分类Dev

不通过Python的网页上的可见文本

来自分类Dev

单击网页上的不可见按钮(谷歌地图)

来自分类Dev

列出所有可见的隐式

来自分类Dev

获取所有可见的CKEditor实例

来自分类Dev

如何选择所有可见的HTML

来自分类Dev

使用 R 进行网页抓取 - 没有 HTML 可见

来自分类Dev

在所有空间(包括其他全屏应用程序)上可见的窗口

来自分类Dev

使所有用户可见的用户个人资料在Django上包含AnonyMouseUser()

来自分类Dev

jQuery bxslider问题:在Firefox Mobile上滑动/动画时,所有图像均可见

来自分类Dev

在OSX上,如何一次重新加载所有可见的浏览器窗口?

来自分类Dev

如何使我的应用程序在所有设备上可见?

来自分类Dev

如何禁用列表视图中的所有元素(以及当前在屏幕上不可见的元素)?

来自分类Dev

是否应该在小黄瓜中验证屏幕上可见的所有字段?

来自分类Dev

如何居中/设置地图缩放以覆盖Xamarin.Forms上所有可见的标记?

来自分类Dev

网页只在本地可见

来自分类Dev

如何从网络上刮掉一类具有属性的所有子级?

来自分类Dev

如何使用Python Selenium和BeautifulSoup从网络上刮掉所有<li>文本?

来自分类Dev

将嵌套对象转换为csv,其中所有属性最低的父级在单独的行上可见

来自分类Dev

如何访问GoogleMap-Object(Android地图v2)上的所有标记并将其设置为可见?

来自分类Dev

弹出窗口可见时禁用所有交互

来自分类Dev

获取ScrollView矩形的所有可见子视图?

来自分类Dev

如何判断所有可见的瓷砖何时全部装满?

来自分类Dev

Listview创建所有元素而不是可见元素

来自分类Dev

查找容器中的所有可见元素

Related 相关文章

  1. 1

    如何处理网页上的所有可见字符?

  2. 2

    如何处理网页上所有可见的字符?

  3. 3

    如何以未解析的大字符串形式返回网页上所有可见的文本?

  4. 4

    如何获取网页中的所有可见文本(不是HTML源代码)?

  5. 5

    使用VBS在网页上保存可见文本

  6. 6

    不通过Python的网页上的可见文本

  7. 7

    单击网页上的不可见按钮(谷歌地图)

  8. 8

    列出所有可见的隐式

  9. 9

    获取所有可见的CKEditor实例

  10. 10

    如何选择所有可见的HTML

  11. 11

    使用 R 进行网页抓取 - 没有 HTML 可见

  12. 12

    在所有空间(包括其他全屏应用程序)上可见的窗口

  13. 13

    使所有用户可见的用户个人资料在Django上包含AnonyMouseUser()

  14. 14

    jQuery bxslider问题:在Firefox Mobile上滑动/动画时,所有图像均可见

  15. 15

    在OSX上,如何一次重新加载所有可见的浏览器窗口?

  16. 16

    如何使我的应用程序在所有设备上可见?

  17. 17

    如何禁用列表视图中的所有元素(以及当前在屏幕上不可见的元素)?

  18. 18

    是否应该在小黄瓜中验证屏幕上可见的所有字段?

  19. 19

    如何居中/设置地图缩放以覆盖Xamarin.Forms上所有可见的标记?

  20. 20

    网页只在本地可见

  21. 21

    如何从网络上刮掉一类具有属性的所有子级?

  22. 22

    如何使用Python Selenium和BeautifulSoup从网络上刮掉所有<li>文本?

  23. 23

    将嵌套对象转换为csv,其中所有属性最低的父级在单独的行上可见

  24. 24

    如何访问GoogleMap-Object(Android地图v2)上的所有标记并将其设置为可见?

  25. 25

    弹出窗口可见时禁用所有交互

  26. 26

    获取ScrollView矩形的所有可见子视图?

  27. 27

    如何判断所有可见的瓷砖何时全部装满?

  28. 28

    Listview创建所有元素而不是可见元素

  29. 29

    查找容器中的所有可见元素

热门标签

归档