刮掉网页上所有可见的文字

debugcn 发表于 Dev

卡佩拉

是否有一种简单的方法来解析HTML页面以仅获取用户可见的文本？我想摆脱所有标签，链接，JavaScript，并返回页面上的文本内容。

我只想存储信息，以后再回去，但是可以在搜索中使用它。

曾尝试过Nokogiri和Capybara / Poltergeist

doc.css('body').text

但这给了我我不愿看到的各种JavaScript和垃圾。

有没有一种方法可以剥离文本位并将其批处理为字符串，而忽略所有“代码”？

卡佩拉

真的很容易。

使用Capybara（在我的情况下为PhantomJS，尽管我认为这并不重要）

    @session.visit url
    # Grab the text from the page
    @session.text
    # Grab the page title
    @session.title

做得好吗...

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-8

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何处理网页上的所有可见字符？

来自分类Dev

如何处理网页上所有可见的字符？

来自分类Dev

如何以未解析的大字符串形式返回网页上所有可见的文本？

来自分类Dev

如何获取网页中的所有可见文本（不是HTML源代码）？

来自分类Dev

使用VBS在网页上保存可见文本

来自分类Dev

不通过Python的网页上的可见文本

来自分类Dev

单击网页上的不可见按钮（谷歌地图）

来自分类Dev

列出所有可见的隐式

来自分类Dev

获取所有可见的CKEditor实例

来自分类Dev

如何选择所有可见的HTML

来自分类Dev

使用 R 进行网页抓取 - 没有 HTML 可见

来自分类Dev

在所有空间（包括其他全屏应用程序）上可见的窗口

来自分类Dev

使所有用户可见的用户个人资料在Django上包含AnonyMouseUser（）

来自分类Dev

jQuery bxslider问题：在Firefox Mobile上滑动/动画时，所有图像均可见

来自分类Dev

在OSX上，如何一次重新加载所有可见的浏览器窗口？

来自分类Dev

如何使我的应用程序在所有设备上可见？

来自分类Dev

如何禁用列表视图中的所有元素（以及当前在屏幕上不可见的元素）？

来自分类Dev

是否应该在小黄瓜中验证屏幕上可见的所有字段？

来自分类Dev

如何居中/设置地图缩放以覆盖Xamarin.Forms上所有可见的标记？

来自分类Dev

网页只在本地可见

来自分类Dev

如何从网络上刮掉一类具有属性的所有子级？

来自分类Dev

如何使用Python Selenium和BeautifulSoup从网络上刮掉所有<li>文本？

来自分类Dev

将嵌套对象转换为csv，其中所有属性最低的父级在单独的行上可见

来自分类Dev

如何访问GoogleMap-Object（Android地图v2）上的所有标记并将其设置为可见？

来自分类Dev

弹出窗口可见时禁用所有交互

来自分类Dev

获取ScrollView矩形的所有可见子视图？

来自分类Dev

如何判断所有可见的瓷砖何时全部装满？

来自分类Dev

Listview创建所有元素而不是可见元素

来自分类Dev

查找容器中的所有可见元素

Related 相关文章

文章