是否有一种简单的方法来解析HTML页面以仅获取用户可见的文本?我想摆脱所有标签,链接,JavaScript,并返回页面上的文本内容。
我只想存储信息,以后再回去,但是可以在搜索中使用它。
曾尝试过Nokogiri和Capybara / Poltergeist
doc.css('body').text
但这给了我我不愿看到的各种JavaScript和垃圾。
有没有一种方法可以剥离文本位并将其批处理为字符串,而忽略所有“代码”?
真的很容易。
使用Capybara(在我的情况下为PhantomJS,尽管我认为这并不重要)
@session.visit url
# Grab the text from the page
@session.text
# Grab the page title
@session.title
做得好吗...
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句