在这个令人毛骨悚然的正则表达式中需要帮助

PoppinDouble

我刚接触起来很陌生,我正在尝试使用CrawlSpider爬行网站,我想基于“下一步”按钮递归地爬行它。但这是行不通的。我认为问题来自于正则表达式,但是我检查了很多次,找不到错误。它仅爬网登录页面,而没有进入下一页。

# -*- coding: utf-8 -*-

start_urls = ['https://shopping.yahoo.com/merchantrating/?mid=13652']

rules = (
    Rule(LinkExtractor(allow = "/merchantrating/;_ylt=Anf3hF19R8MGFPwuYuJUny4cEb0F\?mid=13652&sort=1&start=\d+"), callback = 'parse_start_url', follow = True),
)

def parse_start_url(self, response):
    sel = Selector(response)
    contents = sel.xpath('//p')
    for content in contents:
        item = BedbugsItem()
        item['pageContent'] = content.xpath('text()').extract()
        self.items.append(item)
    return self.items
埃里亚斯·多内莱斯(Elias Dorneles)

改用XPath:

rules = (
    Rule(LinkExtractor(
        restrict_xpaths = [
            "//div[@class='pagination']//a[contains(., 'Next')]"
        ]),
    callback = 'parse_start_url',
    follow = True),
)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

需要正则表达式的帮助

来自分类Dev

需要正则表达式帮助

来自分类Dev

python中需要的正则表达式帮助

来自分类Dev

Notepad ++中需要的正则表达式帮助

来自分类Dev

在此正则表达式中需要帮助

来自分类Dev

需要帮助来了解这个特定的正则表达式[^。]

来自分类Dev

需要帮助来了解这个特定的正则表达式[^。]

来自分类Dev

Ubuntu中疯狂的令人毛骨悚然的声音

来自分类Dev

正则表达式表达需要帮助

来自分类Dev

试图了解正则表达式。需要帮助来了解正则表达式

来自分类Dev

shell脚本正则表达式需要帮助

来自分类Dev

Python-重新需要正则表达式的帮助

来自分类Dev

正则表达式python需要的帮助

来自分类Dev

我需要正则表达式的帮助

来自分类Dev

我需要构建正则表达式的帮助

来自分类Dev

我需要构造正则表达式的帮助

来自分类Dev

需要Python正则表达式替换帮助

来自分类Dev

javascript正则表达式需要帮助

来自分类Dev

在c ++正则表达式上需要帮助

来自分类Dev

在正则表达式上需要帮助

来自分类Dev

需要正则表达式帮助或替代

来自分类Dev

需要帮助来编写正则表达式

来自分类Dev

正则表达式构建需要帮助

来自分类Dev

正则表达式帮助需要模式{{*}}

来自分类Dev

需要帮助以立即理解正则表达式

来自分类Dev

需要帮助以Java形式形成正则表达式

来自分类Dev

正则表达式帮助需要匹配数字

来自分类Dev

需要帮助来解决目录的正则表达式

来自分类Dev

需要帮助来构造正则表达式模式