使用python scrapy从网页中提取链接

debugcn 发表于 Dev

阿南德·辛格（Anand Singh）

我是python的初学者，并使用scrapy从以下网页http://www.basketball-reference.com/leagues/NBA_2015_games.html提取链接。

我写的代码是

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from basketball.items import BasketballItem

class BasketballSpider(CrawlSpider):

   name = 'basketball'
   allowed_domains = ['basketball-reference.com/']
   start_urls = ['http://www.basketball-reference.com/leagues/NBA_2015_games.html']
   rules = [Rule(LinkExtractor(allow=['http://www.basketball-reference.com/boxscores/^\w+$']), 'parse_item')]

   def parse_item(self, response):
       item = BasketballItem()
       item['url'] = response.url
       return item

我通过命令提示符运行此代码，但是创建的文件没有任何链接。有人可以帮忙吗？

用户4251615

rules = [
         Rule(LinkExtractor(allow='boxscores/\w+'), callback='parse_item')
]

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-10

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用 Python 抓取网页时从链接中提取 href

来自分类Dev

使用 Google 表格从网页抓取中提取链接文本

来自分类Dev

我需要使用Python / BeautifulSoup从网页中提取嵌入式.xlsx链接的帮助

来自分类Dev

使用Python从多个网页中提取日期

来自分类Dev

使用RVest从网页中提取名称列表和基础超链接

来自分类Dev

使用scrapy从xml提取链接

来自分类Dev

尝试使用HtmlAgilityPack从网页中提取数据

来自分类Dev

使用Jsoup从网页中提取语言

来自分类Dev

使用 VBA 从网页表格中提取数据

来自分类Dev

使用 R 从网页中提取中间名

来自分类Dev

使用Python从不断更新的网页中提取内容

来自分类Dev

如何通过Python使用Selenium从网页中提取文本$ 7.56

来自分类Dev

Python：阅读网页并从该网页中提取文本

来自分类Dev

Python Scrapy无法从类中提取文本

来自分类Dev

使用 Python/Scrapy 在 h1 中提取 p

来自分类Dev

如何使用Scrapy从JavaScript中提取jsonObj

来自分类Dev

如何使用Selenium，Python从Google搜索中提取链接

来自分类Dev

从美丽的汤python中提取链接标题

来自分类Dev

python从RSS提要中提取链接

来自分类Dev

无法在python中提取URL链接

来自分类Dev

使用Beautifulsoup从URL中提取链接

来自分类Dev

从网页抓取的HTML页面的Python脚本中提取列表

来自分类Dev

无法通过 python 网页抓取从 HTML 文件中提取 #document

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用wget和Perl脚本从网页中提取信息

来自分类Dev

如何使用rvest从网页中提取选择性数据？

来自分类Dev

使用BeautifulSoup从网页中提取文本和图像

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用Qt Creator从网页的源代码中提取信息

Related 相关文章

文章