Scrapy中如何向Spider传入参数的方法实现

脚本专栏 2025/1/9 佚名

3 1 2

清风细雨楼 Design By www.eepep.com

在使用Scrapy爬取数据时，有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。

例如，百度贴吧的放置奇兵吧的地址如下，其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。

https://tieba.baidu.com/f"color: #ff0000">方式一


通过 scrapy crawl 命令的 -a 参数向 spider 传递参数。


# -*- coding: utf-8 -*-
import scrapy

class TiebaSpider(scrapy.Spider):
  name = 'tieba' # 贴吧爬虫
  allowed_domains = ['tieba.baidu.com'] # 允许爬取的范围
  start_urls = [] # 爬虫起始地址

  # 命令格式： scrapy crawl tieba -a tiebaName=放置奇兵 -a pn=250
  def __init__(self, tiebaName=None, pn=None, *args, **kwargs):
    print('< 贴吧名称 >： ' + tiebaName)
    super(eval(self.__class__.__name__), self).__init__(*args, **kwargs)
    self.start_urls = ['https://tieba.baidu.com/f"color: #ff0000">方式二
仿照 scrapy 的 crawl 命令的源代码，重新自定义一个专用命令。

settings.py
首先，需要在settings.py文件中增加如下配置来指定自定义 scrapy 命令的存放目录。


# 指定 Scrapy 命令存放目录
COMMANDS_MODULE = 'baidu_tieba.commands'


run.py
在指定的命令存放目录中创建命令文件，在这里我们创建的命令文件为 run.py ，将来执行的命令格式为：

scrapy run [ -option option_value] 。


import scrapy.commands.crawl as crawl
from scrapy.exceptions import UsageError
from scrapy.commands import ScrapyCommand


class Command(crawl.Command):

  def add_options(self, parser):
    # 为命令添加选项
    ScrapyCommand.add_options(self, parser)
    parser.add_option("-k", "--keyword", type="str", dest="keyword", default="",
             help="set the tieba's name you want to crawl")
    parser.add_option("-p", "--pageNum", type="int", action="store", dest="pageNum", default=0,
             help="set the page number you want to crawl")

  def process_options(self, args, opts):
    # 处理从命令行中传入的选项参数
    ScrapyCommand.process_options(self, args, opts)
    if opts.keyword:
      tiebaName = opts.keyword.strip()
      if tiebaName != '':
        self.settings.set('TIEBA_NAME', tiebaName, priority='cmdline')
    else:
      raise UsageError("U must specify the tieba's name to crawl,use -kw TIEBA_NAME!")
    self.settings.set('PAGE_NUM', opts.pageNum, priority='cmdline')

  def run(self, args, opts):
    # 启动爬虫
    self.crawler_process.crawl('tieba')
    self.crawler_process.start()



pipelines.py
在BaiduTiebaPipeline的open_spider()方法中利用 run 命令传入的参数对TiebaSpider进行初始化，在这里示例设置了一下start_urls。


# -*- coding: utf-8 -*-
import json

class BaiduTiebaPipeline(object):

  @classmethod
  def from_settings(cls, settings):
    return cls(settings)

  def __init__(self, settings):
    self.settings = settings

  def open_spider(self, spider):
    # 开启爬虫
    spider.start_urls = [
      'https://tieba.baidu.com/f"htmlcode">

ITEM_PIPELINES = {
  'baidu_tieba.pipelines.BaiduTiebaPipeline': 50,
}


启动示例
大功告成，参照如下命令格式启动贴吧爬虫。 


scrapy run -k 放置奇兵 -p 250



参考文章：
https://blog.csdn.net/c0411034/article/details/81750028 
https://blog.csdn.net/qq_24760381/article/details/80361400 
https://blog.csdn.net/qq_38282706/article/details/80991196 

                                
                                
                                    Scrapy,Spider传入参数,Scrapy,Spider,参数 
                                清风细雨楼 Design By www.eepep.com


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    python在CMD界面读取excel所有数据的示例
                                
                            
                            
                                
                                    下一篇
                                    python调用摄像头的示例代码
                                
                            
                        
                        
                        清风细雨楼 Design By www.eepep.com
                        
                            
                                
                                
                                    评论“Scrapy中如何向Spider传入参数的方法实现”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.eepep.com
                                            
                                                清风细雨楼 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            120,135影音资源
                                        
                                        
                                            344,641技术资源
                                        
                                        
                                            22,817软件资源
                                        
                                        
                                            435,032站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《三国志8重置版》劝降机制介绍
                                                
                                                
                                                    
                                                        2025/1/9
                                                        
                                                         42
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《欢欣森活》最新官方配置要求一览
                                                
                                                
                                                    
                                                        2025/1/9
                                                        
                                                         12
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《欢欣森活》存档方法
                                                
                                                
                                                    
                                                        2025/1/9
                                                        
                                                         72
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《炉石传说》2024新赛季上线更新内容问题汇
                                                
                                                
                                                    
                                                        2025/1/9
                                                        
                                                         16
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《南瓜恐慌》进不去游戏解决方法
                                                
                                                
                                                    
                                                        2025/1/9
                                                        
                                                         61
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《战舰世界》语音包文件夹位置介绍
                                                
                                                
                                                    
                                                        2025/1/9
                                                        
                                                         18
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            站点导航
抖音极速版红果短剧哔哩哔哩王者荣耀和平精英腾讯视频爱奇艺QQ音乐咸鱼之王逆水寒三国志战略版梦幻西游金铲铲之战捕鱼大作战原神英雄联盟手游网易云音乐崩坏星穹铁道酷狗音乐蛋仔派对


            P70系列延期，华为新旗舰将在下月发布
3月20日消息，近期博主@数码闲聊站 透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。而博主@定焦数码 爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2025年01月09日
                                
                                                    
                        
 
                            群星《奔赴！万人现场 第2期》[FLAC/分轨][518.87MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[320K/MP3][43.91MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[FLAC/分轨][140.49MB]
 
                            【古典音乐】詹姆斯·高威《季节》1993[WAV+CUE]
 
                            贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

                        
                    
                    
                        2025年01月09日
                    
                    
                        
 
                            小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
 
                            群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
 
                            群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
 
                            雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
 
                            群星《2024好听新歌42》AI调整音效【WAV分轨】
 
                            王思雨-《思念陪着鸿雁飞》WAV
 
                            王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
 
                            李健《无时无刻》[WAV+CUE][590M]
 
                            陈奕迅《酝酿》[WAV分轨][502M]
 
                            卓依婷《化蝶》2CD[WAV+CUE][1.1G]
 
                            群星《吉他王(黑胶CD)》[WAV+CUE]
 
                            齐秦《穿乐(穿越)》[WAV+CUE]
 
                            发烧珍品《数位CD音响测试-动向效果（九）》【WAV+CUE】
 
                            邝美云《邝美云精装歌集》[DSF][1.6G]
 
                            吕方《爱一回伤一回》[WAV+CUE][454M]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            清风细雨楼 Design By www.eepep.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                         Copyright © 2006~2023
                         清风细雨楼 Design by www.eepep.com  手机版