Scrapy使用中的问题记录

一、xpath.extract()返回的都是unicode编码问题

例如,提取url时,url = sel.xpath(‘@href’).extract()
可利用转码,统一转成utf8格式, url = url[0].encode(“utf-8”)

 

二、执行时传递参数和日志重定向:

scrapy crawl crawlname  -a conf=apk3.json -s LOG_FILE=scrapy.log

三、如果每个request需要传递不同的参数

采用添加meta方式

 def make_requests_from_url_step(self, url, curstep):
 #最终页
      if curstep == 'final':
          return Request(url, callback=self.final_page_parse, dont_filter=True)
      else:
          return Request(url, meta={'curstep': curstep}, callback=self.my_parse, dont_filter=True)

You May Also Like

About the Author: daidai5771

发表评论

电子邮件地址不会被公开。 必填项已用*标注