Scrapy使用中的问题记录

Posted by daidai5771 2018年9月7日 in 其他杂记

一、xpath.extract()返回的都是unicode编码问题

例如，提取url时，url = sel.xpath(‘@href’).extract()
可利用转码，统一转成utf8格式， url = url[0].encode(“utf-8”)

二、执行时传递参数和日志重定向：

scrapy crawl crawlname -a conf=apk3.json -s LOG_FILE=scrapy.log

三、如果每个request需要传递不同的参数

采用添加meta方式

 def make_requests_from_url_step(self, url, curstep):
 #最终页
      if curstep == 'final':
          return Request(url, callback=self.final_page_parse, dont_filter=True)
      else:
          return Request(url, meta={'curstep': curstep}, callback=self.my_parse, dont_filter=True)

About the Author: daidai5771

发表评论取消回复