1. 使用 'scrapy genspider project domain' 来生成 spider 文件
2. 运行 scrapy 报错:
ImportError:
DLL load failed: 找不到指定的模块。
解决:
拷贝 C:\Python26\Lib\site-packages\pywin32_system32\ 这个文件夹里的文件,至 C:\Windows\System32
3. 调试请使用 pycharm,通过以下方式用 pycharm 运行 scrapy:
在 scrapy.cfg 这一级目录下新建 endpoint.py 文件,内容:
from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'cnblogSpider(这个是你 spide r的名字)'])
这里多说一句,运行的时候需要用 spider 的名字来运行。这个名字是在
class CnblogspiderSpider(scrapy.Spider):
name = 'cnblogSpider'
allowed_domains = ['cnblogs.com']
start_urls = [
'http://www.cnblogs.com/fnng/default.aspx?page=1'
]
这个地方的 name 指定的。
4. 可以将数据已指定格式输出文件。支持以下几种格式:
xml
csv
json
jsonlines
jl
pickle
marshal
运行时请带上参数指定输出格式:
scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json
-o 后面指定了输出文件名,-t 后面指定了输出格式。
其他:待更新......
参考来自 鱼塘的鱼