创建项目
D:\tmp\scrapy>scrapy startproject testproject
New Scrapy project 'testproject', using template directory 'c:\\users\\tony\\app
data\\local\\programs\\python\\python35\\lib\\site-packages\\scrapy\\templates\\
project', created in:
D:\tmp\scrapy\testproject
You can start your first spider with:
cd testproject
scrapy genspider example example.com
D:\tmp\scrapy>dir
驱动器 D 中的卷没有标签。
卷的序列号是 C5EE-F557
D:\tmp\scrapy 的目录
2017/10/23 19:53 <DIR> .
2017/10/23 19:53 <DIR> ..
2017/10/23 19:53 <DIR> testproject
0 个文件 0 字节
3 个目录 149,355,196,416 可用字节
查看可用模板
D:\tmp\scrapy\tet>scrapy genspider -l
Available templates:
basic
crawl
csvfeed
xmlfeed
创建爬虫文件
D:\tmp\scrapy\tet>scrapy genspider -t basic spidername http://www.jsit.edu.cn
Created spider 'spidername' using template 'basic' in module:
tet.spiders.spidername
D:\tmp\scrapy\tet\tet>dir spiders
驱动器 D 中的卷没有标签。
卷的序列号是 C5EE-F557
D:\tmp\scrapy\tet\tet\spiders 的目录
2017/10/23 19:49 <DIR> .
2017/10/23 19:49 <DIR> ..
2017/10/23 19:49 249 spidername.py
2017/10/23 19:42 237 test.py
2017/10/23 19:40 588 tset2.py
2017/10/23 19:41 588 tset3.py
2017/10/23 15:33 161 __init__.py
2017/10/23 19:44 <DIR> __pycache__
5 个文件 1,823 字节
3 个目录 149,355,225,088 可用字节
输出到json line格式,要求parse函数中使用yield返回字典数据
scrapy crawl spiderjob -o ../out/spiderjob.j