#_*_coding:utf-8_*_
from lxml import etree
import requests
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
#把课程信息保存到info.txt中
def saveinfo(classinfo):
f = open('info.txt','a')
f.writelines('title:'+ classinfo['title']+'\n')
f.writelines('content:' + classinfo['content'] + '\n')
f.writelines('classtime:' + classinfo['classtime'] + '\n')
f.writelines('classlevel:' + classinfo['classlevel'] + '\n')
f.writelines('learnnum:' +classinfo['learnnum'] +'\n\n')
f.close()
#爬虫主体
def spider(url):
html = requests.get(url) #用Requests下载网页
selector = etree.HTML(html.text) #以下用Xpath来解析网页
content_field = selector.xpath('//div[@class="lesson-list"]/ul/li')
info = []
for each in content_field:
classinfo = {}
classinfo['title'] = each.xpath('div[@class="lesson-infor"]/h2[@class="lesson-info-h2"]/a/text()')[0]
classinfo['content'] = (each.xpath('div[@class="lesson-infor"]/p/text()')[0]).strip()
classTime = (each.xpath('div[@class="lesson-infor"]/div/div/dl/dd[@class="mar-b8"]/em/text()')[0]).split()
classinfo['classtime'] = ''.join(classTime)
classinfo['classlevel'] = each.xpath('div[@class="lesson-infor"]/div/div/dl/dd[@class="zhongji"]/em/text()')[0]
classinfo['learnnum'] = each.xpath('div[@class="lesson-infor"]/div[@class="timeandicon"]/div/em/text()')[0]
info.append(classinfo)
return info
if __name__ == '__main__':
print u'开始爬取内容。。。'
page = []
#循环用来生产不同页数的链接
for i in range(1,11):
newpage = 'http://www.jikexueyuan.com/course/?pageNum=' + str(i)
print u"第%d页"%i
print u'正在处理页面:'+ newpage
page.append(newpage)
for each in page:
info = spider(each)
for each in info:
saveinfo(each)
Python爬虫实战:极客学院
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- (本文先简单罗列下,后续要是有好的展示方式,会进行调整) 上一篇文章《爬取11088个知乎专栏,打破发现壁垒》 里...
- Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
- 爬虫文章 in 简书程序员专题: like:128 - Python 爬取落网音乐 like:127 - 【图文详...