import requests
from bs4 import BeautifulSoup
import codecs
html= 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36',
'Cookie':'bid=oJDHcRZAfZ0; ll="118282"; _vwo_uuid_v2=E214A7F1BDCECC6E723664187A86F52E|76a273c7310d9f375d99252440354e87; _pk_id.100001.4cf6=5b4a90664736e799.1479056723.2.1479061426.1479058940.; _pk_ses.100001.4cf6=*; __utma=30149280.993280854.1479056726.1479056726.1479061421.2; __utmb=30149280.0.10.1479061421; __utmc=30149280; __utmz=30149280.1479056726.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.1435542470.1479056726.1479056726.1479061421.2; __utmb=223695111.0.10.1479061421; __utmc=223695111; __utmz=223695111.1479056726.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)'
}
def get_movienames(url):
movie_name_list = []
data = requests.get(url,headers=headers)
soup = BeautifulSoup(data.text,'lxml')
movie_list = soup.find(class_='grid_view')
for i in movie_list.findAll('span',{'class':'title'}):
name=i.get_text()
movie_name_list.append(name)
page = soup.find('span',attrs = {'class':'next'}).find('a')
if page:
return movie_name_list,html+page.attrs['href']
return movie_name_list,False
def main():
url= 'https://movie.douban.com/top250'
with codecs.open('movies','wb',encoding='utf-8')as fu:
while url:
movies,url = get_movienames(url)
fu.write(u'{movies}\n'.format(movies='\n'.join(movies)))
if __name__== '__main__':
main()
python爬取豆瓣top250电影并且写入文件
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 今天是3.17号。 离毕业论文开题只剩下不到15天,自己这边还不知道要写什么好,问了导师,导师给的范围超级广泛,实...
- 我的第一个爬虫作品,一天完成,纪念一下! 代码如下: import requests from bs4 impor...
- 豆瓣算是一个文艺者的栖息地了,也是程序员们的虫子喜欢光顾的地方。对豆瓣的书籍和电影比较感兴趣,下面是一个小爬虫抓取...