Python: 从中国证券网抓取午间公告

中国证券网 抓取午间公告。

中国证券网应该是权威部门,发布的消息比较靠谱,可以及时获取公告提前埋伏。

在学习这个的过程中,顺便把困扰我很久的编码问题给解决了,也算是个意外的收获。

以下是对代码的分析:

  1. 得到编辑器的默认编码
import locale
print locale.getdefaultlocale()[1]
  1. 建立目录,存放抓取的文件
sub_folder = os.path.join(os.getcwd(), "stock")
if not os.path.exists(sub_folder):
    os.mkdir(sub_folder)
os.chdir(sub_folder)
  1. 定义下载文件的名字
temp_time = time.strftime("[%Y-%m-%d]-[%H-%M]", time.localtime())
store_filename = "StockNews-%s.log" % temp_time
fopen = codecs.open(store_filename, 'w', 'utf-8')
  1. 设置proxy
    这个要具体情况具体分析,有的可能不需要proxy,我的公司是必须定义proxy,否则脚本不能读取网页的内容。
proxy_support = urllib2.ProxyHandler({"http":"http://your_proxy:8080/"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
  1. 解析网页
Outer HTML: <span class="time">07-19 13:00</span>
req = urllib2.Request(url=company_news_site, headers=headers)
resp = urllib2.urlopen(req)
html = resp.read()
#print chardet.detect(html)
soup = BS(html, "html.parser")
all_content = soup.find_all("span", "time")
for i in all_content:
    news_time = i.string
    node = i.next_sibling
    title = node["title"].decode(sys.getdefaultencoding()).encode(locale.getdefaultlocale()[1])
    print news_time,"    ", title, "    ", node["href"]

代码如下:

#! /usr/bin/env python
#coding=utf-8
from bs4 import BeautifulSoup as BS
import random
import urllib2
import sys
import chardet
import time
import os
import codecs

import locale
print locale.getdefaultlocale()[1]

print sys.getdefaultencoding()
reload(sys)
sys.setdefaultencoding('utf-8')
print sys.getdefaultencoding()

sub_folder = os.path.join(os.getcwd(), "stock")
if not os.path.exists(sub_folder):
    os.mkdir(sub_folder)
os.chdir(sub_folder)

temp_time = time.strftime("[%Y-%m-%d]-[%H-%M]", time.localtime())
store_filename = "StockNews-%s.log" % temp_time
fopen = codecs.open(store_filename, 'w', 'utf-8')


stock_news_site = "http://ggjd.cnstock.com/gglist/search/ggkx/"

my_userAgent = [
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11',
        'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)']

user_agent = random.choice(my_userAgent)
headers = {'User-Agent': user_agent, 'Host': "ggjd.cnstock.com", 
           'DNT': '1',
           'Accept': 'text/html, application/xhtml+xml, */*', }
company_news_site = stock_news_site + "0"
print company_news_site

proxy_support = urllib2.ProxyHandler({"http":"your_proxy"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)


req = urllib2.Request(url=company_news_site, headers=headers)
resp = urllib2.urlopen(req)
html = resp.read()
#print chardet.detect(html)
soup = BS(html, "html.parser")
all_content = soup.find_all("span", "time")

#print all_content

for i in all_content:
    news_time = i.string
    node = i.next_sibling
    title = node["title"].decode(sys.getdefaultencoding()).encode(locale.getdefaultlocale()[1])
    print news_time,"    ", title, "    ", node["href"]
    str_temp = "\n%s\t%s\n---> %s \n\n" % (news_time, node['title'], node['href'])
    
    fopen.write(str_temp)

fopen.close()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,585评论 18 139
  • Python入门网络爬虫之精华版 网址: https://github.com/lining0806/Python...
    ZHANG_GO阅读 614评论 0 2
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 1,461评论 0 6
  • 你问我要去向何方,我指着大海的方向…… 每年总有那么一段日子,要去海边或海上度过。 因为,只有永不平静的海,能带给...
    不露声摄阅读 595评论 0 8
  • 穷途末路的光明, 回过头去看已是鬼影森森的深渊, 总是在自己欺骗自己。
    花唇槿伊阅读 179评论 2 5