发掘阿姆斯特丹学术圈的秘密 ——使用python及R的twitter API

## 发掘阿姆斯特丹学术圈的秘密——使用Python的twitter API工具进行社交网络分析

由于本人学习数据科学课程的缘故。在上周,我们的荷兰老师Wouter布置了一个使用R的twitteR包,来挖掘twitter用户的信息.由于twitter使用OAuth2.0授权,因此在挖掘twitter之前,必须要申请一个twitter的application。

twitter application在以下页面申请。有关于OAuth2.0授权的原理,在阮一峰的博客和以下网站都能找到,如果要挖掘微博,Facebook,都是基于OAuth2.0的机制。以下不再阐述

>* Twitter application页面 https://apps.twitter.com/

>* 阮一峰的博客:http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html

Wouter老师的所使用的R包,很多是没有翻译,理解起来有一定的困难。由于在R语言的机制里,使用for这种循环语句被视作效率低下。在批量处理数据是,要用到R自带的apply族函数以及plyr包中的九个函数,虽然效率变高,然而每一句的可读性就降低了,而且不容易被理解。(其实还是本人不太熟悉R语言编程)

针对这种情况,本人尝试了python中的tweepy包来进行API访问的操作,networkx包画图。在写程式的过程中,深刻理解到python代码的易读好写,不过使用纯python程式中,使用了大量的循环结构,因而执行速度会变慢,这是使用python的一大缺点。

荷兰老师的作业问题大概是:以他个人为中心,寻找和他互粉的十个朋友,再在他互粉的十个朋友的朋友之中,找到和他本人也是朋友的用户。这种被他称为snowballing.

个人Python实现代码的程式如下,由于就是自己写着好玩,没有做代码上的结构化,或许哪天心情好再优化代码吧。

```python

import tweepy

auth = tweepy.OAuthHandler('PcYGyfk0Xrsr7RQmgFefFKqcl', 'VdVUtOGBDajhDBULlHm3KCwXnlmxdldGowG9CjCOP3yhDveoEU')

auth.set_access_token('2657160098-4lSShP8CgcOIka2sPBk6iS28Iycl9X6deHc2GP7', '***') #个人的token保密

api = tweepy.API(auth) #实例化api

list_followers = []

for item in tweepy.Cursor(api.followers,id = "vanatteveldt").items(150):

list_followers.append(item.id)

his_follows = api.friends_ids("vanatteveldt")

#这货的所有followers

his_id = api.get_user("vanatteveldt").id

#这货的ID

his_friends = list(set(his_follows) & set(list_followers))

#这货互粉的人

dict_a = {his_id : his_friends[0:10]}

#这货的前十个朋友,twitter API有爬虫限制,爬的太频繁会报错

#建一个字典,字典的key是他的id,字典的values是他朋友的list

his_friends_s = his_friends[0:10]

list_f = []

friends_id = []

for item in his_friends_s:

friends_id = api.friends_ids(item)

list_f.extend(friends_id)

list_b = list(set(his_friends) & set(list_f))

#list_b是这货朋友的朋友,和他也是朋友的人

dict_c = {}

dict_c = {his_id : list_b}

dictMerged=dict_a.copy()

dictMerged.update(dict_c)

#把list_b扩展到上个字典里面

dict_f = {}

dict_d = {}

for item in his_friends_s[0:10]:

friends_id = api.friends_ids(item)

friends_id_list = list(set(friends_id) & set(his_friends))

dict_d = {item:friends_id_list}

dict_e = dict_d.copy()

dict_f.update(dict_d)

#挖掘他朋友的朋友,和他的朋友的对应关系

#将这个对应关系做个大的字典

dictMerged_2 = dictMerged.copy()

dictMerged_2.update(dict_f)

#合并所有字典,字典的keys是他和他的朋友,values是他和他朋友圈里所有的人。

list_total = []

for key,value in dictMerged_2.items():

for i in value:

list_total.append((str(key),str(i)))

#清理数据,把数据变成networkx能够接受的格式

import networkx as nx

import matplotlib.pyplot as plt

G = nx.Graph()

G.add_edges_from(list_total)

nx.draw_spring(G,node_size = 20)

plt.show()

#画图,这一步很偷懒,图上的很多信息,包括标签,Betweenness centrality,以及clustering coefficient,都可以表达出来。

```

最后的图长这个样子。

![](http://p1.bqimg.com/567571/bd643fc83e713723.png)

标签就不打了,事关别人的隐私。

可以看到,这是一个Ego Networks,由老师出发,然后看到了他的朋友圈的一部分。

这个荷兰老师的朋友。都是分群的,裸眼看至少分为三块,而他其中有些重要的朋友,充当群和群之间的连接。据他说,有一部分是他荷兰的同事,有一部分是他的国际同事。其中有几个人也是国内国外通吃的学者。

Betweenness centrality最大的当然是他,还有他的一些充当群与群之间连接朋友也很大。做这个的主要目的,还是想写一个tweepy包的example代码,因为tweepy这个包,似乎也没有国人翻译。

R语言的怎么写?有需求的私信我吧,这个老师没有标CC-BY-3.0在他的工程上。。。不敢乱来啊。

>* tweepy的文档:http://tweepy.readthedocs.io/en/v3.5.0/

>* 这个文件,格式是ipynb的,用jupyter notebook写的,https://github.com/IanHongruZhang/Python-For-Data-COM5508/blob/master/tweepy%2B-3.ipynb

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,667评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,361评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,700评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,027评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,988评论 5 361
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,230评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,705评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,366评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,496评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,405评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,453评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,126评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,725评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,803评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,015评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,514评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,111评论 2 341

推荐阅读更多精彩内容