共获取贴吧传奇十一人贴子 27423 条数据。
数据保存结构
- thread.csv
为各帖子的一些基本信息。
属性 | 类型 | 备注 |
---|---|---|
id | BIGINT(12) | "http://tieba.baidu.com/p/4778655068" 的ID就是4778655068 |
title | VARCHAR(100) | |
author | VARCHAR(30) | |
reply_num | INT(4) | 回复数量(含楼中楼, 不含1楼) |
good | BOOL | 是否为精品帖 |
- post.csv
为各楼层的一些基本信息,包括1楼。
属性 | 类型 | 备注 |
---|---|---|
id | BIGINT(12) | 楼层也有对应ID |
floor | INT(4) | 楼层编号 |
author | VARCHAR(30) | |
content | TEXT | 楼层内容 |
time | DATETIME | 发布时间 |
comment_num | INT(4) | 楼中楼回复数量 |
thread_id | BIGINT(12) | 楼层的主体帖子ID,外键 |
- comment.csv
楼中楼的一些信息。
属性 | 类型 | 备注 |
---|---|---|
id | BIGINT(12) | 楼中楼也有ID,且和楼层共用 |
author | VARCHAR(30) | |
content | TEXT | 楼中楼内容 |
time | DATETIME | 发布时间 |
post_id | BIGINT(12) | 楼中楼的主体楼层ID,外键 |
面试的时候说进行数据分析,对文本进行分析。看了一下,主要是对精华帖每次发布版本进行征集意见。
回来这里的舍友说可能会是免费的劳动力,就没有分析下去。这几天都在面试,昨天晚上用了接近两个小时的时间把数据爬了下来。
因为没有经验,不确定是不是不再需要这个岗位。
描述来看倾向于数据清洗的工作,不知道为什么布置这个作业,希望得到解答。
数据放到百度云盘,点我这里获取
提取码:gbst