公众号采集软件

《不用写代码的爬虫课》发布后,我经常被用户询问,web scraper 能不能抓公众号标题,于是,我研究出了 ——

如何生成公众号标题的词云图

后来,又有用户问,web scraper 能不能抓取公众号的文章内容,我当时觉得肯定不行,因为电脑上公众号的文章链接不是常规的 a 标签,我说抓不了。随着对 web scraper 的研究,我发现了 Element attribute selector,于是找到了解决方法,就有了 ——

制作公众号内容词云图

再后来,又有用户问 ——

  • 可不可以抓取公众号文章导出 PDF?
  • 可不可以抓取知乎文章导出 PDF?
  • 可不可以抓取公众号阅读、点赞数?
  • 可不可以统计出文章的高频词?
  • 可不可以……

《不用写代码的爬虫课》使用的是 web scraper,它擅长抓取网页端的文字数据,保存到 excel 里面。如果还需要排版:加粗,标题、图片等,那 web scraper 确实实现不了,这种高级功能需要写代码,才能实现。

我已经很久不写代码了,只能尴尬的说 —— 做不了。

这个事情也就一直搁置,期间我在 github 上也找过一些库,拼凑拼凑也实现了一些功能,但是过程太复杂,需要安装 python,安装第三方库,自己运行,对于不懂技术的朋友,操作起来不够友好。

自从做了《不用写代码的爬虫课》后,我做其他事情,都会拿这个课程作为标准,最基本的 2 点 ——

1 跨平台:windows 和 mac 都能使用。

由于这点,我现在做产品,要么是可以线上运行,不受操作系统限制;要么是研究 2 种方案,让 mac 和 windows 的用户都能使用。

2 操作简单:不需要技术背景,不用写代码。

因为做过技术,我知道如果单纯为了使用一个工具,专门学编程。那么一段时间不用,肯定忘得一干二净。从成本收益角度考虑,对用户不友好。他花费的时间精力,大于这个功能实现的收益。

因此,如果做的产品使用时,对用户的友好度不如 web scraper,我就会觉得太烂,没脸拿出来。

有段时间,我在做知识星球的网站,就整天搜索一些 WordPress 相关的文章,看到一个 WordPress 插件,可以将公众号的文章同步到网站上。

我就想,要把公众号文章同步都网站上,需要先把文章抓下来,这个开发者肯定也研究过这个,于是就加了他微信,果然,插件是和一个软件搭配使用的,这个软件的功能,就是之前 web scraper 解决不了的问题。

更惊喜的是,这个软件支持 windows 和 mac 2 种操作系统,而且功能全部封装好,就和使用 QQ 一样,不需要懂一些技术知识。

后来,我就经常和这个开发者聊天,他的水平很厉害,而且属于全栈类型,擅长敏捷开发。我有时给软件提一些改进需求,他很快就能更新完成。

之前的一篇文章:分析了10个公众号2000w字,原来这些公众号用这个词最多!,就是用他的软件抓取的数据。

昨天,我翻知乎的时候,看到一篇文章,发现这个作者很厉害,就想着把他的文章全部抓下来,方便查看。

我想到软件新开发的一个功能 —— 网页转 PDF,这是我之前给开发者提的需求,于是就试了一下,没想到非常好用,一篇文章一个 PDF,样式和网页一模一样。

这个功能和 web scraper 结合到一起,就是绝配哇!

web scraper 可以轻批量抓取到所有文章链接,然后复制到这个软件里,批量转换成 PDF。

也就是,如果你想查看某个人的知乎所有文章,可以先用 web scraper 将所有文章链接抓取下来,然后用软件转换成 PDF,打印出来,方便查看。

同样的,这种方式也可以用在头条号,简书等等,只要是能在网页上显示的信息,都可以用这个功能。

这个软件,以前我只在知识星球和朋友圈宣传过,因为觉得功能不够成熟,昨天使用了网页转换 PDF 功能后,我觉得,可以放心的向大家介绍了。

下面我正式介绍一下软件功能:

1 导出公众号文章为 PDF

将公众号所有文章,全部导出为 PDF 格式,可以打印出来,方便查看。

PDF 样式例子,大家可以查看:

2 抓取公众号文章标题、时间、链接、阅读、点赞、评论等。

样例:


3 导出文章格式有几种:PDF、excel、html、纯链接

样例:


4 同步公众号文章到 wordpress

5 网页 转 PDF

由于不同网站加载方式不同,不保证全部网站都能导出成功,但后续会不断更新。

6 词频统计

可以统计出一篇内容,用的最多的词语,用的最少的词语

其他问题

1、对网速和电脑配置有要求吗?

没有。

2、需要切换 IP 吗

不用

3、爬一个号要多久?

(1)抓历史文章很快,但是导出比较慢,一篇文章 5 - 10 秒。

(2)抓阅读点赞数,一篇文章 5 - 10 秒。

可以根据文章数大概计算一下。

4、一天能爬多少个?

一天抓 5 个公众号就可以,如果抓的多了,会被禁止访问,隔天恢复正常。

5、使用复杂吗?

软件代码已经封装,有很好的界面。

当然,操作过程不可能是完全自动化,这块不同产品都相同。需要在手机配置代理,不过这也很简单,我们写好了详细的教程,之前很多不是技术背景的朋友,都能轻松完成。

6、可以安装多台电脑吗?

不可以,每个软件会有一个专属码,安装后需要激活,激活后会绑定到安装的电脑上,所以请慎重选择电脑。

重装系统不会影响,可以继续使用。

7、软件需要自己操作,抓取自己指定的公众号,不是自动抓取

8、

三胖哥之前分享过,互联网做产品,如何打造自己的核心竞争力,主要是 3 点:

1、人无我有

提供公众号抓取的产品,市面上有好几家,所以这点,软件优势不大。

2、人有我强

如果大家都提供这个功能,但是我的产品做的比他强,那这就是我的优势。

这个软件有 3 个优势:
1、同时支持 mac 和 windows 系统
2、不需要技术背景,普通人也能轻松使用
3、后期视情况还会更新新功能

这点,几乎已经打败所有人了。

3、人强我贱

「贱」的意思是,如果产品不相上下,那就比别人便宜。

市面上类似产品的价格比较:

  • 公众号 PDF 导出的服务,一般是 30 – 40 元一个公众号。

  • 抓取点赞评论,新榜的回采功能。拿 「caoz 的梦呓」举例,285 元一个公众号。

我们这个软件,不是年费制,不是按次数收费,一次收费,终身有效。

价格:299。

没有试用

文章就是全部功能,不答疑

如果您感兴趣,可以联系我,微信 mingbai62,直接转账就行。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342