《不用写代码的爬虫课》发布后,我经常被用户询问,web scraper 能不能抓公众号标题,于是,我研究出了 ——
如何生成公众号标题的词云图
后来,又有用户问,web scraper 能不能抓取公众号的文章内容,我当时觉得肯定不行,因为电脑上公众号的文章链接不是常规的 a 标签,我说抓不了。随着对 web scraper 的研究,我发现了 Element attribute selector,于是找到了解决方法,就有了 ——
制作公众号内容词云图
再后来,又有用户问 ——
- 可不可以抓取公众号文章导出 PDF?
- 可不可以抓取知乎文章导出 PDF?
- 可不可以抓取公众号阅读、点赞数?
- 可不可以统计出文章的高频词?
- 可不可以……
《不用写代码的爬虫课》使用的是 web scraper,它擅长抓取网页端的文字数据,保存到 excel 里面。如果还需要排版:加粗,标题、图片等,那 web scraper 确实实现不了,这种高级功能需要写代码,才能实现。
我已经很久不写代码了,只能尴尬的说 —— 做不了。
这个事情也就一直搁置,期间我在 github 上也找过一些库,拼凑拼凑也实现了一些功能,但是过程太复杂,需要安装 python,安装第三方库,自己运行,对于不懂技术的朋友,操作起来不够友好。
自从做了《不用写代码的爬虫课》后,我做其他事情,都会拿这个课程作为标准,最基本的 2 点 ——
1 跨平台:windows 和 mac 都能使用。
由于这点,我现在做产品,要么是可以线上运行,不受操作系统限制;要么是研究 2 种方案,让 mac 和 windows 的用户都能使用。
2 操作简单:不需要技术背景,不用写代码。
因为做过技术,我知道如果单纯为了使用一个工具,专门学编程。那么一段时间不用,肯定忘得一干二净。从成本收益角度考虑,对用户不友好。他花费的时间精力,大于这个功能实现的收益。
因此,如果做的产品使用时,对用户的友好度不如 web scraper,我就会觉得太烂,没脸拿出来。
有段时间,我在做知识星球的网站,就整天搜索一些 WordPress 相关的文章,看到一个 WordPress 插件,可以将公众号的文章同步到网站上。
我就想,要把公众号文章同步都网站上,需要先把文章抓下来,这个开发者肯定也研究过这个,于是就加了他微信,果然,插件是和一个软件搭配使用的,这个软件的功能,就是之前 web scraper 解决不了的问题。
更惊喜的是,这个软件支持 windows 和 mac 2 种操作系统,而且功能全部封装好,就和使用 QQ 一样,不需要懂一些技术知识。
后来,我就经常和这个开发者聊天,他的水平很厉害,而且属于全栈类型,擅长敏捷开发。我有时给软件提一些改进需求,他很快就能更新完成。
之前的一篇文章:分析了10个公众号2000w字,原来这些公众号用这个词最多!,就是用他的软件抓取的数据。
昨天,我翻知乎的时候,看到一篇文章,发现这个作者很厉害,就想着把他的文章全部抓下来,方便查看。
我想到软件新开发的一个功能 —— 网页转 PDF,这是我之前给开发者提的需求,于是就试了一下,没想到非常好用,一篇文章一个 PDF,样式和网页一模一样。
这个功能和 web scraper 结合到一起,就是绝配哇!
web scraper 可以轻批量抓取到所有文章链接,然后复制到这个软件里,批量转换成 PDF。
也就是,如果你想查看某个人的知乎所有文章,可以先用 web scraper 将所有文章链接抓取下来,然后用软件转换成 PDF,打印出来,方便查看。
同样的,这种方式也可以用在头条号,简书等等,只要是能在网页上显示的信息,都可以用这个功能。
这个软件,以前我只在知识星球和朋友圈宣传过,因为觉得功能不够成熟,昨天使用了网页转换 PDF 功能后,我觉得,可以放心的向大家介绍了。
下面我正式介绍一下软件功能:
1 导出公众号文章为 PDF
将公众号所有文章,全部导出为 PDF 格式,可以打印出来,方便查看。
PDF 样式例子,大家可以查看:
2 抓取公众号文章标题、时间、链接、阅读、点赞、评论等。
样例:
3 导出文章格式有几种:PDF、excel、html、纯链接
样例:
4 同步公众号文章到 wordpress
5 网页 转 PDF
由于不同网站加载方式不同,不保证全部网站都能导出成功,但后续会不断更新。
6 词频统计
可以统计出一篇内容,用的最多的词语,用的最少的词语
其他问题
1、对网速和电脑配置有要求吗?
没有。
2、需要切换 IP 吗
不用
3、爬一个号要多久?
(1)抓历史文章很快,但是导出比较慢,一篇文章 5 - 10 秒。
(2)抓阅读点赞数,一篇文章 5 - 10 秒。
可以根据文章数大概计算一下。
4、一天能爬多少个?
一天抓 5 个公众号就可以,如果抓的多了,会被禁止访问,隔天恢复正常。
5、使用复杂吗?
软件代码已经封装,有很好的界面。
当然,操作过程不可能是完全自动化,这块不同产品都相同。需要在手机配置代理,不过这也很简单,我们写好了详细的教程,之前很多不是技术背景的朋友,都能轻松完成。
6、可以安装多台电脑吗?
不可以,每个软件会有一个专属码,安装后需要激活,激活后会绑定到安装的电脑上,所以请慎重选择电脑。
重装系统不会影响,可以继续使用。
7、软件需要自己操作,抓取自己指定的公众号,不是自动抓取
8、
三胖哥之前分享过,互联网做产品,如何打造自己的核心竞争力,主要是 3 点:
1、人无我有
提供公众号抓取的产品,市面上有好几家,所以这点,软件优势不大。
2、人有我强
如果大家都提供这个功能,但是我的产品做的比他强,那这就是我的优势。
这个软件有 3 个优势:
1、同时支持 mac 和 windows 系统
2、不需要技术背景,普通人也能轻松使用
3、后期视情况还会更新新功能
这点,几乎已经打败所有人了。
3、人强我贱
「贱」的意思是,如果产品不相上下,那就比别人便宜。
市面上类似产品的价格比较:
公众号 PDF 导出的服务,一般是 30 – 40 元一个公众号。
抓取点赞评论,新榜的回采功能。拿 「caoz 的梦呓」举例,285 元一个公众号。
我们这个软件,不是年费制,不是按次数收费,一次收费,终身有效。
价格:299。
没有试用
文章就是全部功能,不答疑
如果您感兴趣,可以联系我,微信 mingbai62,直接转账就行。