兴化吴奇隆 - 简书

IP属地：江苏

TF-IDF实现敏感条目筛选——兴化吴奇隆
笔者近期到总公司跟班学习一段时间，每天收到分公司上报的各类信息，分公司业务相同，互补干涉，笔者需要鉴别分公司上报信息的真实性和重要性。在与总公...

311 0 0
金伟的python学习笔记--分词与词云
python金伟的学习笔记分词技术（jieba分词）安装：pip install jieba 算法介绍：结巴中文分词涉及到的算法包括： (...

426 0 0

爬虫：for语句实现套图大图下载
作为一名小白，初次尝试只创建1个函数，其他全部用for语句来遍历，对于for语句的理解，又再次加深了很多。下面就斗胆和各位大神分享一下，鄙人作为...

0.1 442 0 1
网页爬取文本内容实现翻页等代码的优化
话不多说，先上代码，接下来再一句一句解释：今天这个代码让我在对爬虫代码有了较为清晰的理解，作为一名自学者，每一步很是艰辛，能对着屏幕想半天，这...

802 0 0
python3中re正则表达式之我见
什么是正则表达式？答：是一种通用的小型语言，不仅是python中所独有，只是python中更全面。正则表达式有什么用？答：用来匹配啊，顾名思义，...

325 0 0
兴化吴奇隆之python3.7.2爬虫LXML实现翻页
分两步：一、对网址进行解构化，比如之前的网址是：发现其中的最后一个数字0是有规律的上涨，有的是20、20 的上涨，封顶是327页（后期也可以自...

0.1 465 0 1
python3.7.2爬虫LXML的最简洁代码
以采集流浪地球评论为例：单个采集评论很简单，有时需要用户名+评论，如果直接使用+叠加，那么会提示是list，无法叠加，这里需要进行一个变通，把结...

0.1 861 0 1

python3.7.2爬虫lxml解决GB2312乱码的问题
看了很多文章都无法解决新版3.72爬虫使用LXML抓取中文网页乱码的问题。我结合我自己的一些粗浅的经验谈谈，以及很便捷的解决方法，亲测可用。一...

0.1 2400 0 1