240 发简信
IP属地:湖北
  • 感谢作者!帮我解决了两个死活找不到原因的问题

    使用jieba和gensim模块判断文本相似度

    本文重新整理的更详细规范的介绍见这里 判断文本的相似度在很多地方很有用,比如在爬虫中判断多篇已爬取的文章是否相似,只对不同文章进一步处理可以大大提高效率。在Python中,可...

  • 使用jieba和gensim模块判断文本相似度

    本文重新整理的更详细规范的介绍见这里 判断文本的相似度在很多地方很有用,比如在爬虫中判断多篇已爬取的文章是否相似,只对不同文章进一步处理可以大大提高效率。在Python中,可...

  • 120
    【DL笔记6】从此明白了卷积神经网络(CNN)

    初识卷积神经网络(CNN) 从今天起,正式开始讲解卷积神经网络。这是一种曾经让我无论如何也无法弄明白的东西,主要是名字就太“高级”了,网上的各种各样的文章来介绍“什么是卷积”...

  • 120
    愿每一个想成为王妃的你,都能成为自己的王凯

    名人屋十年前的某个凡人,就是十年后的那个名人 有一天,一个从小喜欢表演的男生,高中刚毕业就被父母安排进了书店工作; 有一天,男生偷着去试镜,被导演问毕业于哪个艺术类大学,他无...

  • 120
    利用API获取豆瓣即将上映的20条电影信息

    利用爬虫爬取网页数据主要有两种方式:第一种是直接爬取HTML网页内容,它的好处是可以自定义爬取的内容,弊端是很多时候这种行为是被网站禁止的,并且需要根据网站的结构来编写代码。...

  • Python分词组件——jieba使用报告

    一、安装jiaba jieba库的下载地址(支持Python2和Python3):https://github.com/fxsjy/jieba下载jieba包后,打开命令行,...

  • 120
    Apache Tika学习使用报告

    一、Tika 简介 1. 基本介绍 Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析...

  • 120
    scrapy爬取豆瓣图书TOP250实验报告

    一、实验目的 实验对象:豆瓣图书 Top 250 (https://book.douban.com/top250)实验内容:用scrapy框架编写爬虫,尝试用xpath和cs...

  • 亚马逊 robots.txt 文件解析

    一、robots协议 robots协议,也称爬虫协议,网站会在 robots.txt 文件中声明哪些内容可以爬取,哪些内容不能爬取。robots.txt 放在网站根目录下。举...

  • 安装使用xshell、xftp及升级腾讯云centos7.2下python到2.7.14版本

    一. 安装使用xshell和xftp 1. 软件获取 这两个软件官方均有供个人使用的免费版本,下载时需要填写自己的邮箱与姓名,然后下载链接会发送到填写的邮箱里面。官方下载地址...