10篇文章 · 15602字 · 3人关注
百度unit API 1. 获取access_token 参考http://ai.baidu.com/docs#/Auth/top 2. uni...
语料 sklearn会对语料自动进行分词,默认以空格拆分,并且默认过滤掉长度为1的token和标点符号;而gensim需要先对语料分词后才能处理...
HMM概念介绍 HMM是关于时序的概率模型,描述一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个可观测的随机序列的过程。...
论文来源 这是中科院自动化研究所郑孙聪等人发表在ACL 2017上的一篇论文,并且被评为ACL2017杰出论文。 简介 实体和关系的联合抽取问题...
翻译自http://xueshu.baidu.com/s?wd=paperuri%3A%28a56c446f2f5e2be9e4679f9563...
原理 所谓自动摘要,就是从文章中自动抽取关键句。何谓关键句?人类的理解是能够概括文章中心的句子,机器的理解只能模拟人类的理解,即拟定一个权重的评...
原理 BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语...
概念 词频-逆文档频度(Term Frequency - Inverse Document Frequency,TF-IDF)技术,是一种用于资...
文集作者