基于规则集,rule-base: XX 是 XXXX 类似于 XXXX 成立于 XX年 XX月规则集合可以设置一些限制, 比如实体的类型。 优点...
命名实体识别 即专有名词,如人名,地名,机构等等 有限集合,基于词库 1.词库+分类词库中无法识别的一些词,可通过相似度,以及分类方法识别例如 ...
在讲隐马模型之前,首先要了解下,啥是马尔可夫模型。 马尔可夫模型 几个条件 当前状态只与前一个状态相关 一个状态到所有状态的转移概率和为1 概率...
前言 最进在看分词源码,发现词库的存储是基于Trie树的数据结构,特此了解了下其原理。Trie树又叫前缀树,字典树。Trie树的用途:字典搜索,...
中期总结 最近在工作中,涉及到多分类问题,原先采取的是逻辑回归策略进行求解,效果还算理想。主要存在以下几个问题: 1.训练的模型较多,one v...
校验二分类特征相关性 1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)...
语言模型 一个语言模型通常构建为字符串的S的概率分布P(s)。比如,每个人100句话中平均大约有一句“你好”,那么“你好”这句话的概率大致为,像...
概述: 乔姆斯基(Noam Chomky)曾经把语言定义为:按照一定规律构成的句子和字符串的有限或无限的集合。也有把语言看成一个数学系统.......
过拟合 正则化特点 都是通过限制权限的大小。L1:让参数变得更稀疏,即使更多的参数变为0,类似特征提取。L2:弱参数平方后变的更小,模型优化中几...