IP属地:云南
1. 数据处理 2. 随机筛选出5000 个样本作为验证集 3. 训练模型 4. 预测验证集 5. 预测测试集 6. 未完成的事情 没有做参数优...
1. 首先将训练集拆分成两份 一份19万行用作训练,一份1万行用作验证模型效果 2. 根据训练集得到对应的TFIDF值 3. 根据训练集的fit...
1. 使用Pandas读取赛题数据 使用UE打开训练集的文本,了解数据的基本情况 然后直接上pandas 2. 认识数据 2.1 看下每篇文章的...
1. 赛题理解 赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 注册比赛之后, 可以看到比赛方提供了三个文件...