240 发简信
IP属地:河南
  • @定阅号 一般是先做特征工程,再做模型选择

    56-caret包学习:模型训练与调优

    1、模型训练与参数优化 在进行建模时,需对模型的参数进行优化,在caret包中其主要函数是train。一旦定义了模型和调优参数值,就应该指定重采样的类型。目前,k折交叉验证重...

  • @学着放下 爬的

    30-tidytext包学习:文本整理与情绪分析

    1、载入数据 2、中文分词 3、使用unnest_tokens()函数整理为tidy结构 4、去除停用词 5、dplyr::count()函数查找频次最高的词 6、根据词频画...

  • @sqdxjtx 是的

    56-caret包学习:模型训练与调优

    1、模型训练与参数优化 在进行建模时,需对模型的参数进行优化,在caret包中其主要函数是train。一旦定义了模型和调优参数值,就应该指定重采样的类型。目前,k折交叉验证重...

  • 120
    113-文本分析之有监督分类

    1、二分类 因为分值相同,所以最终结果多余100个。 图中虚线表示基准值,如果实线在虚线之下,说明模型效果不如随机猜测有效。 2、多分类 与二分类类似,标签多于两个,算法包括...

  • 120
    112-文本分析之基于网络集群识别和主题模型的聚类

    1、 基于网络集群识别的自动化聚类 共现关系聚类,利用社交网络分析(Social Network Analysis, SNA)来构建知识图谱,然后进行集群的识别(Commun...

  • 120
    111-文本分析之基于文本相似度的聚类

    参考:《文本数据挖掘》 1、相似度计算 2、 聚类方法 划分聚类法:k-means聚类法、k-medoids聚类法等层次聚类法:合成法(Agglomerative Clust...

  • 110-文本分析之文本特征提取

    参考:《文本数据挖掘——基于R语言》 1、基本特征提取 基本特征包括:字符的数量、句子的数量、每个词的长度,标点符号的数量等。 ● n_urls:文本中包含的URL的数量。●...

  • 109-文本分析之文本预处理

    参考:《文本数据挖掘——基于R语言》 1、读取数据 随便文本代替即可,包括两列,一列为文档名或编号,一列为文本内容。 2、文本纠错 3、切分 5、扩展缩写 6、词干提取 7、...

  • 108-商业数据分析之关联分析和聚类

    1、关联分析 § 关联分析用于发现隐藏在大型数据集中的有意义的联系。所发现的模式通常用关联规则或频繁项集的形式表示。§ 关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学...

  • 107-商业数据分析之支持向量机和树模型

    1、支持向量机 § 优点• 支持向量机的学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值;• 可用于线性和非线性分类问题;• 可用于高维数据;...

  • 106-商业数据分析之线性回归

    1、商业数据分析简介 分析是一门使用数据构建模型的科学,这些模型可为公司、机构和个人的决策增加价值。 唯一客观的事实是数据。模型的作用就是帮助我们从数据中挖掘有用的信息,以帮...

  • 120
    105-WIN10+Firefox配置RSelenium

    1、安装Firefox 根据系统位数,下载对应最新版本,安装。 https://www.mozilla.org/zh-CN/firefox/new/?redirect_sou...