240 发简信
IP属地:北京
  • 有完整的代码吗

    Spark LDA主题模型百万文本数据训练

    前言 LDA是文本挖掘中最常用的主题模型之一,其可以理解为一篇文章有N个主题,每个主题有N个高频词汇,也可以理解为主题是一个bucket,里面装入一堆频率较高的词。本文根据搜...

  • 如果是并行为什么这么慢呀,我调的sklearn的iforest同样的数据,python10分钟不到执行完了,spark执行了80分钟,感觉虽然你说的刚才那个用map算子了,为什么这么慢呀

    异常点检测算法isolation forest的分布式实现

    无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有...

  • 我设置了训练树的棵树为250,看spark ui运行的界面执行了250个job,执行了一个多小时,请教一下大神能不能实现一下模型的并行,就是让树批量并行的执行:smile:

    异常点检测算法isolation forest的分布式实现

    无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有...

  • 看buildForest这个方法,感觉应该是一棵树一棵树生成的,所以比较耗时

    异常点检测算法isolation forest的分布式实现

    无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有...

  • @双er 但是设置成并行的里面的参数感觉应该不是并行的,打比方设置200棵树,看代码的逻辑感觉这200棵树应该是执行200次呀,应该不是这二百棵树每次执行N颗然后执行200/N次

    异常点检测算法isolation forest的分布式实现

    无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有...

  • 这段代码没有实现并行啊,如果设置树的个数和子样本数过多会很耗费时间的,有树的并行的方法吗

    异常点检测算法isolation forest的分布式实现

    无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有...

  • 这段代码没有实现并行啊,如果 设置树的个数和子样本数过多会很耗费时间的,有并行的方法吗

    异常点检测算法isolation forest的分布式实现

    无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有...