240 发简信
IP属地:上海
  • 模型融合 组合模型

    场景: 广告排序 文档排序 方案:多指标融合排序 单指标 CTR CVR : 电话、短信、微聊 页面停留时间 融合 类比高考科目的平均分方案 注...

  • 文本分类(多分类问题)

    项目场景: 简历,很多蓝领领域分类多,需要根据简历内容,进行智能分类 转转,二手物品类目380-600左右的类目,需要根据内容进行智能分类,提示...

  • 反作弊

    思路: 作弊者都是为了一定的目的,且会不断更换作弊方式。观其行 IP 黑名单 IMEI UserID 高频搜索、高频率点击 重复title / ...

  • 海量文档的去重

    思路: 文本的向量化表示1.1 simhash在线去重 抽屉原理1.2 word2vec1.3 bagofwords(one-hot; tf-i...

  • Resize,w 360,h 240
    瓶颈分析 -- 从样本到训练流程优化

    训练模型优化方案: 时间瓶颈分析: 流程:相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性...

  • Resize,w 360,h 240
    页面停留时间的特征有效性分析

    需求: “每人可以根据自己的指标对应的特征有效性分析,提取出推荐给产品线在列表页中展示的一些重要特征,引导用户对排序结果的选择、形成正向反馈” ...

  • 页面停留时间 做指标

    首先,统计页面停留时间 然后,将页面停留时间 做回归或者分类(目前,使用分类模型) 注:页面停留时间是连续值,但可以中位数,进行二值化。以A用户...

  • Resize,w 360,h 240
    hive 优化

    hive 已经自动mapjoin优化,将小表载入到内存;不需要再mapjoin 设置。但是skewjoin 还是得手动设置(你可每次都添加此设置...

  • rm * 导致的灾难性问题

    问题: 案例1:A实习生不小心用rm * xxx,多了一个空格;将大家工作目录删除了。找运维也没有完全恢复,花费2个月补救案例2:B用户rm *...