240 发简信
IP属地:海南
  • 模型融合 组合模型

    场景: 广告排序 文档排序 方案:多指标融合排序 单指标 CTR CVR : 电话、短信、微聊 页面停留时间 融合 类比高考科目的平均分方案 注: CVR、页面停留与CTR有...

  • 文本分类(多分类问题)

    项目场景: 简历,很多蓝领领域分类多,需要根据简历内容,进行智能分类 转转,二手物品类目380-600左右的类目,需要根据内容进行智能分类,提示用户进行选择 工具: 快速文本...

  • 反作弊

    思路: 作弊者都是为了一定的目的,且会不断更换作弊方式。观其行 IP 黑名单 IMEI UserID 高频搜索、高频率点击 重复title / content 虚假低价、虚假...

  • 海量文档的去重

    思路: 文本的向量化表示1.1 simhash在线去重 抽屉原理1.2 word2vec1.3 bagofwords(one-hot; tf-idf;) 海量 向量 相似度计...

  • 120
    瓶颈分析 -- 从样本到训练流程优化

    训练模型优化方案: 时间瓶颈分析: 流程:相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析 场景:每人目录下有多个模...

  • 120
    页面停留时间的特征有效性分析

    需求: “每人可以根据自己的指标对应的特征有效性分析,提取出推荐给产品线在列表页中展示的一些重要特征,引导用户对排序结果的选择、形成正向反馈” 答复: 对于页面停留时间,建议...

  • 页面停留时间 做指标

    首先,统计页面停留时间 然后,将页面停留时间 做回归或者分类(目前,使用分类模型) 注:页面停留时间是连续值,但可以中位数,进行二值化。以A用户为例,访问5个页面页面停留时间...

  • 120
    hive 优化

    hive 已经自动mapjoin优化,将小表载入到内存;不需要再mapjoin 设置。但是skewjoin 还是得手动设置(你可每次都添加此设置,没看见有副作用)参考:htt...

  • rm * 导致的灾难性问题

    问题: 案例1:A实习生不小心用rm * xxx,多了一个空格;将大家工作目录删除了。找运维也没有完全恢复,花费2个月补救案例2:B用户rm * 清理自己文件,不小心,删除了...

  • 设计思想

    优先级:功能--》可读性--》维护-->扩展 --》性能 用设计优化 代替 代码复杂度,降低 维护 可读性: 1.编码规范;2.日志规范 维护: 1.多级配置:(xml,...

  • 单元测试+集成测试+回归测试的设计

    思想: 测试是质量的基础;是维护的基础;是重构的基础eg:一次数据的计算错误,没有测试,造成30万的损失(仅仅算人力成本,不计算线上成本) 测试设计: 单元测试 单元测试样本...

  • 120
    hadoop 分片与分块

    参考:http://blog.csdn.net/dr_guo/article/details/51150278 重点概念: 输入分片(Input Split):在进行map计...

  • 120
    wiki 与 知识创新的螺旋

    现状: 团队2年,文档无汇总;都在各自手中; 文档无更新,陈旧,不完整,误导 经验分享少,无文档化,离职都带走 SECI 知识创新螺旋的模型: 措施: 目标:用 conflu...

  • 以wiki为中心的知识创新 与 沟通管理

    现状: 现在很多的沟通,一直都是以RTX为中心。在RTX上沟通bug,没有mantis,jira等工具——如此,无法统计——无衡量无改进;相同bug重复讨论 有流程的问题,在...

  • 从知识库到知识创新

    法治的根本在于 诛行不诛心。——我尽量保证每次批评都带建议,并愿意承担,不抱怨,不被动。——诛行不诛心,对自己,也是对朋友|同事。从不从态度和动机上评论。以下是建设性的批评,...

  • 120
    分层抽样

    这篇帖子中实现了常见集中抽样方法:【机器学习算法-python实现】采样算法的简单实现 但没有是实现 分层抽样。今天工作中正好用到分层抽样,算作 补充吧。 任务场景:589个...

  • 生活中逐渐沉淀的思考

    1. 思想=>行为=>习惯=>性格=>命运 自己总结,网上也见,但没有点出本质:重复。没一个环节都是花时间的重复,区别仅仅是投入时间的重复。这也印证了其他名言:1万小时,你...

  • anacoda——python 科学计算环境

    现状: 在工作中用python,常遇到环境问题,因为python有各种工具来管理package,百花齐放很好,但对个人开发者来说,太混乱。经常因为python环境的问题,导致...