针对结巴分词Memory Error的两种解决方式 一、背景 最近,在使用Gensim Word2vec根据特定语料训练近义词模型,模型训练输入语料要求是分词之后的文...
针对结巴分词Memory Error的两种解决方式 一、背景 最近,在使用Gensim Word2vec根据特定语料训练近义词模型,模型训练输入语料要求是分词之后的文...
背景 公司需要根据过去一段时间内每天网站的流量数据,预测未来一段时间每日流量,这样,在流量高峰到来前,可以提前警示相关的运营、运维提前准备。 这是个典型的“时序预测问题”,关...
一、行业现状 随着信息技术的发展,最稀缺的资源不再是信息本身,而是对信息的处理能力。且绝大多数信息表现为文本形式,如何在如此大量且复杂的文本信息中如何获取最有效的信息...
背景 线上服务报大量的Redis,相关依赖这个服务的其他产品线服务也报出同样的日志。 截图线上日志 为什么要写这篇文章 在我的上篇文章中 《记录Redis事故影响API性能-...
背景 线上服务报大量的Redis,相关依赖这个服务的其他产品线服务也报出同样的日志。 截图线上日志image 解决方法: 没有上线/相关请求的服务的流量和QPS都没有增加,故...
1 概述 在历时2个月的不断优化过程中,将数据采集系统的处理能力(kafka一个topic)从2.5万提升到了10万,基本符合对下一次峰值的要求了。 所有日志中,其中广告日志...
我们经常困惑在数据挖掘和报表分析场景中sql不会写,或者因为sql太长以至于可读性降低; 今天我为大家总结了一些Spark SQL中的高阶函数,它们将会对你的业务形成助力,百...
问答系统:通过用户给出的一段描述性文本,通过相似度计算查找与用户输入接近的问题相似推荐:用户在浏览当前文章时,基于内容相似性推荐与本篇文章相似的文章 more_like_th...
搜索是很多内容类app必不可少的功能,而搜索框提示则为用户关键词输入提供了一种引导,一个友好的搜索框提示不仅能提升用户体验,还能帮助用户节省触达商品的时间提升搜索效率。 搜索...
大家应该知道广告有一种计算收益的方式叫CPM,简单讲就是通过不断扩大曝光量来提升广告收益的计算方式;同样这种方式也适用于推荐系统;业务在不断提升,而商品的展示位相对又是比较固...
当论及可观察性时,不同的人往往会给予不同的反应。 更多的人会反问:什么是可观察性? 如何定义可观察性? 如果说服务的可观察性不容易定义,那么我们可以换个词来类比: 可视化, ...
Flink是一款非常适合做流批处理的计算框架,Flink1.10.0 更是完美整合了阿里的BLink、支持了yarn模式下的跨Task资源共享,并强化了对hive的支持,下面...
前言 在开发skywalking nginx探针过程中重点分析了“Skywalking跨进程链路信息传递协议”和“Skywalking链路数据采集协议”。skywalking...
介绍 这是一个基于Netty框架二次封装的高性能Http接口服务,增加了对http请求路由的功能,并简化了操作,目的是将接收到的日志经过简单处理后快速推送到kafka ,服务...