童话说说技术创业美文职业
快好知
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

QQ看点日报内容优化基于BERT的热点召回系统

11月23日 失了心投稿
  基于BERT搭建了看点日报热点召回系统,大大提升了看点日报热点内容量等核心指标,本文将会详解看点日报热点召回系统的总体框架及核心方法。
  一、业务背景
  看点日报旨在为用户提供新热、优质的文章,对热点事件及文章的及时捕捉有着非常强的需求,从海量文章中人工发现热点文章无疑是巨大的运营成本,所以自动发掘热点文章是必要的需求。
  而发掘热点事件的时效性、热点事件的覆盖度、文章聚合成事件的效果、热点事件召回文章的召准率、热点文章的质量等是热点召回系统的核心指标。
  我们通过高频实时爬取大量互联网数据,以及基于BERT模型进行热点事件聚类及文章标题匹配等方式,有效提升我们热点文章召回系统的各项核心指标。
  在热点文章召回量方面,每天召回热点文章的数量从1K上升到1W。每天看点内被启用的文章数量为8W左右,其中有超过10的文章会被我们的热点系统召回作为热点文章。
  在召准情况方面,在找最match标题的测试中,我们基于BERT模型准确率高达98。4,能召回看点中被启用文章的热点事件比例也高达93。5。
  二、WhyBERT?
  在应用BERT之前,我们实现了一版BiLSTMDSSM的模型,但由于准确率不够高被弃用。
  在找最match的标题测试中,BERT与BiLSTMDSSM的效果对比如下:
  BERT的原理在网上已经有很多详细的资料,这里就不再重复,本小节简单描述BERT有哪些强大的优势使它能比LSTM等其它模型强大。
  优势1
  BERT采用pretrainfineturning的训练模式,基于超大量语料进行pretrain,在pretrain过程BERT已经能学好单词、句法、语义等特征,具体任务只需用较少量的数据进行finetruning。
  像我们的任务需要标注语料进行训练,提供超大量的标注数据是难以实现的,而使用BERT则能以较少量的标注数据完成好我们的训练任务。
  优势2
  BERT是双向语言模型,拥有上下文信息。相比GPT(单向语言模型)和ELMO(粗暴的双向语言模型,前向和后向简单相加),BERT有得天独厚的优势。
  优势3
  BERT采用Transformer作为特征提取器,在Transformer诞生之前,RNN占据着NLP领域的主导地位。而相比RNN系列的特征提取器,Transformer具有两点优势:RNN不可并行,BERT可并行;RNN很难捕捉长序列的依赖关系,Transformer可以。
  RNN结构如下,从h〔t1〕到h〔t〕经过激活函数,变化极大,在距离较远的传递过程会产生梯度消失和梯度爆炸。
  为了解决这一问题,又提出LSTM等RNN的变种,其结构如下。
  从下面公式中可以看出,细胞状态从C〔t1〕到C〔t〕只经过线性的变化,不会马上有很大的变化。但当C〔x〕与C〔y〕相距很远时,C〔x〕与C〔y〕也很可能变得完全不相关,C〔x〕的变化可能不会对C〔y〕有太大影响,从而丢失很远的信息。
  而Transformer每个位置都公平地相互做selfattention,selfattention中任意位置之间进行比较,长度都只有1,因此无论序列多长都不会出现信息丢失的现象。
  基于selfattention的Transformer是更强的序列特征提取器,selfattention探索序列内部的关系,对每个位置提取q、k、v向量,通过Attention公式计算当前位置对其他位置的关注程度。
  三、模型训练
  keytermawaremasking
  我们的BERT模型是12层Transformer的中文字模型,为了能更好适应业务数据,我们先以看点内的标题和爬取的新闻标题数据让BERT模型进行自监督学习。
  具体做法是mask一些词语并让bert预测,一些如流量明星、游戏、动漫等看点中高频出现的tag,会以更大的概率被mask掉。先基于业务语料的自监督学习让BERT更熟悉业务数据,再进行语义匹配的fineturning。
  fineturning
  BERT针对语义匹配问题,最常见的网络结构如下图所示,直接输入句子pair,判断pair中的两个句子是否匹配。
  但这种网络结构不利于我们的业务使用,因为每新发现一个热点事件话题,就得用此话题与所有的文章标题组成标题pair再输入到BERT里预测是否属于同一个事件。
  看点内一天被启用的文章量在8w左右,这无疑需要很长的时间去计算,会严重影响热点文章的时效性。为了提高性能,我们采用了DSSM(深度语义匹配模型)的网络结构,如下图所示,DSSM的表示层为BERT模型。
  这种DSSM网络结构的优势在于,BERT可将单个标题进行向量化处理,而不是处理标题pair。这样我们能预先计算BERT标题向量并存储到内存数据库,线上文章召回时可直接读取BERT标题向量进行匹配。
  四、数据构造
  难点
  需要标注数据规模大,且标注难度大
  训练数据需要切合业务,同时保证多样性
  第一期训练数据:自动构建数据集公开数据集
  标注数据问题是NLP模型训练的一个难题,对我们的任务来说也是非常难解决的问题。
  我们的模型训练需要大量标注数据,需标注标题pair是否同属于一个事件。大规模数据进行人工标注的难度非常的大,成本极高,所以在第一期的训练数据中我们应用自动构建数据集的方法。
  我们自动构建的数据格式为‘title1tiltle2’的标题pair,title1是互联网上爬取回来的标题,title2是看点中的文章标题,所有标题pair都是正样本。训练时采用多分类的方法,当前标题pair作为正样本,当前title1与其余标题pair中随机找255个title2组成255个标题pair作为负样本。
  训练数据采用关键词匹配的方式自动产生,具体产生方法如下:
  识别标题中的关键词,并计算关键词的权重。
  用爬取回来的标题与看点内的文章标题做关键词匹配,相似度计算如下:
  当一对标题相似度超过一定阈值时,认为这对标题对可作为正样本。同时保证每个爬取的标题只产生一个正样本数据,并且保证正样本中的爬取的标题与看点中的标题不完全相同。
  为了保证训练数据都为正样本,阈值会设得比较高,经测试验证用此方法产生的正样本正确率能达到98以上。
  训练训练数据中还加入了LCQMC和BQ等中文语义匹配的公开数据集,扩展训练数据的规模和提升词语、句式的多样性。
  第二期训练数据:自动构建数据集公开数据集人工标注数据集
  基于第一期训练数据训练得到第一期BERT模型,我们也得到了第一期的事件话题召回热点文章的结果,并将第一期的结果直接投放到热点选文中使用。感谢看点日报运营团队在热点选文同时,给我们标注事件话题与文章标题是否匹配的数据。
  人工标注数据对我们十分珍贵,为了更加充分利用人工标注的数据,我们采用半自动的方式去增加人工标注的数据。对标注正确的数据通过同义词互换等方法,多产生出几份类似的数据。针对标注为错误数据,人工构造关于该事件话题或文章标题的几份正样本,并且会结合人工标注错误的数据做多分类训练。
  人工标注的数据及其衍生的数据和第一期训练数据结合作为第二期训练数据,重新训练BERT模型。
  五、总体框架
  上图为看点日报热点召回系统的总体架构,为了保障热点召回系统的时效性,每个模块都会每隔10分钟重新计算并更新数据。
  六、系统介绍
  下图为看点日报热点召回系统的界面展示,系统根据热度值从高到低的形式地展示热点榜单,并对事件做分类,且提供分类筛选功能,能及时并清晰呈现全局及每个分类最热的事件,系统实时发现热点事件的数量高达600。通过点击事件,可索引到相关文章。
  七、总结与展望
  看点日报热点召回系统基于BERT模型与大量实时爬虫数据,已能在发掘热点事件的时效性、热点事件的覆盖度、文章聚合成事件的效果、热点事件召回文章的召准率、热点文章的质量等方面有不错的表现。
  热点召回系统衍生的BERT向量具有深度语义特性,能做到无关键词相同的情况下match同一个事件的标题。已经应用到看点日报的多样性,并使看点日报多样性得到很大提升。后续还计划应用到看点日报的曝光去重,专题文章推荐等其他模块。
  目前热点召回系统仍在继续优化,包括数据构造、模型、事件聚类和文章召回的策略,以及热度值的计算方式等各方面。
  目前,该热点召回系统主要是为看点日报提供热点文章,期望日后能为更多产品提供热点内容。
  
投诉 评论 转载

真实项目案例复盘:挖掘需求在沟通中的催化作用本文通过一个真实的案例分享,从沟通到最后的设计效果都进行了全盘复盘,并重点强调了需求在沟通中的催化作用。分享一个工作中的真实案例,觉得可以给大家很多启发,深挖沟通环节对业……交互设计师必懂的尼尔森十大原则尼尔森十大原则作为交互设计师的基础理论知识,各位设计师需要聊熟于心。前段时间在某个群里看到有个小伙伴说,他在面试的时候面试官让他说尼尔森的十大可用性原则。虽说尼尔森……Facebook是如何打造产品的语调框架的?本文介绍了Facebook的产品语调框架系统,如何将几百名内容策略师的工作进行有效的统一,并实现不同环境下的用户情感体验。希望对您有所帮助。译者注:作者将产品文案分为Vo……请注意:输入设计需要这些交互反馈输入作为用户主动与产品进行的交互行为,由于用户需求的不同,输入本身就带有很大的可变性与不可预测性。简简单单的输入行为帮助我们开启了通往产品新世界的大门,然而缺少反馈设计的……5招,教你做好toB客户调研最近笔者在负责一款toB的SaaS产品,在两周的时间内拜访了多家企业级客户,为产品的新业务开展收集了不少意见。本文将分享在此次密集调研客户工作中的总结与反思,希望能提供给toB……2020UX趋势报告:UX设计不只是设计今天的文章来自用户体验设计网站UXdesign。cc,他们致力于观察、分析和研究用户体验设计,每周定期探讨用户体验相关的问题,策划相关专题。年底,UXDesign。cc会发布用……QQ看点日报内容优化基于BERT的热点召回系统基于BERT搭建了看点日报热点召回系统,大大提升了看点日报热点内容量等核心指标,本文将会详解看点日报热点召回系统的总体框架及核心方法。一、业务背景看点日报旨在为用户……如何结合财务设计FMS系统?本文介绍了一些关于结合财务设计FMS系统的设计要点和可供参考的经验分享。前言前面介绍的财务进销存系统都是基于功能模块进行考虑的,包括应收、应付、财务报表、凭证等主要……2019年趋势回顾:ICON设计的11个亮点2019年已经所剩不多了,在这过去的一年内,图标设计出现了什么新动向和新热点?本篇文章中,作者盘点回顾了2019图标设计出现的11个亮点趋势,一起来看看。图标icon可能……10种方法制作个性化用户界面我们可以构建更具包容性的产品,创建一个满足大多数人需求的基线体验,然后创建偏好设置来满足您的边缘案例用户的需求。作为设计师,在设计界面时,我们经常对用户做很多假设。我们不……评论区设计策略让你的评论FUN起来本文主要从审核机制、排序算法、评论运营、个性化推荐切入,思考如何让评论区更有趣。对一个互联网产品来说,好的评论运营逻辑可以营造强大的社区氛围,助力增长,如网易云音乐、抖音……如何提供设计反馈?与你分享5个技巧这是一篇关于设计反馈和团队管理的文章,更多的聚焦在如何更好的在工作中沟通协作,以及如何激发团队的潜力,希望会对大家的工作有所帮助。最近思考最多的一个主题是设计反馈。在我的……
纯干货:为什么越来越多的社群会死掉?产品福利:麦肯锡解决问题七步法,纯干货!产品经理变需求就该死么?产品经理如何成长产品经理市场分析方法1。0产品实习生的自我修养沟通、目标、完美主义产品流程中应该注意的事项文案技巧:大众情人与一流文案为什么是产品经理?用户研究漫谈产品经理进阶技能:个性化推荐,让信息更有价值如何做需求分析
明星亲自磕过的CP黄子韬爬墙太快,蔡徐坤在线吃瓜甘蔗留种贮藏的技巧智能锁竟然能用脚趾打开?我开始担心智能锁的安全了妈妈我想对您说11年父母爱情开拍,当编剧看到郭涛气得跳脚郭涛太丑,必须换掉鱼一定有鱼鳔吗鱼鳔有什么作用针灸大成的厚与薄十一井陉道中遇雪属于限制人身自由的行政处罚是否只能由法律设立?产后如何恢复身材?杭州二日游300字作文2021最权威手机评选揭晓,国产手机囊括3项最佳,华为再遭无

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界