范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

1亿行为数据,知乎清华开放国内最大个性化推荐实际交互数据集

  机器之心专栏
  知乎、清华大学
  知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集「ZhihuRec」。该数据集包含了知乎上的 1 亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。
  数据在机器学习中扮演着重要角色。在推荐系统的研究中,对用户建模来说,用户行为和附带信息都非常有帮助。因此,大规模真实场景下的用户丰富行为是非常有用的数据。但是,这些数据很难获取,因为这种数据大部分都被公司拥有并且保护起来。
  本文中, 知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集ZhihuRec 。该数据集中的曝光数接近 1 亿,并具有目前为止最丰富的上下文信息,覆盖 10 天、79.8 万用户、16.5 万个问题、55.4 万个回答、24 万个作者、7 万话题以及 50.1 万用户搜索行为日志。它可以被用于各种推荐方法,如协同过滤、基于内容的推荐、基于序列的推荐、知识增强的推荐和混合推荐等。此外,由于 ZhihuRec 数据集中信息丰富,不仅可以将它应用于推荐研究,还可以将它应用于用户建模(如性别预测、用户兴趣预测)、跨平台应用(查询平台和推荐平台)等有趣的课题。据了解,这是用于个性化推荐的最大的实际交互数据集。
  总结来说 ZhihuRec 数据集主要具有三个优点: ZhihuRec 是最大的公共推荐数据集,包含从知乎收集的各种用户交互,该数据集是开源的。 ZhihuRec 数据集提供了丰富的内容信息,包括问题、回答、个人资料、话题。特别是用户的搜索日志也会显示出来,这些以前没有包含过。 除 top-N 推荐、上下文感知推荐等推荐研究外,ZhihuRec 还可用于各种研究领域,例如用户建模、集成搜索和推荐研究。
  论文地址:https://arxiv.org/pdf/2106.06467.pdf 数据集地址:https://github.com/THUIR/ZhihuRec-Dataset
  数据集简介
  下表 1 展示了 ZhihuRec 与其他一些经典推荐数据集之间的差异,结果表明,ZhihuRec 数据集比传统推荐数据集包含更多的信息和类型,如文本、用户画像、物品属性、时间戳等。
  表格中 O 表示 ZhihuRec 数据集中虽然没有记录用户具体的评分 / 收藏行为,但是记录了用户的收藏回答总量。
  下图给出了 ZhihuRec 数据集的构建过程,可以看出数据集包含的上下文信息有用户对回答的点击和浏览行为日志、用户查询词记录、用户画像信息、答案属性信息、问题属性信息、作者画像信息和话题属性等各类信息,以及每个用户最多 20 个最近查询关键词。
  表 2 显示了 ZhihuRec 中每个印象记录的字段及其说明。根据答案的读取时间,所有用户的点击和未点击的印象都记录在数据集中。
  表 3 显示了 ZhihuRec 数据集中的每个搜索记录的字段及其说明。所有用户的搜索关键字和时间戳都记录在数据集中。
  由于 ZhihuRec 数据集包含约 1 亿个用户 - 答案交互,因此也称为 Zhihu100M。此外,还构造了两个从 Zhihu100M 数据集中随机抽取的较小数据集,称为 Zhihu20M 和 Zhihu1M,以满足各种应用需求。它们包含大约 2000 万和 1M 的用户答案日志,可以将其视为中等大小的数据集和相对较小的数据集。表 4 中显示了它们的一些统计信息。
  用户画像和属性都记录在 ZhihuRec 中。该数据集保留用户、问题、回答和作者的内容信息。表 5 显示了用户的属性,表 6 显示了回答的属性,表 7 显示了问题的属性,表 8 显示了作者的属性。
  用户的属性。
  回答的属性。
  问题的属性。
  作者的属性。
  如表中所示,关于用户、问题、回答和作者的功能十分丰富,可以对用户和内容(回答)进行全面建模。问题属性中没有 authorID,原因是随着时间的推移,许多人可以修改知乎问答社区中的问题。
  请注意,authorID 与 userID 是不同的,这意味着如果一个人在数据集中同时扮演用户和作者的角色,则其 authorID 和 userID 是不同的,因为发布者和阅读者是不同的角色。
  每个用户或问题还具有几个话题(从 0 到 70,308),由用户本人(用户话题)或系统用户(问题话题,所有用户都可以对其进行编辑)标记。它提供了一种更明确的方式来帮助了解用户的兴趣和问题的类型,这对于推荐也很有用。每个话题都有一个话题 ID 和话题描述作为其属性,话题 ID 进行了散列处理,并且话题描述中的所有上下文都已转换为数字编号。
  数据集隐私保护
  由于整个数据集都是从真实场景中的真实用户那里收集的,因此有必要保护用户隐私。因此,并非用户的所有内容信息都被释放。
  ZhihuRec 数据集中的所有 ID 均被匿名和散列处理。所有文本信息(例如问题的标题、回答的内容、话题的描述和搜索关键字)均被分解为单词,并且所有单词均被数字替换。用户画像中的所有文本功能(例如性别、注册类型、登录频率、省、城市)也都已转换为数字号码。因此,无法从 ZhihuRec 数据集中获取用户个人资料和内容属性的详细信息。
  ZhihuRec 数据集删除了用户的出生日期、工作经历、教育经历等敏感信息。用户的网络信息 (如 IP 地址) 也已被删除。用户对回答的显式反馈如赞同、感谢、收藏、评论、反对和举报等都被隐藏,ZhihuRec 数据集只保存了相关的总的统计量,如用户总的赞同数、收藏数、评论数、反对数和举报数等。
  数据集统计特性
  图 2 显示了用户注册时间的分布;可以发现,随着时间的推移,每月注册用户的数量逐渐增加。
  图 3 显示了每个话题的用户分布数:
  图 4 显示了每个话题下的问题分布数:
  图 5 显示了每个话题下的回答分布数。它显示大多数用户关注的话题少于 100 个,大多数回答和问题绑定不止一个话题。
  图 6 显示了 ZhihuRec 数据集中每个搜索的用户分布数量。大多数用户的搜索少于 3 个,并且分布显示出类似对数的衰减。但是,有许多用户有 20 个搜索,原因是研究者在此处进行了截断(最多将保留该用户的 20 个最近搜索关键字)。
  数据集在多项推荐任务中的应用
  topN 推荐
  用户的交互日志包含在 ZhihuRec 数据集中;从推荐系统的角度来看,可以将用户在日志中交互的回答视为商品。该信息适用于协同过滤,其中包含通用的 topN 推荐的主要方法。为了评估 ZhihuRec 数据集的性能,在 Zhihu1M 数据集中应用了 5 种推荐算法。 Pop:此基准始终会推荐训练集中最受欢迎的回答(用户点击)。 ItemKNN:此方法选择前 K 个最近邻,并使用其信息进行预测。 BPR:此方法应用贝叶斯个性化排名目标函数来优化矩阵分解。  LightGCN:此方法使用图卷积网络来增强协同过滤的性能。 ENMF:使用高效神经矩阵分解的非采样神经网络推荐模型。
  实验已使用 RecBole 完成。对于所有方法,用户和回答的 embedding 大小为 64。ItemKNN 的邻居数为 100。采用留一法(Leave-one-out)。实验结果如表 9 所示:
  序列推荐
  序列推荐在改善许多推荐任务的性能方面起着重要作用,因为它们可以揭示用户的动态偏好,这也是前 N 个推荐。通常,序列推荐与传统推荐之间的区别在于序列推荐需要清晰的时间信息。它使用用户交互的商品序列作为输入,并根据交互时间戳对商品进行排序。推荐系统中对商品的展示也有排序。由于所有用户的交互都记录在 ZhihuRec 数据集中,因此本文已在 Zhihu1M 数据集中应用了四个最新的序列模型(FPMC 、GRU4Rec、NARM 、SASRec)。 FPMC:此方法基于基础马尔可夫链上的个性化过渡图,并结合了 MF。  GRU4Rec:基于会话的模型,使用 RNN 捕获序列依赖关系并进行预测。  NARM:此方法使用具有注意力机制的混合编码器来捕获用户的意图。  SASRec:采用自注意力层来捕获动态用户交互序列的顺序模型。
  实验已使用 RecBole 完成。对于所有方法,用户和回答的 embedding 大小为 64。使用留一法。实验结果如表 10 所示:
  上下文感知推荐
  上下文感知推荐模型使用来自用户、商品和上下文来增强模型性能。上下文感知推荐结合了不同推荐模型的优势,例如协同过滤,基于内容的模型以获得更好的推荐;该数据集非常适合上下文感知推荐。如点击预测任务中通常描述的那样,一个用户点击一个回答的交互标记为 1,而该用户有被展示但不点击一个回答的交互标记为 0。本文在 Zhihu1M 数据集中应用了 4 个最新的上下文感知模型。 Wide&Deep :由 Google 提出,它结合了深度神经网络和线性模型,并广泛用于实际场景中。 NFM :使用双向交互层对二阶特征交互进行建模的神经模型。 ACCM:这是一个注意力协同和内容模型,它将内容和用户交互结合在一起。 CC-CC:此方法使用自适应 "特征采样" 策略。
  实验已使用 CC-CC 工具箱完成。所有方法的用户和回答的 embedding 大小为 64。对于每个用户,最后一次点击和最后一次点击之后的展示均被视为测试集,最后一次点击之前的点击以及最后一次点击之前的点击和最后一次点击之间发生的展示被视为验证集,其他被视为训练集。实验结果如表 11 所示:
  跨场景推荐
  如上所述,用户的搜索关键字也包含在 ZhihuRec 数据集中;搜索使用的关键词可以视为其明确的需求信息。虽然以前的推荐系统的研究主要集中于从用户的隐式反馈中学习,但如果更多的研究人员尝试整合搜索和推荐,将很有帮助,这将有助于更好地了解用户的信息需求并提供更好的信息服务。该数据集由于其丰富的搜索和推荐日志可以应用于此类研究。
  基于负反馈的推荐
  当用户与回答进行交互时,他们会给答案以正反馈和负反馈。正面反馈是指用户对回答进行点击、收藏、点赞等。负反馈则是用户删除、跳过回答等。传统的推荐数据集存在缺乏负反馈问题。ZhihuRec 数据集同时记录了用户的正反馈和负反馈。利用用户的负向偏好可以提高推荐质量,该数据集适用于基于负反馈的推荐模型。
  由于 ZhihuRec 数据集具备了丰富的上下文信息,它还可以被用在推荐之外的任务上,例如识别最有价值的回答者、识别优质回答等。
  结论
  本文介绍了来自在线知识共享社区的一个新数据集,旨在为个性化推荐做出贡献。据了解,这是一个包含详细信息的最大的公开数据集,包括用户、内容、行为、作者、话题以及包含搜索和对推荐结果是否点击的用户交互日志。该研究呈现了有关最新算法在该数据集上的实验结果。该数据集可用于以下方面的研究:上下文感知推荐、序列推荐、利用负反馈的推荐、集成搜索和推荐以及用户画像和内容属性的建模。该数据集是公开可用的,并且在交互日志和搜索关键字中包含大量信息,适合跨平台研究。

真空系统设计(真空测量技术)2。6。5。1概述在真空测量实践中,要用真空规比较精确地去测量被研究的稀薄气体压力,以达到预期的目的,必须考虑下列问题(1)要对被研究的对象有一般性的了解1)是非可凝的气体还是可凝又到一年毕业季!你会选择真空技术及设备专业吗?高考成绩一出来,相信大多数家长就开始头疼我家孩子要报哪个专业呢?哪个专业好,更有前景呢?那么,如果是你,你会考虑真空技术及设备专业吗?看到这里,你可能想问这是个什么专业呢?这个专业吉林中公事业单位光学原理考点剖析一光的反射(1)含义一种光学现象。指光在传播到不同物质时,在分界面上改变传播方向又返回原来物质中的现象。光遇到水面玻璃以及其他许多物体的表面都会发生反射。当光在两种物质分界面上改变高智商真的能遗传吗?智商受什么因素影响?在日常生活中,总能听见有人说智商高低决定了你聪不聪明,情商的高低可以决定你的处世态度。爱因斯坦的智商是160左右,而所谓的智商在140以上则是天才,普通的人则是在100到70左右徘中国有多少个蛇岛,为何大连蛇岛上的蛇越来越凶猛?全球数以万计的岛屿中,大约有7000多个因蛇而命名的蛇岛,我国比较出名的蛇岛有四川云南交界的泸沽湖蛇岛辽宁大连蛇岛河南信阳南湾水库蛇岛钓鱼岛列屿蛇岛等。其中最为有名的当属中国大连蛇年轻人,留在家乡还是外出打工?人生是分阶段在过,你在什么阶段就办什么样的事情,所以年轻人,不要太过浮躁!图片来源于网络有人说在出生地赚不到钱,然后想外出打工,想出去闯一闯。其实外面的月亮并不比家乡的圆,只因为你雅之雷德Yazreid将参加本周日开幕的华南国际口腔展展会名称华南国际口腔展展馆广州中国进出口商品交易会展馆地址广州市海珠区新港东路980号展会时间2021年5月1013日雅之雷德展位号14。3L01雅之雷德Yazreid专注于医疗负有哪些城市景观堪称惊艳?作者美团民宿链接httpswww。zhihu。comquestion25150607answer807043796来源知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请鸟窝一般都是露天朝上的,遇到下雨怎么办?原来它们早有对策在农村长大的孩子都很熟悉鸟窝,一些鸟喜欢在森林和山上筑巢,还有一些鸟喜欢在人类居住的地方筑巢,比如屋檐下的燕子。当然不同的鸟儿会有不同的生存方式,也拥有着自己独特的筑巢方法,其中最为什么现在不再提克隆人?看完克隆羊多莉的一生,或许你就会明白随着科学技术水平的提高,人们开始了对一些未知领域的探索,通过科学家们的不断努力,人类实现了许多从前无法实现的奇特构想,比如克隆技术。提到克隆,想必大家都不陌生,这是一个十分困难的技真空系统设计(真空中气体的流动状态及判别)真空系统是指由真空泵真空计及各种零件通过管道以适当的方式联接,组合成能达到一定真空度要求的装置。真空系统的基本要求是都有哪些?4。1气体流动的基本状态当真空管道中的气体内部存在压力
学党史丨新疆军区组建生产建设兵团百年瞬间1950年78月间,王震(左二)陶峙岳(中)等研究石河子垦区规划1954年8月6日,中央军委总参谋部批复同意第二十二兵团部与新疆军区生产管理部合并后改用生产建设兵团的名称。美国是否正在进入第四波COVID19?在美国被第一波COVID19被猛烈抨击一年后,公共卫生专家担心美国将走向第四波大高峰。在周一的白宫冠状病毒简报会上,美国疾病控制和预防中心新任主任罗谢尔瓦伦斯基(RochelleW你不知道的秘密,中国娱乐业的真实现状继青春与你3的牛奶浪费丑闻之后,中国娱乐业又爆出一颗炸弹,据透露,明星们在拍摄综艺节目时,平均每天可领取1500至2000元的伙食补贴。这种丰厚的报酬激怒了许多中国网民,他们表示,卷土重来?美国连续两天记录了1000多人死亡在奥塞奇海滩的一家医院里,一名儿童在玻璃屏障后面探望感染了CORONA的母亲据统计,美国今天记录了1263例冠状病毒死亡病例,连续两天死亡病例超过千人。相当于每小时约42例死亡,而美国国务院寻找一瓶威士忌据媒体报道,美国政府正在调查日本送给美国前国务卿迈克蓬佩奥的一瓶价值5800美元的威士忌的失踪案。报道说,日本官员于2019年6月将这瓶价值5800美元的威士忌交给了美国国务院。按各大资本加入社区团购烧钱大战,1分钱买菜?什么神仙操作?食盐1分钱一袋青菜9毛钱一份橙子1分钱一个从瓜果蔬菜到肉禽蛋奶,应有尽有。对的你没看错价格,这就是最近正站在风口上的社区团购,号称是中国零售最后一战。今年以来,几个互联网巨头都派出她曾花百万把自己整成神仙姐姐刘亦菲,多年过去的她过成这样在娱乐圈长得好看的明星有很多,在娱乐圈从不缺乏长得好看的女星。但,要说起又要长得好看,又是纯天然的,还要有独特气质性的明星,一双手都数的过来。在这一双手都数的过来的女明星当中,刘亦水陆画中的道教神仙水陆画是中国宗教艺术当中,一种非常重要的表现形式。它是随着水陆法会的产生而出现的,因应用于水陆法会而得名。文献记载,水陆法会的图像始见于十世纪的晚唐五代。宋以前以壁画体裁居多,宋以俄罗斯航天真的日薄西山了?4艘飞船同时亮相,火箭工厂一片繁忙说到俄罗斯航天,大家都知道它有着辉煌的历史和无数高光时刻,但随着其国内经济的下滑,近些年似乎越来越疲软,比如前段时间发射科学号实验舱对接国际空间站,真是一波三折,虽然最终还是成功了诗人李白其实是道士,李白与道教的渊源李白是盛唐时期的一位天才诗人,一生狂傲不羁,飘逸洒脱,留下很多伟大诗作,其实李白是位受道教思想影响颇浓的诗人,常以谪仙人自居,历代歌咏李白的诗篇亦往往将其与仙联系起来。李白的一生,能带给我们好运的星云三叶星云美丽的三叶星云M20(图源自NASA)美丽的三叶星云是很独特的天体。又名为M20的三叶星云,位于星云密布的人马座方向,约5,000光年远之处。三叶星云是银河盘面的恒星形成区之一,同