范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

本届世界杯冠军是谁?我们用ChatGPT和图数据库一起预测

  图片也是用 OpenAI DALL-E 2 生成,并用 DALL-E 2 Outpainting 扩充的
  本文转载自悦数科技,作者古思为。
  蹭 ChatGPT 热度
  最近因为世界杯正在进行,我受到这篇 Cambridge Intelligence的文章启发(在这篇文章中,作者仅仅利用有限的信息量和条件,借助图算法的方法做出了合理的冠军预测),想到可以试着用图数据库 NebulaGraph 玩玩冠军预测,还能顺道科普一波图库技术和图算法。
  本来想着几个小时撸出来一个方案,但很快被数据集的收集工作劝退了,我是实在懒得去 「FIFA 2022 的维基」抓取所需的数据,索性就搁浅、放了几天。
  同时,另一个热潮是上周五 OpenAI 发布了 ChatGPT 3服务,它可以实现各种语言编码。ChatGPT 可实现的复杂任务设计包括:
  ● 随时帮你实现一段指定需求的代码
  ● 模拟任意一个 prompt 界面:shell、python、virtual machine、甚至你创造的语言
  ● 带入给定的人设,和你聊天
  ● 写诗歌、rap、散文
  ● 找出一段代码的 bug
  ● 解释一段复杂的正则表达式的含义
  ChatGPT 的上下文联想力和理解力到了前所未有的程度,以至于所有接触它的人都在讨论新的工作方式:如何掌握让机器帮助我们完成特定任务。
  所以,当我试过让 ChatGPT 帮我写复杂的图数据库查询语句、解释复杂图查询语句的含义、解释一大段 Bison 代码含义之后,我突然意识到:为什么不让 ChatGPT 帮我写好抓取数据的代码呢?
  抓取世界杯数据
  我真试了下 ChatGPT,结果是:完全可以,而且似乎真的很容易。
  整个实现过程,基本上我像是一个代码考试的面试官,或是一个产品经理,提出我的需求,ChatGPT 给出具体的代码实现。我再试着运行代码,找到代码中不合理的地方,指出来并给出建议,ChatGPT 真的能理解我指出的点,并给出相应的修正,像是:
  让chatGPT写抓取世界杯数据的代码
  这一全过程我就不在这里列出来了,不过我把生成的代码和整个讨论的过程都分享在这里,感兴趣的同学可以去看看。
  最终生成的数据是一个 CSV 文件:
  ● 代码生成的文件 world_cup_squads.csv
  ● 手动修改、分开了生日和年龄的列 world_cup_squads_v0.csv
  上面的数据集包含的信息有:球队、小组、编号、位置、球员名字、生日、年龄、参加国际比赛场次、进球数、服役俱乐部。
  Team,Group,No.,Pos.,Player,DOB,Age,Caps,Goals,Club
  Ecuador,A,1,1GK,Hernán Galíndez,(1987-03-30)30 March 1987,35,12,0,Aucas
  Ecuador,A,2,2DF,Félix Torres,(1997-01-11)11 January 1997,25,17,2,Santos Laguna
  Ecuador,A,3,2DF,Piero Hincapié,(2002-01-09)9 January 2002,20,21,1,Bayer Leverkusen
  Ecuador,A,4,2DF,Robert Arboleda,(1991-10-22)22 October 1991,31,33,2,São Paulo
  Ecuador,A,5,3MF,José Cifuentes,(1999-03-12)12 March 1999,23,11,0,Los Angeles FC
  这是手动删除了 CSV 表头的数据集 world_cup_squads_no_headers.csv。
  数据集部分截图
  图方法预测 2022 世界杯图建模
  本文用到了图数据库 NebulaGraph 和可视化图探索工具 NebulaGraph Explorer,你可以在阿里云免费申请半个月的试用( 申请使用云端 NebulaGraph)。
  图建模(Graph Modeling)是把真实世界信息以"点–>边"的图形式去抽象与表示。
  这里,我们把在公共领域获得的信息映射成如下的点与边:
  点:
  ● player(球员)
  ● team(球队)
  ● group(小组)
  ● club(俱乐部)
  边:
  ● groupedin(球队属于哪一小组)
  ● belongto(队员属于国家队)
  ● serve(队员在俱乐部服役)
  而队员的年龄、参加国际场次(caps)、进球数(goals)则很自然作为 player 这一类点的属性。
  下图是这个 schema 在 NebulaGraph Studio/Explorer(后边称 Studio/Explorer) 中的截图:
  schema 在 NebulaGraph Studio/Explorer中的截图
  我们点击右上角的保存后,便能创建一个新的图空间,将这个图建模应用到图空间里。
  这里可以参考下 Explore 草图的文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/db-management/draft/
  导入数据进 NebulaGraph
  有了图建模,我们可以把之前的 CSV 文件(无表头版本)上传到 Studio 或者 Explorer 里,通过点、选关联不同的列到点边中的 vid 和属性:
  来自转载
  完成关联之后,点击导入,就能把整个图导入到 NebulaGraph。成功之后,我们还得到了整个 csv --> Nebula Importer 的关联配置文件:nebula_importer_config_fifa.yml,你可以直接拖拽整个配置,不用自己去配置它了。
  来自转载
  这里可以参考 Explorer 数据导入的文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/db-management/11.import-data/
  数据导入后,我们可以在 schema 界面查看数据统计。可以看到,有 831 名球员参加了 2022 卡塔尔世界杯,他们服役在 295 个不同的俱乐部:
  来自转载
  这里我们用到了 Explorer 的 schema 创建的文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/db-management/10.create-schema/#_6
  探索数据查询数据
  下面,我们试着把所有的数据展示出来看看。
  首先,借助 NebulaGraph Explorer,我用拖拽的方式画出了任意类型的点(TAG)和任意类型点(TAG)之间的边。这里,我们知道所有的点都包含在至少一个边里,所以不会漏掉任何孤立的点。
  来自转载
  让 Explorer 它帮我生成查询的语句。这里,它默认返回 100 条数据(LIMIT 100),我们手动改大一些,将 LIMIT 后面的参数改到 10000,并让它在 Console 里执行。
  来自转载
  初步观察数据
  结果渲染出来是这样子,可以看到结果自然而然地变成一簇簇的模式。
  来自转载
  这些外围、形成的簇多是由不怎么知名的足球俱乐部,和不怎么厉害的国家队的球员组成,因为通常这些俱乐部只有一两个球员参加世界杯,而且他们还集中在一个国家队、地区,所以没有和很多其他球员、国家队产生连接。
  来自转载
  图算法辅助分析
  在我点击了 Explorer 中的两个按钮之后,在浏览器里,我们可以看到整个图已经变成:
  来自转载
  这里可以参考 Explorer 的图算法文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/graph-explorer/graph-algorithm/ 2
  其实,Explorer 这里利用到了两个图算法来分析这里的洞察:
  1. 利用点的出入度,改变它们的显示大小突出重要程度
  2. 利用 Louvain 算法区分点的社区分割
  可以看到红色的大点是鼎鼎大名的巴塞罗那,而它的球员们也被红色标记了。
  预测冠军算法
  为了能充分利用图的魔法(与图上的隐含条件、信息),我的思路是选择一种利用连接进行节点重要程度分析的图算法,找出拥有更高重要性的点,对它们进行全局迭代、排序,从而获得前几名的国家队排名。
  这些方法其实就体现了厉害的球员同时拥有更大的社区、连接度。同时,为了增加强队之间的区分度,我准备把出场率、进球数的信息也考虑进来。
  最终,我的算法是:
  ● 取出所有的 (球员)-服役->(俱乐部) 的关系,过滤其中进球数过少、单场进球过少的球员(以平衡部分弱队的老球员带来的过大影响)
  ● 从过滤后的球员中向外探索,获得国家队
  ● 在以上的子图上运行 Betweenness Centrality 算法,计算节点重要度评分
  算法过程
  首先,我们取出所有进球数超过 10,场均进球超过 0.2 的 (球员)-服役->(俱乐部) 的子图:
  子图截图
  为了方便,我把进球数和出场数也作为了 serve 边上的属性了。
  来自转载
  然后,我们全选图上的所有点,点击左边的工具栏,选择出方向的 belongto 边,向外进行图拓展(遍历),同时选择将拓展得到的新点标记为旗帜的 icon:
  来自转载
  现在,我们获得了最终的子图,我们利用工具栏里的浏览器内的图算法功能,执行 BNC(Betweenness Centrality)
  来自转载
  最后,这个子图变成了这样子:
  来自转载
  预测结果
  最终,我们根据 Betweenness Centrality 的值排序,可以得到最终的获胜球队应该是:巴西 !
  其次是比利时、德国、英格兰、法国、阿根廷,让我们等两个礼拜回来看看预测结果是否准确吧 :D。
  注:排序数据(其中还有非参赛球队的点)
  预测结果
  原文地址:https://discuss.nebula-graph.com.cn/t/topic/11584

上海海港外援奥斯卡未来大概率留在中国新华社南京1月7日电(记者王恒志)中超上海海港队队长奥斯卡7日表示,自己目前会专注帮助球队拿下中国足协杯冠军。至于未来,他大概率会和家人继续留在中国。2022年1月4日,奥斯卡(左汤加去年火山喷发6小时内引发近40万次闪电,全球一半闪电集中在周围楚天都市报极目新闻记者李力力胡秀文2022年1月汤加海底火山喷发,不仅引发了海啸,还向大气喷出大量气体与水蒸气。据美国有线电视新闻网1月8日报道,现在研究人员还发现,在汤加火山喷发国门洞开,越南计划这样来欢迎中国客人,你想到了吗?越南旅游业需要考虑研究并出台通过边境口岸欢迎中国游客的具体机制近期,在没有机制的情况下,将成立团体和俱乐部,就如何接待客人通过协商达成一致。这是广宁省旅游局局长范玉翠先生在1月9日这才是翅根最好吃做法,不焯水不油炸,鲜嫩多汁,比红烧肉还好吃冬日生活打卡季大家好,我是不二,我的小棉袄吵着要吃可乐吃根可乐吃根,好多小朋友都喜欢吃,今天就来分享一个不一样的做法,用我这个做法做出的翅根是相当的嫩,点个赞,接着往下看。可乐翅根喜迎春节,上门送这3款礼酒,酒质高也拿得出手,重点是倍有面子一年走到了尽头,春节的脚步越来越近,团圆夜马上就要到来,相信大家都做好了充足的过年的准备工作吧,今天我们就来聊一聊过年。喜迎春节,上门送这3款礼酒,酒质高也拿得出手,重点是倍有面子武都万象洞冬日游客络绎不绝新甘肃每日甘肃网通讯员后斌玉摄影报道冬日,笔者走进陇南市武都区万象洞景区,在景区看到,游客们每到一处都随手拿起相机和手机照相留念,他们都被万象洞雄奇秀丽的景色所深深吸引,生怕错过这隆冬闲游永乐镇周末闲暇,偶遇入冬后难得的好天气,天高云淡,艳阳高照,夫人提议去周边小镇转转。说实话,西安和咸阳周边几乎所有稍有名气的小镇都去过了,想想找个就近的,重游永乐镇就成了首选。永乐镇古称昭通绥江首个半山酒店开业云南网讯(记者谢毅通讯员罗洪邓雾军)1月1日,昭通市绥江县千年渔村半山酒店开门迎客,这是该县首个建成投用的半山酒店。据悉,千年渔村半山酒店于2022年2月启动建设,总投资4000万观音山上观山水最接近大奖佳对欣赏风景这边独好观音山征联已截稿数日,高境下对屏上出现寥寥无几。只有数幅看似沾边却不沾门的半吊子联在征联大戏前闹台,挺热闹的,好玩儿!我属闹台之流中的C角儿,愿给友们献上新年快乐。之所以不见高对,江苏南京无想山风景区冬景如画来源人民网江苏南京无想山风景区冬景如画江苏南京无想山风景区冬景如画2江苏南京无想山风景区冬景如画3江苏南京无想山风景区冬景如画4江苏南京无想山风景区冬景如画5江苏南京无想山风景区冬非热门景区,今年冬天新晋的6处耍雪地,槽点和亮点并存成都的冬天怎么能没有雪呢?虽然成都市区难得下雪,但成都人对于雪的热爱因子,每到冬季就会被激活。元旦的时候,已经有不少家长带娃出去耍了雪,感受玩雪的乐趣。今年玩雪,有没有小众不远景美
槿汐3次背叛甄嬛,次次致命,甄嬛一次都没有察觉,还一直相信她在影视剧甄嬛传中,甄嬛入宫之后,便一路升级打怪,最终成为了圣母皇太后。而这一路上,甄嬛也付出了极其惨重的代价,她的亲人朋友一个个离她而去。但有这么一个人,一直辅佐她,最终陪她坐上了给你500万,但你在一年之内必须完成下面一个任务,你会怎么选?看来我这刀的质量可不是跟你干的说切断就切断看见这是我家的厕所每次上厕所跟上电梯一样这教练为了你过考试也是碎了心呐,这再不过她都要疯了终于抓到这个大老鼠啦看你这回还怎么嚣张,我想知道苹果iOS16支持的iPhone名单出炉iPhone8Plus之后的型号IT之家6月7日消息,今日,苹果召开WWDC22全球开发者大会,正式发布了全新iOS16系统。现在,苹果已经更新了有关iOS16支持哪些iPhone型号的详细信息。根据苹果官方的说更能跑的电动车电池来了,耐用寿命长,天能超威海宝都出手了请您在阅读前,先点击上面的关注。感谢您的支持,我们将为您带来更多有价值的内容。电池作为电动车的能量储备来源,其重要性不言而喻。目前在电池这一领域,各大品牌都在不断优化升级,希望能为19年前杨博偷走高考试卷,导致无数考生落榜复读,现今苦不堪言文狼叔有料编辑狼叔有料2003年,高考前两天,一位高三考生因一己私欲偷走高考试卷引发了不小轰动。为让高考正常进行,我国不得不在开考前5个小时启用高考备用卷,然而却导致很多学子无法发DNF自选神话透明天空!14周年庆奖励被嫌弃DNF14周年庆奖励,在体验服更新,当玩家们看到所有奖励后,心里都不是滋味,纷纷吐槽,这是最差周年庆,在colg还有玩家发起投票,希望策划能够更改14弹奖励,策划会做出改变吗?地下44张照片看世界美女游泳到印度找男友结婚,斯大林豪华废弃别墅迄今为止发现的最独特的钻石之一,我见过的最令人惊叹的双色钻石,100天然未经处理的南非钻石。1。5克拉。参加过二战的法国巡洋舰Gloire,带有致盲(变形)伪装。这种伪装使敌人无法道德经第五章老子暗藏如何开悟的方法,读明白才能醒悟道德经帛书版。第五章。不仁守中天地不仁,以万物为刍狗。声(圣)人不仁,以百省(姓)为刍狗。天地之间,其犹橐钥舆(与)。虚而不(屈),踵(动)而俞(愈)出。多闻数穷,不若守于中。释义充电8分钟续航200km,5门5座,外观很时尚,轻橙时代VC将上市在去年底的广州车展上,一个名为轻橙时代的全新新能源品牌走进了我们的视线,并发布了一款命名为轻橙时代VC的全新电动小车,虽然是首次亮相,但是据悉新车的外观基本是无限接近量产版本了。近震撼歼35同台竞技谁更强?近日,央视公布了我国空军轰6K与俄罗斯空天军图95MS联合战略巡航的消息,画面中赫然出现了执行护航任务的歼16,这也是歼16首次现身双方的战略巡航行动。联想最近几年来,我国购自俄罗油价调整消息今天6月6日,全国加油站92,95号汽油价格6月6日星期一,端午假期刚刚过完新一轮油价的十个工作日统计,仍停滞在第三个工作日。截至国内第三个工作日统计,综合原油品种变化率为6。21,预测油价上调约269元吨,折合价格上涨约0