范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

如何超越图论,探索大数据中的复杂联系?

  导语
  图论是模拟现实世界网络结构的有效工具。但在寻找大数据之间的联系时,图论有其局限性,许多复杂系统不能只用成对的连接来表示。要如何扩展图论,揭示其无法捕捉到的高阶相互作用呢?科学家们发展出超图,甚至引入拓扑学、马尔可夫链、张量等数学工具,来探索广阔的数据世界。
  研究领域:网络,图论,超图,拓扑,马尔可夫链,张量
  1. 图论是不够的
  数学中通常用网络来讨论连接问题,网络由顶点和连接顶点的边组成。至少从18世纪开始,网络就成为模拟现实世界的有效方法。但几十年前,巨大数据集的出现迫使研究人员扩展他们的工具箱,同时也为他们提供了庞大的沙盒来应用新的数学见解。科罗拉多大学博尔德分校的计算机科学家 Josh Grochow 说,从那以后,随着研究人员发展出新的网络模型,可以在大数据的噪音中找到复杂的结构和信号,出现了一个令人兴奋的快速增长期。
  不过,Grochow 和越来越多的研究人员发现, 在寻找大数据之间的联系时,图论有其局限性 。图将每一种关系表示为二元组 (dyad) 或成对的交互。然而, 许多复杂系统不能只用成对的连接来表示 。例如,要建立一个关于养育关系的网络模型时,显然,每个父母都与孩子有联系,但养育关系并不像图论可能模拟的那样,仅仅是这两种联系的总和。模拟类似同辈压力的现象时,也会遇到同样的问题。
  "有很多直观的模型。只有在数据中已经有了群体 (group) 的情况下,同辈压力对社会动力学的影响才能被捕捉到。"德国亚琛工业大学的Leonie Neuhäuser说道。但 二元网络无法捕捉到群体的影响 。
  数学家和计算机科学家使用"高阶相互作用" (higher-order interaction) 这个术语,来描述群体动力学 (而非二元连接) 影响个体行为的复杂方式。从量子力学中的纠缠,到疾病在群体中的传播轨迹,这类数学现象随处可见。例如,如果一个药理学家想要建立一个关于药物间相互作用的模型 [1],图论可能会显示两种药物如何相互作用——但如果是3种、4种药物呢?
  虽然探索这些相互作用的工具并非新鲜事物,但直到最近几年,高维数据集才成为发现的引擎,给数学家和网络科学家带来新想法。这些努力已经产生了有趣的结果,关于图的极限和扩展图论的可能性。
  Grochow说,"现在我们知道网络只是它的影子。" 如果一个数据集有复杂的底层结构,那么将其建模为一个图,可能只会揭示出整个图景的一个有限投影。
  太平洋西北国家实验室 (Pacific Northwest National Laboratory) 的数学家 Emilie Purvine 说:"我们意识到,从数学的角度来看,用来研究事物的数据结构与从数据中看到的现象不太相符。"
  这就是为什么数学家、计算机科学家和其他研究人员越来越关注以多种形式推广图论的方法,以探索高阶现象。在过去几年里,人们提出了大量方法来描述这些相互作用,并在高维数据集中对其进行数学验证。
  对Purvine来说,对高阶相互作用的数学探索就像新维度的映射。她解释说,可以将图想象为一块二维土地,在这个平面上可以建造的三维建筑会非常不同。在地面上看来,它们似乎是一样的,但在上面建造的东西是不同的。
  图1. 超图等工具能够绘制数据点之间的微妙联系,这令太平洋西北国家实验室的 Emilie Purvine 感到兴奋不已。
  图来源:Andrea Starr/太平洋西北国家实验室
  2. 从图到超图
  在寻找高维结构的过程中,数学变得特别模糊和有趣。例如,图的高阶类似物被称为超图 (hypergraph) ,它有"超边" (hyperedge) 而不是边。超边可以连接多个节点,这意味着它可以表示多路 (或多线性) 关系。边可以看作是一条线,而超边可以看作是一个面,就像一块防水布钉在三个或更多地方。
  不过,关于超图与传统的图之间的关系,仍有很多未知。数学家们目前正在研究,图论中的哪些规则也适用于高阶相互作用,这为探索新领域提供了思路。
  超图可以从大数据集中梳理出普通的图无法梳理出的关系 ,为了说明这一点,Purvine 举了科学出版领域的一个简单例子。假设有两个数据集,每个数据集包含三名数学家 (不妨命名为A、B、C) 合著的论文。其中一个数据集包含6篇论文,三对 (AB、AC和BC) 中的每一对都有两篇论文。另一个数据集总共只有两篇论文,每一篇都由三位数学家 (ABC) 共同撰写。
  从任意一个数据集中提取的表示合作关系的图,看起来可能都像一个三角形,表明每个数学家 (3个节点) 都与其他两个合作过 (3个连接) 。Purvine说,如果唯一的问题是谁与谁合作,那就不需要超图。
  但如果有了超图,就可以看到一些不太明显的结构。例如,第一个数据集 (包含6篇论文) 的超图可能有一些超边,表明每个数学家贡献了4篇论文。比较两个数据集的超图可以发现,第一组论文的作者不同,而第二组的作者相同。
  3. 复杂的超图
  这种高阶方法在应用研究中已经被证明是有用的。例如生态学家已经展示,20世纪90年代向黄石国家公园中重新引入狼,如何引发了生物多样性和食物链结构的变化。在最近一篇论文中,Purvine 和同事分析了一个关于病毒感染的生物反应的数据库,使用超图来识别最关键的基因[2]。他们还表明,图论通常提供的成对分析怎样遗漏掉了这些相互作用。Purvine说:"这就是我们从超图中看到的力量,超图超越了图。"
  然而, 从图推广到超图很快就变得复杂起来 。说明这一点的一种方法是,考虑图论中的正则切割问题 (canonical cut problem) ,即:给定图上两个不同的节点,要完全切断这两个节点之间的所有连接,可以切割的最小边数是多少?对于一个给定的图,许多算法可以很容易地找到最佳切割数。
  但是如何切割超图呢?康奈尔大学的数学家Austin Benson说,有很多方法可以将切割的概念推广到超图,但目前还没有一个明确的解决方案,因为超边可以通过多种方式被切断,产生新的节点群。
  最近,Benson和两位同事一起,试图给出切割超图的所有不同方法 [3]。他们的发现暗示存在各种各样的计算复杂性:在某些情况下,问题很容易在多项式时间内解决,这基本上意味着计算机可以在合理的时间内给出解决方案。但在另一些情况下,问题基本上是无法解决的,甚至根本不能确定是否存在一个解决方案。
  Benson说:"仍然有许多悬而未决的问题。有些不可能的结果很有趣,因为你不可能将超图简化成图。从理论方面来说,如果没有把它简化成可以用图找到的东西,就意味着那里有新东西。"
  4. 将拓扑学与图论联系起来
  但超图并不是探索高阶相互作用的唯一方法, 拓扑学提供了一种更直观的方法 。拓扑学是一个数学分支,研究当拉伸、压缩或使物体变形时那些保持不变的几何属性。当拓扑学家研究一个网络时,他们寻找形状、表面和维度。他们可能会注意到,连接两个节点的边是一维的,并追问不同网络中一维物体的性质。或者,他们可能会看到由三个节点连接而成的二维三角形表面,并提出类似的问题。
  拓扑学家称这些结构为单纯复形 (simplicial complex) [4],实际就是通过拓扑的框架来观察超图。机器学习中的神经网络提供了一个很好的例子。神经网络由模拟大脑神经元处理信息的算法驱动。 图神经网络 (Graph neural networks, GNNs) 将事物之间的连接建模为成对连接,擅长推断大数据集中缺失的数据,但就像在其他应用中一样,它们可能遗漏掉由三个或更多节点组成的群体才会产生的相互作用。近年来,计算机科学家发展了 单纯型神经网络 (Simplicial neural networks) [5],使用高阶复形拓展了图神经网络方法,以找到这些高阶相互作用。
  单纯复形将拓扑学与图论联系起来 ,而且像超图一样,它们提出了引人注目的数学问题,将推动未来的研究。例如,在拓扑学中,单纯复形的特殊类型的子集本身也是单纯复形,因此具有相同的性质。如果对超图也是如此,那么子集将包括其中的所有超边——包括所有嵌入的双向边。
  但情况并非总是如此。Purvine说:"我们现在看到的是,数据处于中间地带,不是每一个超边,不是每一个复杂相互作用都是相同大小。你可以有三方互动,却不能有成对互动。"大数据集清楚表明,无论是在生物信号网络,还是同辈压力等社会行为中,群体的影响往往远超个人的影响。
  Purvine  将数据描述为数学三明治的中间部分,上面是拓扑思想,下面是图论的限制 。网络科学家现在面临着为高阶相互作用寻找新规则的挑战。Purvine说,对于数学家来说,"还有了发挥的空间。"
  5. 随机游走和矩阵
  这种发挥创造性的空间也可以延伸到其他工具。Benson说,在图和其他描述数据的工具之间存在各种美妙的联系,"但一旦进入更高阶的环境,就很难建立起这种联系"。
  当尝试考虑高维版本的马尔可夫链时,这一点尤其明显。 马尔可夫链 描述一种多阶段的过程,其中下一阶段只取决于元素当前的位置;研究人员使用马尔可夫链来描述信息、能量甚至金钱在系统中的流动。马尔可夫链最著名的例子也许是 随机游走 (random walk) 。随机游走过程中,每一步由前一步随机决定。随机游走也是一种特定的图:图上的任何游走都可以表示为,沿着边从一个节点移动到另一个节点的序列。
  但要如何从随机游走这样简单的事情延伸出去呢?研究人员转向高阶马尔可夫链,它不是仅仅依赖于当前的位置,而是可以考虑许多之前的状态。这种方法被证明对网络浏览行为和机场交通流等系统建模有用。
  Benson还有其他扩展方法:他和同事最近描述了一种新的随机过程模型 [6], 将高阶马尔可夫链和张量(tensor)这种数学工具结合在一起 。 他们用这种方法对纽约市出租车行驶数据集进行了测试,看能否良好地预测轨迹。结果好坏参半:新模型比一般的马尔可夫链更好地预测了出租车的运动,但两种模型都不是很可靠。
  图2. 康奈尔大学的 Austin Benson 最近利用高阶马尔可夫链和张量,帮助模拟了纽约市的出租车出行。结果比传统的马尔可夫链要好,但仍需改进。| 来源:Austin Benson
  张量本身是研究高阶相互作用的另一种工具,近年来开始发挥重要作用。要理解 张量 ,首先可以思考矩阵,矩阵将数据按照行和列排列;然后想象由矩阵组成的矩阵,或者矩阵不仅有行和列,还有深度或其他维度的数据——这就是张量。如果说矩阵对应音乐中的二重奏,那么张量将包括乐器的所有可能配置。
  对物理学家来说,张量并不新鲜,他们一直用张量来描述一个粒子的不同可能量子态之类的现象,但 网络科学家用这个工具将矩阵的力量扩展到高维数据集中 。数学家用它们解决新的问题。Grochow 用张量来研究同构问题 (isomorphism problem) ,同构问题本质上是追问,如何知道两个物体在一定程度上是否相同。他最近与 Youming Qiao 的合作提供了一种新方法 [7],来识别也许很难或不可能解决的复杂问题。
  6. 什么时候使用超图?
  Benson 关于纽约出租车的模型提出了一个普遍问题: 研究人员什么时候真正需要超图这样的工具? 在许多情况下,如果条件合适,超图将给出与图完全同样类型的预测和分析。"如果某些东西已经封装在网络中,真的有必要对系统进行 (高阶) 建模吗?"亚琛工业大学的 Michael Schaub 问道。
  这取决于数据集。Schaub 说:"对于社交网络,图是一个很好的抽象描述,但社交网络远不止于此。对于高阶系统,有更多的建模方法。"例如,图论可以显示个体之间的联系,但无法捕捉社交媒体上的朋友群体如何影响个体的行为。
  同样的高阶相互作用不会出现在每个数据集上,所以奇特的是, 新理论是受数据驱动的 ——这挑战了最初吸引 Purvine 进入这一领域的底层逻辑。她说:"我喜欢数学是因为它是基于逻辑的,如果沿着正确的方向,就会得到正确的答案。但有时,当你定义一个全新的数学领域时,关于什么是正确的方法会存在主观性。如果没有认识到有多种方式可以做到这一点,就可能把研究引向错误的方向。"
  Grochow 说,最终,这些工具代表了一种自由,不仅允许研究人员更好地理解他们的数据,而且允许数学家和计算机科学家探索充满可能性的新世界。"有无尽的东西可以探索,这既有趣又美丽,并且是许多伟大问题的来源。"
  Stephen Ornes | 作者
  梁金 | 译者
  刘培源 | 审校
  邓一雪 | 编辑
  商务合作及投稿转载 swarma@swarma.org
  搜索公众号:集智俱乐部
  加入"没有围墙的研究所"
  让苹果砸得更猛烈些吧!

新华三智慧城市的中坚力量麦肯锡在其发布的智慧城市报告中提到全世界有超过一半的人口居住于城市当中,预计到2050年,全球城市居民还将新增25亿人。当城市成为经济越来越重要的载体,城市成为价值创造的来源和枢纽华为女性开发者峰会持续为科技女性赋能,共同感受她力量4月28日,HUAWEIWOMENDEVELOPERS2021华为女性开发者峰会在广州站圆满落幕,身处不同领域不同职业发展阶段的科技女性齐聚一堂,共同感受她力量。峰会邀请到了多位优华为开发者大会与34所高校联办,让年轻的创新力量生生不息近年来,伴随着数字经济的发展,产业结构不断优化升级,人工智能和5G技术带来的新一轮技术革命与行业需求逐渐相融,各行业都在面临着新的挑战与变革。不断产生的技术变化对高校的创新人才培养超稳微云台夜色更精彩vivoX60系列影像旗舰正式发布12月29日,vivo专业影像旗舰手机X60系列正式发布。vivoX60系列携手蔡司,将蔡司在光学领域的深厚积淀应用到联合影像系统当中,结合vivo自身在移动产品生产制造方面的经验2399元起,摩托罗拉edge双新机发布亿级像素轻薄影像旗舰2021年8月5日,摩托罗拉于上海玻璃博物馆举办了主题为亿起惊艳的新品手机发布会,正式带来了起售价格分别为2399元与2599元的摩托罗拉edgespro和摩托罗拉edge轻奢版。感觉中国要解决的两个问题宁南山关注风云之声提升思维层次导读我国要解决的两个最大问题一个是国际均衡发展的问题,一个是国内均衡发展的问题。最近的想法,我国要解决的最大的问题,归根结底就是两个,第一个是国际均衡发展的前沿技术用于可穿戴医疗器械的改性聚乙烯醇薄膜获取更多信息,请关注我们日本筑波大学的研究人员研制出疏水的改性聚乙烯醇(hmPVA)薄膜,兼具优异的力学性能皮肤粘附性和低细胞毒性。可穿戴传感器可监测人体的健康状况并提供相关临床数国防工业美国新国防授权法强化对华科技竞争的新举措获取更多信息,请关注我们美国2021财年国防授权法经国会二度投票,否决了特朗普总统的否决,于1月1日正式生效。授权法批准了7535亿国防预算,并将成为拜登政府国防施政的重要纲目。其一代名医胡大一决心allin互联网医疗?原创朱索索京东健康做了什么,让一代名医胡大一决心allin互联网医疗?今年是建国七十周年,在这70年里,中国的医疗机构从9000家发展到100万家以上,床位数从11。9万发展到84互联网诊疗的创新粘滞与京东健康的复杂破局主笔陆星集图片来源网络是前进还是原地踏步?是互联网医疗的一个终极问题。甚至,互联网医疗是真命运还是伪命题,也不乏争论。疫情时期,互联网医疗迎来了一个发展窗口期,但随着疫情稳定,许多关于电梯媒体,这六个已经根深蒂固的认知可能是错的文当下Tech特约主笔陆星集图片来源网络某种意义上说,电梯媒体作为规模庞大但为数不多的线下品牌引爆设施,是一个观察中国商业格局变化的水晶球,几乎每个品牌破圈都是从电梯间投放开始的。
如果,神舟变成了中国龙央视网消息1970年4月24日,中国第一颗人造地球卫星东方红一号发射成功,拉开了中国人进入太空探索宇宙奥秘和平利用太空资源的序幕。脚踏神州大地,仰望满天繁星。中国人自古就有飞天的梦NASA火星直升机拍下毅力号漫游者降落装置的戏剧性鸟瞰图据CNET报道,在火星上着陆是很难的。去年,NASA的毅力号探测器成功地完成了这一过程,但是帮助它安全抵达红色星球表面的设备却面临着更加艰难的命运。美国宇航局的Ingenuity直从天问到天问一号是人类对星空的守望2021年5月15日,天问一号探测器成功着陆火星,到如今已稳定工作一周年。从向天发问到入天探索,人们从未放弃过对宇宙的殷切渴望。数万年前的某个夜晚,一个智人抬头望向天空并驻足欣赏,塑料彻底降解!塑料污染难题迎重大突破每一年,全球生产的塑料达到惊人的3亿吨,但当它们结束使命时,如何处理这些稳定的聚合物成为一道难题。在全球各地,数十亿吨塑料垃圾埋藏在垃圾填埋场里,污染着当地土壤与水源,还能以微塑料美国宇航局正在使用太空激光来测量地球上的树木美国宇航局正在使用太空激光来测量地球上的树木马里兰大学地理科学教授和美国航空航天局的教授正在使用安装在国际空间站上的先进技术,全球生态系统动态调查(GEDI)。通过使用距地球250粒子物理学的未来5自然性相比于研究弦理论或者M理论的紧致化,有些人更喜欢讨论理论的自然性。简单的说,自然性就是指无论什么对称性或者机制解决了等级问题,它们一定会预言存在和标准模型的粒子(特别是那些比较重的高速恒星它们正在逃离银河系,将如何逃离?网友涨知识了天文学家在从银河系到星系际空间的单程旅行中发现了数十颗超高速恒星。如果双星系统太靠近银河系中心的超大质量黑洞,那么黑洞的引力可以捕获一颗恒星,并以100万英里小时或更高的速度将另一关于对木星的探索,我们从未停止过!木星探索人们对木星观测方法随着时间改进,在古代,第一个对这颗行星的详细观测是由伽利略在1610年通过一个小型望远镜所完成的。近代,这个行星被飞过的人造卫星和探测器所拜访。哈伯太空望对火星陨石坑的探究,揭示了火星曾拥有丰富的水源火星上是否存在生命?或者说,火星人是否真的存在?这是人们对于火星最关心的话题了。而科学家们也一直力求在火星上寻找生命的迹象。按照我们在地球上对于生命的认知来看,要想拥有生命,就必须科学新观点热带地质构造活动或引发冰川时代对于诱发冰河世纪的原因,学界有着许多不同的观点,比如海流中断或彗星碰撞。不过总的来说,大家认为二氧化碳的减少,才是最可能的原因。有趣的是,来自麻省理工学院加州大学圣巴巴拉分校以及伯不会PS的宇航局不是设计高手你所不知道的NASA苏禾在你的脑海中,地球是什么样子,宇宙又是怎样的辽阔壮美?那些固定在记忆深处的美丽的蓝色星球照片,以及那些在壮阔的银河系中散发着光芒的星星形象,其实都是由一个神秘的高端拍摄及PS机