范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

GraphEmbedding之LINE

  LINE(Large-scale Information Network Embedding)由Jian Tang等于2015年提出的,该方法提出了一种可以应用在任意边类型的大型网络上的节点嵌入算法,并通过考虑first-order proximity(local structure)和second-order proximity(global structure)实现网络嵌入。总体来说,相比较之前的Graph/Network Embedding方法,LINE具有如下好处:适用于任意类型的网络,这里的任意类型在该文中主要是指边的权重和方向是任意:有向,无向,有权重,无权重。(LINE并没有考虑不同节点类型和边类型下的异构网络,有一定的局限性。也就有了后来针对heterogeneous和homogeneous网络的研究)LINE提出了一种边采样(edge-sampling)算法来提升和优化目标函数,从而克服了传统的随机梯度下降(stochastic gradient decent)的局限性。模型描述(Model Description)
    在具体介绍LINE算法的详细过程前,还需要了解两个概念:First-order Proximity在LINE中用于表征local structure,具体反映在网络中就是任意两个顶点之间的距离,即如果两个顶点在图中有一条边,那么这个边上的权重就是这两个顶点之间的First-order Proximity,如果是无权重图,则该First-order Proximity就是1,如果两个顶点之间没有边之间相连,则为0。在现实中的表现就是,如果两个顶点相邻,且权重很大,那么这两个顶点在某种程度上是非常相似的。Second-order Proximity在LINE中用于表征global structure,其基于一个假设:如果两个顶点共享大部分邻居顶点,那么这两个顶点之间也十分相似。如果两个顶点之间没有共享的邻居顶点,那么这两个顶点的Second-order Proximity为0。
  下图直观的展示了First-order Proximity和Second-order Proximity的区别。
  接下来正式介绍LINE的具体过程:LINE with First-order Proximity
    为了表征任意两个顶点之间的First-order Proximity,作者定义了两个顶点之间的联合分布,公式(1)如下:
  其中 是顶点 的低维向量表示,公式(1)定义了一个 空间下的概率分布 ,它的经验分布可以表示为 ,其中 。为了保留First-order Proximity,一个最直接的方法就是最小化如下的目标函数公式(2):
  其中 表示两个分布之间的距离,作者采用KL-pergence来度量,因此公式(2)可以转化为公式(3):
  针对First-order Proximity有一点需要特别注意一下:上述First-order Proximity只适用于不考虑边方向的网络或图,针对有向图并不适用。通过最小化公式(3),我们可以找到每个顶点最优的 维向量表示。LINE with Second-order Proximity
    Second-order Proximity既适用于无向图,也适用于有向图。对于一个网络或图,不失一般性,我们均假设其为有向图(无向边可以理解成两条方向相反,权重相同的有向边)。Second-order Proximity假定具有大量相同邻接顶点的两个顶点是相似的,在这种情况下,每个可以看作是一个特定的上下文(context),具有相同或相似上下文分布的顶点被认为是相似的。因此,在这种场景下,每个顶点扮演着两种不同的角色:顶点本身和其他顶点的上下文。基于此,作者提出了两种向量表示 和 ,其中 为顶点 作为顶点时的向量表示,而 为顶点 作为context时的向量表示。对于每个有向边 ,作者定义了顶点 作为顶点 的context的条件概率为公式(4):
  其中 表示顶点 的context的集合大小。公式(4)表示了每个顶点 在其上下文context上的条件概率 ,也就在整个顶点集合上的条件概率,如上所述,如果两个顶点在其上下文上具有相近的分布,那么认为这两个顶点在表示上是相似的。为了保留Second-order Proximity,希望每个顶点在其上下文上的条件分布能最大程度的拟合其经验分布,于是作者针对Second-order Proximity提出了新的目标函数,即最小化下述目标函数公式(5):
  其中 表示两个分布之间的距离,作者同样采用了KL-pergence来度量,另外作者通过引入 来表示不同的顶点在网络或图中的重要性,该值可以通过PageRank等考察顶点重要性的方法来获得。经验分布 可以表示为 ,其中 表示边 的权重, 表示顶点 的出度,假设 ,那么目标函数(5)可以优化如下公式(6):
  通过最小化目标函数学习 和 ,我们可以得到每个顶点的 维向量表示 。Combine First-order Proximity and Second-order Proximity
    为了同事保留顶点的First-order Proximity和Second-order Proximity,作者提出了一种最简单的也被实验证明是有效的方法,即对于同一个顶点分别针对两个目标函数训练两个不同的模型,然后将各自Embedding的结果进行简单的联接(concatenate)即可。当然,作者也提出了在以后的工作中,可以尝试利用目标函数(3)和目标函数(6)进行联合训练以达到embedding的目的。模型优化 (Model Optimization)
  学习目标函数(6)的过程的计算量是特别大的,因为它 需要在整个数据集上计算其条件分布,特别是当图中的顶点和边的个数特别巨大的时候。为此作者提出了可以采用T. Mikolov提出的负采样方法(Negative Sampling),即根据每条边 的噪声分布进行多条负边采样,以达到降低计算量的目的。于是针对每条边,它明确了优化以下目标函数公式(7):
  其中
  是一个 函数,公式(7)前半部分用来建模观察到的所有的边,而后办部分用来建模从噪声分布中负采样的边,其中 表示负采样的边的数目。至于负采样的具体细节,具体可以参考Negative Sampling。
  作者通过异步的随机梯度下降算法ASGD(asynchronous stochastic gradient algorithm)来优化公式(7)的学习过程。在每次迭代中,ASGD会随机选择一批边来更新模型的参数。如果一个边 被选中,那么关于顶点 的嵌入向量 的梯度可以通过如下公式计算:
  需要注意的是,这里的梯度需要乘以一个边的权重,如果边的权重有很大的方差的化就会有问题。例如,在一个单词网络中,有些单词之间共现多次(例如,几万次),而有些单词之间仅共现几次。在这种情况下,梯度的比例是发散的,因此很难去寻找一个合适的学习速度。如果根据权值较小的边选择较大的学习率,则权值较大的边的梯度会发生爆炸;而根据权值较大的边选择较小的学习率,会导致梯度过小,长时间难以收敛。Optimization via Edge Sampling
  解决上述问题最直观的做法就是,如果所有边的权重都一样,那么选择一个合适的学习速率就没有任何问题。因此,一个最简单的处理方法就是将一个加权的边展开成多个二元边。即一个权重为 的边可以拆分成 个二元边。这样虽然能解决上述问题,但是又产生了一个新的问题,如此拆分会导致边的规模在原来基础上扩大很多倍,直接导致了内存的需求激增。为了解决这个问题,可以对原始边进行采样,采样概率与原始边的权值成正比,并将采样后的边视为二元边。
  通过这样的Edge Sampling采样处理,使得总体目标函数保持不变。这样问题就变成了如何根据边的权值对边进行采样。这里用 表示所有的边的权重序列,首先可以计算所有边的权重之和 ,然后在区间 范围内随机选择一个数,看这个数随机落在哪个区间 中。该方法需要 的时间复杂度去抽取一个样本,当边的规模很大时,代价也是很大的。为此,作者使用一种别名表(alias table)的方式根据权重进行采样,当重复从相同的离散分布中采样时,只需要 的时间。使用别名表进行采样的时间复杂度是 ,而负采样的时间复杂度是 ,其中K是负采样的大小。
    最后,关于LINE在实际使用过程中遇到的稀疏顶点以及新顶点不断加入的场景,作者进行了简单的探讨,具体可以参考作者的论文。以上就是关于LINE方法的一些基本内容。
  参考:
  1.论文: https://arxiv.org/pdf/1503.03578.pdf
  2.github: https://github.com/tangjianpku/LINE

刘晓春金融支持实体经济不是简单让利关键是通过制度设计,让金融机构发挥市场有效配置资源的作用。简单让利支持大批在市场上不堪一击的低效能企业,只会弱化中国经济的竞争力,最终有违支持实体经济高质量发展的初衷文刘晓春金融支想念食品闯关IPO,孙君庚靠卖挂面年赚上亿,2021年净利润下滑40出品子弹财观提起挂面你会想起哪家公司?有人会说克明食品,他们在自家的财报中写着一面之交,终身难忘的口号也有人会提及想念食品,这家公司同样依靠卖挂面,2022年的总营收超过了22亿元年终晒成绩!震撼航拍直击三山速度今年以来,三山速度接连刷爆佛山人的朋友圈。新引进项目达50个,累计投资规模近44亿规上企业多达125个产业篇图11。季华实验室作为广东省省委省政府启动的首批4个广东省实验室之一目前退休人员医保个人账户改革,如果不再返款,实现免费医疗可行吗?退休人员职工医保个人账户的改革,最明显的一个特征就是,个人账户当中的余额减少了。在改革以前,可能很多退休人员每个月能够产生,两三百块钱的这样的一个个人账户余额,那么一年下来几乎就是啤酒概念新股永顺泰股价上演天地板,此前15个交易日13个涨停记者李昊编辑新股永顺泰(001338。SZ)上市以来持续走强。11月16日公司股票上市后,至今的15个交易日内,共有13个交易日涨停封板,至今累计涨幅达274。19。12月6日,永茅台豪掷10亿拿地近日,茅台集团旗下子公司斥资超10亿元拿地的消息引发市场关注。12月2日,遵义市公共资源交易中心公告称,挂牌出让了2宗国有建设用地使用权,竞得人为遵义文康置业发展有限责任公司,合计永顺泰涨停大战第4集,杀人诛心的天地板,换手率高达76。981选股永顺泰,炒作次新酿酒大消费方向,该公司设立以来主要从事麦芽的研发生产和销售,公司产品以基础大麦麦芽为主,兼顾高端的特种麦芽等多种产品,是国内规模最大的麦芽制造商,麦芽奠定啤酒贷款展期未办理抵押变更登记有风险吗?应当如何应对?点击蓝字关注我们前言贷款通则第十二条规定贷款展期是指借款人不能按期归还贷款的,应当在贷款到期日之前,向贷款人申请延长原借款的还款期限。是否展期由贷款人决定。对于展期的期限,贷款通则乌鲁木齐至喀什的乌喀高铁建设研究2025年前应开展规划研究新疆战略智库新疆东西部经济研究院创立于1996年。作为一家拥有200余名著名经济学家区域产业投行企管及培训等专家阵容强大的综合管理咨询机构,一直强调本土化和实战性,定位于政府的参谋标准不一盈利模式单一共享自习室等网红业态如何走得长远电子设备容易分心在家无法进入学习状态咖啡馆人声嘈杂如今,出于备考或自我提升等需求,越来越多的人选择共享自习室,只需花上十几元,就能在城市的喧嚣中寻得一片安静天地。市场需求催生了共享居民购买力专题分析报告从杠杆率趋势看消费周期如何演绎(报告出品方作者国金证券,龚轶之,李敬雷)1财富增长,造就消费盛宴1。1经济持续繁荣,孕育大消费行业升级趋势经济结构转型,消费成为主导产业。中国自改革开放后经济规模不断扩张,并且在
开业不到一年就撤柜!这波网红烘焙店,未来该怎么走?近日有网友爆料,杭州最后一家墨茉点心局关闭了。说起这家点心店,可能大家都对它刚进杭州时的排队盛况记忆犹新,不少年轻人就是看了社交平台上的推荐,专门去打卡的。墨茉点心局2020年8月水墨风纹身中国风潮流的纹身图你爱吗头条创作挑战赛纹身后注意事项1hr保鲜膜处理。保鲜膜可以在纹身34个小时后撕下,在撕下保鲜膜后要注意用温水清洗纹身区域(不能用肥皂和沐浴露刺激纹身区域)把渗出来的组织液清洗干净,轻雷丰年4。2国际黄金开盘继续反弹空,走势分析操作建议及解套常有人感叹,活得真累。有时候想想,这人生就是一个又一个车站,走到一个站点,累了,歇一歇,明天还得继续出发,而一路上,也会遇到不同的人来陪我们一起走,大家或陌生,或熟悉,总会给我们孤美国计划生变!中国仅抛售美债185亿,人民币就已大涨5000点去年的美元非常的风光,不断的加息,不断的升值,全球货币都被打压,各国央行苦不堪言。但是到了今年,所有的事情都突然间发生了巨大的变化。美国本身的收割计划也被迫做出变更,估计今年5月美动工!年产值约7。1亿元!近日,合盛硅业(上海)有限公司上海研发制造中心在南翔动工。项目预计总投资2。5亿元,计划2024年底竣工,达产后年产值约7。1亿元。效果图该项目位于南翔镇永乐片区JDC20501单均线的高级使用法则(8)综合运用(上)如何将零散的知识拼凑在一起,并形成完整的交易体系,是众多投资者最苦恼的。因为大多数投资者利用自己所学的知识去判断一只个股会出现断档,会出现解释不清掌握不明的情况。这也是技术分析对于RCEP生效后,越南鲜榴莲首次从南宁机场口岸进境4月1日,记者从广西民航产业发展有限公司了解到,3月30日,一架装载着554kg越南鲜榴莲的中原龙浩航空GI4376航班由越南胡志明机场飞抵南宁机场,经南宁吴圩机场海关检验检疫合格成本飞涨法国面包店面临生存考验新华社北京4月2日电法式长棍面包手工艺技能和文化数月前刚被正式列入联合国教科文组织人类非物质文化遗产代表作名录,但如今,法国面包店经营者们说,受成本激增影响,烘焙行业面临生存考验。现场签约总金额超11亿元人民币2023年中国四川制造(老挝)展览会在老挝万象开幕封面新闻记者朱宁3月31日,2023年中国四川制造(老挝)展览会暨中国(四川)老挝经贸合作与投资促进大会,在老挝万象艾德国际会展中心开幕。该大会由老挝工业和贸易部老挝计划投资部支持观点欧阳明高新能源车迎来转型阵痛期,PHEV十年内份额将占40文懂车帝原创李德喆懂车帝原创行业3月31日4月2日,中国电动汽车百人会论坛(2023)在北京举行。在4月1日下午举行的以推进中国汽车产业现代化为主题的高层论坛上,中国科学院院士欧阳夜雨丨熊家林春天里的南坪春天里的南坪文熊家林春天里的南坪,你从冬日里醒来,干道旁的行道树,一天天,见到你高高的枝头上披满了绿装。你像雨后春笋,焕发了青春,迸发出无穷无尽的力量,你的蓬勃生机,点亮了直辖风光