范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

智加文化文化计算与多模态学习

  #智加文化#  #红星在线#
  #头号周刊#
  文化计算与多模态学习
  魏莱    文化计算与智能体验科学实验室
  引言
  文化是人类在社会历史发展过程中所创造的物质财富和精神财富的总和,图画、书籍、建筑是文化,文字、民族艺术、民俗、宗教也是文化,文化来源于人,也服务于人。作为一个抽象概念,文化与它相应的载体可谓是息息相关,在茹毛饮血的古人类文明时代,文化是岩窟中一面石壁上涂画的动物;从先秦时代开始,文化是上面刻着象形文字的狭长竹片,在蔡伦改进造纸术后,文化是一张张爬满了墨迹的纤维织物,而在互联网飞速发展的今天,文化是刻录进CD唱片的一首歌,是精密机械硬盘中用二进制存储的字符串,是液晶LED显示器上的一段视频,现如今我们生活在一个充斥大量不同媒体所构建成的多媒体世界中,文化拥有了丰富多样的形式。文化计算(Cultural Computing)是利用社会计算、大数据、人工智能等技术与人文、历史等学科相互交叉融合,实现文化内容挖掘传播、推动数字人文研究,促进文化繁荣发展的技术手段。因为这些不同形式下的文化在具体事件和应用中具有高度相关性,单一形式的文化分析已不能完全满足需求,跨多个不同形式文化做计算的任务也越来越多,涉及多种形式的数据的交互,例如图像和视频的检索,字幕,视频摘要,文本到图像和视频的预测与合成,语言驱动的时空动作定位,以及视觉常识推理等等。那么如何利用起来信息时代下不同形式的文化来做文化计算呢?就需要用到多模态(Multi-Modal)学习或跨模态(Cross Modal)学习来辅助文化计算。
  1.什么是模态
  实际上,模态就是我们上面所说的不同形式的文化载体,诸如文本、图像、视频、音频、传感器数据、3D 等,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当作是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。多模态机器学习,英文全称Multi-Modal Machine-Learning,多模态学习进行联合特征学习和多模态关系建模,旨在有效地利用不同模态内容的相关性进行系统性能优化以实现处理和理解多源模态信息的能力。对多模态内容的深入理解主要依赖于特征学习、实体识别、知识图谱、逻辑推理、语言表达等方面的多种技术。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
  2.多模态学习的分类
  多模态学习可以划分为以下五个研究方向:
  1.多模态表示学习(Multimodal Representation): 主要研究如何将多个模态数据所蕴含的语义信息数值化为实值向量。
  2.模态间映射(Translatio-n):主要研究如何将某一特定模态数据中的信息映射至另一模态。
  3.多模态对齐(Alignment):主要研究如何识别不同模态之间的部件、元素的对应关系。
  4.多模态融合(Multimodal-Fusion):主要研究如何整合不同模态间的模型与特征。
  5.协同学习(Co-learning):主要研究如何将信息富集的模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。
  典型的方法包括多模态的零样本学习、领域自适应等。下面将针对这五大研究方向,逐一进行介绍。 ·多模态表示学习(MultimodalRepresentation)  单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表示学习是指 通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representati-ons)协同表示(Coordinated Repres-entations)。
  1.联合表示将多个模态的信息一起映射到一个统一的多模态向量空间;
  2.协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。
  利用多模态表示学习到的特征可以用来做信息检索,也可以用于分类/回归任务。下面列举几个经典的应用。在来自2012年的《Learning Representations for Multimodal Data with Deep Belief Nets》 一文中提出将深度信仰网络Deep Belief Nets(DBN)结构扩充到多模态领域,通过Multimodal DBN,可以学习到多模态的联合概率分布。
  DBN由多个限制玻尔兹曼机(Restricted-Boltzmann Machines)层组成,论文中的实验通过 Bimodal DBN,学习图片和文本的联合概率分布P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片。如下图所示:
  协同表示学习一个比较经典且有趣的应用是来自于《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》这篇文章。利用协同学习到的特征向量之间满足加减算数运算这一特性,可以搜索出与给定图片满足"指定的转换语义"的图片。例如:狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片。
  ·模态间转化 Translation / 映射 Mapping 转化也称为映射,负责将一个模态的信息转换为另一个模态的信息。常见的应用包括:
  机器翻译 (Machine-Translation):将输入的语言A(即时)翻译为另一种语言B。类似的还有唇读(Lip Reading)和语音翻译 (Speech-Translation),分别将唇部视觉和语音信息转换为文本信息。
  图片描述 (Image-captioning)或者 视频描述 (Video-captioning):对给定的图片/视频形成一段文字描述,以表达图片/视频的内容。
  语音合成 (Speech-Synthesis):根据输入的文本信息,自动合成一段语音信号。模态间的转换主要有两个难点,一个是open-ended,即未知结束位,例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译;另一个是subjective,即主观评判性,是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。例如,在图片描述中,形成怎样的一段话才算是对图片好的诠释?也许一千个人心中有一千个哈姆雷特吧。
  多模态对齐 Alignment 多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。这个对应关系可以是时间维度的,比如下图所示的 Temporal sequence alignment ,将一组动作对应的视频流同骨骼图片对齐。类似的还有电影 画面-语音-字幕 的自动对齐。
  对齐又可以是空间维度的,比如
  图片语义分割 (Image Semantic Segmentation):尝试将图片的每个像素对应到某一种类型标签,实现视觉-词汇对齐。
  ·多模态融合(Multimodal Fusion) 多模态融合(Multimodal Fusion)负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source InformationFusion)、多传感器融合(Multi-sensor Fusion)。按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类,分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。而 feature level 又可以分为 early 和 late 两个大类,代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。常见的机器学习方法都可以应用于多模态融合,下面列举几个比较热门的研究方向:
  视觉-音频识别
  (Visual-Audio Recognition): 综合源自同一个实例的视频信息和音频信息,进行识别工作。
  多模态情感分析
  (Multimodal-sentiment-analysis):综合利用多个模态的数据(例如下图中的文字、面部表情、声音),通过互补,消除歧义和不确定性,得到更加准确的情感类型判断结果。
  手机身份认证
  (Mobile Identity Authentication): 综合利用手机的多传感器信息,认证手机使用者是否是注册用户。
  多模态融合研究的难点主要包括如何判断每个模态的置信水平、如何判断模态间的相关性、如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配准等。若想了解传统的机器学习方法在此领域的应用,推荐学习清华大学出版的《多源信息融合》(韩崇昭等著)一书。
  ·协同学习(Co-learning)
  协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。比如
  迁移学习 (Transfer Learning)就是属于这个范畴,绝大多数迈入深度学习的初学者尝试做的一项工作就是将 ImageNet 数据集上学习到的权重,在自己的目标数据集上进行微调。
  迁移学习比较常探讨的方面目前集中在领域适应性(Domain Adaptation)问题上,即如何将train domain上学习到的模型应用到 application domain。
  迁移学习领域著名的还有 零样本学习 (Zero-Shot Learnin-g)和 一样本学习 (One-Shot Learning),很多相关的方法也会用到领域适应性的相关知识。Co-learning 中还有一类工作叫做协同训练(Co-trainin-g),它负责研究如何在多模态数据中将少量的标注进行扩充,得到更多的标注信息。通过以上应用我们可以发现,协同学习是与需要解决的任务无关的,因此它可以用于辅助多模态映射、融合及对齐等问题的研究。
  3.未来研究展望
  (一)表示学习
  按多模态表示共享的方式可将多模态表示学习分为两类:一类方法将所有模态的特征均投影到同一个表示空间,我们称此类方法为公共表示学习;另一类方法则为不同模态学习不同的特征表示空间,我们称此类方法为特异性表示学习。公共表示学习方法适用于所有模态数据在测试阶段都可使用的情况。相对而言,特异性表示学习由于分别学习不同模态的特征,更加适合测试阶段仅提供单模态数据或部分模态数据可用的情况,例如零次学习、模态间映射、跨模态检索等任务。对于特异性表示学习,相关工作往往仅限于两个模态的情况,对于更多模态同时存在的情况下的特异性表示学习则有待进一步研究。此外,表示学习的主流方法往往只局限于静态条件下,而使用多模态数据,如何进行动态学习是一个很有价值的研究点。
  (二)模态间映射
  多模态映射问题面临的一大问题是难以设计评价指标来度量模型的优劣。尤其是在某些生成式的任务中,如对图像进行描述和标注,往往不存在唯一正确的"标准答案",映射过程容易受到主观影响,使得最终结果无法确认同一实体在不同模态间的表示。尽管我们也可以通过人工评分或两两比较来评价模型的映射质量以获得最接近人类认知的质量评价,但这类人工方式往往颇为耗时,且成本较高,标注结果受测试者性别、年龄、文化背景等偏差的影响而导致评价失准。因此,学界提出了一系列相关的自动评价指标,如BLEU、ROUGE、Meteor、CIDEr等。但相关研究指出这类自动指标尚不能很好地刻画映射结果的主观性。综上所述,解决映射过程中的主观评价问题不仅可以更好地评价不同方法,而且可以辅助设计更好的优化目标函数,从而全面提升模型性能。
  (三)对齐
  早期的多模态对齐主要依靠基于概率图模型、动态规划等无监督学习方法进行不同模态间的元素匹配。近年来,虽然已陆续有学者进行有监督的对齐方法研究,但现阶段的对齐方法仍然存在以下几点主要问题有待进一步研究:
  1. 显式标注对齐信息的数据较少,不利于进行实验分析。
  2. 设计不同模态之间的相似度度量指标较为困难,且人工设计费时费力。
  3. 不同模态间元素的对齐过程往往存在一对多的关系,甚至还可能存在无法匹配的情况。
  4. 受噪声影响大,尤其是当元素的匹配错位 时模型性能下降严重。目前,随着度量学习的发展,直接采用有监督学习方法确定有效的模态间相似度度量已成为可能。在未来的工作中,研究者可以通过设计同时进行度量学习和对齐的方法提高相关模型的性能。
  (四)融合
  近年来,多模态融合问题被国内外学者广泛关注,已经陆续提出基于模型无关、图模型、神经网络的多种多模态融合方法。尽管学术界在多模态融合领域已经取得了诸多进展,但现阶段的研究仍存在一些问题。每一种模态会受到不同类型和不同程度的噪声影响,导致融合得到的信息不能准确表达出应有的特征,并且在包含时序关系的多模态学习(如一段有声视频)中,每种模态可能遭受噪声干扰的时刻也可能不同。此外,模态与模态之间在时序上没有对齐,如视频的音画不同步,也可能对多模态的融合造成较大的影响。
  (五)协同学习
  由于不同模态所包含的信息不尽相同,多模态协同学习主要利用从一种模态中学到的信息来补充完善另一种模态数据的训练。其中协同训练、零次学习等问题在视觉分类、音声识别等方面得到广泛的应用。同时,协同学习方法是与需要解决的任务无关的,因此它可以用于辅助多模态映射、融合及对齐等问题的研究。基于协同学习本身的特点,如何挖掘得到尽可能多的模态间的不同信息来促进模型的学习是一个很有价值的研究方向。
  结语
  多模态学习是一个充满活力的多学科交叉领域,其主要目的在于建立可以处理和关联来自多个模态信息的模型,它也代表着人工智能的未来。多模态学习的加入可以使文化计算获得飞跃式的进步,例如文化计算中会有大量图片和文字作为数据源,对图片做标注是一个让文化数据量化的重要过程,而人工标注又极为昂贵。本实验室的研究方向之一,针对中华民族传统服饰图案的图文自动标注,会有大量的图片和相应的描述文字输入,输出则是图片中不同子图的文字标签,希望能无监督地解决掉大量的图片标注需求,以前传统的机器学习自动标注准确率不高,且高层语义和底层视觉特征之间存在"语义鸿沟",很多时候得到的结果说服力不强,最后还是依赖人工,而深度学习方法则多数依赖于大量有标注的数据,要想获得更好的性能,就必须拥有更多的有标注数据,像民族服饰图案相关的图片又偏偏缺乏已标注数据集来训练模型,这成为了一个主要瓶颈。多模态的加入可能会解决自动标注过程中容易产生的语义鸿沟,例如运用多模态融合图文数据之后,结合之前的自动标注算法,很可能会找到一个语义上较为准确更有说服力的自动标注方法,从而为文化计算中数据集量化工作打下良好基础。希望本文能够为文化计算以及多模态学习领域带来一些新的启发,促使文化计算或多模态学习方向更加蓬勃发展。
  参考文献 :
  [1]Atrey P K, Hossain M A, El Saddik A, et al. Multimodal fusion for multimedia analysis: a survey[J]. Multimedia systems, 2010, 16(6): 345-379.[2]Nitish Srivastava, Ruslan Salakhutdinov. Learning Representations for Multimodal Data with Deep Belief Nets,2012.[3]Kiros R, Salakhutdinov R, Zemel R S, et al. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models[J]. arXiv: Learning, 2014.[4]Ramachandram D, Taylor G W. Deep multimodal learning: A survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108.[5]Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.
  #秘书长读书#   #头条读书院#
  编辑:百将文化艺术中心昕虹
  匾额是中华民族传统的独特的一种民俗文化。它是一块悬挂在殿堂、楼阁、门庭、园林、宾馆、酒店、商店等单位的一块牌子。匾额是各种建筑物不可缺少的组成部分,它的意义相当于建筑的眼睛,是告知建筑物的名称及用途,也是用于宣传的一张名片。书圣王羲之是中国最著名的、成就最高的书法家,也是将军。如今用的毛笔,是秦朝监督修筑万里长城的将军蒙恬首创。百将文化艺术中心可以邀约文武双全的将军书法家和名人书法家题联题诗题字题匾和笔会展览。邀约军地名人和教授开讲 。

婆媳撕破脸后还能和好吗?当然可以和好,婆婆并不是亲妈,媳妇也不是亲生女儿,保持表面的关系就可以。婆媳矛盾是现代家庭最重大的矛盾,没有之一。很多时候,婆媳就是天生一对冤家,会搞得男人在其中非常难以做人。婆媳中年男人无妻是什么感受?我,今年35,明年本命年,离异。一儿一女。大的7岁,小的6岁。17年正式分居,各过各的。20年正式离婚。1离婚原因,14年女儿生病发烧引起脑膜炎,同年父亲脑瘤,术后一年去世。和前妻丈夫被妻子下油锅,事发后却自杀,原因让人感到害怕。下油锅的男人!女子怀疑丈夫出轨,烧了一锅滚烫热油泼向了他一男子被一锅滚烫热油泼遍全身,身体严重烫伤,泼油的还不是别人,正是他的妻子,随后他的妻子选择了自杀,随着事情的细节不断曝光人就差个首付不能结婚吗不能谈女朋友吗为什么七年的爱情死在房子上有些话说出来,可能真的挺伤人的。房子不是压死爱情的那根稻草,而是挽救你们爱情最后的救命稻草。因为你真的没有多么好。任何人切断一段7年的感情,都不可能轻松的全身而退。在她做出正式的决为什么到处都在宣传跨境电商,真实情况是怎样的?跨境电商基本扮演着锦上添花的角色,不能雪中送炭!没有外贸经验的最好不要去做,除非有人愿意带你或者手把手教你。能在1688看到买到的货就不要做跨境了,公版模具,竞争激烈到分分钟想哭。我给老公和孩子写了遗言,发给了老公,就关机了不久前我因为产后抑郁自杀未遂,被警察解救回家后,婆婆一直逼问我你是不是被娘家的事逼的了?是不是你妈逼你的?你自杀都是怨你妈吧?婆婆想让我承认,我的自杀和她没有关系。因为她心里比谁都人到中年最难的是什么?84年的,妥妥的中年人,前半生总结下来就是按部就班,循规蹈矩,一个女朋友变成一个老婆,生了一个娃,在一个单位,一直到现在。现在回想一下,自己简直就是中国教育体制下最希望培养出的格式存钱有必要隐瞒身边的人吗?非常有必要。我给你说说我的亲身经历吧!我是个喜欢攒钱的姑娘,身边总不缺乏那些及时行乐,提前消费的同龄人。以前我经历少,不懂避讳,说话喜欢直来直去。我以前有个男同事,日常对我还可以,夫妻离婚后,到底谁比较惨?离婚后女人的惨是毋庸置疑的多少女人陪着男人从默默无闻,到声名鹊起,然后却落得个下堂妇的结局。这样的女人真的挺惨,最好的年华陪着男人吃苦奋斗,奉献了自己的青春,牺牲了自己的事业。人到四十岁的女人重新开始能干什么?人生之中总会面临着许多的意外,谁也不知道明天和意外哪一个先来临,而女人到了40岁之后,都是上要照顾老人,下要教育孩子,和自己的老公经营好自己的小家庭,而这个时候如果一旦要是失业,对为什么现在的女孩子宁愿坐办公室挣3000也不愿意去学月嫂挣上万元随着经济的迅速发展,人们的生活水平越来越高。人们对生活的追求也越来越完美,尤其是女孩子,由于现在的时代不需要再依靠男性也可以过得很精彩,很多女生的心气很高,对自己的未来期待变得很高
苹果手机这样设置,拍照更好看大家用苹果原相机自拍时,是不是总感觉脸歪了,而且拍起来还发黄,其实啊,这都是是因为你设置的不对!所以啊,这期就教大家怎么设置相机!拍出网感照片!好好学还怕学不会?想要拍得好看,五步618大促临近,闪充手机怎么买?100W以上闪充手机购买推荐自从OPPO的那句充电五分钟,通话两小时火遍网络以来,已经过去了好几年了,我没记错的话这广告词是给当时的OPPO旗舰Find7打造的!当时OPPO采用自家独立自主研发的VOOC闪充拍视频别买高价手机了这两款2000元云台相机更适合拍摄视频不知道从什么时候开始,手机的拍摄功能成为了一款智能手机最重要的性能之一,现在几乎所有的高端手机都在宣传手机的游戏性能和拍摄性能,好像不玩游戏不拍照,手机就不叫手机了。为了比拼手机拍小白福音,锐捷大白(免配版锐捷星耀X32)体验,即插即用无烦恼随着科技的快速发展,网络已经成为生活中必不可少的一部分,路由器作为连接网络的桥梁,也扮演着非常重要的角色。但是对于像我这样的路由器小白,买了新的路由器之后,怎么去进行连接设置,确实红米note11t来袭,搭载天玑8000处理器,有望成为千元爆款神机自从红米k系列横空出世,顺利接过小米1999元价位段的大旗后,就成了小米手机中最畅销的机型,甚至比小米冲击高端的数字系列卖得还要好。相比较而言,之前代表红米顶配的note系列就开始C51单片机7前面我们用的延时都是非精确延时,我们可以用一种比较精确的方法,单片机自带的定时器中断模块,89C52RC带2个定时器中断,ET0和ET1,中断的工作模式有4种,定时器0为例,定时器深度丨贾跃亭还值得相信吗?21世纪经济报道记者白杨北京报道很难想象,一家刚刚上市没多久的公司就会因发不出财报而面临退市危机,而这,却是贾跃亭创办的FF(FaradayFuture)正在经历的事情。2021年通电就有网的路由器,锐捷大白让上网变得更加简单纯粹现如今基本上每家每户都接入了宽带,而且路由器是家庭上网的必备硬件。只不过市面上大多数路由器对于普通用户来说还是有一定的门槛,如果对数码产品一窍不通的小白或者家里的老人让他们来配置路倒数3天!摩托罗拉预热大内存手机512GB应成为标配手机中国新闻不久前,摩托罗拉手机官方宣布,要在5月10日大干一潮,届时或许有多款产品发布。5月7日,手机中国注意到,摩托罗拉再次预热,表示将用大内存的标准,革新手机行业的标配。摩托盘点五月份将发布的手机产品,看看有没有你喜欢的菜时间来到了2022年的五月份,在目前的手机市场上,已经有不少的厂家推出了一系列的产品。而在这一个五月份,还将会有厂商发布到一系列的新品,为消费者提供到更多的选择。在这一期的内容上,从夫妻店到独角兽,三年进账超281亿,全国最大水果零售商要IPO了文张俊雯编辑曹玮钰来源投中网旗下东四十条资本两家头部水果零售商和分销商不约而同,在五一档冲刺港交所IPO。4月29日,重庆洪九果品股份有限公司(简称洪九果品)向港交所二次递交招股书