范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

人眼与计算机视觉,有啥不一样?

  自人工智能发展早期以来,科学家们就一直梦想着创造出能够"观察"真实世界的计算机。考虑到人类社会对于视频要素的高度依赖,以代码形式实现计算机视觉自然成为人工智能不能回避的核心课题之一。
  但与其他众多AI发展目标一样,计算机视觉同样是那种说起来容易、实现起来却极难的挑战。1966年,麻省理工学院的科学家们发起"夏季视觉项目(The Summer Vision Project)",希望在两个月之内开发出一套能够识别图像中物体及背景区域的计算机系统。但事实证明,短短一个暑假根本不够解决问题。直到二十一世纪的第二个十年,图像分类器与物体检测器才获得进入主流应用的充分灵活性与可靠性。
  过去几十的中,机器学习与神经科学的进步帮助我们在计算机视觉方面取得了长足进步。但是,要想构建起能够与人类一样灵活观察世界的AI系统,我们还有很长的路要走。
  哈佛大学医学院Gabriel Kreiman教授扬鞭的《生物与计算机视觉(Biological and Computer Vision)》一书探讨了人类与动物如何处理视觉数据,并展望了我们要如何在计算机上重现这种强大的识别能力。
  Kreiman在书中讲解了生物与计算机视觉之间的差异,包括介绍数十亿年的演变如何为我们带来复杂的视觉处理系统,以及如何通过生物学研究成果构建起更好的计算机视觉算法。
  硬件差异
  在这本书的序言部分,Kreiman写道,"我对生物与计算系统中的连接电路特别感兴趣。生物视觉是数百万年间持续进化的产物。而在开发计算模型时,我们当然没必要重新发明轮子。我们可以直接学习生物解决视觉问题的方法,并以此为基础构建起更强大的算法。"
  的确,对视觉皮层的研究已经成为计算机视觉与AI设计灵感的重要来源。但在全面实现视觉数字化之前,科学家们还必须克服生物与计算机视觉之间巨大的硬件鸿沟。生物视觉系统运行在皮层细胞与有机神经元相互连接而成的网络之上;与之不同,计算机视觉则运行在由晶体管组成的电子芯片当中。
  因此,视觉理论必须先与计算机的底层原理相统一,再实现与生物视觉相等的效能。Kreiman将此称为"戈尔迪洛克式解决方案",即抽象级别属于既不过度复杂、又不过于简单的水平。
  例如,早期计算机视觉曾经尝试以一种高度抽象的方式达成目标,其中忽略了人脑与动物大脑的既有视觉识别模式。但事实证明,这种方法效率低下且极易出错。而另一方面,在分子水平上研究并直接模拟大脑,则没有任何现实可行性。
  Kreiman在采访中表示,"我不是所谓「复制生物学」思路的忠实拥护者。生物学中的很多元素应该得到抽象与整理。我们并不需要2万种蛋白质、细胞质加复杂的树突状几何结构才能实现视觉能力。我们既应该适当剥离不必要的生物学细节,但又不能单纯研究具体行为——这种抽象度又过高了。"
  在书中,Kreiman将新皮层回路的戈尔迪洛克量度定义为每毫秒发生的神经元活动。神经科学与医学技术的进步,使得研究毫秒级粒度下单一神经元的活动成为可能。
  这些研究的成果帮助我们开发出不同类型的人工神经网络。所谓人工神经网络是一种AI算法,能够轻松模拟哺乳动物大脑皮质区域的运作。近年来,神经网络已被证明是视觉数据中实现模式识别功能的最佳算法,并成为多种计算机视觉应用中的关键组成部分。
  架构差异
  最近几十年来,深度学习领域迎来了大量革命性创新,也让计算机得以更从容地模拟生物视觉中的某些功能。受到动物视觉皮层研究的启发,卷积层开始在从视觉数据中查找模式方面发挥巨大作用。池化层有助于概括卷积层的输出,并保证其不会对视觉模式的漂移太过敏感。卷积层加上池化层,就足以识别出从简单模式(拐角、边缘等)到复杂对象(人脸、椅子、汽车等)的各类图像内容。
  但是,人工神经网络中使用的高级架构与我们对哺乳动物视觉皮层的认知之间仍然存在错位。
  Kreiman强调,"遗憾的是,「层」这个字眼仍然比较含糊。计算机科学当中,人们会使用层来表示不同的处理阶段(各层基本类似于大脑中的不同区域)。但在生物学中,大脑中的各个区域包含有6个皮质层(及更多次级结构)。乍看上去,这种六层结构应该非常关键(各层间的连通性,有时也称为标准微回路),但我们并不清楚要怎么把这些回路添加到神经网络当中。有些人认为这种六层结构已经得到了一定体现(例如归一化操作),但这里肯定还有不少需要充实的空间。"
  同样的,Kreiman还在书中提到,大脑中的信息会朝着多个方向移动。光信号由视网膜移动至颞下皮层,再被传输至视觉皮层的V1、V2及其他层。与此同时,每个层还同时向前一层提供反馈。在各层中,神经元彼此交互并传递信息,而所有交互作用与往来联系在实质上是帮助大脑填补视觉输入中的空白,借此在信息不完整时做出推断。
  相反,在人工神经网络中,数据通常只在单一方向上移动。卷积神经网络属于"前馈网络",意味着信息只会从输入层一步步转向较高层与输出层。
  目前也存在一种名为"反向传播"的反馈机制,有助于纠正错误并调整神经网络参数。但这种反向传播会带来高昂的计算成本,而且仅能在神经网络的训练期间发挥作用。我们也不清楚反向传播是否真的直接对应于皮质层的反馈机制。
  在另一方面,强调将较高层的输出与前一层输入相结合的递归神经网络,在计算机视觉中的使用仍然比较有限。
  在视觉皮层(右)中,信息会沿多个方向移动。但在神经网络(左)中,信息只沿单一方向移动。
  在交流当中,Kreiman认为向人工神经网络引入横向及纵向信息流,可能有助于其更好地与生物视觉系统相匹配。
  他认为,"横向连接(即同一层内各单元间的连接)对于图形补全等计算任务可能至关重要。而纵向连接(即由上层单元到下层单元间的连接)对于做出预测、唤起注意力、合并上下文信息等也许具有关键意义。"
  他还提到,大脑神经元具有"现有网络中所缺少的复杂时间整合能力。"
  目标差异
  生物进化成功发展出了能够完成诸多任务的神经架构。已经有多项研究表明,我们的视觉系统能够根据不同目标动态调节关注敏感性。但是,这种灵活性在计算机视觉系统上仍然很难实现。
  目前的计算机视觉系统主要为单一任务而设计,例如通过不同的神经网络进行对象分类、对象定位、按对象拆分图像区域、描述图像内容、生成新图像等,但这些神经网络各自只能完成自己份内的一项工作。
  面对"应该如何以目标为中心灵活地传递视觉信息?"这个问题,Gabriel Kreiman教授强调"在本质上,人类能够根据同一图像回答无数个问题,包括标记对象、计算对象、描述对象颜色、对象间的相互作用、各对象的大小等。我们目前只能构建出解决其中一个问题的神经网络,却无法通过单一网络同时解决所有问题。虽然也有一些新兴算法做出了尝试,但其水平仍然相当原始,远不能与人类的表现相提并论。"
  综合差异
  对人类及动物来说,视觉往往与嗅觉、触觉和听觉密切相关。视觉皮层、听觉皮层、体感皮层以及嗅觉皮层间相互影响并相互提示,帮助人体调整对周遭世界的推断。但在AI系统中,这些元素还只能分别独立存在。
  我们是否需要建立起这种综合体系,由此构建起更强大的计算机视觉方案?
  Kreiman回答道,"作为科学家,我们习惯于把问题拆解开来分别处理。我个人认为这样的起点确实比较合理,例如先实现视觉,暂时不考虑嗅觉或听觉。这有点像电影工业早期制作的默片。跨模式用例当然值得期待,但我认为先把问题简化也许更有利于获得研究进展。"
  但是,生物视觉本身就与大脑中的各个复杂区域相互关联。在人体中,视觉离不开逻辑、推理、语言及常识等关联体系。
  Kreiman指出,"其实大部分视觉问题都要求我们把输入内容与原有常识结合起来。"
  他以下面这张美国前总统奥巴马的照片为例,阐述了自己的思考。
  要理解图片内容,需要一定的通识知识与社会知识,例如弄明白体重秤上的人在做什么、奥巴马在做什么,这需要大量的背景信息。通识知识会让AI代理意识到体重秤的作用是测量体重,物理知识则指明奥巴马在给面前的人加力,心理知识则是人们在看到远超预期的体重指数时往往会感到惊讶。而这也是恶作剧的意义所在。
  Kreiman提到,"目前的架构明显做不到这一点。各项信息会以我们自己意识不到的方式整合起来,并与脑中储备的信息相互映射和补充。"
  对语言和常识的理解本身,就是横亘在AI社区面前的一座高峰。更要命的是,我们甚至不清楚这类问题到底能不能以拆解的方式逐步解决;或者说,只有统一整体处理才有可能带来真正的答案。
  Kreiman最后总结道,"终有一天,我们要将认知的各个层面都考虑进来,而没有语言和逻辑作支撑的视觉终究不够可靠。希望我们能在未来几年中获得重大突破,努力将语言、逻辑与视觉模型统一起来。"

比引力还强!弱相互作用力是什么?夸克因它而变味科学认识君的通俗物理100课系列第12课弱力除了妇孺皆知的引力,自然界还存在其他三种性质的力,分别是强相互作用力,电磁作用力,弱力。这三种力和引力一起构成了自然世界的四大基本作用力人的大脑到底开发多少?别闹了,爱因斯坦的大脑结构和你的没区别不知道什么时候,我就听到了这样一句话普通人的大脑只开发了10,如果我们可以开放其余的90,那你我都可能会是天才。这句话最早起源于西方神经外科医生对大脑的研究论文,但这并不是严谨可靠世界是虚拟的假象吗?这不是科学问题,这是哲学本体论的变种你每天睁开眼,就会看到一缕刺眼的光。你懒洋洋地躺在床上,听着窗外的鸟叫,闻着家人做菜的饭香。温馨的场景显得那么地真实。而这样的场景不仅仅会出现在实际生活中,还会出现在你的梦里。我们阿波罗1号突发大火,三名宇航员葬身火海!美国登月的挫败与希望人们只记得阿波罗11号,因为这是人类首次登陆月球的象征。没几个人记得阿波罗12到17号的登月任务。更有人鲜知阿波罗11号之前的探月铺垫。我们的故事就从登月之前的阿波罗8号计划开始!以太被爱因斯坦否定!暗物质有可能是物理学史上的第二个以太吗?科学认识君的通俗物理100课系列第18课以太的发展史在物理学史上,科学家经常走进一个死胡同,越走越深,致使后人废了老劲才能摆脱死胡同。当然,死胡同也间接推动了科学的发展,让科学家对狭义相对论中的时间膨胀是什么?一切源于光速不变说到爱因斯坦你肯定会想到相对论。而相对论具体是讲什么呢?其实相对论分为狭义相对论与广义相对论,爱因斯坦在发表狭义相对论后的才完成广义相对论。我们常听到速度越快,时间越慢指的是狭义相从康德的二律背反窥探宇宙终极奥秘,物质是否可无限细分?德国古典哲学家康德可以算作是一个时代的标志,他对世界的深度思考留给后人宝贵的精神财富。其中四组二律背反直接叫停了唯理论和经验论关于本体论的多年恩怨。在二律背反之前,人们总是能从相反光线本身存在时间吗?光子上的时间是否静止?首先我们需要划分一下对时间的分类,这篇文章只阐释物理学上的时间。如果你是唯心论者,那么可能会感到突兀。在物理学上,时间是真实存在的,这不为人的意志而改变。事实上,很多人并不理解时间比10维弦理论更高级!11维M理论能否扛起万有理论的大旗?步入21世纪,物理学上空依旧弥漫着乌云!除了暗物质,相对论和量子力学这两座大山依旧无法完全兼容。当然,量子电动力学和狭义相对论可以很好地兼容,比如描述微观粒子相对论效应的狄拉克方程现代物理学还有多少乌云?至少三大乌云,几十朵小乌云,甚至更多从17世纪开始,伽利略通过系统化实验归纳了自然规律,从而标志着物理学的诞生。从伽利略到牛顿,从麦克斯韦再到爱因斯坦,从哈勃提出宇宙膨胀论到霍金提出黑洞辐射。物理学的新理论层出不穷,量子通信不是用量子纠缠超光速传递信息!其本质是绝对加密电磁波我国的量子通信已经走在了世界的前列。有人会好奇,量子通信比传统电磁波通信强在哪呢?量子通信是利用量子纠缠通信吗?量子通信这个名字的确有点误导性,它的全称是量子加密通信,重点在加密,
2021高考后记你只管拿着录取通知书入学,剩下的,国家管我走过了很多的路,吃了很多的苦,才将这份毕业论文送到你的面前。曾经中科院一篇博士论文的致谢,让读者看到了作者求学成长之路的艰辛。作者成长的不易,在艰辛中成长起来,并最终能够完成学业三体维德我不求所作所为被人理解支持,只求不被阻挠维德是三体作品中一个非常凌厉的人物,他有着异常坚定的目标,不达目的誓不罢休。维德首次登场是作为行星防御理事会战略情报局的局长,借助于情报局的地位,维德提出向三体舰队发射一枚探测器,三体维德前进!前进!不择手段地前进前进!前进!!不择手段地前进!!!只送大脑。似沉闷千年的深潭,突兀地被一块巨石激起,惊涛骇浪。维德的话语,能敲打起每一位读者内心的波澜。是怎样一个理智冷静的极端?能够发出如此冷酷的风起云涌的大时代与家国情怀这些年给我最深的感受就是国家是真的强大了,我们这边不知名的小镇子都建设了公路,家家门口都栽上了绿化,村里好几年之前就铺上了水泥路,便捷的快递,太阳能的路灯,小时候停电的经历,已经成冷战时期拍摄的卫星照片还可以研究土拨鼠?ALENG自媒体5月22日午间自媒体专稿,冷战结束已经很多年了,这场人类文明史上持续时间最长造成的全球性的安全灾难隐患最为严重的历史性事件曾经多次将人类文明置于毁灭的边缘。在冷战期Chrome83发布更新,新增一个功能,可能对你至关重要ALENG自媒体5月20日晚间自媒体专稿,谷歌旗下Chrome浏览器今天发布重大版本更新,本次更新,是在因新冠肺炎疫情影响导致未能及时发布Ver82版本之后,直接将版本号跳至Ver宇宙中最小的恒星究竟有多大?仅比木星大50ALENG自媒体5月14日晚间自媒体专稿,我们在讨论宇宙中的事物时,常常乐于谈到它们巨大的体积和规模,比如最大的恒星最大的星云最大的天体等等,当然,即使我们不使用最大这样的词语,已三体金句文明的毁灭是一件再普通不过的事智子工程,由三体世界组织实施,旨在把一个质子改造成一台超级智能计算机。三体世界的物理学家能够操纵微观世界十一维结构中的九维。改造质子需要首先将质子展开成二维,然后在宏观的二维平面上对华为的禁令被延长至2021年5月,意味着什么?ALENG自媒体5月14日早间自媒体专稿,2019年5月15日,特朗普签署行政命令,禁止美国公司使用被认为具有国家安全风险的公司的电信设备。尽管该命令没有指明哪些公司具有国家安全风从800万公里之外看地球,是一种什么样的体验?ALENG自媒体5月15日早间自媒体专稿,1990年2月14日,应著名天体物理学家卡尔萨根的要求,美国宇航局的旅行者1号航天器,在即将关闭航天器机载相机的最后一刻,调转机头,将相机为了吸引特斯拉建厂,这座城市将其地标建筑换成了马斯克的头像ALENG自媒体5月22日早间自媒体专稿,尽管因为天马行空的风格饱受争议,不过,硅谷科技大亨埃隆马斯克(ElonMusk)仍然在美国受到追捧,日前,美国一座城市为了吸引特斯拉将其第