旷视研究院AAAI2023入选论文亮点解读
近日,国际人工智能顶级会议AAAI2023(AssociationfortheAdvancementofArtificialIntelligence)公布了录用结果。本届会议共收到来自全球的8777篇论文投稿,其中1721篇论文被录用,论文录用率为19。6。
AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。本届会议旷视研究院被收录的论文涵盖3D重建、多目标跟踪、视觉语言多模态、3D检测、图像对齐等方向,下面是入选论文概览:
01hrSemisupervisedDeepLargebaselineHomographyEstimationwithProgressiveEquivalenceConstraint
基于渐进式等价约束的半监督深度大基线单应性矩阵估计
在大基线(largebaseline)场景中,由于图像间的重合度低以及相对运动大使得单应性矩阵很难直接估计。为此,我们提出一种渐进式的估计策略,将largebaseline单应性矩阵转换为多个中间项,将中间项累积相乘就可以重建初始单应性矩阵。我们引入了一种半监督的单应性一致损失,包括用于优化中间项单应性矩阵的有监督项和基于累积重构在不使用光度损失的情况下优化largebaseline单应性矩阵的无监督项。同时,我们提出了一个大规模的数据集,涵盖了常规和挑战性场景。
所属领域:图像对齐配准
关键词:半监督、大基线单应性矩阵、图像对齐
02hrOneisAll:BridgingtheGapBetweenNeuralRadianceFieldsArchitectureswithProgressiveVolumeDistillation
一即一切:通过渐进式体蒸馏弥合神经辐射场架构间的差距
神经辐射场NeRF可以高质量地重建三维场景,目前多种方法都在争夺其核心结构,包括MLP(NeRF)、张量(Plenoxels)、低秩张量(tensoRF)和哈希表(INGP)等。这些表示都有一定的适应场景,比如基于hash的INGP模型小、训练快,但由于分辨率混叠等原因,其不如基于张量的Plenoxels更易实现对场景的空间编辑。为了弥补NeRF系列架构间差异,本文提出了渐进式体蒸馏(PVD)实现对上述不同架构间的任意转换。通过PVD得到一个NeRF模型通常要比从头训练更快,且在部分数据集上质量更高。
论文链接:
https:arxiv。orgabs2211。15977
开源链接:
https:github。commegviiresearchAAAI2023PVD
所属领域:3D重建
关键词:神经辐射场、蒸馏、NeRF、INGP、Plenoxels、tensoRF
03hrGeneralizingMultipleObjectTrackingtoUnseenDomainsbyIntroducingNaturalLanguageRepresentation
利用自然语言表征提升多目标跟踪跨域跟踪性能
本文首先指出当前的多目标跟踪任务多在同一类场景下进行评测,即训练集和测试集取自同一场景(比如MOT17,MOT20),现有的SOTA跟踪器在不进行finetune的前提下直接应用在新场景跟踪性能会大幅下降,为此本文首次提出利用自然语言的高层次语义信息解决跨域跟踪问题,首次将视觉语言预训练模型CLIP并将其与querybasedtracker结合,基于此搭建的新的多目标跟踪模型LTrack可在域内和跨域场景上均实现优异的跟踪性能,为今后利用语言信息与视觉信息结合解决跟踪问题提供一个新的思路。
所属领域:多目标跟踪,视觉语言多模态
关键词:多目标跟踪、视觉语言模型、跨域
04hrBEVStereo:EnhancingDepthEstimationinMultiview3DObjectDetectionwithTemporalStereo
BEVStereo:利用时序立体提升环视3D检测中的深度估计准确度
现有的在3D检测中利用立体视觉提升深度估计的方法大多无法解决两个问题:过多的显存开销以及无法解决运动物体。BEVStereo通过引入动态立体视觉的方法解决了这个问题,并且提出了可以感知物体尺寸的circleNMS,能够避免计算rotatedIoU的同时将box尺寸考虑进去。
论文链接:
https:arxiv。orgabs2209。10248
开源链接:
https:github。comMegviiBaseDetectionBEVStereo
所属领域:3D检测
关键词:动态立体视觉
05hrBEVDepth:AcquisitionofReliableDepthforMultiview3DObjectDetection
BEVDepth:在3D目标检测中获取可靠深度
现有的基于LSS的3D目标检测算法中,其深度预测模块产生的深度预测结果不够可靠,本文通过加入深度监督,引入相机内外参编码以及深度精修模块,使得LSS产生的深度预测变得更加可靠。
论文链接:
https:arxiv。orgabs2206。10092
开源链接:
https:github。comMegviiBaseDetectionBEVDepth
所属领域:3D检测
关键词:reliabledepth
技术信仰,价值务实
旷厂小伙伴们还将带来怎样的技术创新?
让我们一起期待吧!
美国女明星告诉你,紧身裤怎么穿才美?詹妮弗洛佩兹,穿着黑色紧身裤,搭配运动胸罩和运动鞋前往健身房。尼基贝拉穿着迷彩紧身裤和黑色短上衣外出走动。2022年10月24日,阿曼达穿着洛杉矶最受欢迎的黑色紧身裤和一件协调的露
白鹿比超模还美头条创作挑战赛在宝格丽的活动现场,虽然超模刘雯占据了C位,但是还是被白鹿抢了风头。不得不说白鹿像画里的姑娘,太漂亮了!看刘雯这身材,瘦的皮包骨头。不过刘雯的笑容还是很美的,大大的酒
看不惯一个人无需翻脸,记住这3点,你就赢了君子唯有修炼自己,坚持走正道,才能真正地得以解脱。曾仕强每日箴言全文共2600字,深度阅读需8分钟,受益终生人生就像一次背井离乡独闯未知世界的旅途。一个人如果不能了解旅的心情,就无
小将军杜若小胖纸渡口句点,荒凉疆场,雨箭纷飞,锦绸罗缎,倾情天下,玉露琼脂,蝶恋天涯,宁听繁华曲,不做繁华主,静好容颜在菱花镜如梦幻泡影般转瞬即灭。三千青丝弱缕,为谁点梦成痴!万丈繁华红
中国庞大的退休潮已经涌来,养老金或将提升股市回报我发现很多报道认为当前中国退休人员日益增长压制国内的经济发展。但我其实并不这样认为。我觉得当前中国在未来需要支出的养老金数额肯定是有压力的,但中国的央企和国企都是其后备储蓄力量。从
中国的三个巨大潜在发展空间目前我最为关注的三个方面。目前中国城市化进程已经逐渐快到尾声了,劳动力总量在2012年开始就在萎缩了,而且2022年很可能人口开始下降,人口结构在快速老龄化,经济高增长时代已经过去
中国家电电子品牌企业在俄罗斯亮相中国日报莫斯科10月26日电(记者任奇)中国家电电子品牌宣传活动于本周一在中国消费品(俄罗斯)品牌展期间以线上线下结合的方式在莫斯科举办。本届展会共有来自浙江山东江苏广东等制造大省
双11电视大战升级,2000元内65英寸电视不止6款,看看都如何今年双11大战有多激烈,这是此前所不曾想到的。比如在电视领域评价君就发现,2000元以内65英寸电视就很多,可能得有十几款甚至更多,这也说明竞争的激烈。这次,我们就挑选几款有代表性
为什么你要买一台二手苹果台式一体机?在大多数人的印象中,苹果电脑的首选就是macbook,而却只有很少一部分人会想到imac,究其原因,这都和两者的使用场景有很大关系。如果,要去考究功能性的话,那imac,一台苹果台
预防衰老的主要步骤是什么?郑明明山茶花系列抵抗衰老预防衰老的主要步骤是什么?越来越多的研究显示,抗氧化是预防衰老的重要步骤,因为自由基或氧化剂会将细胞和组织分解,影响代谢功能,并会引起不同的健康问题。所以,如果能够消除过多的氧化自
江诗丹顿LESCABINOTIERS超薄三问报时表无需检查您的表盘即可知道现在是什么时间,这款大师级作品只需在一天中的任何时刻按下它,即可发出时间流逝的旋律。浪漫主义音乐运动鼓励情感而不是理性。分区很棒,动人。江诗丹顿似乎通过将呼