导言:我一直受惠于很多网络上图文并茂的优秀英文技术文,这些文章不仅便于理解也便于回顾,因为很多时候再次见到图就能回想起当时学会的复杂概念,所谓千言万语不及一张图。MyEncyclopedia公众号会每次一个概念逐渐建立起主流AI领域(CV,NLP,RL,GNN)最直观最形象的概念和技术,并整理成知识网。 文章首发于https:mp。weixin。qq。comsu39urFxq0Z9Yb4BNvZUQ 我们将讨论FastRCNN论文(上图中的浅蓝色矩形)中描述的原始RoI池化。该过程有第二个和第三个版本,称为RoIAlign和RoIWarp。RoI(感兴趣区域)是什么? RoI(感兴趣区域)是来自原始图像的建议区域。我们不打算描述如何提取这些区域,因为有多种方法可以做到这一点。我们现在唯一应该知道的是有多个这样的区域,最后目标检测算法对所有区域进行分类。FastRCNN的工作原理是什么? FastRCNN不同于基本的RCNN网络。它只有一个卷积特征提取(在我们的示例中,我们将使用VGG16)。 我们的模型采用大小为512x512x3(宽x高xRGB)的图像输入,VGG16将其映射到16x16x512特征图。您可以使用不同的输入大小(通常较小,Keras中VGG16的默认输入大小为224x224)。 如果您查看输出矩阵,您应该注意到它的宽度和高度正好比输入图像小32倍(5123216)。这很重要,因为所有RoI都必须按此比例缩小。RoI举例 这里我们有4个不同的RoI。在实际的FastRCNN中,您可能有数千个,但显示所有数千个将无法显示。 重要的是要记住RoI不是物体边界框。它可能看起来像,但它只是进一步处理的提案框。许多人认为这是因为大多数论文和博客文章都在实际对象上创建提案框。这样更方便,我在我的图像上也这样做了。下图中绿色框是一个不在实际对象上的提案示例,它也将由FastRCNN检查。 有一些方法可以限制RoI的数量,也许我以后会写到。如何从featuremap中得到RoI? 现在,当我们知道RoI是什么时,我们必须能够将它们映射到VGG16的输出特征图上。 每个RoI都有它的原始坐标和大小。从现在开始,我们将只关注其中一个: 它的原始尺寸为145x200,左上角设置为(192x296)。您可能会说,我们无法将这些数字中的大部分除以32。宽度:200326。25身高:145324。53x:296329。25和:192326 只有最后一个数字(左上角的Y坐标)才有意义。那是因为我们现在正在处理16x16网格,我们只关心整数(更准确地说:自然数)。特征图上坐标的量化 量化是将输入从大量值(如实数)限制为离散型(如整数)的过程 如果我们将原始的RoI放在特征图上,它看起来像这样: 我们不能真正在这之上应用池化层,因为一些单元格被分割了。量化所做的是在将每个结果放入矩阵之前对其进行四舍五入。9。25变成9,4。53变成4,等等。 您会注意到我们刚刚丢失了一些图像数据(深蓝色)并获得了新数据(绿色): 因为它仍然可以工作,我们不必处理它,但有一个称为RoIAlign的版本可以解决这个问题。RoI池化 现在,当我们将RoI映射到特征图上时,我们可以应用池化。为了方便起见,我们将再次选择RoIPooling层的大小,但请记住大小可能会有所不同。你可能会问为什么我们还要应用RoIPooling?这是个好问题。如果你看一下FastRCNN的原始设计: 原始的FastRCNN架构。资料来源:https:arxiv。orgpdf1504。08083。pdf 在RoIPoolingLayer之后是一个固定大小的全连接层。因为我们的RoI具有不同的大小,所以我们必须将它们合并为相同的大小(在我们的示例中为3x3x512)。此时此刻,我们映射的RoI大小为4x6x512,正如您想象的那样,我们不能将4除以3。这就是量化再次出现的地方。 这次我们不必处理坐标,只需要处理大小。我们很幸运(或者只是池化层的方便大小)6可以除以3得到2,但是当你将4除以3时我们剩下1。33。在应用相同的方法(向下舍入)后,我们得到一个1x2向量。我们的映射看起来像这样: 由于量化,我们再次失去了整个底行: 现在我们可以将数据汇集到3x3x512矩阵中 在这种情况下,我们使用了最大池化,但它在您的模型中可能有所不同。这个过程是在整个RoI矩阵上完成的,而不仅仅是在最顶层。所以最终结果是这样的: 相同的过程应用于原始图像中的每个RoI,因此最终,我们可能有数百甚至数千个3x3x512矩阵。这些矩阵中的每一个都必须通过神经网络的剩下部分(从FC层开始)。对于它们中的每一个,模型分别生成bbox和类别分别。接下来是什么? 池化完成后,我们限定了输入的大小为3x3x512,因此我们可以将其送入FC层进行进一步处理。还有一件事要讨论。由于量化过程,我们丢失了大量数据。准确地说,这么多: 这可能是个问题,因为每个单元格都包含大量数据(特征图上的1x1x512在原始图像上松散地转换为32x32x3,但请不要使用该参考,因为这不是卷积层的工作方式)。有一种方法可以解决这个问题(RoIAlign),我很快就会写第二篇关于它的文章。 本文原作者KemalErdem,由MyEncyclopedia公众号翻译,原文链接https:erdem。pl202002understandingregionofinterestroipooling