果蔬采摘机器手采摘控制识别定位方法
果蔬采摘机器手采摘控制识别定位方法
1 基于特征提取的方法
为提高工作效率以及为采摘机械提供作业目标的位置信息,需要对果实进行识别和定位。果实的识别指的是判断所采集的图像中是否存在果实,传统的方法是通过判断目标图像是否能够分割出果实区域而实现这一目标的。果实的定位指的是获取果实的位置信息,一般用包围盒(Bounding Box)或果实的质心等特征作为定位结果输出。目前,国内外的各位学者主要利用果实独特的颜色(颜色阈值分割)和外形特征(形态学检测)完成果实的识别和定位任务。
Liu等通过将RGB颜色空间转换到HIS颜色空间(Hue-Intensity-Saturation),结合Otsu算法获得分割阈值,实现有效识别出成熟西红柿。Feng等使用结构光加HIS颜色阈值开发了番茄机器人,单个收获周期的执行时间约为24 s,收获成功率为83.9%。Feng等研制的升高型槽草莓收获机器人,在HSV颜色空间提取出色度和饱和度特征用来识别成熟果实,并且使用双目立体视觉对目标果实进行定位和采摘。Lyu等采用Otsu动态阈值分割方法实现了苹果果实的识别和提取。Arefi等利用R-G方法去除背景,通过形态学特征定位番茄目标,实现了96.36%识别准确率。
Wang等则结合K-means聚类算法与颜色空间转换模型,实现从图像中提取苹果果实。Wang等基于提出的网状灰阶特征开发了一种新型的绿色柑橘果实检测算法。Linker等基于区域生长算法和KNN算法实现了针对绿色苹果的检测。Song等结合支持向量机与词袋技术,在辣椒采摘中达到了94.6%识别率。Ling等基于AdaBoost分类器并使用RGB 图像检测成熟番茄,检测成功率为95%。
在果实颜色与其他部分差别明显时,颜色分割法通常能够对果实区域完成分割,并得到果实的边界轮廓。利用这个边界轮廓,便很容易得到Bounding Box并完成果实的定位。但是颜色阈值分割法仅对果实颜色特征进行了提取而缺少对果实形状特征的描述,因此该方法针对相互重叠遮挡的多个果实通常提取效果比较一般。
为在形状方面描述果实的特征,以及恢复被遮挡果实的形状,学者们提出了形态学检测的方法。2018年,为解决传统机器人使用Hough变换识别类球状果实耗时长、准确率低的问题,初广丽等提出了一种基于最小二乘法的圆检测算法,平均处理时间为53.548 ms,且准确率达95%以上。但算法没有对密集生长的果实进行测试,且仅仅针对类圆形果实,具有一定局限性。
除此之外,还有学者提出过基于纹理和混合特征的检测方法。为估计树上苹果的直径与数量,Stajnko等设计了一种基于颜色和纹理特征分割苹果,并使用圆形Hough变换拟合苹果形状的算法。该算法选用两个特征检测候选区域的交集作为检测结果,最大限度地降低了检测的错误率。经测试,该算法的水果检测准确率为89%,总误差率为2.2%。
虽然学者们对颜色、形状、纹理等特征已有多年的研究,且取得了一定成果,但这些特征都属于低级特征。随着研究的深入,设计师们发现,仅仅依靠这些低级特征易引起以下几个方面的问题。
(1)容易受光照影响。上面多篇文献提到,使用颜色阈值分割方法进行图像分割,当光源变化较大时,结果极易受到干扰,引起分割精度下降或者出现错误。
(2)拟合精度有限。果实的形状各不相同且并不规则,形状拟合法对部分形状较为规则的果实效果较好,但对于茄子、黄瓜等形状较为特殊的果实难以起到良好的效果。
(3)对复杂场景的处理能力有限。传统方法在果实孤立、背景简单的情况下表现出了优异的能力,且具有较高的实时性。但在果实排列密集、枝叶繁茂、相互遮挡情况严重的情况下,传统方法往往性能下降甚至失灵。
(4)专用性较强。传统果实的识别、定位算法往往是对某一种果实专门设计的,难以直接应用在其他种类的果实上。且需要设计者反复调节模型参数以应对复杂多变的情况。
2 基于深度学习的方法
为解决以上问题,国内外学者尝试使用深度学习方法完成果实的检测、识别、定位、分割等任务。深度神经网络(Deep Neural Networks,DNN)方法凭借其强大的特征提取能力和自主学习能力被广泛应用于农作物目标检测。与传统算法相比,神经网络模型能够提取出图像的隐性特征(无明显实际含义的特征),并通过自我学习和迭代得出划分的依据。Sa等受Faster R-CNN启发,研发了一种基于深度学习的水果检测算法,通过同时从RGB图像和红外图像中提取特征,实现了甜椒等7种果蔬检测,该算法的召回率为0.838。傅隆生等则基于LeNet卷积神经网络识别多簇生长的猕猴桃,在速度与准确性方面均超越了传统方法。Rahnemoonfar和Sheppard基于Inception-ResNet架构搭建了一个CNN模型用于计算水果的数量。周云成等对VGGNet进行优化,对番茄的主要器官如茎、花和果实分别识别。Stein等设计了一种芒果果实检测、定位和产量估算的网络。该网络使用R-CNN检测水果,使用LiDAR组件将检测到的水果与对应的树相关联。在此基础上,该算法可以完成果树产量的统计,对单棵树的统计错误率为1.36%。Khan等提出了一种称为相关系数和深层特征(Correlation Coefficient and Deep Features,CCDF)的水果作物病害自动识别和分割系统,分类准确率为98.60%。
3 深度学习方法的局限性
从上述实例可见,深度学习方法在计算机视觉领域应用比较广泛的是卷积神经网络。卷积神经网络不仅能提取低级特征,还能够提取很多人类无法直观理解的高级特征,故相比于传统方法,深度学习方法具有更好的鲁棒性、更高的准确性,且模型参数大多为算法自动学习得到,尤其是传统人为设计的特征工程由网络自动学习完成,需要人工干预的部分较少,同时也降低了使用者的技术门槛。在采摘机器人领域,深度学习应用较为广泛的是基于图像的果实识别、定位与语义分割技术,而对于植物的其他部分鲜有涉及。目前,影响深度学习在采摘机械领域应用的因素包括以下方面。
(1)需要的数据量较大,缺乏图像标准库。目前主流的基于深度学习的图像处理方式是强监督学习方式,需要大量的训练数据来训练模型的参数。在计算机视觉任务中,对于图像分类任务有ImageNet等标准库,街景图像分割有Cityscapes等数据集,而农业场景缺乏大量带标签的数据,难以评判各种算法的优劣性。建立标准的图像数据库将会对上述问题有较大改善。
(2)场景复杂度较高。植株密集程度高、相互遮挡情况严重是农业场景的一大特点,也是影响果实定位和识别的主要因素之一。相比于传统方法,深度学习方法的引进虽然一定程度上缓解了这个问题,但是对于复杂场景的性能仍有提升的空间。如何提高密集遮挡情况下的果实识别与定位的准确率将是未来采摘机器人视觉控制的研究重点之一。
(3)图像标注成本高。用于视觉控制的图像样本通常是农田的实景图片,其实例个数多、场景复杂度高,对于目标检测定位、语义分割,以及实例分割任务而言仅靠手工标注难度较大,且耗费大量的人力物力。随着半监督学习或非监督学习方法的发展,这一问题将有所改善。
(4)存在实时性问题。卷积神经网络的参数量较大,其计算量较大,对于设备的计算能力要求很高。如何在保证设备体积较小的情况下同时提高计算的实时性,仍是目前亟待解决的一大问题。人工智能算法在嵌入式设备领域的应用将是未来研究的热点之一。
(5)网络训练成本高。从完全随机的初始化参数开始训练网络将耗费大量的时间和计算力。为解决这个问题,设计者通常使用经过预训练的网络进行再次训练(例如迁移学习技术和fine-tune技术)。虽然一定程度上减少了网络训练的时间,但是由于反向传播算法在速度、内存占用上的劣势,以及容易引起梯度消失、梯度爆炸的问题,网络的训练并不是非常简单。为解决反向传播所带来的一系列问题,Kurt提出了一种网络训练的希尔伯特·施密特独立准则(Hilbert-Schmidt Independence Criterion,HSIC),并在MNIST和CIFAR10数据集上对含有5个卷积残差块的ResNet进行训练,得到其训练速度和准确率均高于反向传播算法。更多类似算法的提出将有助于降低网络的训练成本。
(6)网络结构仍有提升的空间。近几年,深度卷积神经网络依靠结构的不断改进,其性能有很大提升。但试验发现,CNN对于结构之间的相关关系、结构的方向性辨别能力十分有限,这使得视觉系统对于正常生长的植株与堆砌的植株残骸缺乏辨别力。CapsNet网络更改了传统CNN的结构,为解决网络辨别能力差的问题提供了可能性。随着神经网络的不断发展,网络结构性能还有很大的提升空间。
(7)仍有一定的专业门槛。深度学习网络通常需要不断调节参数以最大化性能。目前虽有Adam等几乎无需手动调参的优化器,但在训练进行一段时间后,Adam优化器的效果不及合理手动调参的随机梯度下降(Stochastic Gradient Descent,SGD)优化器。除此之外,模型和超参数的选择也需要一定的专业门槛,限制了深度学习的应用。自动机器学习(Auto Machine Learning,AML)技术的不断发展将有助于进一步降低深度学习应用技术门槛。
除基于二维图像的视觉技术之外,还有部分学者尝试使用三维立体视觉技术完成目标的识别和定位。为识别仅部分可见的苹果和果实簇中的苹果,Silwal等使用RGBD相机,结合全局相机和眼手协同控制系统,结合颜色特征和3D点云对水果进行识别和定位。将苹果果实进行人工分散后,对193个水果识别准确率达到100%。为有效指导番茄采摘避障路径规划,熊龙烨等利用Kinect v2获取柑橘树的彩色图像与深度图像,设计了自然场景下利用泊松曲面柑橘树的三维重建以及利用颜色信息对成熟柑橘进行识别的方法,对柑橘树重建的精度达到94.83%,成熟番茄的识别率达到94.72%。
受限于成本和计算性能,二维视觉仍然是目前主流的识别和定位方式。除此之外,深度学习技术在三维视觉领域虽有所突破,如Li等提出了三维深度学习的Point-CNN网络结构,但远没有深度学习在二维图像的应用更加成熟,受制于算法和设备计算能力,所能完成的任务也比较局限。随着计算机性能的不断提升、三维视觉设备成本的不断下降以及三维深度学习技术的不断发展,未来基于三维立体视觉的深度学习技术将很有可能成为新兴的主流视觉方案。
本文节选自:
吴剑桥, 范圣哲, 贡亮, 苑进, 周强, 刘成良. 果蔬采摘机器手系统设计与控制技术研究现状和发展趋势[J]. 智慧农业(中英文), 2020, 2(4): 17-40.
WU Jianqiao, FAN Shengzhe, GONG Liang, YUAN Jin, ZHOU Qiang, LIU Chengliang. Research Status and Development Direction of Design and Control Technology of Fruit and Vegetable Picking Robot System[J]. Smart Agriculture, 2020, 2(4): 17-40.
点击直达知网阅读
点击直达官网阅读(全文免费)
微信交流服务群为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。
入群方法:加小编微信331760296,备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。
信息发布
科研团队介绍及招聘信息、学术会议及相关活动的宣传推广