1 引言
为了更好地监测和分析各种作物和动物生长状态,新的信息和通信技术被大量使用,比如基于摄像机的图像采集和基于传感器的环境监控等[1]。如何快速识别处理这些图像和结构化的监测数据以支持智能决策是智能农业领域的重要研究方向。传统处理技术包括机器学习(K-means聚类、支持向量机、人工神经网络等),线性极化,小波滤波。近年来,深度学习(Deep learning,DL)被大量采用,特别是在病虫害检测、植物和水果识别、农作物及杂草检测与分类等智能农业领域[2,3]。
DL是机器学习研究中的一个分支,其通过组合低层特征形成更抽象的高层表示属性类别或特征,以发现数据的分布式特征[4]。至今,DL已经广泛应用图像识别[5]、物体分类与检测[6]、人脸识别[7,8]和语音识别[9]等。
相对于传统机器学习,DL能更好地提取农业领域所采集图像和结构化数据的各种特征,并与农业机械有效结合,更好地支持农业智能机械装备的开发。因此,近年来,DL受到农业领域的高度重视,相应研究成果不断涌现。Kamilaris等[10]对国外近年来DL在农业领域中的应用进行了全面综述。本文将对近年来国内农业领域DL的应用现状进行综述,一方面,为农业研究者提供可用的DL方法参考;另一方面,以便于研究者快速精确地检索与所研究问题相关的文献。本综述框架如下图1所示。
图1 论文框架
2 深度学习简介
DL最早由Hinton及其团队于2006年提出,Hinton等[11]通过逐层初始化人工神经网络解决了大规模多层神经网络在训练速度上的难题,奠定了DL的基础。2012年,Hinton及其学生通过Rectified linear neurons(RLN)和 Dropout 正则化改进了卷积神经网络,并在ImageNet分类竞赛上,将错误率降低至16%[12]。在接下来的几年中,研究者对其DL神经网络进行了不断改进,并将ImageNet分类错误率降低至零点几个百分点。2012年的突破标志着基于DL的人工智能繁荣的开始。2015年,LeCun,Bengio及Hinton在Nature上共同发表了《Deep learning》的综述,对DL进行了定义:DL是一种更复杂的表示学习,具有多个级别的表示,它通过组合简单但非线性的模块获得,每个模块将一个级别的表示(从原始输入开始)转换为更高、稍微抽象的级别的表示;有了足够多的这种变换的组合,就可以学习非常复杂的模式;对于分类任务,较高的表示层会放大输入中对识别重要的特征,并抑制无关变化[4]。2019年3月27日,ACM(Association for computing machinery)将2018年的图灵奖授予给了Hinton、LeCun和Bengio,以奖励这三位科学家在DL基本概念的发明、实验中惊人结果的发现及其在工程应用中的重要突破等方面做出的重要贡献。
DL的强大优势是特征学习,即从原始数据中自动提取特征,由较低层次特征的组合形成更高层次的特征[4]。不同的DL由各种不同的组件(例如卷积、池化层、完全连接层、门、内存单元、激活函数、编码/解码器等)构成,具体取决于所使用的网络类型。当前主要网络类型有多层感知器(Multi-layer perceptron,MLP)[13]、卷积神经网络(Convolutional neural network,CNN)[14,15]、深度置信网络(Deep belief network,DBN)[16]、递归神经网络(Recursive neural network,RNN)[17]等,其中CNN是农业中最常用的一种网络模型。
MLP是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。CNN是一类包含卷积计算且具有深度结构的前馈神经网络,具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。DBN为概率生成模型,通过联合概率分布推断出数据样本分布,其中生成模型通过训练网络结构中的神经元间的权重使得整个神经网络依据最大概率生成训练数据,形成高层抽象特征,提升模型分类性能。RNN是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络,其可以引入门控机制以学习长距离依赖,具有灵活的拓扑结构且权重共享,适用于包含结构关系的机器学习任务,在自然语言处理领域有重要应用[4]。
随着DL的快速发展,各种网络架构被提出。常用的网络架构有Lenet[18]、AlexNet[19]、CaffeNet[20]、VGGNet[21]、GoogleNet[22]、ResNet(Residual Neural Network)[23,24]、Network in network[25,26]、ResNeXt[27]等,研究人员在这些网络架构基础上又相继提出了RCNN[28]、SPPNet[29]、SSD[30]、Fast R-CNN[31]、Faster R-CNN[32]、YOLO[33]等架构。这些架构的核心思想主要体现在两个方面:一是它们的神经元间的连接是非全连接的;另一个是同一层中某些神经元之间的连接的权重是共享的。这种非全连接和权值共享的网络结构使它们更类似于生物神经网络,由此可以降低网络模型的复杂度,减少权值的数量。上述架构均被一些数据集预先训练过网络参数,能为某些特定问题提供较好的分类、检测和识别效果。用于训练DL的常见数据集是ImageNet[34]、PASCAL VOC、Labelme、COCO、SUN、PlantVillage等。
同时,各种DL框架[35]被开发出来,例如加州大学伯克利分校视觉与学习中心维护的Caffe[36],谷歌的TensorFlow[37],微软研究院的CNTK2.0[38],Facebook、Twitter、Google等维护的Torch[39],蒙特利大学的Theano[40]等。这些框架为DL模型的开发、训练、测试、微调提供了统一平台;且每一框架各自具有统一的代码风格、模板化的结构,能减少DL开发大量重复代码的编写[41]。
3 论文选择和分布
农业是指利用动植物的生长发育规律,通过人工培育来获得产品的领域,研究对象主要是有生命的动植物及其场地与环境等。相应DL主要集中于影响植物生长发育的土壤水分及营养、温湿度、病虫害和影响动物健康生长的饲料营养、病害等领域。通过国内数据库对深度学习、卷积神经网络、农业、农田、动物、土地覆盖、土壤水分、温度、病虫害等关键词进行搜索,发现大部分相关研究成果发表于2015年之后,且集中于种植和养殖业。因此,本文选取了2015年到2019年3月间在这些领域中应用DL的相关文章。2019年3月,开展相应检索,相应条件设置如下:
(a)数据库:中国知网、万方数据库;(b):深度学习;(c)植物类别:小麦、水稻、玉米、棉花、甜菜、黄瓜、烟叶、油茶、菊花等农作物,苹果、柑橘、番茄等水果;(d)动物类别:猪,牛;(e)其他类别:土地覆盖、土壤水分,温度。
通过人工进一步筛选最终确定65篇发表于核心期刊上的研究成果,所选论文在不同年份、不同类别研究对象的分布情况如图2所示。从图2中论文分布看,近2年DL在农业中的应用研究快速增加,其中2018年相关研究成果为40篇,占比超过61%。从研究对象看,80%(52篇)研究对象为植物,17%(11篇)涉及土壤水分、温度等资源环境分析,不到3%(2篇)研究对象涉及动物;说明现阶段DL在我国农业中的应用主要侧重于植物分类识别等研究。
图2 所选论文分布
4 深度学习在我国农业中的应用
下面将从研究对象与目的、数据源、数据差异、预处理、数据扩增、模型与框架以及性能对比等角度对所选论文进行综述。
4.1 研究对象与目的
广义农业包括种植业、林业、畜牧业、渔业、副业。表1给出了DL应用研究对象及其应用目的。所综述论文其研究对象和应用目的分布如图3所示。由表1及图3可知DL在农业中应用主要集中于种植业和畜牧业。其中DL在种植业中主要集中于研究对象的分类、检测、识别;耕作场地和耕作环境的预测;而畜牧业主要集中于动物对象的识别。
图3 所选论文研究对象和应用目的分布
表1 所综述论文研究对象与目的
4.2 数据源
DL较其它算法能提高精准度,但其前提是有足够大的可用数据集来描述问题。所综述论文中数据类型及获取方式分类如表2所示。由表2中数据类型可知,农业中用于构建DL模型的常用数据类型有图像和结构化数值数据,其中以图像为主。
从表2中数据获取方式看,图像数据集的获取可分为自行采集和公开数据集,自行采集图像数据常通过无人机遥感、地面相机拍照或录像、搭载相机的无人机航拍、高光谱成像仪、近红外光谱仪等方式获得。公开数据集一般来源于现有知名公开的标准库,如MIT[104]、Oxford-17 flower[62]、Oxford-102 flower[62]、PlantVillage[43]、Flavia[64]、ICL[69]、ImageNet[72]和Kaggle[74]等。结构化数值数据主要通过传感器在线监测获取。
从表2中样本规模看,研究针对具体应用场景自行采集的图像一般规模较小。比如研究产量估算[93]、大田稻穗分割[65]、森林虫害监测[47]、杂草识别[84]使用的图像只有几幅至几十幅图;因为通过无人机遥感或搭载相机航拍的地面范围比较大、像素比较高,这些图像经过预处理后也能得到几百或者上千张用于训练和测试的图像。而知名公开数据库的样本规模在3000~28000张之间。
表2 数据源
类型获取方式样本规模应用参考
图像数据公开数据库3000~28000张植物叶片/病害识别[43,62,64,69,72,74,83,104]
网上收集400~2472张植物病害检测[46, 50, 53, 104]
无人机遥感/搭载相机航拍5~5149张土地覆盖分类、植物识别[47, 67, 68, 84, 93, 94, 96, 97]
支架承载相机拍照/录像550~40000张水果病变、动物生长、植物病害识别,植物分类[42, 45, 49, 50, 52, 55-59, 61, 63, 65, 66, 70, 73, 75-82, 85, 86, 89-92, 105, 106]
高光谱成像仪300张龙眼叶片叶绿素含量预测[60, 87, 88]
近红外光谱仪289~60张烟叶分类、土壤含水率预测[71, 100]
螺旋 CT 机4956张土壤断层孔隙分割[101]
数值数据传感器监测4858~31076条温室温度预测、农田障碍物识别、植物病害检测[44, 48, 51, 54, 99, 102, 103]
调查/GPS定位11496条农用地基准地价评估[98]
统计年鉴数据14年耕地面积预测[95]
4.3 类间差异
一般,检测、识别和分类等的准确率与各类间的差异程度呈正相关关系。就考虑类间差异来看,DL在农业中的应用可以分为生物和非生物,其中生物的类间差异主要是指生物不同种类、不同个体之间的外观特征差异;非生物的类间差异是地理位置特征差异和对生物的特征影响上的差异。类间差异的存在,是DL识别各类特征的基础。
所综述论文中有关类间差异分析如表3所示,其中花卉的分类存在着种间相似和种内差异的现象[62,72];果体病理图像几何特征差异比较明显[61,91];同类疾病,在致病环境相差不大时,病果图像往往表现出共性,也就会呈现出非常相似的特征[91]。刺儿、灰菜与早熟禾的外形较为相似,莎草与玉米的外形较为相似,这种类间差异比较小的植物会导致DL识别准确率下降[82]。一些植物的特殊视图(如番茄的花、果、茎、叶之间有明显差异) 提供了不同的茎、叶、花和果实的分类标准,能够提高DL的分类准确率[75]。
表3 类间差异分析
类型特征部位差异参考
不同
品种
生存条件差异时间、位置、物种、温度等条件[46, 54, 93, 95, 96, 98, 99, 102-104]
茎叶植株茎叶外观形状[42, 43, 45, 47-53, 55-59, 64, 65, 67-69, 71, 81-89, 94, 97]
花花朵外观形状及颜色[62-64, 70, 72]
果果实外观形状及颜色[44, 60, 61, 74, 77, 79, 80, 90-92]
同一品种芽芽的朝向[66]
不同部位动物的头、躯干、尾等部位/植物的茎、叶、花、果等部位外观形状及颜色[75, 76, 78, 105, 106]
4.4 数据预处理
所综述论文97% (63篇)涉及数据预处理。预处理环节相应预处理方法如表4所示,数据预处理过程包括数据清洗、数据转换和降维处理。其中数据清洗技术主要是用于保证数据特定特征的完整性;数据转换是为了满足深度学习模型的要求,将数据从一种格式或结构转换为另一种格式或结构的过程;降维是去除不相关和冗余的变量,降低分析和生成模型的复杂性,提高建模效率[107]。最常见的预处理方法是调整图像大小,包括图像分割、缩放和归一化(48篇)。根据DL模型的要求,图像像素大小为600×600、256×256、128×128、95×95和48×48是最常见的尺寸。
4.5 数据扩增
DL 模型一般是由多层非线性学习器组成,模型较为复杂;要分析的数据是从复杂的自然环境中获得。为了使DL模型具有较好的泛化性能,需要尽可能多地增加训练样本规模,数据补充和数据转换等数据扩增技术被提出。本文所综述应用研究中有37%(24篇)的文献采用了数据扩增技术。
由表5可知,应用最多的数据扩增技术有图像随机旋转、剪裁、平移、水平和垂直翻转等方法,以向模型提供不同环境的数据,从而改善模型学习过程,提高模型泛化性能。特别是对那些只采集了少量数据的研究;比如在黄瓜叶部病害识别中采用随机旋转、水平翻转图像[52],在植物叶片图像识别中采用随机水平、垂直翻转及缩放图像[69]等,将扩增的图像和实际采集的图像共同构成数据集,然后在真实图像上进行测试。因此,运用数据扩增技术使他们的模型能够更一般化和更好的应对现实中的复杂场景。
表4 数据预处理
类型目的方法参考
数据清除去噪中值滤波/去除毛刺/孔洞等噪声[42, 45, 52, 53, 75, 87]
图像补边/拼接处理正射校正/影像拼接/填充目标区孔洞[50, 65, 67, 94, 96, 100]
处理异常值对异常数据进行纠正/剔除[98]
数据统计提取有价值信息[48]
特征补充增加时间特征[103]
数据转换图像分割分割成若干个像素一致的图像[47, 49, 50, 55, 60, 65, 68, 72, 73, 76, 84, 92, 93, 96, 97, 101, 105, 106]
归一化数据归一化处理,尺寸统一[43, 44, 49, 51, 52, 54, 58, 60, 61, 63, 69, 74, 80, 82, 83, 85, 89, 95, 98, 99, 104]
图像缩放缩放转换,图像大小统一尺寸[42, 45, 47, 50, 62, 66, 75, 77, 79, 81, 94]
灰度转换把原始的彩色图像转换为灰度图像[53, 76, 84, 87, 88, 93, 104]
空间转换将RGB图像转变HSI彩色空间的图像[45, 86]
格式转换转换成tfrecord数据文件[70]
降维降低维度高斯滤波[42, 51, 71, 85, 87]
表5 数据扩增技术
功能方法参考样本划分
数据补充分别模拟不同角度和背光场景下
对同一种病变果体的成像
[65, 76, 91]3:1:1
从互联网上下载对应类别图片用于扩充图片集[43]4:1
再次采集6幅特征光谱图像和3幅主成分图像[87]4:1
采集其他地区的玉米田间杂草图像[82]5:1
再次采集健康草莓叶片的图像[55]不同的比例
数据转换随机水平或垂直翻转、随机旋转角度、
随机缩放原图等操作
[43, 50, 52, 58, 63, 69, 74, 75, 77, 81, 83, 84, 97]3:1:1或4:1
仿射变换、透视变换、颜色抖动、对比度增强、叠加噪声等操作引入轻微的扰动而实现数据扩充[45, 60, 61, 79, 80]4:1
注:表中3:1:1是训练集、验证集、测试集的比例,4:1或5:1为训练集与测试集的比例。
4.6 模型与框架
DL在农业中的应用研究一般包括模型优化、框架选择和模型训练与测试。所采用网络结构模型如表6所示。其中52% (34篇)的研究成果直接从头开始训练针对特定研究对象的CNN,例如:多特征融合的CNN[62,87,93,104]等,以提高模型对特定研究对象的检测、分类、识别等准确率。31%(20篇)的研究成果是基于经过大规模数据集预训练的经典网络结构模型,比如AlexNet、VGGNet、ResNet、Faster R-CNN、GoogLenet、LeNet等。还有7篇论文使用改进的DBN。
所选论文所采用框架角度如表7所示。其中大部分研究集中于Caffe (18篇,占比28%)、Tensorflow (12篇,占比18%)和Keras (2篇)。Caffe被广泛使用的一个可能原因是它包含了各种卷积神经网络模型和数据集,用户可以轻松地调用这些数据集。
其中模型训练和测试主要包括样本的划分、训练策略的制定、初始参数设置与调优等。常见的划分方式如表5最后一列所示。一些论文中采用10折交叉验证的策略,即每次选择9个子集作为训练数据,1个子集作为测试数据,这种训练和验证策略能够充分利用数据集中的所有数据[46,51,52]。
初始化参数一般包括学习率、权重、动量等,学习率一般设置在0.001~0.01之间。为了进一步优化模型,Dropout正则化、梯度下降等调优技术常被采用,比如为了避免求解器陷入局部极小值而显著降低模型性能,较通用的做法是开始设定一个较高的学习率,随着训练的进行而自适应地降低。
表6 深度学习网络模型选择
模型网络结构网络特点参考
自行构建的卷积神经网络多特征融合的CNN提取的融合特征维度低于传统的人工设计特征[62, 87, 93, 104]
端到端的CNN直接作用于原始图像数据,通过逐层特征学习,进而利用多层网络获取特征信息[63]
7层结构的CNN共享权值和逐渐下降的学习速率[89]
时变冲量学习的CNN参数训练过程实现网络自我优化,自动提取果园物联网传感器采集的果体图像病变特征[81, 92, 99]
二进制哈希码的CNN可有效地的将高维杂草特征进行压缩,以便于实际田间杂草特征的存储和后续计算[82]
MobileNet科优先的CNN轻量CNN,能降低CNN的权重大小[64]
深度卷积神经网络优选一种8层网络用于番茄主要器官特征提取与表达[47, 49, 52, 53, 55, 56, 59, 61, 65, 72, 75, 84, 94, 96, 100, 103]
编码器-解码器为基础的能够自动从环境信息中学习到主要的非线性组合特征[54, 83]
基于RGB和HSI关系阈值法优化的CNN基于区域的分割技术,获取前景目标与背景在像素灰度值特征上的差异,构造一个区分不同区域的分水岭[86]
YOLO的CNN通过单个CNN遍历整个图像,回归目标的类别和位置,实现了直接端到端的目标检测[80]
Inception Net的CNN对得到的不同尺度特征图进行分类和位置回归[70]
全卷积神经网络通过卷积和池化运算输出不同尺度的孔隙特征图,将孔隙的深层特征和浅层特征相融合[101]
自学习特征的CNN对图像块采用线性稀疏自动编码器进行自动学习,获取局部特征的权值矩阵[73]
已构建的卷积神经网络AlexNet将训练好的模型继续进行迁移训练,保留预训练模型所有卷积层的参数,只替换最后一层全连接层[43, 45, 50, 57, 58, 69, 74]
VGGNet优化全连接层层数,用6标签SoftMax分类器替换原有VGG-16网络中的分类器优化模型结构和参数[42, 68, 97]
ResNet对块图像的特征进行抽象与学习,以自动获取更加深层抽象更具代表性的图像块深层特征[68, 77, 79]
Fast R-CNN5个卷积层的网络即可具有较高的特征提取和分类性能,增加或降低卷积层数都会使网络性能下降[46, 76, 78, 105]
GoogLeNet利用多尺度卷积核提取不同尺度穗瘟病斑分布式特征并进行级联融合[60, 106]
LeNet将方形矩阵卷积核改为适用于一维近红外光谱的向量卷积核,简化网络结构[71]
深度置信网络多个限制玻尔兹曼机(RBM)堆叠而成引入神经胶质改进深度信念网络,并将分解信号结合光照和二氧化碳进行多因子的特征提取[44, 48, 51, 67, 85, 98, 102]
4.7 性能对比
为了评价DL效果,准确率(Accuracy, ACC),召回率(Recall,R),平均正确率(Mean average precision, mAP),交除并(Intersection over union, IoU),均方误差(Root mean square error, RMSE),平均绝对误差(Mean absolute error,MAE),F1值等评价指标被采用,具体如表8所示。
表7 深度学习框架
框架主要功能参考
Caffe应用在视频、图像处理方面[43, 50, 53, 57-59, 62, 65, 74, 77-80, 86, 93, 97, 100, 106]
Tensorflow应用于各类机器学习算法的编程实现[45, 46, 51, 55, 63, 69, 70, 99, 101, 103, 105]
Keras应用于将创意迅速转换为结果的编程实现[66, 99]
微软DL框架CNTK2.0主要应用于作为语音识别的应用上[75, 76]
Theano在Python中用于定义、优化、求值数学表达式[102]
Chainer允许用简单直观的方式编写出复杂的架构[96]
表8 性能指标
指标定义说明参考
准确率Acc=(TP+TN)/(TP+TN+FN+FP),TP和TN分别为将正类分类为正类和负类,FN和FP分别为将负类划分为负类和正类识别、分类或预测
的正确程度
[42-45, 48, 49, 52, 53, 56, 58-63, 65, 67-70, 72-74, 79-82, 84-86, 89, 91, 92, 96, 97, 103, 104, 106]
召回率R=TP/(TP+FN)将正类预测为正类与所有正类的比率[91, 97]
平均
正确率
mAP=1/C(∑i=1NAcc(k)ΔR(k)),C为类别数,N为引用阈值的数量,k为阈值,Acc(k)为准确率,R(k)为召回率预测目标位置及类别的准确度[42, 44, 46, 47, 50, 51, 54, 57, 63, 71, 75, 77, 83, 90, 94, 101, 105]
交除并IoU=AO/AU,AO和AU分别为目标识别与目标标注的交集与并集图像中识别相应
目标的准确度
[55]
均方根
误差
RMSE=∑i=1nei2n,n为预测总次数,ei为第i个样本预测值和观测值的偏差预测值和观测值之间残差的样本标准偏差[88, 99, 102]
平均绝
对误差
MAE=∑i=1n|ei|n,ei为第i个样本预测的绝对误差,n为样本个数预测值和观测值之间绝对误差的平均值[99]
F1值F1=2×Acc×RAcc+R,ACC和R分别是准确率
和召回率
准确率和召回率的调和平均数[65, 77, 78, 97]
大部分研究显示基于DL所获得的结果优于与之比较的其它实现机制。DL技术在植物病虫害检测、植物识别和分类等领域中的应用均表现出非常好的性能,一般识别准确率大于95%、识别速度快、鲁棒性强、泛化性能好。从识别准确率和识别速度方面看,例如在植物叶片病害识别中[43],测试一张图片的时间仅20.79 ms,且其对图像空间位置变化的适应性较好,在扩增图片集上的测试准确率高达99.56%;可能原因是所获取的图形中植物叶子形状、生病叶子具有较明显特征,相对易于识别。在运动中肉牛形体部位识别[105]、龙眼叶绿素含量[87]、作物产量估计[93]、番茄主要器官分类识别[75]、花卉种类识别[72]和林业图像分类[73]等领域的应用中准确率和平均精度相对较低,一般准确率和平均精度均低于85%。这可能是由于使用的数据中包含有动态模糊的图像、叶片采摘后叶绿素有少量变化等造成。从鲁棒性和泛化性能方面看,例如在基于自学习特征的林业图像分类中[73],底层局部特征是通过自动学习得到的,泛化性更好;在水稻虫害识别中[56],设计的10层的CNN模型,可有效地提取图像的特征,对水稻二化螟害虫识别具有很好的抗干扰性和鲁棒性。
5 讨论与展望
通过上述综述可进一步总结DL在农业中的应用具有如下几个方面的优势:首先,它能提高分类/检测/识别等准确率,例如,在植物叶片病害识别[43]中仅经过3次训练迭代,就能达到90%以上的识别准确率;4.7节中所介绍的性能对比也显示较常规算法其能得到更高的准确率。其次,DL具有很好的泛化性和通用性。例如,在水稻虫害识别[56]、果蔬果体病理图像识别[91]中,可有效地提取图像的特征,对目标识别具有很好的抗干扰性和鲁棒性。此外,虽然它较传统方法(如支持向量机、随机森林等)训练时间更长,但它的识别时间非常短。例如,在黄瓜叶部病害识别[52]中,基于CNN训练时间为56h,但识别只需2.7s。最后,可以通过运用图像旋转和剪裁进行扩增数据集来训练模型,以节省在复杂环境中收集图像信息的工作量,例如,在冬枣病害识别[61]、番茄主要器官分类识别[75]中,通过旋转、颜色和亮度变化、尺寸缩放等,对数据集进行扩增,DL仍能学习到较好的稳定的分类特征,避免了传统特征提取方法的不足。
分析发现DL在农业中的应用还存在如下几个方面的不足:首先,DL需要大量数据集用于模型的训练、验证和测试,这就需要搭建相机或传感器设备采集不同环境下的数据信息。例如,在棉花病害识别[42]、大蒜鳞芽朝向识别[66]、花卉种类识别[72]中,都需要采集大量的图像。其次,基于DL的大部分农业问题为有监督学习,相应样本数据需要标签标识,一般需要较为专业的人员参与并对目标类别进行人工标记。例如,在玉米田间杂草快速识别[81]、草莓叶部白粉病病害识别[55]中,均需要对所采集图像进行耗时的人工标记。最后,虽然DL可以很好地学习训练数据集中的特征,但是不能在数据集的表达能力之外进行一般化。例如在菊花花型和品种识别[63]中,把菊花的识别作为一个封闭的系统,需要进一步研究该模型是否能迁移到其它花型和品种的识别。
整体上,DL在农业中的应用场景和研究对象仍有待进一步扩展:
当前研究成果主要集中于植物在形态学、病态学、生长环境信息学等方面的检测、分类及预测。而DL在动物的分类、识别和检测中的研究成果相对较少。一个原因可能是动物的动态运动特征使得其应用场景加复杂,一般需要结合兽医或动科专家参与分析对应动物的生理和行为特征;同时也增大了图像获取、预处理以及快速精准识别的难度,一般需要采用视频分析手段,这给DL的适时性和鲁棒性提出了更高的要求。从媒体报道看,基于DL的猪、牛脸部识别和行为特征分析是当前应用研究的一个热点。随着人们对动物健康状况及肉制品质量安全的重视,DL技术也将为动物生长环境的监控及改善提供便利。
另外,近年来,智慧农业正在我国兴起,其在推动农业生产领域的智能化、经营领域的差异化以及服务领域的全方位信息化过程中产生了大量的图片和数据,如何融合并综合利用这些数据还面临着较大挑战,DL在这方面的应用仍有待深入研究。
再者,有待进一步将DL研究成果融入农机装备和装置,以真正落地相应理论成果。例如基于DL定位水果的位置并识别水果的成熟度,以支持智能采摘和分类;应用DL技术对土壤含水率、大气温湿度、CO2含量、土壤酸碱度、肥料营养等作物生长的环境信息进行挖掘分析,通过云端服务实时提供给农场管理者以辅助其精准决策。
就理论方法而言,在如下三个方面仍有待深入研究。一个是专家经验和DL算法有待进一步融合,比如将手工制作的特征与使用各种技术自动提取的特征结合在一起,以提高整体性能。另一个是未来还可能利用时间维度进行更高的特征分类或预测,以适应模型的终身学习;例如可以根据先前连续观察到的植物或动物的生长情况,动态预测它们的产量、评估它们的需水量或避免疾病的发生等。最后,算法的执行速度有待提高,以满足实时性要求,比如视频识别、应用于除草机和水果采摘装置的图像识别算法对适时性都具有非常高的要求。
参考文献
本文来源于 中国知网免费入口 http://www.zhimeng.org