仅为学习,翻译进行中...
【题目】Multiple Wavelet Coefficients Fusion in Deep Residual Networks for Fault Diagnosis
【翻译】基于多组小波系数融合深度残差网络的故障诊断
Abstract (摘要)
【翻译】小波变换,是一种将信号分解至多个频带的有效工具,被广泛地应用于基于振动信号的机械故障诊断。相似地,深度学习算法是一种越来越流行的方法,能够从输入数据中自动地学习判别性特征,来提高诊断效果。然而,到目前为止,哪种小波基是最适合故障诊断任务的,依然没有定论,所以本研究在深度学习算法内部融合多种小波包系数。本文提出了两种方法,包括“级联式多组小波系数融合深度残差网络”和“最大化式多组小波系数融合深度残差网络”,从多组小波系数中捕获判别性信息,以进行故障诊断。所提出方法的有效性在行星齿轮箱故障诊断中得到了验证。
【关键词】Deep residual networks (DRNs), fault diagnosis, feature learning, multiple wavelet coefficients fusion, planetary gearbox.
【翻译】深度残差网络,故障诊断,特征学习,多组小波系数融合,行星齿轮箱
I. Introduction (引言)
【翻译】相较于普通的定轴齿轮箱,行星齿轮箱能够提供更高的传动比和能量密度,被应用在很多关键机械设备上,例如直升机、重型卡车和风电。然而,由于长时间的腐蚀、重载等严酷工作环境,行星齿轮箱可能会遭遇各种故障,例如轴承故障、齿根裂纹和轴不平衡等。因此,行星齿轮箱的有效故障诊断和及时维修,对于确保直升机和重型卡车的安全、风电的长期供应、其他机械设备的可靠运行,都是非常有帮助的。
【翻译】然而,行星齿轮箱的故障诊断,比定轴齿轮箱的故障诊断,更有挑战性,这是因为行星齿轮箱的动态特性更加复杂。具体而言,行星轮不仅和太阳轮啮合,而且和外齿圈啮合;大部分情况下,行星齿轮箱要和其他旋转部件一起工作,例如平行齿轮箱和电机;环境噪声也会有一定的影响,使得振动信号更加复杂。更重要地,运行工况经常随时间变化,所以即使是相同工作状态下的振动信号,经常也是有很大差别的。因此,普通的基于信号分析(或包络分析)的故障诊断方法,很难检测故障频率,从而很难准确地诊断行星齿轮箱的故障。
【翻译】主流的基于机器学习的故障诊断方法可以分为两类:浅层学习的、深度学习的。在浅层学习方法中,基于统计特征(例如均方根值、峭度、能量)的特征构建是一个必要的步骤。然后,特征被输入到浅层机器学习方法中,例如支持向量机、神经网络、决策树,以进行故障诊断的任务。利用基于领域知识的统计特征,作为浅层学习算法的输入,相较于深度学习算法,能够提供更高的计算效率。同时,这些特征能够直接地提供设备健康状态的一些信息,深度学习算法所学习到的特征则不能。然而,应该提取哪个特征,是难以确定和费时费力的,因为最优的特征集在不同的工业案例中经常是不同的。更进一步地,浅层学习不适用于大规模高维的数据,也是一个问题。
【翻译】深度学习算法能够自动地从监测数据中学习特征,以进行故障诊断,是一种解决上述问题的有效方式。例如,Jia等人采用深度自编码器预训练深度神经网络,获得了比浅层神经网络更高的准确率;Wang等人采用卷积神经网络从连续小波变换所获得的时频表征中学习特征,获得了比传统浅层分类器更高的准确率。因此,深度学习算法的特征学习能力,是其在故障诊断任务中的一个极大优势。然而,训练深度学习算法经常不是一个简单的任务。例如,传统的深度自编码器有太多的参数需要训练;尽管卷积神经网络采用了权值共享策略来减少权重规模,多层反向传播时经常会遭遇梯度消失或梯度爆炸的问题,是训练失败的一个主要原因。另外,大部分原先的深度学习算法并不是专门针对振动信号的。因此,为了进一步提高诊断效果,有必要开发新的深度学习结构。
【翻译】时频分析方法能够揭示非平稳振动信号的动态特性。多种深度学习方法(例如短时傅里叶变换、小波变换、经验模式分解)在基于振动信号的故障诊断中得到应用。然而,短时傅里叶变换只有固定的频域分辨率,经验模式分解缺乏严格的理论证明。由于齿轮箱振动信号的频率散布在较宽的频带,本文采用了小波变换,来生成振动信号的时频表征,作为深度学习方法的输入。具体而言,本文采用了离散小波包变换,来产生一系列的小波包系数矩阵。
【翻译】然而,哪个小波基能够在故障诊断中提供好的表现,依然是没有定论的。甚至,在不同的故障诊断任务中,最优的小波基往往是不同的。例如,Ding和He将深度学习模型应用于轴承的故障诊断,采用了小波包能量矩阵作为输入。具体地,作者在离散小波包变换中采用了多贝西8小波函数。Wang等人采用了Morlet小波,来生产振动信号的时频表征,将其作为卷积神经网络的输入,进行故障诊断。Kang等人在离散小波包变换中采用了多贝西20小波将声发射信号分解至一系列的小波包节点,并且从这些节点提取特征(例如相对小波包节点能量),以进行轴承故障诊断。
【翻译】为了解决上述问题,小波选择和多组小波系数融合是两种可行的思路。在这里,小波选择的目的,在于选择最适合故障诊断的小波。例如,Vakharia等人采用了名为“最大能量与香浓熵比率”的标准,来确定特征提取的最优小波。然而,通过这种方式选择的小波,未必适合从非平稳工况下行星齿轮箱振动信号的时频表征中学习判别特征集。这个原因驱使着我们采用多组小波获得多个时频表征,并且采用深度学习算法对这些时频表征进行融合,以获得一个好的特征集。更重要地,学习具有多样性的特征集,对于提高深度学习算法的效果是很重要的。并且,在深度学习算法的内部进行多组小波系数的融合,是一种增强特征集多样性的方式。因此,本文可以避免特征选择的问题。
【翻译】到目前为止,深度残差网络是最优秀的深度学习模型之一(谷歌学术引用量超过了35000)。深度残差网络和传统卷积神经网络的区别在于,深度残差网络在深层框架中采用了恒等连接,使得可训练参数更容易被优化。深度残差网络还集成了很多技巧,以更好地训练深度神经网络,例如动量、批标准化、L2正则化、基于方差尺度的权值初始化。这些技巧使得深度残差网络适用于各种不同性质的实验数据。因此,深度残差网络具有从输入数据中学习出好的特征的潜力,从而准确地确定目标机器的健康状态。
【翻译】本文提出了两种在深度残差网络内部进行多组小波系数融合的故障诊断方法,即“级联式多组小波系数融合深度残差网络(MWCF-DRN-C)”和“最大化式多组小波系数融合深度残差网络(MWCF-DRN-M)”。MWCF-DRN-C将小波包系数矩阵进行级联,并且将单独的级联矩阵作为输入。MWCF-DRN-M对深度残差网络进行了重新设计,以提高多组小波系数融合的效果。这些方法能够自动地调整这些小波包系数矩阵在故障诊断任务中的贡献,以实现提高诊断效果的目的。同时,相较于传统的只用一个小波包系数矩阵作为输入的深度学习方法,所提出的这些方法能够学习得到更适用于故障诊断的特征。
【翻译】本文的剩余部分安排如下。第二部分描述了变工况下采集振动信号的仿真系统,用于行星齿轮箱故障诊断。第三部分将领域知识融入深度模型中,即MWCF-DRN-C和MWCF-DRN-M,并且以多组小波系数作为模型的输入。第四部分进行了实验对比,验证了所提出方法在故障诊断中的有效性,并且讨论了局限性。第五部分总结全文。
II. Fault Description of Planetary Gearboxes (行星齿轮箱的故障描述)
【翻译】为了确定所提出方法的有效性,本文考虑了行星齿轮箱的故障诊断。采用了DDS实验台来仿真故障。这个DDS实验台主要包括一个三相电机、一个传动比为192:7的二级行星齿轮箱(第一级有四个行星齿轮,第二级有三个行星齿轮)、一个两级平行齿轮箱(第一级传动比为29:100,第二级传动比为5:2)、一个可编程的重载磁粉制动器(最大扭矩为65lb.ft),如图1所示。DDS实验台的更多信息可以在网上查到。本文采用了采样频率为25.6kHz的加速度传感器来采集竖直方向的振动信号。传感器安装在了行星齿轮箱的输入端。
【翻译】本文所采用的DDS实验台。
【翻译】行星齿轮箱健康状态的总结
【翻译】每类健康状态的样本量
【翻译】本文考虑了非平稳运行状态下行星齿轮箱的九种健康状态,包括一种健康状态和八种故障状态(也就是轴承和齿轮的故障),如表1所示。对于每一种健康状态,采集了12段16秒的振动信号,电机的转速从20Hz上升到36Hz,考虑了三种不同的扭转载荷,如表2所示。特别地,每段16秒的信号被均分为100个样本,每个样本为长度为4096点的信号。因此,每类健康状态下总共有1200个样本,如表2所示。同时,尽管每个0.16秒的信号中已经包含了一定的噪声,我们依然在数据中加入了一定的白高斯噪声,来增加故障诊断的难度。这是因为,在现实世界的故障诊断任务中,振动信号中的噪声经常比实验台仿真信号的噪声要强。在添加噪声之后,信噪比为5dB。表1展示了非平稳状态下振动信号的均方根值,来表示不同故障的强度。
III. Developed Methods for Multiple Wavelet Coefficients Fusion in A DRN (在深度残差网络中进行多组小波系数融合的方法)
【翻译】如第一部分所述,到目前为止,哪种小波函数能够提供好的诊断效果,是没有定论的。作为一种潜在的解决思路,本文考虑了多组小波系数融合的方法。相对应地,这一部分主要讨论了所提出方法(即MWCF-DRN-C和MWCF-DRN-M)的主要想法,也介绍了深度残差网络的理论背景和深度残差网络结构的设计。
A. Input Data Configuration (输入数据配置)
【翻译】作为一种经典的多分辨率分析算法,离散小波包变换能够将信号分解成两组小波系数,即低频段的近似系数、相对高频段的细节系数。如图2所示,分解不仅重复地在近似系数上进行,而且在细节系数上进行,从而能够揭示多个频带的信息。
【翻译】离散小波包变换的三层分解树,其中Wij是第i个分解层第j个频带的小波系数。W1,0和W1,1分别是原始信号的近似系数和细节系数。W2,0和W2,1分别是W1,0的近似系数和细节系数。
【翻译】从数学上讲,离散小波包变换可以通过与一组低通滤波器和高通滤波器的卷积来实现。对于一段离散的一维信号,它在各分解层不同频段上的信号可以通过公式得到。
【翻译】如第一部分所述,原先的研究表明,离散小波包变换在故障诊断中的表现,严重依赖于所选择的小波方程。针对这个问题,一个直截了当的解决思路是,对多组小波系数进行融合,以全面地表征振动信号的时频特征。本文实验采用了多贝西小波,因为多贝西小波在很多故障诊断任务中被广泛采用。然而,值得注意的是,所提出的方法也适用于其他的小波,例如Coiflet小波、Morlet小波。
【翻译】如图3所示,当采用一个小波时,不同频带的小波包系数可以形成一个二维矩阵;然后,不同小波所生成的二维矩阵能够被堆叠在一起,形成一个三维矩阵。同时,由于离散小波包变换的宽度是6、实验中的样本长度是4096,所以本文中三维小波包系数矩阵的维度是64×64×Nw,其中Nw是所选择小波的个数。
【翻译】图3. 采用不同多贝西小波生成的一系列二维小波包系数矩阵
B. Background Theory of a DRN (深度残差网络的理论背景)
【翻译】深度残差网络可以被理解为许多基础成分的堆叠,包括一个卷积层、一系列的残差模块、一个批标准化、一个整流线性单元激活函数、一个全局均值池化和一个全连接输出层。如图4(a)所示,残差模块可以由两个批标准化、两个整流线性单元、两个卷积层和一个恒等映射组成。深度残差网络的基础结构如图4(a)所示。
【翻译】(a) 残差模块,(b) 深度残差网络的简要框架,其中“Conv 3 × 3”指的是卷积核尺寸为3×3的卷积层
【翻译】卷积层是用来学习特征的,其中卷积核是可训练的特征提取算子。相较于传统全连接层中的乘法矩阵,卷积层采用了卷积,来减小参数规模和计算复杂度。本文采用了尺寸为3×3的卷积核,不仅相较于更大的卷积核有着更高的运算效率,而且足以检测局部极值特征。
【翻译】在每次训练迭代中,随机选择一小批样本,并且输入深度残差网络中。然而,每一批中所学习到特征的分布经常在训练过程中持续变化,这称为内部协方差漂移问题。在这种情况下,权重和偏置需要被持续更新,来适应变化的分布,从而深度神经网络的训练是一个困难的问题。批标准化是一种解决这个问题的方法。
【翻译】ReLU激活函数通过将负的特征置为零,来实现非线性变换。同时,ReLU激活函数的导数要么为零,要么为一,相较于sigmoid和tanh激活函数,能够减小梯度消失和梯度爆炸的风险。
【翻译】恒等映射是让深度残差网络容易训练的关键。在传统卷积神经网络的训练过程中,误差对于权重(或偏置)的梯度需要被逐层反向传播。举例而言,第l层的梯度依赖于第(l+1)层的权重。如果第(l+1)层的权重是不优的,那么第l层的梯度也是不优的。因此,很难训练多层卷积神经网络中的权重。恒等映射通过将卷积层与更深的层进行连接,从而让梯度更简单地在深度网络内部进行反向传播。现有研究表明,几十乃至上百层的深度残差网络能够被轻松的训练,并且获得比普通卷积神经网络更高的准确率。
【翻译】在最后的全连接输出层之前,应用了全局均值池化层。全局均值池化通过从特征图的每个通道计算一个全局特征,能够解决平移变化问题。在本文中,平移变化问题意味着故障相关的冲击可能处在样本中的不同位置。全局均值池化能够确保深度残差网络学习到相对于位置不变的特征。全局均值池化的输出特征图被输入进全连接输出层,以获得分类结果。
【翻译】深度残差网络的训练过程,遵循与普通神经网络相同的原理。训练数据被输入进深度残差网络,并且经过一系列的卷积层、批标准化、ReLU激活函数以及全局均值池化、全连接输出层的处理。更具体地,在最后的全连接输出层,softmax函数用来估计样本属于某个类别的概率。然后,交叉熵误差用来衡量实际标签和输出之间的误差。
【翻译】然后,误差反向传播以更新权值和偏置。训练过程可以被重复一定次数,从而参数能够被优化。
C. Design of the Fundamental Architecture for DRNs (深度残差网络的基础框架设计)
【翻译】深度学习模型的结构,包括深度(也就是非线性变换层的个数)和宽度(卷积层中卷积核的个数),是影响模型表现(例如测试准确率和计算时间)的关键参数。Zoph和Le采用了强化学习来进行网络结构的搜索,其计算量非常大,采用了800块显卡来训练不同超参数下的深度模型。Suganuma等人研究了一种方法,采用遗传编码来设计深度网络。尽管已经存在了这些研究,神经网络的结构优化依然是一个悬而未决的问题。也就是说,网络应该有多深和多宽,依然是没有定论的。
【翻译】本文所采用的深度残差网络的基础结构如图5所示。其基本思想解释如下。首先,这个结构有19个卷积层和1个全连接层。值得注意的是,非线性层的数量应该足够多,以确保输入数据被转换成判别性特征。在之前的使用深度学习进行基于振动和电流故障诊断的研究中,都没有超过10个非线性层,其中这里的非线性层指的是卷积层组合一个ReLU激活函数。如前所述,由于使用了恒等映射,几十乃至几百层的深度残差网络能够被轻易训练,从而深度残差网络的深度在合理的范围内。
【翻译】深度残差网络的典型框架,其中m表示卷积核的个数,“/2”表示卷积核每次移动的步长为2。
【翻译】然后,基本残差模块的第一个卷积层(也就是最接近输入层的那一层)和三个卷积层,卷积核的移动步长为2,用来减小特征图的尺寸。在图5中,m指的是卷积核的个数,在更深的层增加到了2m和4m,因为少量的基础特征可以被集成为许多不同的高层特征。本文将m设置为4。
【翻译】为了进一步缓解过拟合,全局均值池化层采用了丢弃率为50%的dropout。换言之,在每次训练迭代中,随机选择全局均值池化层中半数的神经元,并且置为零,这可以被认为是向网络中添加噪声的过程,以避免深度残差网络对非判别性信息的过度记忆,并且确保较高的泛化能力。
D. Multiple Wavelet Coefficients Fusion in a DRN (深度残差收缩网络内的多组小波系数融合)
【翻译】这一部分首先介绍了开发多组小波系数融合方法的原因,然后介绍了所提出两种方法(即MWCF-DRN-C和MWCF-DRN-M)的框架。
【翻译】多组小波系数进行融合的动机:齿轮和/或轴承的故障经常会在振动信号的波形中产生冲击。举例来说,如图6(a)所示,对于内圈有缺陷的轴承,每当有滚动体在缺陷位置经过的时候,就会产生一个瞬间变化的冲击力。如图6(b)所示,这个瞬间变化的冲击力就会在振动波形中产生冲击。对于外圈有缺陷的轴承,滚动体也会撞击缺陷,产生冲击波形。相似地,如图6(c-d)所示,对于有缺陷的齿轮,每当啮合到缺陷部位的时候,也会激发一次冲击波形。
【翻译】(a) 内圈裂纹故障的滚动轴承的草图,其中箭头标准旋转和移动方向,(b) 裂纹所造成的冲击波形示意图,(c) 断齿故障的齿轮的草图,(d)故障齿轮的振动波形示意图。
【翻译】传统基于信号处理的故障诊断方法经常依赖于故障相关波形的识别。例如,对于以某一转速旋转的轴承,故障冲击波形就会周期性地产生;如果冲击之间的时间间隔刚好匹配了滚动体在内圈上的通过频率的话,就可以判断滚动轴承是否发生了内圈的故障。然而,对于多级齿轮传动的大型旋转机械,振动信号往往包含着很多成分,例如多级齿轮啮合所激发的振动、轴和轴承的旋转所激发的振动以及环境噪声。对于变转速下的旋转机械,振动成分的频率是非平稳的。甚至,当故障处于早期阶段的时候,故障相关的信息更不容易被检测到。作为结果,故障相关的信息很可能被其他成分所淹没,使故障诊断成为一个挑战性的课题。
【翻译】为了处理非平稳振动信号,采用了离散小波包变换将振动信号分解至多个频带。然而,通常不知道哪个频带包含了系统健康状态(正常和一些故障状态)的关键信息。相似地,由于工况的变化,含有有用信息的频带可能是变化的,本文将各个节点的小波系数结合起来,将它们作为深度学习方法的输入。
【翻译】通常,对于不同工况下的不同故障,不同的小波也许是最优的。因此,一个具体的小波不太可能是对所有的故障(例如轴承内圈、外圈、滚动体故障,齿面点蚀,齿根裂纹)都是最有效的。因此,多组小波的融合能够提高多故障分类问题的表现。
【翻译】MWCF-DRN-C:所提出的MWCF-DRN-C是基于深度学习中一个广为人知的概念——就是,特征的多样性对提高表现是非常重要的。多组小波系数融合概念是一种有效的方式,在深度残差网络的内部引入多样性。为了实现多组小波系数融合,一种最简单的方式是级联多组二维小波包系数矩阵,将它们输入深度残差网络中。
【翻译】如图7(a)所示,MWCF-DRN-C中一个特殊的设计是使用了一个级联层,来合成多个小波系数矩阵,形成p×q×Nw的矩阵。其中Nw指的是所考虑的小波的个数,p和q是二维小波系数矩阵的维度。值得注意的是,级联层不涉及任何需要训练的参数。然后,由于使用了级联层,第一个卷积层有着更多的可训练权重,用于多组小波系数融合。更具体地,第一个卷积层的每一个卷积核有着3×3×Nw个权重,而没有多组小波系数融合的普通深度残差网络的第一个卷积层的一个卷积核有3×3个权重,其中3×3指的是卷积核的长和宽都是3。这个差别是由于卷积层的性质所决定的,也就是,卷积核的通道数应该等于特征图的通道数。在有监督的训练过程之后,MWCF-DRN-C的可训练权重和偏置能够被优化,以学习到判别性特征,用于故障诊断。
【翻译】图7. (a) MWCF-DRN-C和(b)MWCF-DRN-M的结构,其中“2-D matrix i”指的是采用第i个多贝西小波(简称DBi)所获得的二维小波包系数矩阵,N是所考虑的多贝西小波的个数。MWCF-DRN-C和MWCF-DRN-M都有着与图5中深度残差网络相同的残差构建模块。
【翻译】3)MWCF-DRN-M:MWCF-DRN-M的开发是和故障诊断中小波分析的原理紧密相关的。对于旋转机械的故障识别,小波分析经常作为故障波形的提取算法,其目的是产生较大的小波包系数。换言之,如果小波分析是有效的,相较于接近于零的小波包系数,较大的小波系数更有可能表征故障相关的波形。然而,对于多级齿轮传动的大型旋转机械,一些不重要的小波包系数也可能有较大的绝对值,这经常是由于其他振动成分所造成的。
【翻译】针对上述问题,一个具有可训练参数的独立卷积层,被应用在每一个二维小波包系数矩阵上,其目的是强调与故障相关的小波包系数,也就是将重要的小波包系数转换成大的特征。然后,由于通常不知道哪一个小波在故障检测中是最有效的,所提出的MWCF-DRN-M使用了最大化层,来融合来自于多组小波的信息(也就是独立卷积层的输出特征)。具体而言,逐元素的最大值,作为最大化层的输出。
【翻译】所提出MWCF-DRN-M的结构如图7(b)所示。被应用在独立小波包系数矩阵上的独立卷积层,和最大化层,是让MWCF-DRN-M不同于普通深度残差网络的特殊设计。这个特殊设计的工作原理,介绍如下。尽管最大化层是没有参数的,独立卷积层使最大化层成为一个可训练的过程。通过这种方式,所提出的MWCF-DRN-M可以自动地学习所需要选择的特征,以获得高的诊断准确率。这种方法在深度残差网络中融合了物理知识(也就是,取值较大的特征,更有可能表征故障相关的信息)。
IV. Experimental Results (实验结果)
【翻译】所提出的两种方法,即MWCF-DRN-C和MWCF-DRN-M,是用TensorFlow 1.0.1实现的。TensorFlow是一个谷歌开源的机器学习库。与经典卷积神经网络和深度残差网络的对比,验证了所提出方法的有效性。
A. Hyperparameters Setup (超参数设置)
【翻译】超参数是在常规深度残差网络设置的基础上进行的。学习率初始化为0.1,在第40个epoch降低为0.01,在第80个epoch降低为0.001。训练在第100个epoch的时候终止,从而可训练参数在开始的时候以较大的步长更新,在最后的时候进行微调。动量系数设置为0.9,是借助前一次迭代中的更新,来加速训练过程的。最小批的大小设置为128,这意味着每次随机选择128个样本,并且输入深度框架。相较于每次输入一个样本的情况,这种方式可以加快训练的速度。L2正则化的权值衰减系数设置为0.0001,这和原始深度残差网络的设置是相同的。
B. Performance Comparisons (效果对比)
【翻译】在这一部分,没有多组小波系数融合的、经典的深度学习方法,也就是以单个小波系数矩阵作为输入的卷积神经网络和深度残差网络,用来做实验对比。采用了10折交叉验证来评估这些方法。数据集被随机平均分成10份。在每一次测试中,一份被用为测试数据,另外9份被放在一起,作为训练数据。测试重复进行10次,从而每一份都有可能被用作测试集。作为结果,每种方法可以获得10个准确率,并且它们的平均值被用作评估这些方法的指标。实验结果被总结在表3和表4中。全局平均准确率如表5所示,并且在后续进行了讨论。
【翻译】表3. 在行星齿轮箱故障诊断中卷积神经网络和深度残差网络的准确率
【翻译】表4. 随机选择一定数量DB小波时MWCF-DRN-C和MWCF-DRN-M的准确率
【翻译】表5. 全局平均准确率对比
【翻译】1)与卷积神经网络和深度残差网络的效果对比:如前所述,卷积神经网络和深度残差网络都以某一个具体的DB小波所产生的小波系数矩阵作为输入,其中DB小波分别取DB1到DB30。为了确保公平可靠的对比,采用了相同的超参数。如表3所示,不论采用哪个DB小波,深度残差网络是优于卷积神经网络的。当使用不同的DB小波时,深度残差网络的全局平均测试准确率为91.45%,相较于卷积神经网络提高了2.89%。
【翻译】对于MWCF-DRN-C和MWCF-DRN-M,使用Nw个随机选择的多贝西小波,获得多组小波包系数矩阵。如表4所示,本文考虑了Nw等于2,6,10,14,18,22,26和30的情况。本文没有考虑全面的设计的原因在于较少运算压力。在进行方法对比的时候,采用了相同的十折交叉验证。
【翻译】如表5所示,所提出的MWCF-DRN-C获得了92.84%的全局平均测试准确率,相较于(没有多组小波系数融合的)卷积神经网络和深度残差网络分别提高了4.28%和1.39%。更进一步的话,所提出的MWCF-DRN-M达到了93.64%的全局平均测试准确率,相较于卷积神经网络和深度残差网络分别提高了5.08%和2.19%。
【翻译】为了直观感受这些方法(卷积神经网络、深度残差网络、MWCF-DRN-C和MWCF-DRN-M)的特征学习能力,采用t-SNE对位于四个不同层上的特征进行了可视化。其中,t-SNE是一种有效的降维方法,能够将高维数据降至较低维的特征空间。这些深度学习方法的效果如图8-图11所示。可以看出,在输入层,各种健康状态下的样本是高度混叠在一起的;随着层数的增加,这些样本变得越来越能够区分开。这是因为,这些方法能够通过一系列的非线性变换,将输入数据转换为判别性特征。同时,如图8(d)、9(d)、10(d)和11(d)所示,相较于卷积神经网络和深度残差网络,MWCF-DRN-C和MWCF-DRN-M所学习到的特征,可区分性更强。例如,在卷积神经网络和深度残差网络中,“TRC”和“TSP”这两类健康状态的样本高度混叠在一起;在所提出的方法中,只有一点混叠。另外,如图10(d)和11(d)所示,复合故障“CFB”基本上能够和其他健康状态区分开来,说明MWCF-DRN-C和MWCF-DRN-M能够识别复合故障。
【翻译】当采用DB1小波函数时,在卷积神经网络中四个不同层上特征图的二维可视化,其准确率为83.06%:(a) 输入层,(b) 第七个卷积层,(c) 第十三个卷积层,(d) 全局均值池化层。
【翻译】当采用DB1小波函数时,在深度残差网络中四个不同层上特征图的二维可视化,其准确率为86.57%:(a) 输入层,(b) 第三个残差模块,(c) 第六个残差模块,(d) 全局均值池化层。
【翻译】当采用30个多贝西小波时,在MWCF-DRN-C中四个不同层上特征图的二维可视化,其准确率为92.69%:(a) 输入层,(b) 第三个残差模块,(c) 第六个残差模块,(d) 全局均值池化层。
【翻译】当采用30个多贝西小波时,在MWCF-DRN-M中四个不同层上特征图的二维可视化,其准确率为94.35%:(a) 输入层,(b) 第三个残差模块,(c) 第六个残差模块,(d) 全局均值池化层。
【翻译】MWCF-DRN-C和MWCF-DRN-M的效果对比:如表5所示,MWCF-DRN-M的测试准确率相较于MWCF-DRN-C提高了0.80%。输入数据确实包含了很多冗余的小波系数;所提出的MWCF-DRN-M能够通过逐元素的最大化操作,有效地消除冗余信息,减小优化可训练参数时的复杂度。相反,MWCF-DRN-C需要通过优化卷积层中的权重来消除冗余信息,在训练过程完成之后,其高层特征中可能依然包含着大量的冗余信息。
【翻译】图10(d)和11(d)在低维特征空间展示了所提出的MWCF-DRN-C和MWCF-DRN-M的高层特征。相较于MWCF-DRN-C,MWCF-DRN-M中“TRC”和“TSP”这两种状态下的样本更紧密地围绕着它们自身。这解释了,MWCF-DRN-M的测试准确率高于MWCF-DRN-C的原因。
C. Discussion on the Limitations of the Developed Methods (所提出方法局限性的讨论)
【翻译】然而,在基于机器学习的故障诊断方法中,一个长期悬而未决的问题是,它们可能会面对从未遭遇过的新故障(或者多种故障的新组合)。根据有监督学习的特性,新故障只能被分类成训练过程中所考虑的类别之一。这个问题的一个可能的解决思路就是,开发一种方法来度量未知类别的归属度,其中归属度定义为未知测试数据属于已知类别的概率。如果归属度始终小于一个预定的阈值,那么测试数据就被归类为未知的类别。(这部分这么突兀,估计是为了回复审稿人的问题,实在是改不动,不容易啊...)
【翻译】在基于机器学习的故障诊断应用中,另一个尚未解决的问题是如何处理不同强度的相同故障。领域适应,指的是借助相关领域的知识提高本领域的表现的一类技术,也许能够解决这个问题。例如,不同强度的故障的分布之间的差异,能够用一些领域适应方法来减小,从而在某一个强度下训练出来的模型,可以对其他强度下的故障进行正确识别。
【翻译】另外,为了将所提出的方法应用于工业界,还必须解决如下问题。首先,需要开发无监督和半监督的版本,因为获取有标签的样本是很困难的。其次,本文的方法是在均衡的数据集上训练的。然而,深度学习方法经常会在不均衡的数据集上有较差的表现。因此,需要研究不均衡数据集对于所提出方法的影响。如果有需要的话,可以将生成式对抗网络集成进所提出的方法中,以均衡不同的类别分布。
V. Conclusion (总结)
【翻译】本文提出了两种方法,在深度残差网络的内部进行多组小波系数的融合,从而解决非平稳运行状态下基于振动信号的故障诊断中寻找好的特征集的挑战。MWCF-DRN-C简单地将一系列64 × 64的小波系数矩阵进行级联,并且将它们作为深度残差网络的卷积层的输入。MWCF-DRN-M对这些小波系数矩阵分别连接了一个卷积层,并且在深度残差网络的早期阶段施加了一个最大化层,以捕捉和放大输入数据中的判别性信息。
【翻译】所提出方法的实用性通过行星齿轮箱故障诊断的应用得到了验证,并且与经典的、不涉及多组小波系数融合的深度学习方法(卷积神经网络和深度残差网络)进行了对比。实验结果表明所提出的MWCF-DRN-C和MWCF-DRN-M的平均测试准确率,相较于卷积神经网络和深度残差网络提升了4.28%和5.08%、1.39%和2.19%。这些提升是由于使用了可训练权重来调整不同小波系数的贡献所造成的。
【翻译】相似地,MWCF-DRN-M是优于MWCF-DRN-C的,提升了0.8%的平均测试准确率。MWCF-DRN-M能够更加有效地消除多组64×64小波系数矩阵中的冗余,进一步缓解深度残差网络学习判别性特征的压力。尽管MWCF-DRN-C也能够通过应用可训练权重来减小64×64矩阵中的冗余,这些权重的优化不是一个容易的事情。
【翻译】最后,所提出方法能够应用于各种时频分析方法(例如局部均值分解、经验小波变换、维格纳分布)和数据(例如振动信号、电流信号、声学信号)的融合,以进行故障诊断。
【翻译】重庆大学博士生,马里兰大学帕克分校联合培养
Reference
M. Zhao, M. Kang, B. Tang, and M. Pecht, "Multiple wavelet coefficients fusion in deep residual networks for fault diagnosis," IEEE Transactions on Industrial Electronics, vol. 66, no. 6, pp. 4696–4706, 2019.