Single-modal neuroimaging computer aided diagnosis for schizophrenia based on ensemble learning using privileged information
-
摘要: 神经影像技术目前已经应用于精神分裂症的诊断。为了提升基于单模态神经影像的精神分裂症计算机辅助诊断(CAD)的性能,本文提出一种基于特权信息学习(LUPI)分类器的集成学习算法。该算法首先对单模态数据采用极限学习机-自编码器(ELM-AE)进行特征二次学习,然后通过随机映射算法将高维特征随机分成多个子空间,并进行两两组合形成源领域和目标领域数据对,用于训练多个支持向量机+(SVM+)弱分类器,最终通过集成学习获得一个强分类器,实现有效的模式分类。本算法在公开的精神分裂症神经影像数据库中进行了实验,包括结构磁共振成像和功能磁共振成像数据。结果表明该算法取得了最优的诊断结果,其在基于结构磁共振成像诊断的分类精度、敏感性和特异性分别可以达到 72.12% ± 8.20%、73.50% ± 15.44% 和 70.93% ± 12.93%,而基于功能磁共振成像诊断的分类精度、敏感性和特异性分别为 72.33% ± 8.95%、68.50% ± 16.58%、75.73% ± 16.10%。本文算法的主要创新点在于克服了传统的 LUPI 分类器需要额外的特权信息模态的不足,可以直接应用于单模态数据分类问题,而且还提升了分类性能,因此具有较为广泛的应用前景。
-
关键词:
- 单模态神经影像 /
- 精神分裂症 /
- 深度学习 /
- 极限学习机-自编码器 /
- 集成特权信息学习
Abstract: Neuroimaging technologies have been applied to the diagnosis of schizophrenia. In order to improve the performance of the single-modal neuroimaging-based computer-aided diagnosis (CAD) for schizophrenia, an ensemble learning algorithm based on learning using privileged information (LUPI) was proposed in this work. Specifically, the extreme learning machine based auto-encoder (ELM-AE) was first adopted to learn new feature representation for the single-modal neuroimaging data. Random project algorithm was then performed on the learned high-dimensional features to generate several new feature subspaces. After that, multiple feature pairs were built among these subspaces to work as source domain and target domain, respectively, which were used to train multiple support vector machine plus (SVM+) classifier. Finally, a strong classifier is learned by combining these SVM+ classifiers for classification. The proposed algorithm was evaluated on a public schizophrenia neuroimaging dataset, including the data of structural magnetic resonance imaging (sMRI) and functional MRI (fMRI). The results showed that the proposed algorithm achieved the best diagnosis performance. In particular, the classification accuracy, sensitivity and specificity of the proposed algorithm were 72.12% ± 8.20%, 73.50% ± 15.44% and 70.93% ± 12.93%, respectively, on the sMRI data, and it also achieved the classification accuracy of 72.33% ± 8.95%, sensitivity of 68.50% ± 16.58% and specificity of 75.73% ± 16.10% on the fMRI data. The proposed algorithm overcomes the problem that the traditional LUPI methods need the additional privileged information modality as source domain. It can be directly applied to the single-modal data for classification, and also can improve the classification performance. Therefore, it suggests that the proposed algorithm will have wider applications. -
引言
精神分裂症(schizophrenia)是一种复发率高、致残率高的慢性迁延性精神障碍疾病[1]。精神分裂症患者不仅存在着自身健康问题,而且肇事肇祸率高,给家庭和社会带来沉重的负担。因此,准确诊断精神分裂症对于患者后续接受正确的治疗和控制具有重要的作用。
随着影像技术的不断发展,以磁共振成像(magnetic resonance imaging,MRI)为代表的影像设备已经广泛应用于精神分裂症的诊断[2]。然而,影像诊断往往依赖于医生的水平和经验,由于医生自身的医疗知识差异、诊断环境差异、生理疲劳等情况,会导致诊断结果差异较大、可重复性差等问题。计算机辅助诊断(computer-aided diagnosis,CAD)为医生的诊断工作提供了可重复性和一致性好的辅助决策[3-4]。目前,基于神经影像的精神分裂症的 CAD 研究已经逐步得到开展。
特征提取与表达是 CAD 系统中的一个重要环节[3]。深度学习(deep learning)能有效提升特征表达能力,近年来已在图像和信号处理领域获得了广泛的应用,包括医学影像处理领域。极限学习机-自编码器(extreme learning machine based auto-encoder,ELM-AE)是一种新的深度学习算法[5]。该算法将极限学习机(extreme learning machine,ELM)嵌入到自编码器(auto-encoder,AE)框架中,从而在训练过程中无需反向调参与迭代,在提升特征表达能力的同时,有效提升学习效率[5]。ELM-AE 既可以对原始图像数据直接进行特征学习,也可以对已提取的特征进行二次学习,以进一步提升其特征表达[5-7]。因此,ELM-AE 具有应用于神经影像数据特征学习的可行性。
另一方面,分类器直接影响着 CAD 的诊断性能,是 CAD 系统中另一个重要环节[4]。常用的分类器包括支持向量机(support vector machine,SVM)、神经网络分类器、随机森林和 AdaBoost 等。近年来,一种新型的基于特权信息学习(learning using privileged information,LUPI)的 SVM 分类器(命名为 SVM+),在迁移学习领域获得了广泛应用[8]。在训练阶段,存在一个额外的特权信息(源领域)模态,协助目标领域数据共同训练 SVM+分类器模型;而在测试阶段,SVM+只针对单模态的目标领域数据进行分类[8]。SVM+已经成功应用于基于医学影像的 CAD 系统[9-11]。然而,此类分类器在实际应用时,需要利用目标领域模态和特权信息模态数据同时训练模型。而由于医疗资源分布不均等问题,临床中更为常规的诊断范式是基于单模态影像数据进行诊断,这就限制了基于 LUPI 的分类器在医学领域的进一步应用。
针对上述问题,本文提出一种结合 ELM-AE 特征学习的集成 SVM+分类算法(EA-SVM+),应用于基于单模态神经影像的精神分裂症辅助诊断。该算法首先对单模态数据采用 ELM-AE 进行特征二次学习,然后通过随机映射(random projection)算法将高维特征随机分成多个子空间,并进行两两组合形成源领域和目标领域数据对,用于训练多个 SVM+分类器,最终通过集成学习实现有效的模式分类。本文所提出的算法不仅可以提升原始 SVM+的分类性能,而且还能突破传统 LUPI 分类器同时需要不同的源领域和目标领域数据进行模型训练的限制,只需对单模态的目标领域数据进行数据变换,从自身数据产生“源领域”数据进行 SVM+分类器的训练,从而使得 SVM+具有更为广泛的应用。
1 方法
图 1 所示为本文所提出的 EA-SVM+集成学习算法的流程图。其具体步骤如下:
(1)在训练阶段,对单模态的神经影像数据提取特征;
(2)对提取的特征采用 ELM-AE 进行二次特征学习,获得表达性能提升的高维特征向量;
(3)对高维特征进行随机映射形成 P 个随机子空间,并进行两两组合形成 M 个源领域和目标领域的数据对,即每个数据对中,一个子空间特征作为源领域(特权信息)模态,而另外一个子空间特征作为目标领域模态。因此,特权信息由自身特征产生,无需额外的源领域诊断模态;
(4)将 M 个数据对送入到 M 个 SVM+分类器中进行训练,获得 M 个 SVM+分类器模型;
(5)采用集成学习方法对 M 个 SVM+分类器模型进行集成,获得最终的强分类器模型;
(6)在测试阶段,对单个诊断模态的数据进行步骤(1)和(2)的特征提取与表达学习处理,然后仍然划为 P 个随机子空间特征,再将这些特征分别送到 M 个对应的 SVM+分类器中,并进行集成学习,实现模式分类。需要注意的是,在测试阶段,不需要额外的特权信息(源领域)数据。
1.1 ELM-AE 原理
ELM 算法采用随机初始化输入层和隐藏层的连接权重的策略,无需反向调参过程,具有学习速度快、泛化性能好的特点[12]。
给定训练集
$ S \;{\text{=}}\; \left\{ {\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdot \! \cdot \! \cdot ,\left( {{x_N},{y_N}} \right)} \right\}$ ,其中$ {x_i} \in {R^n}$ 为训练样本,$ {y_i} \in \left\{ {1,2, \cdot \! \cdot \! \cdot ,c} \right\}$ 是训练样本对应的分类标签,样本数为 N。对于一个有 L 个隐层节点的 ELM 神经网络可以表示为:$$ \mathop \sum \limits_{j \;{\text{=}}\; 1}^L {\beta _j}g\left( {{W_j} \cdot {x_i}\;{\text{+}}\; {b_j}} \right) \;{\text{=}}\; {O_i},\;i \;{\text{=}}\; 1, \cdot \! \cdot \! \cdot ,N $$ 1 其中,
$ g\left( x \right)$ 为激活函数,Wj 为输入权重,βj 为输出权重,bj 是第 j 个隐层单元的偏置。Wj·xi 表示 Wj 和 xi 的内积。单隐层神经网络学习目的是寻求输出误差最小,因而可以表示为:$$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_\beta \dfrac{1}{2}||{\mathrm{β}}|| _2^2 \;{\text{+}}\; \lambda \mathop \sum \limits_{i \;{\text{=}}\; 1}^N \xi _i^2}\\ {s.t.\;{\beta _j}g\left( {{W_j} \cdot {x_i} + {b_j}} \right) \geqslant {O_i} \;{\text{−}}\; {\xi _i},\;i \;{\text{=}}\; 1, \cdot \! \cdot \! \cdot ,N} \end{array} $$ 2 其中 λ 是可给定的超参数,ξi 表示训练误差。
AE 模型假定输入与输出相同,即:Y = X,通过训练调整网络中每一层的参数,使得重构误差最小。基于 ELM 的 AE 算法,可以选取正交的隐藏节点的随机权重和偏置[5],因此,ELM-AE 算法具有计算复杂度小、运算速度快的优点。图 2 所示的是 ELM-AE 的网络结构。
在 ELM-AE 中,随机生成的正交隐层结点将输入数据映射到一个新的表达空间中,这样根据 Johnson-Lindenstrauss 引理就可以得到:
$$ H \;{\text{=}}\; G\left( {a \cdot X + b} \right);{a^{\rm{T}}}a \;{\text{=}}\; 1,{\rm{}}{b^{\rm{T}}}b \;{\text{=}}\; 1 $$ 3 其中,
$ X \;{\text{=}}\; \left[ {{x_1},{x_2}, \cdot \! \cdot \! \cdot ,{x_N}} \right]$ 是输入数据,H =$ \left[ {{h_1},{h_2}, \cdot \! \cdot \! \cdot ,{h_N}} \right]$ 是隐层节点的输出,a =$ \left[ {{a_1},{a_2}, \cdot \! \cdot \! \cdot ,{a_L}} \right]$ 是在输入和隐层节点之间正交的随机权值,b =$ \left[ {{b_1},{b_2}, \cdot \! \cdot \! \cdot ,{b_L}} \right]$ 是正交的随机阈值。在不相等的维度情况下,ELM-AE 的输出权值 β 能将输入数据映射到相应的特征子空间中。根据式(4)可以计算得到输出权值 β:$$ \beta \;{\text{=}}\; {\left( {\frac{I}{C} \;{\text{+}}\; {H^T}H} \right)^{ - 1}}{H^T}X $$ 4 对于相同维度映射的情况,可以根据公式(5)计算得到输出权值 β:
$$ \begin{array}{*{20}{c}} {\beta \;{\text{=}}\; {H^{ - 1}}X}\\ {{\beta ^T}\beta \;{\text{=}}\; I} \end{array} $$ 5 对 ELM-AE 的特征输出层即公式(4)进行奇异值分解(singular value decomposition,SVD),则最终特征表达公式为:
$$ H\beta \;{\text{=}}\; \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {u_i}\frac{{d_i^2}}{{d_i^2 \;{\text{+}}\; C}}u_i^TX $$ 6 其中,u 是矩阵 HHT 的特征向量,d 是 H 的奇异值。
有关 ELM-AE 更为详细的原理请参考文献[5]。
1.2 基于 SVM+的集成学习
1.2.1 SVM+原理
SVM+在原 SVM 模型上融合了特权信息,将特权信息作为影响分类结果的软间隔加入模型,替换其中的松弛变量。
给定训练集
$ S \;{\text{=}}\; \left\{ {\left( {{x_1},x_1^*,{y_1}} \right),\left( {{x_2},x_2^*,{y_2}} \right), \cdot \! \cdot \! \cdot ,} \right.$ $\left. \left( {{x_N},x_N^*,{y_N}} \right)\right\}$ ,其中 xi∈X 是诊断模态(即目标领域)样本,$ x_i^* \in {X^*}$ 是特权信息(即源领域),yi 为标签。SVM+通过特权信息来帮助训练更优的分类器模型[8]。SVM+的最小化目标函数如下:
$$\begin{split} R\left( {w,{w^*},b,{b^*}} \right) \;{\text{=}}\; & \frac{1}{2}\left[ {\left( {w,w} \right) \;{\text{+}}\; \gamma \left( {{w^*},{w^*}} \right)} \right] \;{\text{+}}\; \\ & C\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right] \end{split}$$ 7 $$ s.t.\;{\rm{}}{y_i}\left[ {\left( {w,{x_i}} \right) \;{\text{+}}\; b} \right] \geqslant 1 \;{\text{−}}\; \left[ {\left( {{w^*},{w^*}} \right) \;{\text{+}}\; {b^*}} \right] $$ 8 $$ \left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*} \geqslant 0 $$ 9 其中 C 是用于权衡误差的正则化参数。由以上目标函数构建其拉格朗日函数:
$$ \begin{split} & R\left( {w,{w^*},b,{b^*},\alpha ,\beta } \right) \;{\text{=}}\; \frac{1}{2}\left[ {\left( {w,w} \right) \;{\text{+}}\; \gamma \left( {{w^*},{w^*}} \right)} \right] \;{\text{+}}\; \\ & C\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right] \;{\text{−}}\\ & \mathop \sum \limits_{i \;{\text{=}}\; 1}^l {\alpha _i}\left[ {{y_i}\left( {w,x} \right) \;{\text{+}}\; b \;{\text{−}}\; 1 \;{\text{+}}\; \left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right]} \right] \;{\text{−}} \\ & \mathop \sum \limits_{i \;{\text{=}}\; 1}^l {\beta _i}\left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right] \end{split} $$ 10 其中,拉格朗日乘子 α ≥ 0,β ≥ 0。则其分类决策函数可表示为:
$$ f\left( x \right) \;{\text{=}}\; \left( {w,x} \right) \;{\text{+}}\; b \;{\text{=}}\; \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\alpha _i}K\left( {{x_i},x} \right) \;{\text{+}}\; b $$ 11 其纠错函数由下式表示:
$$\begin{split} {\textit{φ}}\left( {{x^*}} \right) \;{\text{=}}\; & \left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*} \;{\text{=}}\; \\ & \frac{1}{r}\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left( {{\alpha _i} \;{\text{+}}\; {\beta _i} \;{\text{−}}\; C} \right){K^*}\left( {x_i^*,x_i^*} \right) \;{\text{+}}\; {b^*} \end{split}$$ 12 分类函数中的 K 和纠错函数中的 K*分别是 X 空间和 X*空间上的核。由此可得拉格朗日乘子 α 和 β 的解:
$$ \begin{split} R\left( {\alpha ,\beta } \right) \;{\text{=}}\; & \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\alpha _i} \;{\text{−}}\; \frac{1}{2}\mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\alpha _i}{\alpha _J}{y_i}{y_J}K\left( {{x_i},{x_J}} \right) \;{\text{−}}\; \\ & \frac{1}{{2\gamma }}\mathop \sum \limits_{i,j \;{\text{=}}\; 1}^N ( {{\alpha _i} \;{\text{+}}\; {\beta _i} \;{\text{−}}\; C} )( {{\alpha _j} \;{\text{+}}\; {\beta _j} \;{\text{−}}\; C} ){K^*}( {x_i^*,x_j^*} )\\ & s.t.\;\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left( {{\alpha _i} \;{\text{+}}\; {\beta _i} \;{\text{−}}\; C} \right) \;{\text{=}}\; 0,\;\mathop \sum \limits_{i \;{\text{=}}\; 1}^N {y_i}{\alpha _i} \;{\text{=}}\; 0, \\ & {\alpha _i} \geqslant 0,\;{\beta _i} \geqslant 0\\[-18pt] \end{split} $$ 13 最终的 SVM+的分类决策函数为:
$$ dec\_value\left( {{x_i}} \right)\;{\text{=}}\; {w^T}{x_i} \;{\text{+}}\; b $$ 14 其中,w 为最优超平面的法向量,b 是系数。
有关 SVM+算法更为具体的原理请参考文献[8]。
1.2.2 集成学习
对 M 个 SVM+分类器模型进一步进行集成学习,生成一个强分类器。在本文中,除了常用的投票表决法(voting)集成学习以外,我们还采用了边缘分布优化算法(margin distribution optimization,MDO)和多核增强(multiple kernel boosting,MKB)算法进行集成学习[13-14]。
MDO 算法原理如下[13]:
针对二分类问题,由 M 个不同的分类器进行 MDO 集成,对于样本 xi,不同分类器的输出结果由
$ \left\{ {{p_{ij}}} \right\},j \;{\text{=}}\; 1,2, \cdot \! \cdot \! \cdot ,M$ 表示,判别函数为$ f\;{\text{=}}\; {\rm{sgn}}\left( {\mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j}{p_{ij}}} \right)$ ,其中$ {{w}} \;{\text{=}}\; \left[ {{w_1},{w_2}, \cdot \! \cdot \! \cdot ,{w_M}} \right]$ 是尺度权重向量,且$ \mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j} \;{\text{=}}\; 1$ 。那么样本 xi 的边界由下式表示:$$ \varepsilon \left( {{x_i}} \right) \;{\text{=}}\; {y_i}\mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j}{p_{ij}} $$ 15 若
$ \varepsilon \left( {{x_i}} \right) > 0$ ,则样本分类正确;若$ \varepsilon \left( {{x_i}} \right) < 0$ ,则样本分类错误;当$ \varepsilon \left( {{x_i}} \right) \;{\text{=}}\; 0$ 时,样本标签无法确定。边界结果表示了分类器融合分类的结果,学习尺度权重可以使得边界结果更大,分类结果更好。边界最大化可以转化为损失最小化,训练集 S 的整体平方损失表示为:$$\begin{split} l\left( S \right) \;{\text{=}}\; & \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {l_{{x_i}}} \;{\text{=}}\; \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\left[ {1 \;{\text{−}}\; \varepsilon \left( {{x_i}} \right)} \right]^2} \;{\text{=}}\; \\ & \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\left[ {1 \;{\text{−}}\; {y_i}\mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j}{p_{ij}}} \right]^2} \end{split}$$ 16 我们利用约束 L1-正则化最小二乘优化方法最小化整体平方损失之后,就可以学习最优尺度权重向量 w,由此实现最终的增强分类器。
MKB 的具体原理如下[14]:
MKB 通过扩展多核学习框架,集成多个分类器中的核函数,形成一个强分类器。我们将多个核函数的组合定义为:
$$ K\left( {x,{x^{'}}} \right) \;{\text{=}}\; \mathop \sum \limits_{m \;{\text{=}}\; 1}^M {d_m}{K_m}\left( {x,{x_i}} \right),\;{d_m} \geqslant 0 $$ 17 其中,M 为基核 Km 的个数,dm 是核权重。
初始化弱分类器的权重分布
$ {D_1}\left( i \right) = 1/m$ ,然后进行 T 次循环寻找强分类器。循环中执行三个步骤:(1)训练核函数空间上的最优线性弱分类器
$ {h_i}\left( x \right)$ ;(2)计算分类器误差
$ {\varepsilon ^{\left( t \right)}}$ 和$ {\alpha ^{\left( t \right)}}$ :$$\begin{split} & {\varepsilon ^{\left( t \right)}} \;{\text{=}}\; \frac{{\mathop \sum \limits_{i \;{\text{=}}\; 1}^D {\omega _t}\left( i \right) \cdot \left| {{h_i}\left( x \right)} \right| \cdot U\left( { {\text{−}}\; {y_i}{h_i}\left( x \right)} \right)}}{{\mathop \sum \limits_{i \;{\text{=}}\; 1}^D {\omega _t}\left( i \right) \cdot \left| {{h_i}\left( x \right)} \right|}}, \\ & \qquad\qquad{\alpha ^{\left( t \right)}} \;{\text{=}}\; \frac{1}{2}\log\frac{{1 \;{\text{−}}\; {\varepsilon ^{\left( t \right)}}}}{{{\varepsilon ^{\left( t \right)}}}} \end{split}$$ 18 (3)更新采样权重:
$$ \omega _i^{t \;{\text{=}}\; 1} \leftarrow \frac{{\omega _i^t{\rm{exp}}\left( { {\text{−}}\; {y_i}{\alpha _t}{h_t}\left( {{x_i}} \right)} \right)}}{{{Z_t}}} $$ 19 完成 T 次循环后获得最终的强分类器为:
$$ {H_T} \;{\text{=}}\; \mathop \sum \limits_{t \;{\text{=}}\; 1}^T {\alpha _t}{h_t}\left( {{x_i}} \right) $$ 20 有关 MDO 和 MKB 算法的具体细节请参考文献[13]和[14]。
2 实验和结果
2.1 实验数据与处理
本文所提出的 EA-SVM+集成学习算法在公开的精神分裂症竞赛数据库(https://www.kaggle.com/c/mlsp-2014-mri/data)中进行验证。该数据库提供了双模态的 MRI 数据,即结构 MRI(structural MRI,sMRI)和功能 MRI(functional MRI,fMRI)。两种模态的数据同时采集自 86 例志愿者,包括 40 例精神分裂症患者和 46 例正常对照者。
对于 sMRI 图像,采用基于表层的形态学分析(source-based morphometry,SBM)算法进行特征提取,获得 32 维的特征[15];而对于 fMRI 图像,采用功能网络连接(functional network connectivity,FNC)结合组水平独立成分分析(group independent component analysis,GICA)的方法,提取共计 378 维的特征[16-17]。有关 sMRI 和 fMRI 的特征提取具体细节,请参考文献[18]和[19]。
对于原始提取的特征,进一步采用 ELM-AE 进行特征的二次学习,获得性能提升的高维度特征表达。在本实验中,对于原始 32 维的 sMRI 特征经过 ELM-AE 学习以后输出的特征维度为 400,而 378 维的 fMRI 特征经过二次特征学习以后的特征维度为 1 500 维。
对于 400 维的 sMRI 特征和 1 500 维的 fMRI 特征,都分成 5 个子空间。为了简单化,我们依次将第 i 个子空间作为第(i +1)个子空间的特权模态,第 5 个子空间作为第 1 个子空间的特权模态。因此,一共形成 5 个 SVM+分类器。
2.2 实验设计
为了评估所提出的 EA-SVM+集成学习分类算法性能,本文对以下算法进行了对比实验:
(1)EA-SVM:经过 ELM-AE 得到的特征直接采用 SVM 分类器分类。
(2)EA-SVM 集成分类:经过 ELM-AE 得到的特征进行随机映射得到 5 个子空间,然后对每个子空间训练 SVM 分类器,并进行集成学习。其中,集成学习采用的投票表决(EA-Voting-SVM)、MDO(EA-MDO-SVM)和 MKB(EA-MKB-SVM)。
(3)EA-SVM+集成分类:本文所提出的 EA-SVM+集成分类算法,其中,集成学习采用的投票表决(EA-Voting-SVM+)、MDO(EA-MDO-SVM+)和 MKB(EA-MKB-SVM+)。
以上算法分别对 sMRI 和 fMRI 数据集进行实验。对所有算法进行 5 次 5 折交叉验证(5-fold cross validation)。将分类精度、敏感度和特异性作为评价指标,同时对 MKB 集成的结果画出受试者操作特性(receiver operating characteristic,ROC)曲线,计算曲线下面积(area under curve,AUC)。
2.3 实验结果
表 1 所示为针对 sMRI 模态数据的各种算法分类结果。由表中数据可以发现,EA-SVM+集成分类算法的结果相比于 EA-SVM 集成算法和原始的 EA-SVM 算法结果均有提高,EA-MKB-SVM+的分类精度、敏感性和特异性分别可以达到 72.12% ± 8.20%、73.50% ± 15.44% 和 70.93% ± 12.93%,整体结果最优,而比 EA-SVM 在分类精度和敏感度这 2 个指标上分别提高了 2.71% 和 5.60%。三种 EA-SVM 集成分类算法均比 EA-SVM 分类结果好,这说明随机子空间和集成技术在所提取的 ELM-AE 特征表达上的应用能提高分类性能。同时,EA-SVM+集成算法比 EA-SVM 集成取得了更好的分类结果,表明将单模态数据中的某一子空间作为特权信息辅助训练分类模型,有效提升了分类器的性能。从图 3 的 ROC 曲线结果可以发现,EA-SVM+算法使用 MKB 算法表现最优,其 ROC 曲线最接近左上角。而对比各种算法的 AUC 值,可以发现 EA-MKB-SVM+算法的 AUC 值可达到 0.767 7,优于其它结果。
表 1 基于 sMRI 数据不同算法分类的结果Table 1. Classification results of different algorithms based on sMRI data算法 精度(%) 敏感度(%) 特异性(%) AUC EA-SVM 69.41 ± 10.25 67.90 ± 16.06 70.92 ± 15.53 0.727 2 EA-Voting-SVM 70.46 ± 8.38 68.00 ± 16.54 72.53 ± 13.49 − EA-MDO-SVM 70.59 ± 7.16 70.50 ± 17.26 71.24 ± 11.82 − EA-MKB-SVM 70.73 ± 8.43 70.50 ± 21.11 70.75 ± 16.63 0.733 6 EA-Voting-SVM+ 71.42 ± 7.05 74.00 ± 14.40 70.00 ± 10.87 − EA-MDO-SVM+ 71.69 ± 8.87 72.50 ± 14.43 70.78 ± 12.69 − EA-MKB-SVM+ 72.12 ± 8.20 73.50 ± 15.44 70.93 ± 12.93 0.767 7 表 2 是 fMRI 模态数据的分类结果,其结果趋势跟表 1 接近。EA-SVM+集成分类算法的结果优于 EA-SVM 集成算法和 EA-SVM 算法的结果。EA-MKB-SVM+算法仍然获得了整体最优的结果,其平均分类精度、敏感性和特异性分别为 72.33% ± 8.95%、68.50% ± 16.58%、75.73% ± 16.10%,相对于原始 EA-SVM 的结果,分类精度提高了 3.91%,敏感度提升了 1.00%,特异性提升了 6.53%。图 4 是 fMRI 在不同算法下的 ROC 曲线图。从 ROC 曲线图中不容易区分算法 EA-MKB-SVM 和 EA-MKB-SVM+的性能,而表 2 给出了相应算法的 AUC 值,可以发现 EA-MKB-SVM+的结果更优,其 AUC 值为 0.735 7。
表 2 基于 fMRI 数据不同算法分类的结果Table 2. Classification results of different algorithms based on fMRI data算法 精度(%) 敏感度(%) 特异性(%) AUC EA-SVM 68.42 ± 10.92 67.50 ± 16.57 69.20 ± 15.60 0.707 1 EA-Voting-SVM 70.01 ± 9.10 64.00 ± 16.66 75.42 ± 17.38 − EA-MDO-SVM 70.96 ± 8.38 64.00 ± 16.66 77.16 ± 16.21 − EA-MKB-SVM 70.95 ± 7.29 65.00 ± 18.33 74.80 ± 14.28 0.728 0 EA-Voting-SVM+ 71.91 ± 9.68 69.50 ± 16.77 74.09 ± 15.52 − EA-MDO-SVM+ 71.43 ± 9.13 69.50 ± 16.17 73.20 ± 15.61 − EA-MKB-SVM+ 72.33 ± 8.95 68.50 ± 16.58 75.73 ± 16.10 0.735 7 3 讨论
本文面向单模态神经影像的精神分裂症辅助诊断问题,提出了一种基于特权信息的单模态 SVM+集成分类算法。实验结果表明,与对比算法相比,本文提出的 EA-SVM+集成学习方法取得了最优的分类效果,表明了其有效性。
传统的 LUPI 分类器算法在训练阶段需要额外的特权信息模态,通过迁移知识来辅助训练提升模型性能。但是,这实际上也限制了 SVM+更为广泛的应用。而在临床诊断中,由于医疗资源分布不均,大部分医院(特别是基层医院)难以配备全面的医疗设备,这就导致并不是每一位患者都能接受多模态医学影像检查。因此,基于单模态的影像检查是目前临床更为普遍的一种模式。为了拓展 SVM+算法的应用范围,特别是针对单模态数据也能实现有效的模式分类,本文提出了一种 EA-SVM+集成学习方法。该算法将高维特征进行随机分组,相互作为特权信息,这就无需额外的特权信息,实现自我生成特权信息,从而将 SVM+拓展应用于单模态数据的分类任务。此外,传统的随机子空间特征并没有考虑相互之间的相关性,而本算法既保证每一个特征值都已经被用于分类任务,同时充分利用该特征值的信息,使其被迁移至其他分类器中辅助提升分类器性能;而多个分类器的集成学习,也进一步提高了最终的分类效果。
另一方面,由于手工设计提取的特征往往表达能力不强,我们提出采用 ELM-AE 实现特征表达的提升。该算法在具有良好特征表达能力的同时,由于不存在反馈调参过程,运算效率也很高。此外,基于 ELM-AE 的特征学习模态与基于 SVM+的集成学习模块是两个独立的模块,不存在全局反馈调参过程,也使得整个算法较为简单易用。而在进一步的研究中,可以考虑采用如深度置信网络(deep belief network)等其他深度学习方法来进一步提升特征表达能力,也可以研究结合 SVM+的整体网络反馈调参方法,提升最终分类性能。
值得注意的是,本文实验采用的是一个基于双模态神经影像的精神分裂症竞赛数据库[20],各种算法主要是结合双模态数据实现精神分裂症 CAD,而本文算法是针对单模态数据进行,因此不宜进行直接的对比。而在我们之前的一项研究中,采用迁移学习实现了基于单模态神经影像的精神分裂症诊断[10]。在该研究中,将 fMRI 数据作为特权信息,sMRI 数据作为诊断模态,采用一个经典的领域自适应 SVM 分类器进行迁移学习分类时,获得了 72.16% ± 2.06% 的分类精度、68.00% ± 1.12% 的敏感度和 75.78% ± 3.42% 的特异性;采用一个 SVM+分类器进行迁移学习分类时,其分类精度、敏感度和特异性分别为 72.55% ± 3.77%、67.50% ± 3.06% 和 76.89% ± 5.42%[10]。而本文并没有采用额外的特权信息模态,直接将本文所提出的算法应用于单模态的 sMRI 数据,也获得了同样量级的分类结果,表明了本文算法的有效性。在今后的研究中,我们将分析更多的针对精神分裂症 CAD 的算法,进一步进行更为全面的对比研究。
除此以外,本文所提出的算法,其性能还有进一步的提升空间,主要原因在于本文所采用的公开数据集的样本量较小,这在一定程度上影响了所提出算法的模型训练有效性,导致在各项指标上的结果并不突出。在今后的研究中,将采集更多的精神分裂症临床数据,从而在更大的数据集上进行更为深入和全面的算法研究。
4 结论
本文提出了一种 EA-SVM+集成学习算法,其主要创新点在于克服了传统 SVM+算法需要额外的特权信息模态的不足,通过自我生成特权信息的方式,实现了针对单模态数据的分类任务。该算法应用于基于单模态神经影像的精神分裂症诊断,实验结果表明该算法性能优于对比算法。本文研究为拓展 LUPI 分类器的应用进行了探索,该算法也可应用于其他基于单模态影像的 CAD。
利益冲突声明:本文全体作者均声明不存在利益冲突。
-
表 1 基于 sMRI 数据不同算法分类的结果
Table 1. Classification results of different algorithms based on sMRI data
算法 精度(%) 敏感度(%) 特异性(%) AUC EA-SVM 69.41 ± 10.25 67.90 ± 16.06 70.92 ± 15.53 0.727 2 EA-Voting-SVM 70.46 ± 8.38 68.00 ± 16.54 72.53 ± 13.49 − EA-MDO-SVM 70.59 ± 7.16 70.50 ± 17.26 71.24 ± 11.82 − EA-MKB-SVM 70.73 ± 8.43 70.50 ± 21.11 70.75 ± 16.63 0.733 6 EA-Voting-SVM+ 71.42 ± 7.05 74.00 ± 14.40 70.00 ± 10.87 − EA-MDO-SVM+ 71.69 ± 8.87 72.50 ± 14.43 70.78 ± 12.69 − EA-MKB-SVM+ 72.12 ± 8.20 73.50 ± 15.44 70.93 ± 12.93 0.767 7 表 2 基于 fMRI 数据不同算法分类的结果
Table 2. Classification results of different algorithms based on fMRI data
算法 精度(%) 敏感度(%) 特异性(%) AUC EA-SVM 68.42 ± 10.92 67.50 ± 16.57 69.20 ± 15.60 0.707 1 EA-Voting-SVM 70.01 ± 9.10 64.00 ± 16.66 75.42 ± 17.38 − EA-MDO-SVM 70.96 ± 8.38 64.00 ± 16.66 77.16 ± 16.21 − EA-MKB-SVM 70.95 ± 7.29 65.00 ± 18.33 74.80 ± 14.28 0.728 0 EA-Voting-SVM+ 71.91 ± 9.68 69.50 ± 16.77 74.09 ± 15.52 − EA-MDO-SVM+ 71.43 ± 9.13 69.50 ± 16.17 73.20 ± 15.61 − EA-MKB-SVM+ 72.33 ± 8.95 68.50 ± 16.58 75.73 ± 16.10 0.735 7 -
[1] 管丽丽, 杜立哲, 马弘. 精神分裂症的疾病负担. 中国心理卫生杂志, 2012, 26(12): 913-919. doi: 10.3969/j.issn.1000-6729.2012.12.008 [2] Birur B, Kraguljac N V, Shelton R C, et al. Brain structure, function, and neurochemistry in schizophrenia and bipolar disorder-a systematic review of the magnetic resonance neuroimaging literature. NPJ Schizophrenia, 2017, 3(1): 15. doi: 10.1038/s41537-017-0013-9 [3] Shi Jun, Zheng Xiao, Li Yan, et al. Multimodal neuroimaging feature learning with multimodal stacked deep polynomial networks for diagnosis of Alzheimer’s disease. IEEE J Biomed Health Inform, 2018, 22(1): 173-183. doi: 10.1109/JBHI.2017.2655720 [4] Shi Jun, Xue Zeyu, Dai Yakang, et al. Cascaded multi-column RVFL+ classifier for single-modal neuroimaging-based diagnosis of Parkinson’s disease. IEEE Trans Biomed Eng, 2019, 66(8): 2362-2371. doi: 10.1109/TBME.2018.2889398 [5] Kasun L L C, Zhou H, Huang G B, et al. Representational learning with extreme learning machine for big data. IEEE Intell Syst, 2013, 28(6): 31-34. [6] Tang Jiexiong, Deng Chenwei, Huang Guangbin. Extreme learning machine for multilayer perceptron. IEEE Trans Neural Netw Learn Syst, 2016, 27(4): 809-821. doi: 10.1109/TNNLS.2015.2424995 [7] Zhang Junjie, Yin Jie, Zhang Qi, et al. Robust sound event classification with bilinear multi-column ELM-AE and two-stage ensemble learning. EURASIP Journal on Audio, Speech, and Music Processing, 2017: 11. [8] Vapnik V, Vashist A. A new learning paradigm: learning using privileged information. Neural Netw, 2009, 22(5/6): 544-557. [9] Duan Lixin, Xu Yanwu, Li Wen, et al. Incorporating privileged genetic information for fundus image based glaucoma detection// International Conference on Medical Image Computing and Computer-Assisted Intervention. Boston: Springer, 2014: 204-211. [10] Zheng Xiao, Shi Jun, Ying Shihui, et al. Improving single-modal neuroimaging based diagnosis of brain disorders via boosted privileged information learning framework// International Workshop on Machine Learning in Medical Imaging. Athens: Springer, 2016: 95-103. [11] Zheng X, Shi J, Zhang Q, et al. Improving MRI-based diagnosis of Alzheimer’s disease via an ensemble privileged information learning algorithm// 2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017). Melbourne: IEEE, 2017: 456-459. [12] Huang Guangbin, Zhu Qinyu, Siew C K. Extreme learning machine: Theory and applications. Neurocomputing, 2006, 70(1/3): 489-501. [13] Zhu P F, Zhang L, Hu Q H, et al. Multi-scale patch based collaborative representation for face recognition with margin distribution optimization// European Conference on Computer Vision. Firenze: Springer, 2012: 822-835. [14] Yang Fan, Lu Huchuan, Yang M H. Robust visual tracking via multiple kernel boosting with affinity constraints. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(2): 242-254. doi: 10.1109/TCSVT.2013.2276145 [15] Xu Lai, Groth K M, Pearlson G, et al. Source-based morphometry: the use of independent component analysis to identify gray matter differences with application to schizophrenia. Hum Brain Mapp, 2009, 30(3): 711-724. doi: 10.1002/hbm.20540 [16] Jafri M J, Pearlson G D, Stevens M, et al. A method for functional network connectivity among spatially independent resting-state components in schizophrenia. Neuroimage, 2008, 39(4): 1666-1681. doi: 10.1016/j.neuroimage.2007.11.001 [17] Esposito F, Scarabino T, Hyvarinen A, et al. Independent component analysis of fMRI group studies by self-organizing clustering. Neuroimage, 2005, 25(1): 193-205. doi: 10.1016/j.neuroimage.2004.10.042 [18] Hyvärinen A, Oja E. Independent component analysis: algorithms and applications. Neural Netw, 2000, 13(4/5): 411-430. [19] Calhoun V D, Adali T, Pearlson G D, et al. A method for making group inferences from functional MRI data using independent component analysis. Hum Brain Mapp, 2001, 14(3): 140-151. doi: 10.1002/hbm.1048 [20] Silva R F, Castro E, Gupta C N, et al. The tenth annual MLSP competition: Schizophrenia classification challenge// 2014 IEEE International Workshop on Machine Learning for Signal Processing (MLSP). Reims: IEEE, 2014: 1-6. -