Consensus of experts on the technical specification of chest CT examination of pneumoconiosis (2020 edition)
-
摘要: 高千伏X线胸片是我国GBZ 70—2015《职业性尘肺病的诊断》强制采用的尘肺病诊断、分期工具,常常需要联合应用计算机体层成像(CT)进行鉴别诊断,但胸部CT检查尘肺病缺乏规范性的技术指导。为此,中国卫生监督协会团体标准委员会批准了中国疾病预防控制中心职业卫生与中毒控制所关于《CT用于尘肺病辅助检查指南》的立项申请。在中华预防医学会职业病专业委员会尘肺病影像学组的指导下,项目组撰写了本共识。其中:鉴于尘肺病检查的特殊性,对CT机和附属设备的配置制定了具体要求;为了获得高质量图像,对扫描前的准备、图像层厚等扫描和图像重建参数组合制定了具体要求;基于CT是数字图像的基础,对图像后处理方法提出了具体要求;为了获得规范的大数据,对图像数据的存储也做了相应要求;为了方便使用,制定了CT图像质量评价方法。Abstract: High kV chest X-ray radiographs are a compulsory tool for the diagnosis and staging of pneumoconiosis stipulated by the Diagnosis of occupational pneumoconiosis (GBZ 70-2015) in China, and often combine with computed tomography (CT) examination for further differential diagnosis. However, chest CT examination for pneumoconiosis requires standardized technical guidance. Thus, the Group Standards Committee of the China Health Inspection Association approved the application of the Institute of Occupational Health and Poison Control of the Chinese Center for Disease Control and Prevention to develop a guideline for chest CT assisting examinations of pneumoconiosis patients. Under the direction of the Pneumoconiosis Imaging Group of Occupational Diseases Professional Committee of Chinese Preventive Medicine Association, the "Consensus of experts on the technical specification of chest CT examination of pneumoconiosis (2020 edition)" was drafted. Given the particularity of pneumoconiosis examination, the configurations of CT machines and auxiliary equipment were specified. To obtain high-quality images, specific requirements were made for the scanning and image reconstruction parameters such as preparation before scanning and image slice thickness. Based on the fact that CT outputs digitized images, image post-processing methods were addressed. To achieve standardized big data, the archiving of image data was detailed. For convenient application, the evaluation method of CT image quality was established.
-
Key words:
- pneumoconiosis /
- chest CT /
- technical specification /
- consensus
-
引言
精神分裂症(schizophrenia)是一种复发率高、致残率高的慢性迁延性精神障碍疾病[1]。精神分裂症患者不仅存在着自身健康问题,而且肇事肇祸率高,给家庭和社会带来沉重的负担。因此,准确诊断精神分裂症对于患者后续接受正确的治疗和控制具有重要的作用。
随着影像技术的不断发展,以磁共振成像(magnetic resonance imaging,MRI)为代表的影像设备已经广泛应用于精神分裂症的诊断[2]。然而,影像诊断往往依赖于医生的水平和经验,由于医生自身的医疗知识差异、诊断环境差异、生理疲劳等情况,会导致诊断结果差异较大、可重复性差等问题。计算机辅助诊断(computer-aided diagnosis,CAD)为医生的诊断工作提供了可重复性和一致性好的辅助决策[3-4]。目前,基于神经影像的精神分裂症的 CAD 研究已经逐步得到开展。
特征提取与表达是 CAD 系统中的一个重要环节[3]。深度学习(deep learning)能有效提升特征表达能力,近年来已在图像和信号处理领域获得了广泛的应用,包括医学影像处理领域。极限学习机-自编码器(extreme learning machine based auto-encoder,ELM-AE)是一种新的深度学习算法[5]。该算法将极限学习机(extreme learning machine,ELM)嵌入到自编码器(auto-encoder,AE)框架中,从而在训练过程中无需反向调参与迭代,在提升特征表达能力的同时,有效提升学习效率[5]。ELM-AE 既可以对原始图像数据直接进行特征学习,也可以对已提取的特征进行二次学习,以进一步提升其特征表达[5-7]。因此,ELM-AE 具有应用于神经影像数据特征学习的可行性。
另一方面,分类器直接影响着 CAD 的诊断性能,是 CAD 系统中另一个重要环节[4]。常用的分类器包括支持向量机(support vector machine,SVM)、神经网络分类器、随机森林和 AdaBoost 等。近年来,一种新型的基于特权信息学习(learning using privileged information,LUPI)的 SVM 分类器(命名为 SVM+),在迁移学习领域获得了广泛应用[8]。在训练阶段,存在一个额外的特权信息(源领域)模态,协助目标领域数据共同训练 SVM+分类器模型;而在测试阶段,SVM+只针对单模态的目标领域数据进行分类[8]。SVM+已经成功应用于基于医学影像的 CAD 系统[9-11]。然而,此类分类器在实际应用时,需要利用目标领域模态和特权信息模态数据同时训练模型。而由于医疗资源分布不均等问题,临床中更为常规的诊断范式是基于单模态影像数据进行诊断,这就限制了基于 LUPI 的分类器在医学领域的进一步应用。
针对上述问题,本文提出一种结合 ELM-AE 特征学习的集成 SVM+分类算法(EA-SVM+),应用于基于单模态神经影像的精神分裂症辅助诊断。该算法首先对单模态数据采用 ELM-AE 进行特征二次学习,然后通过随机映射(random projection)算法将高维特征随机分成多个子空间,并进行两两组合形成源领域和目标领域数据对,用于训练多个 SVM+分类器,最终通过集成学习实现有效的模式分类。本文所提出的算法不仅可以提升原始 SVM+的分类性能,而且还能突破传统 LUPI 分类器同时需要不同的源领域和目标领域数据进行模型训练的限制,只需对单模态的目标领域数据进行数据变换,从自身数据产生“源领域”数据进行 SVM+分类器的训练,从而使得 SVM+具有更为广泛的应用。
1 方法
图 1 所示为本文所提出的 EA-SVM+集成学习算法的流程图。其具体步骤如下:
(1)在训练阶段,对单模态的神经影像数据提取特征;
(2)对提取的特征采用 ELM-AE 进行二次特征学习,获得表达性能提升的高维特征向量;
(3)对高维特征进行随机映射形成 P 个随机子空间,并进行两两组合形成 M 个源领域和目标领域的数据对,即每个数据对中,一个子空间特征作为源领域(特权信息)模态,而另外一个子空间特征作为目标领域模态。因此,特权信息由自身特征产生,无需额外的源领域诊断模态;
(4)将 M 个数据对送入到 M 个 SVM+分类器中进行训练,获得 M 个 SVM+分类器模型;
(5)采用集成学习方法对 M 个 SVM+分类器模型进行集成,获得最终的强分类器模型;
(6)在测试阶段,对单个诊断模态的数据进行步骤(1)和(2)的特征提取与表达学习处理,然后仍然划为 P 个随机子空间特征,再将这些特征分别送到 M 个对应的 SVM+分类器中,并进行集成学习,实现模式分类。需要注意的是,在测试阶段,不需要额外的特权信息(源领域)数据。
1.1 ELM-AE 原理
ELM 算法采用随机初始化输入层和隐藏层的连接权重的策略,无需反向调参过程,具有学习速度快、泛化性能好的特点[12]。
给定训练集
$ S \;{\text{=}}\; \left\{ {\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdot \! \cdot \! \cdot ,\left( {{x_N},{y_N}} \right)} \right\}$ ,其中$ {x_i} \in {R^n}$ 为训练样本,$ {y_i} \in \left\{ {1,2, \cdot \! \cdot \! \cdot ,c} \right\}$ 是训练样本对应的分类标签,样本数为 N。对于一个有 L 个隐层节点的 ELM 神经网络可以表示为:$$ \mathop \sum \limits_{j \;{\text{=}}\; 1}^L {\beta _j}g\left( {{W_j} \cdot {x_i}\;{\text{+}}\; {b_j}} \right) \;{\text{=}}\; {O_i},\;i \;{\text{=}}\; 1, \cdot \! \cdot \! \cdot ,N $$ 1 其中,
$ g\left( x \right)$ 为激活函数,Wj 为输入权重,βj 为输出权重,bj 是第 j 个隐层单元的偏置。Wj·xi 表示 Wj 和 xi 的内积。单隐层神经网络学习目的是寻求输出误差最小,因而可以表示为:$$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_\beta \dfrac{1}{2}||{\mathrm{β}}|| _2^2 \;{\text{+}}\; \lambda \mathop \sum \limits_{i \;{\text{=}}\; 1}^N \xi _i^2}\\ {s.t.\;{\beta _j}g\left( {{W_j} \cdot {x_i} + {b_j}} \right) \geqslant {O_i} \;{\text{−}}\; {\xi _i},\;i \;{\text{=}}\; 1, \cdot \! \cdot \! \cdot ,N} \end{array} $$ 2 其中 λ 是可给定的超参数,ξi 表示训练误差。
AE 模型假定输入与输出相同,即:Y = X,通过训练调整网络中每一层的参数,使得重构误差最小。基于 ELM 的 AE 算法,可以选取正交的隐藏节点的随机权重和偏置[5],因此,ELM-AE 算法具有计算复杂度小、运算速度快的优点。图 2 所示的是 ELM-AE 的网络结构。
在 ELM-AE 中,随机生成的正交隐层结点将输入数据映射到一个新的表达空间中,这样根据 Johnson-Lindenstrauss 引理就可以得到:
$$ H \;{\text{=}}\; G\left( {a \cdot X + b} \right);{a^{\rm{T}}}a \;{\text{=}}\; 1,{\rm{}}{b^{\rm{T}}}b \;{\text{=}}\; 1 $$ 3 其中,
$ X \;{\text{=}}\; \left[ {{x_1},{x_2}, \cdot \! \cdot \! \cdot ,{x_N}} \right]$ 是输入数据,H =$ \left[ {{h_1},{h_2}, \cdot \! \cdot \! \cdot ,{h_N}} \right]$ 是隐层节点的输出,a =$ \left[ {{a_1},{a_2}, \cdot \! \cdot \! \cdot ,{a_L}} \right]$ 是在输入和隐层节点之间正交的随机权值,b =$ \left[ {{b_1},{b_2}, \cdot \! \cdot \! \cdot ,{b_L}} \right]$ 是正交的随机阈值。在不相等的维度情况下,ELM-AE 的输出权值 β 能将输入数据映射到相应的特征子空间中。根据式(4)可以计算得到输出权值 β:$$ \beta \;{\text{=}}\; {\left( {\frac{I}{C} \;{\text{+}}\; {H^T}H} \right)^{ - 1}}{H^T}X $$ 4 对于相同维度映射的情况,可以根据公式(5)计算得到输出权值 β:
$$ \begin{array}{*{20}{c}} {\beta \;{\text{=}}\; {H^{ - 1}}X}\\ {{\beta ^T}\beta \;{\text{=}}\; I} \end{array} $$ 5 对 ELM-AE 的特征输出层即公式(4)进行奇异值分解(singular value decomposition,SVD),则最终特征表达公式为:
$$ H\beta \;{\text{=}}\; \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {u_i}\frac{{d_i^2}}{{d_i^2 \;{\text{+}}\; C}}u_i^TX $$ 6 其中,u 是矩阵 HHT 的特征向量,d 是 H 的奇异值。
有关 ELM-AE 更为详细的原理请参考文献[5]。
1.2 基于 SVM+的集成学习
1.2.1 SVM+原理
SVM+在原 SVM 模型上融合了特权信息,将特权信息作为影响分类结果的软间隔加入模型,替换其中的松弛变量。
给定训练集
$ S \;{\text{=}}\; \left\{ {\left( {{x_1},x_1^*,{y_1}} \right),\left( {{x_2},x_2^*,{y_2}} \right), \cdot \! \cdot \! \cdot ,} \right.$ $\left. \left( {{x_N},x_N^*,{y_N}} \right)\right\}$ ,其中 xi∈X 是诊断模态(即目标领域)样本,$ x_i^* \in {X^*}$ 是特权信息(即源领域),yi 为标签。SVM+通过特权信息来帮助训练更优的分类器模型[8]。SVM+的最小化目标函数如下:
$$\begin{split} R\left( {w,{w^*},b,{b^*}} \right) \;{\text{=}}\; & \frac{1}{2}\left[ {\left( {w,w} \right) \;{\text{+}}\; \gamma \left( {{w^*},{w^*}} \right)} \right] \;{\text{+}}\; \\ & C\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right] \end{split}$$ 7 $$ s.t.\;{\rm{}}{y_i}\left[ {\left( {w,{x_i}} \right) \;{\text{+}}\; b} \right] \geqslant 1 \;{\text{−}}\; \left[ {\left( {{w^*},{w^*}} \right) \;{\text{+}}\; {b^*}} \right] $$ 8 $$ \left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*} \geqslant 0 $$ 9 其中 C 是用于权衡误差的正则化参数。由以上目标函数构建其拉格朗日函数:
$$ \begin{split} & R\left( {w,{w^*},b,{b^*},\alpha ,\beta } \right) \;{\text{=}}\; \frac{1}{2}\left[ {\left( {w,w} \right) \;{\text{+}}\; \gamma \left( {{w^*},{w^*}} \right)} \right] \;{\text{+}}\; \\ & C\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right] \;{\text{−}}\\ & \mathop \sum \limits_{i \;{\text{=}}\; 1}^l {\alpha _i}\left[ {{y_i}\left( {w,x} \right) \;{\text{+}}\; b \;{\text{−}}\; 1 \;{\text{+}}\; \left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right]} \right] \;{\text{−}} \\ & \mathop \sum \limits_{i \;{\text{=}}\; 1}^l {\beta _i}\left[ {\left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*}} \right] \end{split} $$ 10 其中,拉格朗日乘子 α ≥ 0,β ≥ 0。则其分类决策函数可表示为:
$$ f\left( x \right) \;{\text{=}}\; \left( {w,x} \right) \;{\text{+}}\; b \;{\text{=}}\; \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\alpha _i}K\left( {{x_i},x} \right) \;{\text{+}}\; b $$ 11 其纠错函数由下式表示:
$$\begin{split} {\textit{φ}}\left( {{x^*}} \right) \;{\text{=}}\; & \left( {{w^*},x_i^*} \right) \;{\text{+}}\; {b^*} \;{\text{=}}\; \\ & \frac{1}{r}\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left( {{\alpha _i} \;{\text{+}}\; {\beta _i} \;{\text{−}}\; C} \right){K^*}\left( {x_i^*,x_i^*} \right) \;{\text{+}}\; {b^*} \end{split}$$ 12 分类函数中的 K 和纠错函数中的 K*分别是 X 空间和 X*空间上的核。由此可得拉格朗日乘子 α 和 β 的解:
$$ \begin{split} R\left( {\alpha ,\beta } \right) \;{\text{=}}\; & \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\alpha _i} \;{\text{−}}\; \frac{1}{2}\mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\alpha _i}{\alpha _J}{y_i}{y_J}K\left( {{x_i},{x_J}} \right) \;{\text{−}}\; \\ & \frac{1}{{2\gamma }}\mathop \sum \limits_{i,j \;{\text{=}}\; 1}^N ( {{\alpha _i} \;{\text{+}}\; {\beta _i} \;{\text{−}}\; C} )( {{\alpha _j} \;{\text{+}}\; {\beta _j} \;{\text{−}}\; C} ){K^*}( {x_i^*,x_j^*} )\\ & s.t.\;\mathop \sum \limits_{i \;{\text{=}}\; 1}^N \left( {{\alpha _i} \;{\text{+}}\; {\beta _i} \;{\text{−}}\; C} \right) \;{\text{=}}\; 0,\;\mathop \sum \limits_{i \;{\text{=}}\; 1}^N {y_i}{\alpha _i} \;{\text{=}}\; 0, \\ & {\alpha _i} \geqslant 0,\;{\beta _i} \geqslant 0\\[-18pt] \end{split} $$ 13 最终的 SVM+的分类决策函数为:
$$ dec\_value\left( {{x_i}} \right)\;{\text{=}}\; {w^T}{x_i} \;{\text{+}}\; b $$ 14 其中,w 为最优超平面的法向量,b 是系数。
有关 SVM+算法更为具体的原理请参考文献[8]。
1.2.2 集成学习
对 M 个 SVM+分类器模型进一步进行集成学习,生成一个强分类器。在本文中,除了常用的投票表决法(voting)集成学习以外,我们还采用了边缘分布优化算法(margin distribution optimization,MDO)和多核增强(multiple kernel boosting,MKB)算法进行集成学习[13-14]。
MDO 算法原理如下[13]:
针对二分类问题,由 M 个不同的分类器进行 MDO 集成,对于样本 xi,不同分类器的输出结果由
$ \left\{ {{p_{ij}}} \right\},j \;{\text{=}}\; 1,2, \cdot \! \cdot \! \cdot ,M$ 表示,判别函数为$ f\;{\text{=}}\; {\rm{sgn}}\left( {\mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j}{p_{ij}}} \right)$ ,其中$ {{w}} \;{\text{=}}\; \left[ {{w_1},{w_2}, \cdot \! \cdot \! \cdot ,{w_M}} \right]$ 是尺度权重向量,且$ \mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j} \;{\text{=}}\; 1$ 。那么样本 xi 的边界由下式表示:$$ \varepsilon \left( {{x_i}} \right) \;{\text{=}}\; {y_i}\mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j}{p_{ij}} $$ 15 若
$ \varepsilon \left( {{x_i}} \right) > 0$ ,则样本分类正确;若$ \varepsilon \left( {{x_i}} \right) < 0$ ,则样本分类错误;当$ \varepsilon \left( {{x_i}} \right) \;{\text{=}}\; 0$ 时,样本标签无法确定。边界结果表示了分类器融合分类的结果,学习尺度权重可以使得边界结果更大,分类结果更好。边界最大化可以转化为损失最小化,训练集 S 的整体平方损失表示为:$$\begin{split} l\left( S \right) \;{\text{=}}\; & \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {l_{{x_i}}} \;{\text{=}}\; \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\left[ {1 \;{\text{−}}\; \varepsilon \left( {{x_i}} \right)} \right]^2} \;{\text{=}}\; \\ & \mathop \sum \limits_{i \;{\text{=}}\; 1}^N {\left[ {1 \;{\text{−}}\; {y_i}\mathop \sum \limits_{j \;{\text{=}}\; 1}^M {w_j}{p_{ij}}} \right]^2} \end{split}$$ 16 我们利用约束 L1-正则化最小二乘优化方法最小化整体平方损失之后,就可以学习最优尺度权重向量 w,由此实现最终的增强分类器。
MKB 的具体原理如下[14]:
MKB 通过扩展多核学习框架,集成多个分类器中的核函数,形成一个强分类器。我们将多个核函数的组合定义为:
$$ K\left( {x,{x^{'}}} \right) \;{\text{=}}\; \mathop \sum \limits_{m \;{\text{=}}\; 1}^M {d_m}{K_m}\left( {x,{x_i}} \right),\;{d_m} \geqslant 0 $$ 17 其中,M 为基核 Km 的个数,dm 是核权重。
初始化弱分类器的权重分布
$ {D_1}\left( i \right) = 1/m$ ,然后进行 T 次循环寻找强分类器。循环中执行三个步骤:(1)训练核函数空间上的最优线性弱分类器
$ {h_i}\left( x \right)$ ;(2)计算分类器误差
$ {\varepsilon ^{\left( t \right)}}$ 和$ {\alpha ^{\left( t \right)}}$ :$$\begin{split} & {\varepsilon ^{\left( t \right)}} \;{\text{=}}\; \frac{{\mathop \sum \limits_{i \;{\text{=}}\; 1}^D {\omega _t}\left( i \right) \cdot \left| {{h_i}\left( x \right)} \right| \cdot U\left( { {\text{−}}\; {y_i}{h_i}\left( x \right)} \right)}}{{\mathop \sum \limits_{i \;{\text{=}}\; 1}^D {\omega _t}\left( i \right) \cdot \left| {{h_i}\left( x \right)} \right|}}, \\ & \qquad\qquad{\alpha ^{\left( t \right)}} \;{\text{=}}\; \frac{1}{2}\log\frac{{1 \;{\text{−}}\; {\varepsilon ^{\left( t \right)}}}}{{{\varepsilon ^{\left( t \right)}}}} \end{split}$$ 18 (3)更新采样权重:
$$ \omega _i^{t \;{\text{=}}\; 1} \leftarrow \frac{{\omega _i^t{\rm{exp}}\left( { {\text{−}}\; {y_i}{\alpha _t}{h_t}\left( {{x_i}} \right)} \right)}}{{{Z_t}}} $$ 19 完成 T 次循环后获得最终的强分类器为:
$$ {H_T} \;{\text{=}}\; \mathop \sum \limits_{t \;{\text{=}}\; 1}^T {\alpha _t}{h_t}\left( {{x_i}} \right) $$ 20 有关 MDO 和 MKB 算法的具体细节请参考文献[13]和[14]。
2 实验和结果
2.1 实验数据与处理
本文所提出的 EA-SVM+集成学习算法在公开的精神分裂症竞赛数据库(https://www.kaggle.com/c/mlsp-2014-mri/data)中进行验证。该数据库提供了双模态的 MRI 数据,即结构 MRI(structural MRI,sMRI)和功能 MRI(functional MRI,fMRI)。两种模态的数据同时采集自 86 例志愿者,包括 40 例精神分裂症患者和 46 例正常对照者。
对于 sMRI 图像,采用基于表层的形态学分析(source-based morphometry,SBM)算法进行特征提取,获得 32 维的特征[15];而对于 fMRI 图像,采用功能网络连接(functional network connectivity,FNC)结合组水平独立成分分析(group independent component analysis,GICA)的方法,提取共计 378 维的特征[16-17]。有关 sMRI 和 fMRI 的特征提取具体细节,请参考文献[18]和[19]。
对于原始提取的特征,进一步采用 ELM-AE 进行特征的二次学习,获得性能提升的高维度特征表达。在本实验中,对于原始 32 维的 sMRI 特征经过 ELM-AE 学习以后输出的特征维度为 400,而 378 维的 fMRI 特征经过二次特征学习以后的特征维度为 1 500 维。
对于 400 维的 sMRI 特征和 1 500 维的 fMRI 特征,都分成 5 个子空间。为了简单化,我们依次将第 i 个子空间作为第(i +1)个子空间的特权模态,第 5 个子空间作为第 1 个子空间的特权模态。因此,一共形成 5 个 SVM+分类器。
2.2 实验设计
为了评估所提出的 EA-SVM+集成学习分类算法性能,本文对以下算法进行了对比实验:
(1)EA-SVM:经过 ELM-AE 得到的特征直接采用 SVM 分类器分类。
(2)EA-SVM 集成分类:经过 ELM-AE 得到的特征进行随机映射得到 5 个子空间,然后对每个子空间训练 SVM 分类器,并进行集成学习。其中,集成学习采用的投票表决(EA-Voting-SVM)、MDO(EA-MDO-SVM)和 MKB(EA-MKB-SVM)。
(3)EA-SVM+集成分类:本文所提出的 EA-SVM+集成分类算法,其中,集成学习采用的投票表决(EA-Voting-SVM+)、MDO(EA-MDO-SVM+)和 MKB(EA-MKB-SVM+)。
以上算法分别对 sMRI 和 fMRI 数据集进行实验。对所有算法进行 5 次 5 折交叉验证(5-fold cross validation)。将分类精度、敏感度和特异性作为评价指标,同时对 MKB 集成的结果画出受试者操作特性(receiver operating characteristic,ROC)曲线,计算曲线下面积(area under curve,AUC)。
2.3 实验结果
表 1 所示为针对 sMRI 模态数据的各种算法分类结果。由表中数据可以发现,EA-SVM+集成分类算法的结果相比于 EA-SVM 集成算法和原始的 EA-SVM 算法结果均有提高,EA-MKB-SVM+的分类精度、敏感性和特异性分别可以达到 72.12% ± 8.20%、73.50% ± 15.44% 和 70.93% ± 12.93%,整体结果最优,而比 EA-SVM 在分类精度和敏感度这 2 个指标上分别提高了 2.71% 和 5.60%。三种 EA-SVM 集成分类算法均比 EA-SVM 分类结果好,这说明随机子空间和集成技术在所提取的 ELM-AE 特征表达上的应用能提高分类性能。同时,EA-SVM+集成算法比 EA-SVM 集成取得了更好的分类结果,表明将单模态数据中的某一子空间作为特权信息辅助训练分类模型,有效提升了分类器的性能。从图 3 的 ROC 曲线结果可以发现,EA-SVM+算法使用 MKB 算法表现最优,其 ROC 曲线最接近左上角。而对比各种算法的 AUC 值,可以发现 EA-MKB-SVM+算法的 AUC 值可达到 0.767 7,优于其它结果。
表 1 基于 sMRI 数据不同算法分类的结果Table 1. Classification results of different algorithms based on sMRI data算法 精度(%) 敏感度(%) 特异性(%) AUC EA-SVM 69.41 ± 10.25 67.90 ± 16.06 70.92 ± 15.53 0.727 2 EA-Voting-SVM 70.46 ± 8.38 68.00 ± 16.54 72.53 ± 13.49 − EA-MDO-SVM 70.59 ± 7.16 70.50 ± 17.26 71.24 ± 11.82 − EA-MKB-SVM 70.73 ± 8.43 70.50 ± 21.11 70.75 ± 16.63 0.733 6 EA-Voting-SVM+ 71.42 ± 7.05 74.00 ± 14.40 70.00 ± 10.87 − EA-MDO-SVM+ 71.69 ± 8.87 72.50 ± 14.43 70.78 ± 12.69 − EA-MKB-SVM+ 72.12 ± 8.20 73.50 ± 15.44 70.93 ± 12.93 0.767 7 表 2 是 fMRI 模态数据的分类结果,其结果趋势跟表 1 接近。EA-SVM+集成分类算法的结果优于 EA-SVM 集成算法和 EA-SVM 算法的结果。EA-MKB-SVM+算法仍然获得了整体最优的结果,其平均分类精度、敏感性和特异性分别为 72.33% ± 8.95%、68.50% ± 16.58%、75.73% ± 16.10%,相对于原始 EA-SVM 的结果,分类精度提高了 3.91%,敏感度提升了 1.00%,特异性提升了 6.53%。图 4 是 fMRI 在不同算法下的 ROC 曲线图。从 ROC 曲线图中不容易区分算法 EA-MKB-SVM 和 EA-MKB-SVM+的性能,而表 2 给出了相应算法的 AUC 值,可以发现 EA-MKB-SVM+的结果更优,其 AUC 值为 0.735 7。
表 2 基于 fMRI 数据不同算法分类的结果Table 2. Classification results of different algorithms based on fMRI data算法 精度(%) 敏感度(%) 特异性(%) AUC EA-SVM 68.42 ± 10.92 67.50 ± 16.57 69.20 ± 15.60 0.707 1 EA-Voting-SVM 70.01 ± 9.10 64.00 ± 16.66 75.42 ± 17.38 − EA-MDO-SVM 70.96 ± 8.38 64.00 ± 16.66 77.16 ± 16.21 − EA-MKB-SVM 70.95 ± 7.29 65.00 ± 18.33 74.80 ± 14.28 0.728 0 EA-Voting-SVM+ 71.91 ± 9.68 69.50 ± 16.77 74.09 ± 15.52 − EA-MDO-SVM+ 71.43 ± 9.13 69.50 ± 16.17 73.20 ± 15.61 − EA-MKB-SVM+ 72.33 ± 8.95 68.50 ± 16.58 75.73 ± 16.10 0.735 7 3 讨论
本文面向单模态神经影像的精神分裂症辅助诊断问题,提出了一种基于特权信息的单模态 SVM+集成分类算法。实验结果表明,与对比算法相比,本文提出的 EA-SVM+集成学习方法取得了最优的分类效果,表明了其有效性。
传统的 LUPI 分类器算法在训练阶段需要额外的特权信息模态,通过迁移知识来辅助训练提升模型性能。但是,这实际上也限制了 SVM+更为广泛的应用。而在临床诊断中,由于医疗资源分布不均,大部分医院(特别是基层医院)难以配备全面的医疗设备,这就导致并不是每一位患者都能接受多模态医学影像检查。因此,基于单模态的影像检查是目前临床更为普遍的一种模式。为了拓展 SVM+算法的应用范围,特别是针对单模态数据也能实现有效的模式分类,本文提出了一种 EA-SVM+集成学习方法。该算法将高维特征进行随机分组,相互作为特权信息,这就无需额外的特权信息,实现自我生成特权信息,从而将 SVM+拓展应用于单模态数据的分类任务。此外,传统的随机子空间特征并没有考虑相互之间的相关性,而本算法既保证每一个特征值都已经被用于分类任务,同时充分利用该特征值的信息,使其被迁移至其他分类器中辅助提升分类器性能;而多个分类器的集成学习,也进一步提高了最终的分类效果。
另一方面,由于手工设计提取的特征往往表达能力不强,我们提出采用 ELM-AE 实现特征表达的提升。该算法在具有良好特征表达能力的同时,由于不存在反馈调参过程,运算效率也很高。此外,基于 ELM-AE 的特征学习模态与基于 SVM+的集成学习模块是两个独立的模块,不存在全局反馈调参过程,也使得整个算法较为简单易用。而在进一步的研究中,可以考虑采用如深度置信网络(deep belief network)等其他深度学习方法来进一步提升特征表达能力,也可以研究结合 SVM+的整体网络反馈调参方法,提升最终分类性能。
值得注意的是,本文实验采用的是一个基于双模态神经影像的精神分裂症竞赛数据库[20],各种算法主要是结合双模态数据实现精神分裂症 CAD,而本文算法是针对单模态数据进行,因此不宜进行直接的对比。而在我们之前的一项研究中,采用迁移学习实现了基于单模态神经影像的精神分裂症诊断[10]。在该研究中,将 fMRI 数据作为特权信息,sMRI 数据作为诊断模态,采用一个经典的领域自适应 SVM 分类器进行迁移学习分类时,获得了 72.16% ± 2.06% 的分类精度、68.00% ± 1.12% 的敏感度和 75.78% ± 3.42% 的特异性;采用一个 SVM+分类器进行迁移学习分类时,其分类精度、敏感度和特异性分别为 72.55% ± 3.77%、67.50% ± 3.06% 和 76.89% ± 5.42%[10]。而本文并没有采用额外的特权信息模态,直接将本文所提出的算法应用于单模态的 sMRI 数据,也获得了同样量级的分类结果,表明了本文算法的有效性。在今后的研究中,我们将分析更多的针对精神分裂症 CAD 的算法,进一步进行更为全面的对比研究。
除此以外,本文所提出的算法,其性能还有进一步的提升空间,主要原因在于本文所采用的公开数据集的样本量较小,这在一定程度上影响了所提出算法的模型训练有效性,导致在各项指标上的结果并不突出。在今后的研究中,将采集更多的精神分裂症临床数据,从而在更大的数据集上进行更为深入和全面的算法研究。
4 结论
本文提出了一种 EA-SVM+集成学习算法,其主要创新点在于克服了传统 SVM+算法需要额外的特权信息模态的不足,通过自我生成特权信息的方式,实现了针对单模态数据的分类任务。该算法应用于基于单模态神经影像的精神分裂症诊断,实验结果表明该算法性能优于对比算法。本文研究为拓展 LUPI 分类器的应用进行了探索,该算法也可应用于其他基于单模态影像的 CAD。
利益冲突声明:本文全体作者均声明不存在利益冲突。
利益冲突 无申报Competng interests None declared专家组成员(按单位和姓氏名称拼音排序)北京朝阳医院:叶俏、张镭;北京地坛医院:陈步东;北京世纪坛医院:温庭国;北京市化工职业病防治院:李珏、王建国;北京市疾病预防控制中心:张君;北京医院:潘纪戌;鄂尔多斯健康体检中心:贺咏平;广东省职业病防治院:陈嘉斌、梁伟辉、夏丽华;广西壮族自治区职业病防治研究院:李忠学;广州市职业病防治院:蒋文中;贵州省第三人民医院:黎东霞;国家卫生健康委职业安全卫生研究中心:钱青俊、王峥、张建芳;哈尔滨医科大学第二附属医院:赵雁鸣;杭州医学院:陈钧强、张幸;黑龙江省劳动卫生职业病研究院:刘锡诚;湖北省中西医结合医院:凌瑞杰、祝望才;湖南省胸科医院:庞菁、姚其能;湖南省职业病防治院:陆长城;华中科技大学同济医学院附属协和医院:余建明;淮北矿业股份有限公司职业病防治院:丁新平、姚玉龙;吉林省前卫医院:李岩;江苏省疾病预防控制中心:丁帮梅、谢丽庄;晋城煤业集团总医院:李海学;南京大学医学院附属鼓楼医院:蔡后荣;内蒙古科技大学包头医学院第一附属医院:王琳琳;青岛市中心医院:陈艳霞;山东省医学影像学研究所:柳澄;山东省职业卫生与职业病防治研究院:蔡志春、崔萍、闫永建;陕西省人民医院:李健;上海市肺科医院:毛翎;深圳市职业病防治院:李智民、罗军;沈阳市第九人民医院:阎波;四川大学华西第四医院:彭莉君;无锡市人民医院:吴波;新疆维吾尔自治区职业病医院:窦红;烟台北海医院:王宝堂;应急管理部北戴河康复院:陈刚、刘贺;应急总医院:李宝平;云南省第三人民医院:宋繁锐;中国疾病预防控制中心职业卫生与中毒控制所:李涛、孙承业、王焕强、余晨;重庆市公共卫生医疗救治中心:吕圣秀;重庆市职业病防治院:金盛辉;淄博市职业病防治院:王成霞。秘书中国疾病预防与控制中心职业卫生与中毒控制所:吕向裴、齐放。 -
表 1 尘肺病胸部CT扫描方案
Table 1. Chest CT scanning protocol for pneumoconiosis
参数 螺旋CT (HRCT) 备注 CT设备 CT (≥ 64层) 扫描方向 从头侧至足侧 16层CT, 可选择沿足侧至头侧 扫描体位 仰卧位 早期石棉肺可选择俯卧位 扫描范围 胸腔入口至肺下界膈面 深吸气末屏气检查 扫描机架倾斜角度 0° 管电压 不低于110KV 管电流 200 mA左右 智能管电流控制 螺距 0.75~1 16层CT可适当加大螺距 旋转速度 不大于0.5s·周-1 扫描视野 30~35cm 重建层厚 ①5 mm层厚
②16层CT,≤1.5mm; ≥ 64层CT, ≤ 1mm重建问隔 50%~75% 重建矩阵 512x512 有1024矩阵程序,推荐采用1024矩阵 重建算法 骨算法、软组织算法 图像后处理技术 多平面重组、最大密度投影 对比剂 无 进行职业病检查和鉴定时,不需使用对比剂 -
[1] 职业性尘肺病的诊断: GBZ 70-2015[S].北京: 中国标准出版社, 2016. [2] International Labor Office (ILO). Guidelines for the use of the ILO international classification of radiographs of pneumoconioses[M]. Geneva:International Labor Office, 2011:48. [3] OGIHARA Y, ASHIZAWA K, HAYASHI H, et al. Progressive massive fibrosis in patients with pneumoconiosis:utility of MRI in differentiating from lung cancer[J]. Acta Radiol, 2018, 59(1):72-80. doi: 10.1177/0284185117700929 [4] SUN J, WENG D, JIN C, et al. The value of high resolution computed tomography in the diagnostics of small opacities and complications of silicosis in mine machinery manufacturing workers, compared to radiography[J]. J Occup Health, 2008, 50(5):400-405. doi: 10.1539/joh.L8015 [5] ŞENER M U, ŞIMŞEK C, ÖZKARA Ş, et al. Comparison of the international classification of high-resolution computed tomography for occupational and environmental respiratory diseases with the international labor organization international classification of radiographs of pneumoconiosis[J]. Ind Health, 2019, 57(4):495-502. doi: 10.2486/indhealth.2018-0068 [6] SAVRANLAR A, ALTIN R, MAHMUTYAZICIOĞLU K, et al. Comparison of chest radiography and high-resolution computed tomography findings in early and low-grade coal worker's pneumoconiosis[J]. Eur J Radiol, 2004, 51(2):175-180. doi: 10.1016/j.ejrad.2003.10.017 [7] 中华预防医学会劳动卫生与职业病分会职业性肺部疾病学组.尘肺病治疗中国专家共识(2018年版)[J].环境与职业医学, 2018, 35(8):677-689. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=ldyx201808001 [8] 中华医学会影像技术分会, 中华医学会放射学分会. CT检查技术专家共识[J].中华放射学杂志, 2016, 50(12):916-928. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zhfsx201612004 [9] European commission. European guidelines on quality criteria for diagnostic radiographic images[EB/OL].[2020-09-16]. https://www.sprmn.pt/pdf/EuropeanGuidelineseur16260.pdf. [10] 祁吉. CT的昨天、今天和明天[J].继续医学教育, 2007, 21(25):8-11. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jxyxjy200725003 [11] WEBB W R, MÜLLER N L, NAIDICH D P. High-resolution CT of the lung[M]. 5th ed. Philadelphia:Wolters Kluwer Health, 2014. [12] HERING K G, HOFMANN-PREIß K, KRAUS T. Update:standardized CT/HRCT classification of occupational and environmental thoracic diseases in Germany[J]. Radiologe, 2014, 54(4):363-384. doi: 10.1007/s00117-014-2674-y [13] 中华医学会放射学分会心胸学组.低剂量螺旋CT肺癌筛查专家共识[J].中华放射学杂志, 2015, 49(5):328-335. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zhfsx201505004 [14] WOOD D E, KAZEROONI E, BAUM S L, et al. Lung cancer screening, version 1.2015:featured updates to the NCCN guidelines[J]. J Natl Compr Canc Netw, 2015, 13(1):23-34. doi: 10.6004/jnccn.2015.0006 [15] REMY-JARDIN M, REMY J.胸部螺旋CT[M].刘士远, 李惠民, 董伟华, 译.北京: 中国医药科技出版社, 2001. [16] HANSELL D M, BANKIER A A, MACMAHON H, et al. Fleischner society:glossary of terms for thoracic imaging[J]. Radiology, 2008, 246(3):697-722. doi: 10.1148/radiol.2462070712 [17] SUNDARAM B, CHUGHTAI AR, KAZEROONI EA. Multidetector high-resolution computed tomography of the lungs:protocols and applications[J]. J Thoracic Imaging, 2010, 25(2):125-141. doi: 10.1097/RTI.0b013e3181d9ca37 [18] REMY-JARDIN M, CAMPISTRON P, AMARA A, et al. Usefulness of coronal reformations in the diagnostic evaluation of infiltrative lung disease[J]. J Comput Assist Tomogr, 2003, 27(2):266-273. doi: 10.1097/00004728-200303000-00028 [19] 陈步东, 马大庆, 关砚生, 等.低剂量多层CT最大密度投影检出肺小结节的研究[J].中华劳动卫生职业病杂志, 2006, 24(9):560-561. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zhldwszyb200609017 [20] REMY-JARDIN M, REMY J, ARTAUD D, et al. Diffuse infiltrative lung disease:Clinical value of sliding-thin-slab maximum intensity projection CT scans in the detection of mild micronodular patterns[J]. Radiology, 1996, 200(2):333-339. doi: 10.1148/radiology.200.2.8685322 [21] ZOSKY G R, HOY R F, SILVERSTONE E J, et al. Coal workers' pneumoconiosis:an Australian perspective[J]. Med J Aust, 2016, 204(11):414-418. doi: 10.5694/mja16.00357 -

计量
- 文章访问数: 219
- HTML全文浏览量: 163
- PDF下载量: 0
- 被引次数: 0