观察者性能_接受者操作特性_强迫选择_医学图像

医学图像诊断效果评估的ROC和强迫选择方法

http://www.100md.com 《生物医学工程学杂志》 1998年第3期

     作者：岳喜才叶屹邓振生蒋大宗郑崇勋

    单位：(西安交通大学生物医学工程研究所，西安 710049)

    关键词：观察者性能；接受者操作特性；强迫选择；医学图像；诊断效果

    生物医学工程学杂志980317 内容摘要综述了医学图像诊断效果评估的接受者操作特性(ROC)方法和强迫选择方法。文中阐述了ROC和强迫选择的概念，并简述了医学图像诊断效果评估的实验设计和数据处理方法。

    Assessment of Diagnostic Result for Medical Image by Receiver

    Operating Characteristic and Forced Choice

, 百拇医药     Yue Xicai Ye Yi Deng Zhensheng Jiang Dazong Zheng Chongxun

    (Xi′an Jiaotong University, Xi′an 710049)

    Abstract Two methods for diagnostic image evaluation, the receiver operating characteristic (ROC) and the forced choice, are introduced in this paper. The concepts of ROC and forced choice are described firstly, then the experiment design consideration and data analysis are discussed.

    Key words Observe performance Receiver operating characteristic Forced choice Medical image Diagnostic accuracy
, 百拇医药
    早期医学图像诊断效果评估使用诊断准确率的概念，但这一概念与疾病的流行程度相关。例如人口中仅有5%的人患某种病，那么简单地称所有的人都没有患这种病便已有了95%的准确率，因此如何评估医学图像的诊断效果成为一个重要课题。本世纪六十年代以来，人们将信号检测理论和心理物理测量技术用于医学诊断领域^[1]，发展了评估医学图像诊断效果的ROC(接受者操作特性)方法^[2]和强迫选择方法^[3]。

    1 ROC方法

    ROC方法用ROC曲线来描述图像的诊断效果。ROC曲线是正确接受率与错误接受率间的两维曲线，该曲线由ROC实验获得。用于医学图像评估的ROC实验用含有阴性图像(对应无病变图像)和阳性图像(对应有病变图像)的一组图像进行。在实验中，观察者被示一幅图像，然后使用一系列的信任等级去判定该图像是阳性或阴性。实验得到ROC数据，拟合出判别率曲线，并常常将曲线下的面积转换为图像的可检测度系数(detectability index)，以评估图像的诊断效果^[3]。
, http://www.100md.com
    ROC实验有两种常见的方式。在第一种方式中，让观察者看一组图像中的一幅图像并回答“YES”“NO”，YES表示对图像作出阳性判决，NO表示对图像作出阴性判决。当待判别图像为阳性时，作出阳性判定即真阳性TP，作出阴性判定即假阴性FN；当待判别图像为阴性时，作出阴性判定即真阴性TN，作出阳性判决即假阳性FP。根据每幅图像的判定结果，可统计一组图像的真阳性率TPF，假阳性率TPF，真阴性率TNF，假阴性率FNF。习惯上，我们将图像的真阳性率TPF称为灵敏度，将真阴性率TNF称为特异性，显然，TPF+FNF＝1、TNF+FPF＝1。所以ROC实验只需通过上述比率中的两个进行描述。用灵敏度和特异性或用TPF和FPF分别作为纵坐标和横坐标，每次实验就可构成ROC曲线的一个点，也即“操作点”。在重复实验的过程中，改变观察者的判据，则TPF和FPF也随之发生改变，由此得到一系列的操作点，进而可得到ROC曲线。图1为一ROC曲线示意图，从图中可明显的看出，图像系统B优于图像系统A。

    ROC实验的第二种方式是一种“等级尺度”(rating scale)方法^[2，6]。该方法用一系列信任等级表示图像的阴阳性。它允许观察者同时使用一系列的判据，比如观察者可对一幅图像作出多种响应，例如：肯定阳性，大概阳性，可能阳性，大概阴性，肯定阴性。在实验中，观察者需在连续的判决变量上设置一系列阈值(分类边界)，每一等级的边界值被认为对应于那些精确的判据，观察者最后给出他对每一幅图像所作出的判定值所属的区间。等级尺度方法中等级尺度个数的选取应考虑两个方面：一方面，随着等级尺度数目的增加，实验所得到的操作点数就会增加，ROC曲线就越精确；而另一方面，等级尺度数目的增加又增加了观察者在等级间作出正确判断的难度，因此应就这两方面进行均衡考虑。通常等级尺度的ROC实验取5或6个等级，以便得到ROC曲线上的4或5个点，加上单位平面上的左下角点和右上角点，就可拟合ROC曲线。研究已经证明，“YES”“NO”和等级尺度方法能产生基本相同的ROC曲线的估计值，而且等组尺度方法有助于确保操作点能沿ROC曲线很好地分布，故而等级尺度方法被广泛地应用于医学图像的诊断效果评估。

, 百拇医药
    图1 ROC曲线示意图

    Fig 1 A schematic ROC curve

    2 强迫选择

    如果医学图像仅用于诊断某种疾病的有无，那么ROC可直接用于评估这种图像的诊断效果。然而，有时我们需检测图像某空间位置上的一个可见信号(如损伤)；有时我们又需对同一幅图像作出“正常”、“疾病A”或“疾病B”三种判断，在这些特殊情况下，必须同时考虑三个或三个以上的选择。对这类图像诊断效果的评估，我们则需要使用强迫选择方法。

    强迫选择是确定观察者特性的另一种实验方法^[3]，其最简单的形式是二择一的强迫选择，即(2 alternative forced choice，2AFC)。在2AFC实验中，给定的同一幅图像中含有两个非相关的噪声区域，其中之一含有形状、大小、密度均已知的信号(阳性)，另一区域仅为噪声(阴性)。信号被随机等概率的分配到这两个区域中的一个，观察者必须指出那一区域含有信号。实验得到正确响应率P，换算为图像的可检测度系数。相应的，增加信号的可变位置，得到多择一的强迫选择(multiple alternative forced choice，MAFC)，实验得到每一信号位置的正确响应率Pi，最终换算为图像的可检测度系数。
, 百拇医药
    从强迫选择这一意义上讲，ROC也是一种强迫选择。在该方式中，观察者被示一幅图像，并要求对其作出判决，而在MAFC方式中，观察者被示M个不同的图像(或在同一幅图像中将信号置于M个位置)，并确知信号肯定存在于M之中，要求观察者选出含有信号的图像(或位置)。这也就是说，用2AFC也可进行2值任务的图像评估：观察者每次被示一对图像，按2AFC的规定，这一对图像中有一个阳性，另一个必然是阴性。在这种实验中，观察者不用关心判决阈值，因为他对两个图像可以相互比较。如果我们仅对ROC曲线下的面积Az感兴趣，我们可直接进行2AFC测量。因为在2AFC实验中不用测量或参考ROC曲线，Az可直接测得。事实上，在心理物理的普通领域，2AFC测量技术远比ROC方法流行^[3]，这是因为2AFC的实验过程提供了所有判据的平均度量，从而使2AFC方法能直接给出观察者的敏感性。然而，用2AFC作的2值评估实验，其实验数据中并不包含判据与判别正确率的关系，实验的结果不能用于涉及代价和利益的图像高阶性能分析^[2]，使2AFC方法受到局限。已有的研究显示^[3]，就医学图像诊断效果评估而言，ROC方法优于2AFC，而当M大于4时，MAFC优于ROC。
, http://www.100md.com
    3 图像可检测度系数的计算

    ROC方法中，图像诊断效果用ROC曲线下的面积Az^[2～4]或与之对应的可检测度系数d_a表示；MAFC方法中，图像诊断效果用正确响应率Pi或之对应的可检测系数d′表示，d_a和d′分别是对Az和Pi的普通数学变换^[3]。ROC的实验数据可直接进行分析。ROC曲线下的面积Az，可通过曲线拟合算法进行估计^[4,8]，其对应的Z得分(Z-score)，可通过下式计算：

    反变换关系为：

    Z(P)＝Φ^-1(P)

    式中：Z(P)为标准正态分布的分布函数Φ(Z)的反函数，这样如果已知P，其对应的Z得分Z(P)便可由标准正态分布函数表查得。令P＝Az，我们可求得Z(Az)，进而图像的可检测度系数由下式算出：

, 百拇医药
对于一个MAFC实验，给定的M幅图像中仅有1幅含有信号，其余的(M-1)幅全为噪声，图像的可检测系数d′与正确响应率P具有函数关系，d′可通过P与d′的公式求得：

    为便于使用，根据前述的ROC和MAFC数据分析所用的公式，文献^[7]中给出了ROC曲线下的面积Az或强迫选择的正确响应率(使用各种M值)与图像可检测度系数的关系表，见表1。

    表1 图像的可检测度系数表

    Table 1 Detectability index P或Az

    ROC

    M＝2

    4
, 百拇医药
    8

    32

    128

    512

    0.1…………

    0.66

    1.20

    1.69

    0.2………

    0.36

    1.15

    1.68

    2.15
, http://www.100md.com
    0.3……

    0.18

    0.73

    1.50

    2.02

    2.48

    0.4……

    0.51

    1.05

    1.81

    2.31

    2.77

    0.5
, 百拇医药
    0.0

    0.0

    0.81

    1.34

    2.09

    2.59

    3.04

    0.6

    0.36

    0.36

    1.12

    1.64

    2.38
, http://www.100md.com
    2.86

    3.31

    0.7

    0.74

    0.74

    1.45

    1.96

    2.68

    3.16

    3.60

    0.8

    1.19

    1.19
, 百拇医药
    1.83

    2.33

    3.04

    3.50

    3.94

    0.9

    1.81

    1.81

    2.36

    2.84

    3.53

    3.99

    4.41
, http://www.100md.com
    0.95

    2.32

    2.32

    2.80

    3.26

    3.94

    4.39

    4.81

    4 图像诊断效果评估实验的设计

    由于有ROC，2AFC，MAFC三种方法，在进行图像诊断效果的评估时，首先遇到的问题是该用何种方法；其次，在MAFC中如何确定M的最佳值^[3]。确定一幅图像采用何种评估方法，要看你着重研究什么问题，什么是制约评估实验的主要因素。当选择实验方法时，实验设计者必须考虑到这三种方法的假设前提，做到尽可能满足这些假设。如果由于种种原因使假设前提有可能被违反，则实验设计者必须考虑用何种方法去检查评估的有效性。
, 百拇医药
    ROC方法所用的假设最少，故而其鲁棒性(Robust)最好^[2，3]。已有的研究表明，即使在ROC实验中违反某些假设，对实验结果的影响并不大。强迫选择方法一般用于评估由计算机产生的合成图像或由诊断设备直接产生的图像，比如用于评估图像的压缩和重建算法。在这种情况下，人们能知道信号的确切位置，并将信噪比SNR与判决工作相联系。更确切的说，人能在一幅给定的图像中测算出真正的信号和信号加噪声的互相关，因为SNR本身就是互相关的一种平均测度^[3，5，9]。这种实验中，必须保证观察者能获得信号参数信息以便作出很好的选择。通常在图像的噪声区域之外放置一个参考信号，以便观察者能及时更新有关信号大小、形状和密度信息。不提供足够的线索将导致问题的复杂化，比如使d′和SNR非线性。事实上，非线性几乎一直存在，只是我们试图使其最小化。对于MAFC，人们必须谨慎地保持同一判据，这就要求信号边界间清楚可分，以便得出一个肯定的选择。

    医学图像诊断效果评估实验还受到图像数量的限制。在实验中，患者的医学图像较难取得，这是因为确定一幅图像是阴性还是阳性已经是很困难和昂贵的^[2]，而评估实验常常需要上百幅的图像^[8]。标准的二值等效方法(阴阳性)仅可用于ROC或2AFC研究。在2AFC中，可给观察者一对图像，一个正常，另一个异常，在这种情况下，ROC通常给出比2AFC更好的统计；在给定方差的情况下，ROC所需的图像对数量仅为2AFC的一半。原则上，MAFC方法可用于医用研究上：使用一系列非正常图像，切成M个区域，观察者需确定非正常的区域。这一过程需简单的、已确定不正常位置的图像，而这并不是一般的医学实用情形。从图像数量的限制出发，则等级尺度的ROC方法是首选的^[3]，如果必须进行MAFC实验，则最好选M≥4。此外，实验设计还应考虑观察响应时间以及由实验设计所引起的信号参数不确定性等问题。
, http://www.100md.com
    5 结论

    医学图像的诊断效果评估通过ROC方法或强迫选择方法进行。ROC和强迫选择方法成对给出了一系列的正确接受率和错误接受率，而传统的诊断准确率方法仅有一个正确识别率指标。由于正确识别率随错误接受率的改变而改变，因而传统方法无法准确地描述图像的诊断效果。ROC和强迫选择实验通过改变判据(或同时使用一系列判据)得到一组组实验数据，而改变判据的过程本质上是改变错误率的过程，所以ROC方法或强迫选择方法可描述各种不同错误率下图像的诊断准确率，可对图像的诊断效果做出比较全面的描述。依据ROC和强迫选择实验数据所得到的图像可检测度系数，也就比较全面、客观地描述了医学图像的诊断效果。

    参考文献

    1 Lusted LB. Signal detectability and medial decision-making. Science 1971；171∶1217
, 百拇医药
    2 Metz EC. ROC methodology in radiologic imaging. Investigative Radiology. 1986;21∶720

    3 Burgess AE. Comparison of receiver operating characteristic and forced choice observer performance measurmet methods. Medical Physics. 1995;22∶643

    4 Rockette HE, Obuchowski N, Metz CE et al. Statistical issues in ROC curve analysis. SPIE 1990;1234:Medical Imaging Ⅳ: PACS system design and evaluation. 111

, http://www.100md.com     5 Metz CE, Wanger RF, Doi K et al. Toward consensus on quantitative assessment of medical imaging systems. medical Physics. 1995;22∶1057

    6 Shirashi J, Yamasaki M Tanaka K et al. Advantage of ROC analysis using the method for continuously-distributed(non categorized) test results. Jpn J Radiol Technol. 1994;12∶266

    7 Macmillan NA, Creelman CD. Detection Theory: A User′s Guide. New York: Cambridge University, 1991

    8 Metz CE.Some practical isssues of exprerimental design and data analysis in radiological ROC studies. Investigative Radiology. 1989;24∶234

    9 Judy PF, Swensson RG.Lesion detection and signal-to-noise ratio in CT imaging. Medical Physics.1981;8∶13

    (收稿：1997-04-22 修回：1997-10-20), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/2003/08/31/73/664.htm