| 楊宗龍科技副院長(員榮醫療體系) |
隨著科技的進步,人工智能(AI)逐漸融入我們的生活,尤其在醫療領域中扮演了重要角色。在這篇文章中,我們將透過三個有趣的臨床情境,來了解如何用數據指標評估醫療人工智能(AI)的性能,以及這些指標的特色和重要性。
如何選擇適合特定需求的AI助手,提高醫療診斷的效率和準確性?
第一個臨床情境是關於一位名叫小涂的胸腔內科醫生。他在某知名地區醫院工作,負責診斷患者是否患有肺結節。然而,人眼診斷容易出錯,小涂醫生希望尋找一個能幫助他解決問題的人工智能助手。在尋找合適的 AI 助手時,小涂醫生意識到了評估模型性能的重要性。他知道,在選擇 AI 助手時,需要考慮一些關鍵性能指標,例如:準確度(Accuracy)、精確率(Precision)、召回率(Recall)、F1-score 和 Fbeta-score。每個指標都有其獨特的特色和重要性,可以幫助他找到最適合自己需求的 AI 助手。 在眾多 AI 助手中,小涂醫生遇到了兩位候選者:A助手和B助手。為了選擇最適合的助手,他決定對兩者進行一個測試,該測試需要對患者的肺結節進行預測。經過測試,小涂醫生發現 A助手的 F1-score 較高,表現更符合他的需求。於是,他決定將 A助手作為自己的AI助手,共同為患者提供更高效的診療服務。
第二個臨床情境是關於一位專注於罕見疾病診斷的小沈醫生。在這個案例中,她需要確保能夠找出所有患有某種罕見疾病的患者,因此召回率對她而言比精確率更重要。於是,她選擇使用 Fbeta-score 來評估不同的AI助手。通過調整 Fbeta -score 中的 β 值,她可以為精確率和召回率賦予不同的權重,以滿足自己的需求。 在多個 AI 助手的選擇中,她遇到了 C助手和D助手。為了確保選擇的 AI 助手在罕見疾病診斷方面的性能達到她的期望,她決定對兩者進行測試。在測試過程中,她設定了一個較大的 β 值(例如,β = 2),以增加召回率的權重。 經過詳細分析,她發現 C助手的 Fbeta-score 較高,顯示其在檢測罕見疾病方面的表現更符合她的需求。於是,她決定選擇 C助手作為她的AI助手,共同為罕見疾病患者提供更精確的診斷服務。
這兩個故事向我們展示了如何利用不同的性能指標,例如: 準確度、精確率、召回率、F1-score 和 Fbeta-score,來評估醫療AI模型的性能。通過理解這些指標的特點和重要性,我們可以更好地選擇適合特定需求的AI助手,從而提高醫療診斷的效率和準確性。
如何根據臨床場景靈活地調整敏感性和特異性的權重?
我們進一步再用一個重症病房的情境來說明:
YRMS 醫院的重症病房決定開始使用一個新的 AI 服務來協助他們預測病人是否可以成功拔除氣管內管。這個 AI 服務在分析病人的數據後,會給出建議:拔除氣管內管或保留。然而,護理師和醫生希望知道這個 AI 軟件的表現是否可靠,他們想要發展一個可以因病制宜的評估標準,於是他們接觸到了 F-beta score。 該 ICU 的團隊決定在敏感性(成功識別需要繼續插管的病人)和特異性(成功識別可以拔管的病人)之間取得平衡。簡單的說, 就是不希望將需要插管的病人拔管,也不希望讓可以拔管的病人繼續插管。因此,他們選擇了一個適當的 beta 參數,使敏感性和特異性之間取得平衡。 經過一段時間,醫院收集了 AI 服務的預測結果以及病人的實際拔管結果。他們使用 F-beta 分數來評估 AI 軟件的表現。通過計算 F-beta 分數,他們發現 AI 軟件在該 ICU 的環境中表現出色,成功地平衡了敏感性和特異性。 隨著時間的推移,在 ICU 中,根據不同的臨床場景和病人特徵,可能需要重視敏感性或特異性。
以下是一些建議,以幫助 ICU 負責主管進行參數調整:
1. 重視敏感性的情況: ✓ 病人狀況嚴重: 對於狀況嚴重且需要密切監測的病人,重視敏感性可確保不會過早拔管,減少可能帶來的風險。 ✓ 拔管後再插管風險高: 在再插管對病人帶來更高風險的情況下,更高的敏感性可以確保不會錯過需要繼續插管的病人。 ✓ 資源有限: 當 ICU 資源有限且無法立即重新插管的情況下,重視敏感性有助於降低拔管失敗的風險。
2. 重視特異性的情況: ✓ 病人狀況相對穩定: 對於狀況相對穩定的病人,重視特異性有助於避免不必要的插管,降低相關風險及提高病人舒適度。 ✓ 拔管後風險低: 在拔管後病人容易恢復的情況下,重視特異性可以更快地將病人轉為自主呼吸。 ✓ 資源充足: 當 ICU 資源充足,可以在拔管失敗時迅速進行再插管的情況下,重視特異性有助於減少不必要的插管。
ICU 負責主管應根據具體情況和病人需求,靈活地調整敏感性和特異性的權重。在實際應用中,這可能意味著根據不同病人群體或 ICU 條件,調整模型中的 beta 參數以實現最佳的預測結果。透過密切關注臨床需求,ICU 負責主管可以確保 AI 服務在預測拔管成功時,既不會過早拔管,也不會過度延長插管時間。
重視特異性或敏感性的參數調整建議
在重視特異性的情況下,ICU 負責主管可以參考以下臨床參數來調整 AI 預測模型:
1. 插管原因: 考慮病人插管的原因,例如手術後、呼吸暫停等。對於某些插管原因,病人可能在短期內恢復良好,這時可以重視特異性。 2. 呼吸功能指標: 評估病人的呼吸功能指標,如動態肺功能試驗結果、血氧飽和度、氧合指數(PaO2/FiO2)等。當這些指標顯示病人的呼吸功能相對穩定時,可以考慮重視特異性。 3. 意識水平: 觀察病人的意識水平,如格拉斯哥昏迷評分(GCS)。在意識水平較高、能夠配合呼吸治療的病人,可以考慮重視特異性。 4. 空氣道反射: 評估病人的空氣道反射,如咳嗽和吞嚥反射。良好的空氣道反射有助於病人在拔管後維持空氣道通暢,這時可以重視特異性。 5. 床邊評估: 根據專業醫護人員的床邊評估,如病人的生理和心理狀態。當醫護團隊認為病人有能力承受拔管後的挑戰時,可以考慮重視特異性。
需要注意的是,這些臨床參數僅作為參考,具體情況仍應根據病人的整體狀況和醫生的專業判斷。在實際操作中,ICU 負責主管應靈活地調整敏感性和特異性的權重,以便更好地滿足病人的需求和降低風險。
在重視敏感性的情況下,ICU 負責主管可以參考以下臨床參數來調整 AI 預測模型:
1. 插管原因: 考慮病人插管的原因,例如重症感染、急性呼吸窘迫綜合症等。對於這些可能需要長時間治療的病人,可以考慮重視敏感性。 2. 呼吸功能指標: 評估病人的呼吸功能指標,如呼吸頻率、血氧飽和度、氧合指數(PaO2/FiO2)等。當這些指標顯示病人的呼吸功能不穩定時,可以考慮重視敏感性。 3. 心血管功能: 評估病人的心血管功能,如心率、血壓、中心靜脈壓等。在心血管功能較差的病人,可以考慮重視敏感性以降低拔管失敗的風險。 4. 肺部感染: 對於患有肺部感染的病人,可以考慮重視敏感性,以避免過早拔管導致的併發症。 5. 營養狀況: 評估病人的營養狀況,如血清白蛋白、血紅素等。營養不良的病人可能需要更長時間恢復,此時可以考慮重視敏感性。
深入了解AI指標特色搭配實例試算
在這些臨床情境中,我們看到了幾個重要的性能指標如何幫助醫生選擇最適合他們需求的 AI 助手。接下來,讓我們深入了解這些指標的特色、公式以及手把手舉例說明並進行試算。 1. 準確度(Accuracy): ✓ 特色:準確度是指模型正確預測的樣本數占總樣本數的比例。它是衡量模型整體性能的簡單指標。 ✓ 公式:Accuracy = (TP + TN) / (TP + TN + FP + FN),其中 TP(真陽性)、TN(真陰性)、FP(偽陽性)和FN(偽陰性)分別表示模 型預測結果與真實情況的匹配情況。 2. 精確率(Precision): ✓ 特色:精確率是指模型預測為陽性的樣本中,實際為陽性的樣本所占的比例。它關注的是模型在正確預測為陽性時的可靠性。 ✓ 公式:Precision = TP / (TP + FP) ✓ 白話: 精確率是指助手找出來的肺結節中,真正是肺結節的比例。 3. 召回率(Recall): ✓ 特色:召回率是指模型預測為陽性的樣本占實際陽性樣本的比例。它關注的是模型在覆蓋所有陽性樣本的能力。 ✓ 公式:Recall = TP / (TP + FN) ✓ 白話 : 助手找到的肺結節占所有肺結節的比例。 4. F1-score: ✓ 特色:F1-score 是精確率和召回率的調和平均值( 也就是 beta =1 ),可以在兩者之間找到一個平衡點。當精確率和召回率都很重要時,F1-score 是一個適合的指標。 ✓ 公式:F1-score = 2 * (Precision * Recall) / (Precision + Recall) ✓ 白話: 不斷嘗試提高助手的 F1-score,以便在確保找到的結節標記都是肺結節的同時,也盡量找到所有的肺結節。 5. Fbeta-score: ✓ 特色:Fbeta-score 允許為精確率和召回率賦予不同的權重,進一步調整平衡點。當精確率和召回率的重要性不同時,可以使用 Fbeta-score。 ✓ 公式:Fbeta-score = (1 + β^2) * (Precision * Recall) / ((β^2 * Precision) + Recall),其中 β 是一個大於 0 的實數,用於表示召回率相對於精確率的重要性。
以第二個故事中的罕見疾病診斷為例。 假設C助手在測試中的結果如下: TP = 10; TN = 980; FP = 5; FN = 5 而D助手的結果如下: TP = 8; TN = 985; FP = 0; FN = 7
首先,我們來手把手一步一步計算精確率和召回率。 對於C助手: Precision_C = TP / (TP + FP) = 10 / (10 + 5) = 0.67 Recall_C = TP / (TP + FN) = 10 / (10 + 5) = 0.67 對於D助手: Precision_D = TP / (TP + FP) = 8 / (8 + 0) = 1 Recall_D = TP / (TP + FN) = 8 / (8 + 7) = 0.53 接著,我們計算 F1-score 和 Fbeta-score(以 β = 2 為例)。 對於C助手: F1-score_C = 2 * (Precision_C * Recall_C) / (Precision_C + Recall_C) = 2 * (0.67 * 0.67) / (0.67 + 0.67) = 0.67 Fbeta-score_C = (1 + 2^2) * (Precision_C * Recall_C) / ((2^2 * Precision_C) + Recall_C) = 5 * (0.67 * 0.67) / (4 * 0.67 + 0.67) ≈ 0.68 對於 D助手: F1-score_D = 2 * (Precision_D * Recall_D) / (Precision_D + Recall_D) = 2 * (1 * 0.53) / (1 + 0.53) ≈ 0.69 Fbeta-score_D = (1 + 2^2) * (Precision_D * Recall_D) / ((2^2 * Precision_D) + Recall_D) = 5 * (1 * 0.53) / (4 * 1 + 0.53) ≈ 0.58
從上述計算中,我們可以看到,在 F1-score 方面,D助手( 0.69 > 0.67 )略勝一籌,但在 Fbeta-score 方面,C助手( 0.68>0.58) 的表現更優越。由於醫生認為召回率比精確率更重要,她選擇了 Fbeta-score 較高的 C助手作為她的 AI 助手。
通過實際的臨床模擬 ,我們可以看到,根據不同的需求和情境,選擇適當的指標來評估 AI 模型的性能至關重要。了解這些指標的特色、公式以及如何運用它們,有助於我們更好地選擇適合特定需求的 AI 助手,從而提高醫療診斷的效率和準確性。
在未來充滿 AI 臨床輔助服務的魔法醫療時代,期待所有醫師都能善握工具,並能利用指標來評估工具,做出最好的判斷來照護病人。
|