＃／Dignity Health Big Data Challenge

Dignity Health 是我在 Cal Poly 做的第二個專案。專案目標很簡單：改進放射科，但該改進目標為何、如何分析和怎麼改進都取決於各個小組，所以比起 Oracle 專案又多了一層挑戰。

資料、問題和切入點

當初 DH 的 Kickoff meeting 就在 Oracle 的後一週，由於兩者時間軸大致重疊，中途 Dean 和 Director 決定將 DH 延期，報告日改到了第三學期。當 Team 5 完成 Oracle 的報告時，DH 也剛完成期中 Check-in，可以想見 DH 受到 Oracle 專案的影響不小，這點稍後再提。

根據維基百科上的介紹，DH 旗下有 40 間醫院，是加州最大的非營利醫療網，我平常在 SF 走走就會遇到幾間。對如此龐大的醫療集團，任何細微的改進都能產生顯著的影響，於是早在專案開始前，DH 的管理層就集思廣益，希望能找到適合的題目。最後他們將眼光放在了放射科上。如果我沒記錯，選擇放射科的原因包括了業務花費高昂，臨床看片、診斷、到治療的品質有時很難掌握，也就成了改進空間大、影響也大的領域。改善得宜的話，不但能為患者和醫院雙方省下不少費用，也能提升醫療品質。

有了改進放射科這個題目以後，DH 所提供的資料是某段時間內的匿名診斷紀錄，包括就醫時間和地點、患者種族背景、檢查項目、診斷結果和評論（free text & ICD）等等。為了照顧我們這群基本沒 pre-med 背景的小蘿蔔頭，DH 也補充了幾個改善方向：

降低業務成本
降低等待時間和回診率
降低患者輻射曝露量

整個專案最令我興奮的地方在於 DH 的 Director 在開小組會議時很明確的跟我們說：「我們就把你們當顧問，希望你們可以幫我們解決問題。」於是從一開始~~想吃天鵝肉的~~我就興致勃勃，希望能在茫茫資料海中挖掘洞見。

從 ACR Guideline 到一致性

經過了兩三週的討論以後，Team 5 最後將分析重點放在了改進檢驗項目上。畢竟只要能選擇正確的檢驗項目，就能降低不必要的開銷、免除不必要的檢查，也就能降低等待時間、回診和輻射量。聽起來不錯，但是該怎麼衡量準確率呢？

我們最初的構想是源於 DH 所提供的 Appropriateness Criteria 資料。Appropriateness Criteria 是一份由 American College of Radiology 所發佈的指南，目的是為不同病徵中提供檢驗項目的參考依據。比方說，如果有位患者的 clinical condition 是 Acute Chest Pain，點進 Acute Chest Pain 的 Narrative & Rating Table 中就能看到 X-ray、CTA 等檢驗項目的評比、備註和放射量程度。也就是說，Appropriateness Criteria 可以當作衡量醫療品質的參考。

雖然 AC 是很好的參考資料，它所涵蓋的病徵與檢驗項目畢竟有限，也只能根據片面的病徵判斷檢驗項目的合適程度。於是我們轉念一想：既然 ACR 點出了病徵和檢驗項目之間的關係，那我們能不能乾脆訓練一套模型去學習如何診斷，並根據不同情況下——病徵、種族、甚至就診時間——的預測準確率判斷決策是否一致，進而檢驗醫療品質？這個分析的假設是「一套好的醫療流程在相似的條件下，應該具有穩定、一致、可預測的決策」，於是具有低預測準確率的情況自然就成了改進的重點。

分析方法	Appropriateness Criteria	Predictability
品質衡量依據	ACR 所提供的檢驗項目評比	實際診斷是否和模型預測結果一致
優點	具有堅實的 domain knowledge	參考變因廣、應用靈活
缺點	病徵和檢驗項目資料有限	過於依賴資料和分析假設

現在看來，其實用模型判斷結果來衡量醫療品質也會產生兩個問題：

模型能正確學習病徵和檢驗項目之間的關係嗎？
就算模型學習正確，與預測結果一致就是好的診斷嗎？反之亦然？

第一個問題和模型的訓練方法有關，我們或許能透過合理的演算法或資料能解決這個問題；第二個問題就比較偏改進的目標，也得考慮如此分析後，對醫院內部文化所帶來的影響。這種分析方法或許只適用於追求一致性的目標，但如果醫院的目的是不斷創新、尋求不同的解決方案的話，恐怕就不太適用，或是在解讀上要格外小心。

不過這些都是一年後寫這篇文章所想到的後話。當時的 Team 5 並沒有想這麼多。以下繼續接著談我們最後交出的成品。

故事、故事、故事

在決定好方向後，我們就走上了和當初 Oracle 差不多的路——建模、分析、並利用 dashboard 呈現結果。由於 DH 的報告就在 Oracle 後一週，我們收到的評論自然是一面倒的「你們應該要多花些心思在故事上」。我們從那之後就開始針對特定場景列出建議。

由於我們的 dashboard 是一張很直觀的 heat map——縱軸是醫院的流水號，橫軸是場景，顏色偏暗代表預測率低，顏色偏亮代表預測率高。我們說的故事，也就是將幾個預測率特低的場景拿出來，分析可能的原因，並尋找潛在的建議。比方說，有幾個病徵本身就很籠統，檢測項目的預測率也就變得很低，這時我們可能就會建議紀錄更細節的病徵，或是針對這些籠統病徵強化判斷流程。

最後我們在期末報告時成功扳回一城——有 dashboard，有故事，也有確實的建議。雖然準確率這㝛切入點還是帶有濃濃的實驗性，在我們報告建議時，有幾位高管說「這些醫院確實是比較需要注意的幾間醫院。」我們事前並不知道任何醫院的背景資料，甚至也不知道它們的地理位置。高管的解讀稍稍驗證了這套分析方法的有效性。

問對的問題

最後我們還是很可惜地和 Best Team 猜肩而過。最後勝出的小組是利用 NLP 分析 free text，並根據這些額外資訊改善醫療品質。我想他們會勝出的原因應該是因為應用更實際，也是 healthcare 本來就很有興趣做的項目，相較之下也有可能是我們的分析方法太有實驗性，DH 沒辦法輕易驗證有效性。不過不管原因為何，我都覺得 DH 專案是一次很寶貴的經驗。我們成功在 Oracle 的基礎上強化了 storytelling，也再次入圍決選名單。

最後，我覺得 DH 專案最大的 takeaway，應該是我們從收到問題和資料到擬定分析方向的摸索期——構思分析流程，檢視流程是否可行，再根據新事實調整流程。不論你認為這段摸索期是 MECE、design thinking 還是 computational thinking，我相信累積摸索的經驗，並掌握拆解問題所需的分析（analytical）、量化（quantitative）與溝通技巧，是成為顧問所必備的能力，在團隊中也才能漸漸往管理的位置走。