NIH 胸部 X 光資料集包含 10 萬張去識別化的胸部 X 光圖片。圖片格式為 PNG。
這項資料由 NIH Clinical Center 提供,可透過 NIH 下載網站取得:https://nihcc.app.box.com/v/ChestXray-NIHCC
您也可以透過 Google Cloud存取資料,詳情請參閱「Google Cloud 資料存取權」。
授權和出處
使用 NIH 胸部 X 光片時沒有限制。不過,資料集必須符合下列歸因規定:
提供 NIH 下載網站的連結: https://nihcc.app.box.com/v/ChestXray-NIHCC
請加入 CVPR 2017 論文的引用資料:
Xiaosong Wang、Yifan Peng、Le Lu、Zhiyong Lu、Mohammadhadi Bagheri、Ronald Summers,《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》,IEEE CVPR,第 3462-3471 頁,2017 年
確認 NIH Clinical Center 是資料供應商
Google Cloud 資料存取權
您可以從 Cloud Storage、BigQuery 或使用 Cloud Healthcare API 取得 NIH 胸部 X 光片。
Cloud Storage
NIH 胸部 X 光資料位於下列 Cloud Storage 值區:
gs://gcs-public-data--healthcare-nih-chest-xray
前往 Cloud Storage 中的 NIH 胸部 X 光資料集
這個值區包含原始 PNG 檔案的路徑,以及 DICOM 執行個體的路徑:
PNG (由 NIH 提供):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (Google 提供):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
Cloud Storage 值區採用「要求者付費」模式計費。存取 NIH 資料的相關費用會計入您的 Google Cloud 專案。詳情請參閱「要求者付費」。
BigQuery
您可以在 BigQuery 的 chc-nih-chest-xray
Google Cloud 專案中存取 NIH 胸部 X 光資料。前往 BigQuery 中的 NIH 胸部 X 光資料集
如要瞭解如何在 BigQuery 中存取公開資料,請參閱「BigQuery 公開資料集」。
Cloud Healthcare API
您可以在 Cloud Healthcare API 的下列 DICOM 儲存庫階層中找到 NIH 胸部 X 光資料:
專案: chc-nih-chest-xray
資料集: nih-chest-xray
DICOM 儲存區: nih-chest-xray
如要申請存取 NIH 胸部 X 光資料集,請填寫這份表單。
前往 Cloud Healthcare API DICOM Studio 中的 NIH 胸部 X 光資料集
詳情請參閱 DICOM 總覽和使用 DICOMweb 標準。
資料檢視者
您也可以使用與 Cloud Healthcare API 整合的檢視器:
eUnity:https://demo.eunity.app
IMS CloudVue:https://cloudvue.imstsvc.com
其他標籤
如要存取 NIH ChestX-ray14 資料集子集的專家標籤,請填寫下列表單。填寫完表單後,即可下載標籤。
這些標籤是透過兩項獨立研究收集而來,詳情請參閱下列論文:
- Chest Radiograph Interpretation with Deep Learning Models
- Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19
這兩組標籤分別與一項研究相關聯。第一組標籤與《Radiology》上發表的研究相關,著重於四項胸部 X 光檢查結果:肺實質不透明、氣胸、結節/腫塊和骨折。第二組標籤與《科學報告》中發布的研究相關,包含原始資料集中發布的所有 14 項發現,以及正常/異常標籤。
四項發現專家標籤
在放射線學論文中,標籤集著重於四項發現 (肺實質不透明、氣胸、結節/腫塊和骨折),並涵蓋驗證集和測試集。每張圖片的最終標籤都是由三位放射科醫師審查後指派。每張圖片都先由三位放射科醫師分別審查。 在測試集中,系統會從 11 位美國放射學委員會認證的放射科醫師群組中,隨機選取每張圖片的放射科醫師。驗證集則從 13 位放射科醫師 (包括通過認證的放射科醫師和放射科住院醫師) 中選出 3 位。
如果所有讀者在初步審查後達成共識,該標籤就會成為最終標籤。如果圖片的標籤有爭議,系統會將圖片傳回以供進一步審查。在每次迭代審查期間,您也可以查看匿名標籤和先前幾輪的任何附註。仲裁程序會持續進行,直到達成共識為止,最多五輪。對於少數無法達成共識的圖片,我們採用多數決標籤。
放射科醫師審查時可用的資訊僅包括病患年齡和影像檢視畫面 (前後位 (AP) 與後前位 (PA))。無法取得其他臨床資訊。對於結節/腫塊和氣胸,可能的標籤為「存在」、「不存在」或「不確定」(表示不確定是否存在)。不透明度和骨折的可能標籤值只有「存在」或「不存在」。
標籤位於 four_findings_expert_labels 目錄中。在 individual_readers.csv 中,每一列都對應單一讀者為單一圖片提供的四種情況的標籤。每個圖片 ID 和相應的判決結果會在多個資料列中重複出現 (每個讀者一個資料列)。系統會提供讀取器 ID,確保圖片連結穩定。儲存格值 YES 表示「存在」,NO 表示「不存在」,HEDGE 表示「不確定」。
在 validation_labels.csv 和 test_labels.csv 中,NIH 胸部 X 光資料集提供的中繼資料已擴增四個資料欄,分別是骨折、氣胸、肺實質不透明和結節/腫塊這四種情況的判定標籤。測試集有 1,962 個不重複的圖片 ID,驗證集則有 2,412 個不重複的圖片 ID,總共有 4,374 張圖片附有裁決標籤。只有 YES 和 NO 會顯示在裁決標籤欄中。如果缺少資料欄值,表示圖片未納入已裁決的圖片集。
使用這些標籤時,請附上下列出處:
Anna Majkowska、Sid Mittal、David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan、Krish Eswaran、PoHsuan Cameron Chen、Yun Liu、 Sreenivasa Raju Kalidindi、Alexander Ding、Greg S. Corrado、Daniel Tse、Shravya Shetty,「Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation」,《Radiology》,2019 年。
如要進一步瞭解 NIH 胸部 X 光資料集的授權和出處資訊,請參閱上方的「授權和出處資訊」一節。
所有發現項目專家標籤
在《Scientific Reports》論文中,這組標籤著重於原始資料集中發布的所有 14 項發現,以及正常/異常標籤。標籤集只包含測試集中的圖片。這些圖片與Four Findings Expert Labels測試分割中包含的圖片相同,僅限於 PA 視角的胸部 X 光片 (1,962 張圖片中的 810 張)。
五位通過美國放射學委員會認證的放射科醫師,分別獨立審查每張圖片。每位放射科醫師首先要判斷圖片是否含有任何可能需要採取行動的臨床發現 (正常/異常標籤),如果有的話,則要選取 14 種情況中的哪幾種。放射科醫師審查時可用的資訊僅包括病患年齡和影像檢視畫面 (AP 與 PA)。無法取得其他臨床資訊。
標籤位於 all_findings_expert_labels 目錄中。在 test_individual_readers.csv 中,每一列都對應單一放射科醫師為單一圖片提供的標籤。也就是說,每個圖片 ID 和病患 ID 會在多個資料列中重複出現 (每個圖片五個資料列,每個讀取器一個資料列)。每個資料列也包含讀取器 ID,方便放射科醫師區分。由於這個集合共有 810 張圖片,因此 test_individual_readers.csv 包含 4,050 個資料列,以及 810 個不重複的圖片 ID。test_individual_readers.csv 也包含總共 19 欄。除了圖片 ID、病患 ID 和讀取器 ID 之外,還有正常/異常資料欄、14 項發現的資料欄,以及指出存在其他異常發現 (14 項指定發現以外) 的 Other 資料欄。儲存格值為 YES 表示「存在」,NO 則表示「不存在」。
test_labels.csv 包含用於評估科學報告論文中深度學習系統的真值標籤。每列都包含單一圖片 ID 的基準真相標籤,且每個圖片 ID 只會出現在單一列中,總共 810 列。test_labels.csv 的資料欄與 test_individual_readers.csv 相同,但沒有「讀者 ID」資料欄。為取得這些標籤,我們從標記這組資料的五位放射科醫師中,隨機選出三位做為「實際資料放射科醫師」(另外兩位則做為比較點)。這些「真值放射科醫師」的讀者 ID 分別為「4343882785」、「4343883593」和「4343883996」。我們採用多數決,決定正常/異常標籤的最終標籤,以及每個特定發現的最終標籤。如果大多數放射科醫師選取了 14 項以外的發現,或大多數放射科醫師指出影像異常,但沒有任何單一發現獲得大多數放射科醫師的認可,則 Other 欄的最終標籤會判定為 YES。
使用這些標籤時,請附上下列出處:
Zaid Nabulsi、Andrew Sellergren、Shahar Jamshy、Charles Lau、Eddie Santos、 Atilla P. Kiraly、Wenxing Ye、Jie Yang、Sahar Kazemzadeh、Jin Yu、 Raju Kalidindi、Mozziyar Etemadi、Florencia Garcia Vicente、David Melnick、 Greg S. Corrado、Lily Peng、Krish Eswaran、Daniel Tse、Neeral Beladia、Yun Liu、Po-Hsuan Cameron Chen、Shravya Shetty,《Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19》(深度學習技術可區分正常與異常胸部 X 光片,並推廣至兩種未見疾病:結核病和 COVID-19),Scientific Reports,2021 年。https://doi.org/10.1038/s41598-021-93967-2
如要進一步瞭解 NIH 胸部 X 光資料集的授權和出處資訊,請參閱「授權和出處資訊」。