Il set di dati per immagini toraciche a raggi X NIH è composto da 100.000 immagini deidentificate di radiografie toraciche. Le immagini sono in formato PNG.
I dati sono forniti dal NIH Clinical Center e sono disponibili tramite il sito di download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Puoi anche accedere ai dati tramite Google Cloud, come descritto in Google Cloud Accesso ai dati.
Licenza e attribuzione
Non esistono limitazioni all'utilizzo delle immagini toraciche a raggi X del NIH. Tuttavia, il set di dati deve soddisfare i seguenti requisiti di attribuzione:
Fornisci un link al sito di download dell'NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Includi una citazione dell'articolo CVPR 2017:
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
Riconoscere che il NIH Clinical Center è il fornitore di dati
Google Cloud accesso ai dati
Puoi ottenere le immagini della radiografia del torace NIH da Cloud Storage, BigQuery o utilizzando l'API Cloud Healthcare.
Cloud Storage
I dati delle radiografie toraciche NIH sono disponibili nel seguente bucket Cloud Storage:
gs://gcs-public-data--healthcare-nih-chest-xray
Vai al set di dati per immagini toraciche a raggi X NIH in Cloud Storage
Il bucket include i percorsi ai file PNG originali, nonché alle istanze DICOM:
PNG (fornito dal NIH):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (fornito da Google):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
Il bucket Cloud Storage utilizza il modello "Richiedente paga" per la fatturazione. Al tuo progetto Google Cloud verranno addebitati i costi associati all'accesso ai dati del NIH. Per maggiori informazioni, vedi Richiedente paga.
BigQuery
I dati delle radiografie del torace del NIH sono disponibili nel progetto chc-nih-chest-xray
Google Cloud in BigQuery.
Vai al set di dati NIH chest x-ray in BigQuery
Per informazioni sull'accesso ai dati pubblici in BigQuery, consulta Set di dati pubblici BigQuery.
API Cloud Healthcare
I dati delle radiografie del torace del NIH sono disponibili nella seguente gerarchia di archivi DICOM nell'API Cloud Healthcare:
Progetto: chc-nih-chest-xray
Set di dati: nih-chest-xray
Archivio DICOM: nih-chest-xray
Per richiedere l'accesso al set di dati delle radiografie del torace del NIH, compila questo modulo.
Vai al set di dati per immagini toraciche a raggi X NIH in DICOM Studio dell'API Cloud Healthcare
Per ulteriori informazioni, consulta la panoramica di DICOM e Utilizzo dello standard DICOMweb.
Visualizzatori di dati
Puoi anche utilizzare i visualizzatori integrati con l'API Cloud Healthcare:
eUnity: https://demo.eunity.app
IMS CloudVue: https://cloudvue.imstsvc.com
Etichette aggiuntive
Per accedere alle etichette degli esperti per un sottoinsieme del set di dati NIH ChestX-ray14, compila il seguente modulo. Dopo aver compilato il modulo, puoi scaricare le etichette.
Vai al modulo Google per ottenere le etichette
Le etichette sono state raccolte nell'ambito di due studi indipendenti e sono descritte nei seguenti articoli:
- Interpretazione della radiografia del torace con modelli di deep learning
- Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19
Esistono due set di etichette, ognuno associato a uno degli studi. Il primo gruppo di etichette è associato allo studio pubblicato su Radiology e si concentra su quattro risultati della radiografia del torace: opacità dello spazio aereo, pneumotorace, nodulo/massa e frattura. Il secondo insieme di etichette è associato allo studio pubblicato su Scientific Reports e include tutti i 14 risultati rilasciati nel set di dati originale, nonché un'etichetta normale/anormale.
Quattro etichette di esperti per i risultati
Nel articolo su radiologia, il set di etichette si concentra su quattro risultati (opacità dello spazio aereo, pneumotorace, nodulo/massa e frattura) e comprende sia i set di convalida che quelli di test. Le etichette finali per ogni immagine sono state assegnate tramite revisione aggiudicata da tre radiologi. Ogni immagine è stata esaminata in modo indipendente da tre radiologi. Per il set di test, i radiologi sono stati selezionati in modo casuale per ogni immagine da una coorte di 11 radiologi certificati dall'American Board of Radiology. Per il set di convalida, i tre radiologi sono stati selezionati da un gruppo di 13 persone, tra cui radiologi certificati e specializzandi in radiologia.
Se tutti i revisori erano d'accordo dopo la revisione iniziale, l'etichetta è diventata definitiva. Per le immagini con etichette in disaccordo, le immagini sono state restituite per un'ulteriore revisione. Durante ogni revisione iterativa erano disponibili anche le etichette anonime e le note dei round precedenti. L'aggiudicazione è proseguita fino al raggiungimento del consenso o fino a un massimo di cinque round. Per il numero ridotto di immagini per cui non è stato raggiunto un consenso, è stata utilizzata l'etichetta con il maggior numero di voti.
Le informazioni disponibili al momento della revisione del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (antero-posteriore (AP) rispetto a postero-anteriore (PA)). Non erano disponibili ulteriori informazioni cliniche. Per nodulo/massa e pneumotorace, le etichette possibili erano: "presente", "assente" o "incerto" (ovvero incertezza sulla presenza o l'assenza). Per opacità e frattura, i valori possibili dell'etichetta erano solo "presente" o "assente".
Le etichette si trovano nella directory four_findings_expert_labels. In
individual_readers.csv, ogni riga corrisponde all'etichetta per ciascuna delle quattro
condizioni fornite da un singolo lettore per una singola immagine. Ogni
ID immagine e il risultato della decisione corrispondente vengono ripetuti in più
righe (una riga per lettore). L'ID lettore viene fornito per un collegamento stabile tra le immagini. Un valore della cella pari a YES significa "presente", NO significa "assente" e HEDGE
significa "incerto".
In validation_labels.csv e test_labels.csv, i metadati forniti come parte del set di dati NIH Chest X-ray sono stati aumentati con quattro colonne, una per l'etichetta aggiudicata per ciascuna delle quattro condizioni: frattura, pneumotorace, opacità dello spazio aereo e nodulo/massa. Nel set di test sono presenti 1962 ID immagine univoci e nel set di convalida 2412 ID immagine univoci, per un totale di 4374 immagini con etichette giudicate. Solo YES e NO vengono visualizzati nelle colonne dell'etichetta di aggiudicazione. Se manca un valore della colonna, l'immagine non è stata inclusa nel
set di immagini aggiudicate.
Quando utilizzi queste etichette, includi la seguente citazione:
Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.
Per ulteriori informazioni sulla licenza e sull'attribuzione del set di dati di radiografie del torace NIH, consulta la sezione Licenza e attribuzione riportata sopra.
Tutte le etichette degli esperti per i risultati
Nell'articolo Scientific Reports,
il set di etichette si concentra su tutti i 14 risultati rilasciati nel
set di dati originale e come etichetta normale/anormale. Il set di
etichette conteneva solo immagini del set di test. Queste immagini sono identiche
a quelle incluse nella suddivisione del test Four Findings Expert Labels, limitate
alle radiografie del torace con proiezione PA (810 immagini su 1962
immagini).
Gli stessi cinque radiologi certificati dall'American Board of Radiology hanno esaminato in modo indipendente ogni immagine. A ogni radiologo è stato chiesto innanzitutto se l'immagine conteneva risultati clinici potenzialmente azionabili (etichetta normale/anormale) e, in caso affermativo, di selezionare quale delle 14 condizioni era presente. Le informazioni disponibili al momento della revisione del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (AP rispetto a PA). Non erano disponibili ulteriori informazioni cliniche.
Le etichette si trovano nella directory all_findings_expert_labels. In
test_individual_readers.csv, ogni riga corrisponde alle etichette di un singolo radiologo per una singola immagine. Ciò significa che ogni ID immagine e ID paziente viene
ripetuto in più righe (cinque righe per immagine, una riga per lettore). Ogni
riga contiene anche un ID lettore per distinguere i radiologi.
Poiché questo set contiene un totale di 810 immagini,
test_individual_readers.csv contiene 4050 righe con 810 ID immagine univoci.
test_individual_readers.csv contiene anche un totale di 19 colonne. Oltre all'ID immagine, all'ID paziente e all'ID lettore, è presente una colonna per normale/anormale, una colonna per ciascuno dei 14 risultati e una colonna per Other che indica la presenza di altri risultati anomali (al di fuori dei 14 specificati). Un valore della cella pari a
YES significa "presente" e NO significa "assente".
test_labels.csv contiene le etichette di riferimento utilizzate per
valutare il sistema di deep learning nell'articolo di Scientific Reports.
Ogni riga contiene le etichette di riferimento per un singolo ID immagine e ogni ID immagine viene visualizzato in una sola riga, per un totale di 810 righe. test_labels.csv ha
le stesse colonne di test_individual_readers.csv, ma senza una colonna "ID lettore". Per ottenere queste etichette, tre dei cinque radiologi che
hanno etichettato questo set sono stati scelti a caso per essere i "radiologi di riferimento"
(gli altri due sono stati utilizzati come punti di confronto). Questi "radiologi di riferimento" hanno ID lettore "4343882785", "4343883593" e "4343883996".
Per determinare l'etichetta finale per l'etichetta normale/anormale e l'etichetta finale per ogni risultato specifico, è stata utilizzata una votazione a maggioranza. L'etichetta finale
per la colonna Other è stata determinata come YES se la maggior parte dei radiologi
ha selezionato la presenza di un risultato al di fuori dei 14 o se la maggior parte dei
radiologi ha indicato che l'immagine era anomala, ma nessun singolo risultato
ha ottenuto la maggioranza delle indicazioni di presenza da parte dei radiologi.
Quando utilizzi queste etichette, includi la seguente citazione:
Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2
Per ulteriori informazioni sulla licenza e sull'attribuzione del set di dati NIH Chest x-ray, consulta Licenza e attribuzione.