Set data Sinar-X Dada NIH terdiri dari 100.000 gambar sinar-X dada yang telah di-de-identifikasi. Gambar dalam format PNG.
Data ini disediakan oleh NIH Clinical Center dan tersedia melalui situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Anda juga dapat mengakses data melalui Google Cloud, seperti yang dijelaskan dalam akses dataGoogle Cloud .
Lisensi dan atribusi
Tidak ada batasan penggunaan gambar rontgen dada NIH. Namun, set data memiliki persyaratan atribusi berikut:
Berikan link ke situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Sertakan kutipan ke makalah CVPR 2017:
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, hlm. 3462-3471, 2017
Menyatakan bahwa NIH Clinical Center adalah penyedia data
Google Cloud akses data
Anda bisa mendapatkan gambar rontgen dada NIH dari Cloud Storage, BigQuery, atau menggunakan Cloud Healthcare API.
Cloud Storage
Data rontgen dada NIH tersedia di bucket Cloud Storage berikut:
gs://gcs-public-data--healthcare-nih-chest-xray
Buka set data sinar-x dada NIH di Cloud Storage
Bucket ini mencakup jalur ke file PNG asli, serta ke instance DICOM:
PNG (disediakan oleh NIH):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (disediakan oleh Google):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
Bucket Cloud Storage menggunakan model "Pemohon Membayar" untuk penagihan. Project Google Cloud Anda akan ditagih untuk biaya yang terkait dengan mengakses data NIH. Untuk mengetahui informasi selengkapnya, lihat Requester Pays.
BigQuery
Data x-ray dada NIH tersedia di project chc-nih-chest-xray
Google Cloud di BigQuery.
Buka set data sinar-x dada NIH di BigQuery
Untuk mengetahui informasi tentang cara mengakses data publik di BigQuery, lihat Set data publik BigQuery.
Cloud Healthcare API
Data sinar-X dada NIH tersedia dalam hierarki penyimpanan DICOM berikut di Cloud Healthcare API:
Project: chc-nih-chest-xray
Dataset: nih-chest-xray
DICOM store: nih-chest-xray
Untuk meminta akses ke set data sinar-X dada NIH, isi formulir ini.
Buka set data sinar-x dada NIH di DICOM Studio Cloud Healthcare API
Untuk mengetahui informasi selengkapnya, lihat Ringkasan DICOM dan Menggunakan Standar DICOMweb.
Pelihat data
Anda juga dapat menggunakan pelihat yang terintegrasi dengan Cloud Healthcare API:
eUnity: https://demo.eunity.app
IMS CloudVue: https://cloudvue.imstsvc.com
Label Tambahan
Untuk mengakses label pakar untuk subset set data NIH ChestX-ray14, isi formulir berikut. Setelah menyelesaikan formulir, Anda dapat mendownload label.
Buka Google Formulir untuk mendapatkan label
Label dikumpulkan sebagai bagian dari dua studi independen, dan dijelaskan dalam makalah berikut:
- Penafsiran Radiograf Dada dengan Model Deep Learning
- Deep Learning untuk Membedakan Radiograf Dada Normal dan Abnormal serta Generalisasi pada Dua Penyakit Tuberkulosis dan COVID-19 yang Tidak Tampak
Ada dua set label, yang masing-masing terkait dengan salah satu studi. Kumpulan label pertama dikaitkan dengan studi yang dipublikasikan di Radiology dan berfokus pada empat temuan rontgen dada: opasitas ruang udara, pneumotoraks, nodul/massa, dan fraktur. Kumpulan label kedua dikaitkan dengan studi yang dipublikasikan di Scientific Reports dan mencakup semua 14 temuan yang dirilis dalam set data asli, dan label normal/tidak normal.
Empat label pakar temuan
Dalam Radiology paper, kumpulan label berfokus pada empat temuan (opasitas ruang udara, pneumotoraks, nodul/massa, dan fraktur) serta mencakup set validasi dan pengujian. Label akhir untuk setiap gambar ditetapkan melalui peninjauan yang diputuskan oleh tiga radiolog. Setiap gambar pertama-tama ditinjau secara independen oleh tiga ahli radiologi. Untuk set pengujian, ahli radiologi dipilih secara acak untuk setiap gambar dari kohor 11 ahli radiologi bersertifikasi American Board of Radiology. Untuk set validasi, tiga radiolog dipilih dari kohor 13 individu, termasuk radiolog bersertifikasi dan residen radiologi.
Jika semua pembaca menyetujui setelah peninjauan awal, maka label tersebut menjadi final. Untuk gambar dengan ketidaksesuaian label, gambar dikembalikan untuk peninjauan tambahan. Label anonim dan catatan apa pun dari putaran sebelumnya juga tersedia selama setiap peninjauan iteratif. Penilaian dilanjutkan hingga tercapai konsensus, atau hingga maksimum lima putaran. Untuk sejumlah kecil gambar yang tidak mencapai konsensus, label suara terbanyak digunakan.
Informasi yang tersedia pada saat peninjauan radiolog hanya mencakup usia pasien dan tampilan gambar (anterior-posterior (AP) versus posterior-anterior (PA)). Informasi klinis tambahan tidak tersedia. Untuk nodul/massa dan pneumotoraks, kemungkinan labelnya adalah: "ada", "tidak ada", atau "tidak pasti" (artinya tidak yakin apakah ada atau tidak ada). Untuk opasitas dan fraktur, nilai label yang mungkin hanya "ada" atau "tidak ada".
Label berada di direktori four_findings_expert_labels. Di
individual_readers.csv, setiap baris sesuai dengan label untuk setiap empat
kondisi yang diberikan oleh satu pembaca untuk satu gambar. Setiap ID gambar dan hasil penilaian yang sesuai diulang di beberapa baris (satu baris per pembaca). ID pembaca disediakan untuk penautan yang stabil di seluruh gambar. Nilai sel YES berarti "ada", NO berarti "tidak ada", dan HEDGE
berarti "tidak pasti".
Dalam validation_labels.csv dan test_labels.csv, metadata yang diberikan sebagai bagian
dari set data sinar X dada NIH telah ditambah dengan empat kolom, satu untuk
label yang diputuskan untuk setiap empat kondisi: fraktur, pneumotoraks,
opasitas ruang udara, dan nodul/massa. Ada 1.962 ID gambar unik dalam set
pengujian dan 2.412 ID gambar unik dalam set validasi dengan total 4.374 gambar
dengan label yang telah diputuskan. Hanya YES dan NO yang muncul di kolom label ajudikasi. Jika nilai kolom tidak ada, berarti gambar tidak disertakan dalam set gambar yang telah diputuskan.
Saat menggunakan label ini, sertakan kutipan berikut:
Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.
Untuk mengetahui informasi selengkapnya tentang Lisensi dan Atribusi set data x-ray dada NIH, lihat bagian Lisensi dan atribusi di atas.
Semua label pakar temuan
Dalam Scientific Reports paper,
kumpulan label berfokus pada 14 temuan yang dirilis dalam
set data asli, dan sebagai label normal/abnormal. Kumpulan label hanya berisi gambar dari set pengujian. Gambar ini identik dengan gambar yang disertakan dalam pemisahan pengujian Four Findings Expert Labels, yang dibatasi untuk rontgen dada dengan tampilan PA (810 gambar dari 1.962 gambar).
Lima ahli radiologi bersertifikasi American Board of Radiology yang sama meninjau setiap gambar secara independen. Setiap radiolog pertama-tama ditanya apakah gambar tersebut berisi temuan klinis yang berpotensi dapat ditindaklanjuti (label normal/abnormal), dan jika ya, untuk memilih mana dari 14 kondisi yang ada. Informasi yang tersedia pada saat peninjauan radiolog hanya mencakup usia pasien dan tampilan gambar (AP versus PA). Informasi klinis tambahan tidak tersedia.
Label berada di direktori all_findings_expert_labels. Di
test_individual_readers.csv, setiap baris sesuai dengan label
radiolog tunggal untuk satu gambar. Artinya, setiap ID gambar dan ID pasien diulang di beberapa baris (lima baris per gambar, satu baris per pembaca). Setiap
baris juga berisi ID pembaca sehingga radiolog dapat dibedakan.
Karena ada total 810 gambar dalam set ini, maka test_individual_readers.csv berisi 4.050 baris dengan 810 ID gambar unik.
test_individual_readers.csv juga berisi total 19 kolom. Selain ID gambar, ID pasien, dan ID pembaca, ada kolom untuk normal/abnormal, kolom untuk setiap 14 temuan, dan kolom untuk Other yang menunjukkan bahwa ada temuan abnormal lainnya (di luar 14 yang ditentukan). Nilai sel
YES berarti "ada" dan NO berarti "tidak ada".
test_labels.csv berisi label kebenaran dasar yang digunakan untuk mengevaluasi sistem deep learning dalam makalah Scientific Reports.
Setiap baris berisi label kebenaran dasar untuk satu ID gambar, dan setiap ID gambar hanya muncul dalam satu baris, dengan total 810 baris. test_labels.csv memiliki
kolom yang sama dengan test_individual_readers.csv, tetapi tanpa kolom "ID pembaca". Untuk mendapatkan label ini, tiga dari lima radiolog yang
melabeli kumpulan data ini dipilih secara acak untuk menjadi "radiolog kebenaran nyata"
(dua radiolog lainnya digunakan sebagai titik perbandingan). "Radiolog dengan kebenaran nyata" ini memiliki ID pembaca "4343882785", "4343883593", dan "4343883996".
Suara terbanyak digunakan untuk menentukan label akhir untuk label normal/tidak normal dan label akhir untuk setiap temuan tertentu. Label akhir
untuk kolom Other ditentukan sebagai YES jika mayoritas ahli radiologi
memilih bahwa ada temuan di luar 14 temuan, atau jika mayoritas ahli radiologi
menunjukkan bahwa gambar tersebut tidak normal, tetapi tidak ada satu pun temuan
yang mayoritas ahli radiologi tunjukkan sebagai temuan yang ada.
Saat menggunakan label ini, sertakan kutipan berikut:
Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2
Untuk mengetahui informasi selengkapnya tentang Lisensi dan Atribusi set data x-ray dada NIH, lihat Lisensi dan atribusi.