Utilizarea datelor despre pacient: un tutorial despre predicția celui de-al doilea cancer cu modele de învățare automată
Utilizarea datelor despre pacient: un tutorial despre predicția celui de-al doilea cancer cu modele de învățare automată
(Utilizing patient data: A tutorial on predicting second cancer with machine learning models)
Autori: Hossein Sadeghi, Fatemeh Seif, Erfan Hatamabadi Farahani, Soraya Khanmohammadi, Shahla Nahidinezhad
Publicat la data de 20 Septembrie 2024, în jurnalul Cancer Medicine (Wiley Online Library)
Echipa: Buga Vlad, Irimie Darius, Marge Ramona
1. INTRODUCERE
Motivație:
-Apariția cancerului secundar (SC) după terapia cu radiații (RT) este o preocupare semnificativă și o potențială complicație pe termen lung a acestui tratament.
-Obiectivul principal al terapiei cu radiații este de a furnizarea tratament eficient pacienților pentru minimizarea riscului de a dezvolta cancer secundar.
-Mai mulți factori contribuie la probabilitatea apariției unui SC, inclusiv doza și volumul de radiații primite de pacient, vârsta pacientului la radioterapie, organul sau țesutul specific iradiat și predispoziția genetică. Pentru a reduce acest risc, este necesară stabilirea de noi tehnici de modelare care să încorporeze relații semi-empirice.
- Învățare automată (ML) a fost implementată în domeniul medical pentru a ajuta la raționamentul bazat pe caz și pentru a spori precizia diagnosticelor și a deciziilor de prognostic. În domeniul cancerului de sân (BC), tehnicile ML au fost utilizate pentru a anticipa și clasifica cazurile ca fiind benigne sau maligne. Aceste tehnici au fost folosite pentru a prezice reapariția cancerului prin analiza datelor clinice, date genetice și imagini medicale.
Scop cercetării:
-Scopul principal al cercetării a fost examinarea a mai multe modele pentru a determina cel mai bun model ML în determinarea caracteristicilor de bază pentru prezicerea apariției SC pe baza datelor pacienților.
-Un alt scop a fost de a clasifica pacienții în grupuri cu risc ridicat sau cu risc scăzut pentru dezvoltarea unui SC.
2. MODELE ȘI METODOLOGIE DE ÎNVĂȚARE AUTOMATĂ
Inițial, colectarea datelor a fost făcută pentru a culege și înregistra informații din diverse surse după care setul de date a fost supus preprocesării. Următoarea fază a implicat crearea unui model de predicție pentru SC folosind algoritmul Arborelui de decizie (DT) și trei algoritmi de învățare automată , mai exact Random Forest (RF), Bagging și AdaBoost. În pasul următor,au fost determinați hiperparametrii optimi și a fost evaluată generalizarea și robustețea modelelor. În cele din urmă, metricile comune de evaluare au fost utilizate pentru a evalua eficacitatea modelelor propuse (Figura 1).
Fig.1 Diagrama fluxului de lucru
2.1 Colectarea datelor și studiul populațiilor
Această analiză a inclus 21 de studii experimentale și computaționale asupra pacienților care au urmat radioterapie, bazându-se pe un set de date de 65 de studii realizate între 1980 și 2000, fiecare concentrându-se pe tipuri diferite de cancere secundare (SC). În total, au fost analizate 113 studii, care furnizează informații valoroase despre cazurile de cancer sau mortalitate, procentul de femei incluse, perioada de expunere la radiații, vârsta la care s-a realizat urmărirea pacienților și doza medie de radiații administrată.
Datele au fost esențiale pentru modelele de învățare automată (ML). Setul de date folosit pentru acest studiu conținea 113 instanțe și 8 atribute, iar acestea au fost folosite pentru a antrena și testa modelele ML. Din totalul de eșantioane, 67 au fost clasificate sub clasa „incidență” și 46 sub clasa „mortalitate”.
Distribuția studiilor: Studiile au provenit în principal din Statele Unite (8 cazuri), urmate de date din mai multe țări (5 studii), Suedia (3 studii), Israel (2 studii) și alte țări. Cea mai mare parte a cercetărilor (81%) a fost bazată pe populații largi, iar datele au fost obținute din registre spitalicești (10 studii), registre de cancer (6 studii) și cercetări universitare (5 studii). Numărul total al participanților a ajuns la 371.992, cu o medie de 17.714 participanți pe studiu.
Importanța expunerii la radiații și factori relevanți:Analiza a evidențiat factori importanți legați de expunerea la radiații, cum ar fi vârsta și sexul persoanelor expuse, precum și tipurile de țesut afectate. De exemplu, expunerea la o vârstă mai tânără crește riscul de cancer pulmonar, iar femeile expuse la radiații după vârsta de 15 ani au o incidență mai mare de hipotiroidism primar. Dozele de radiații variau în funcție de perioada calendaristică, bărbații primind de obicei doze mai mari decât femeile.
Studiul a folosit date din cercetări anterioare privind expunerea la radiații în tratamentele medicale pentru a dezvolta modele de predicție ale riscului de SC folosind metode de inteligență artificială și învățare automată.
Instrumente de evaluare și raportare Sistemul TRIPOD și extensia sa TRIPOD-AI sunt dezvoltate pentru a îmbunătăți raportarea în studiile care implică modele de predicție, precum și evaluarea riscurilor de părtinire (cu ajutorul PROBAST-AI). Aceste inițiative vizează îmbunătățirea standardelor de raportare și a evaluării calității studiilor care utilizează inteligența artificială, reducând astfel risipa de resurse în cercetare și îmbunătățind rezultatele studiilor.
2.2 Preprocesarea datelor
Preprocesarea datelor este un pas esențial în dezvoltarea modelelor predictive, având rolul de a gestiona probleme comune precum valorile lipsă, valorile infinite și nivelurile rare ale categoriilor. Procesul de preprocesare include patru pași principali: achiziția datelor, curățarea, preprocesarea propriu-zisă și asigurarea consistenței acestora. Preprocesarea corectă a datelor dezechilibrate este crucială, deoarece poate reduce defectele și, în anumite cazuri, le poate elimina complet din seturile de date.
În Tabelul 2, sunt prezentate caracteristicile și proprietățile statistice ale setului de date, cum ar fi minimul, maximul, media și abaterea standard pentru diferite atribute, printre care:
Locația cancerului (cancer site)
Numărul total de cazuri (All case)
Numărul de cazuri/morți (Cases/death)
Procentajul de femei participante (%women in the study)
Vârsta medie la expunere (Average age at exposure)
Vârsta medie de urmărire (Average follow-up age)
Doza medie de radiații (Average dose)
Exploratory Data Analysis (EDA) a fost folosit pentru a analiza și investiga setul de date în detaliu, pentru a rezuma caracteristicile principale ale acestuia.
Preprocesarea pentru modelele predictive:Aceasta joacă un rol crucial în succesul modelului predictiv, deoarece curățarea, transformarea și integrarea datelor sunt pași esențiali pentru a pregăti datele pentru analiză. În acest studiu, unele valori lipsă au fost înlocuite cu media, iar altele au fost excluse. Normalizarea a fost aplicată pentru a corecta diferențele de scară între variabile, astfel încât contribuțiile acestora la ajustarea modelului să fie echilibrate.
Metode de normalizare: În cadrul acestui studiu, a fost utilizată metoda de normalizare Min-Max, care ajustează valorile astfel încât să fie scalate între minim și maxim. Formula utilizată este: Xnorm=(Xold−Xmin)/(Xmax−Xmin)
Această metodă asigură că toate variabilele sunt pe aceeași scară înainte de a fi utilizate în modelul de învățare automată.
2.3 Extragerea caracteristicilor
În cadrul analizei, am folosit setul de caracteristici originale, în forma lor inițială, fără să implementăm tehnici speciale sau prelucrări suplimentare de extracție sau transformare.
Validarea încrucișată în 5 stratificări a avut loc asupra celor 4 tipuri de algoritmi folosiți, acuratețea fiecărui model fiind optimă astfel: DT într-o singură încrucișare, Bagging în 3 încrucișări, AdaBoost în două și 5 încrucișări, iar RF în două și 5 încrucișări.
2.4 Selectarea modelului
Pentru a dezvolta modele predictive inteligente cu utilitate în domeniul sănătății, se prezintă necesitatea unei atenții sporite în cadrul proceselor de colectare a datelor, de preprocesare și de selectare a caracteristicilor. Odată cu finalizarea procesului de preprocesare a datelor, setul total este divizat în două subseturi distincte: un set de antrenament ce reprezintă 70% din date, și un set de testare, care include 30%. Din punct de vedere al modelelor de învățare automată, s-au investigat 4 modele distincte: algoritmul DT (arbore de decizie), precum și algoritmi de învățare automată de tip Ensemble și anume, Bagging, AdaBoost și RF (Random Forest). Algoritmul DT este cunoscut ca fiind eficient pentru problemele de clasificare. Bagging, Boosting și RF sunt tehnici populare rare de învățare prin ansamblu, care integrează mai mulți învățători de bază pentru a forma un model compozit, îmbunătățind astfel acuratețea și fiabilitatea performanței. Învățarea prin ansamblu este o tehnică puternică ce combină mai mulți clasificatori individuali pentru a crea un clasificator robust.
DT: presupune crearea unei structuri de arbore care încorporează regulile necesare realizării procesului de clasificare. În cadrul structurii arborelui se întâlnesc noduri interne, ramuri și noduri foliare, care reprezintă atribute, valori de atribute și respectiv, clasele găsite în seturile de date.
Bagging: cunoscut și sub denumirea de agregare bootstrap, reprezintă o tehnică de ansamblu, care generează predicții finale selectând aleatoriu subseturi de date. Prin aplicarea unei abordări randomizate în generarea predicțiilor, se diminuează variația pe care o produce, având loc, de asemenea, și atenuarea fenomenului de supraînvățare, în cazul algoritmilor complecși.
AdaBoost: Primul pas în AdaBoost implică crearea unui arbore de decizie (DT) pentru scopuri de antrenament, în care fiecărui punct de date i se atribuie o greutate egală. Ulterior, modelul antrenat este utilizat pentru a clasifica întregul set de antrenament. Greutățile instanțelor corect prezise rămân neschimbate, în timp ce greutățile instanțelor clasificate greșit sunt crescute. După normalizarea greutăților pe toate seturile de date de antrenament, se generează un nou DT folosind un subset de date selectat aleatoriu. Acest proces iterativ continuă până când este satisfăcută o condiție specifică. În cele din urmă, prin agregarea sumei ponderate a tuturor DT-urilor, se construiește arborele de decizie final.
RF: reprezintă un algoritm de clasificare bazat pe învățarea prin ansamblu, compus din numeroși sub-arbori de decizie (DT). Acești sub-arbori sunt formați prin utilizarea tehnicilor de bagging și randomizare a caracteristicilor, rezultând într-o colecție necorelată de arbori care, împreună, oferă o acuratețe superioară în comparație cu orice arbore singular.
2.5 Grid search și cross-validare
În această lucrare, metoda Grid Search a fost aplicată pentru ajustarea clasificatorilor și identificarea celor mai buni hiperparametri. După ajustarea hiperparametrilor prin această metodă, s-a utilizat cross-validarea pentru a preveni scurgerea de date și a reduce variația modelului. Folosirea cross-validării stratificate în cinci folduri pe un set de date dezechilibrat a permis reducerea fenomenului de overfitting.
Testarea modelului pe diferite subseturi ale datelor asigură că performanța acestuia nu este limitată doar la o anumită diviziune a datelor, ci poate fi generalizată eficient pe mai multe eșantioane. Această metodă permite măsurarea eficienței modelului în gestionarea seturilor de date dezechilibrate. Scorurile ridicate obținute prin cross-validare sugerează că modelul de predicție propus pentru cancerul secundar (SC) va generaliza bine pe date noi și neexaminate.
Astfel, modelele de predicție propuse pentru SC, care prezintă o bună capacitate de generalizare, sunt capabile să facă predicții precise nu doar pe datele de antrenament, ci și pe datele reale și noi, ceea ce indică o performanță consistentă și eficientă.
2.6 Evaluarea performanței
Evaluarea modelelor de învățare automată (ML) a fost realizată prin intermediul mai multor metrici de performanță, inclusiv acuratețe, precizie, recall, F1-score și area under the curve (AUC) pentru curbele ROC. Aceste măsurători sunt esențiale pentru a evalua eficiența modelelor în sarcinile de clasificare.
Acuratețea măsoară proporția de instanțe corect prezise din totalul de instanțe, calculată prin împărțirea sumelor dintre predicțiile corecte (true positives și true negatives) la toate instanțele (TP, TN, FP, FN).
Precizia cuantifică proporția instanțelor relevante din totalul celor recuperate, calculată ca raportul dintre TP și totalul TP + FP.
Recall-ul măsoară capacitatea unui model de a identifica corect instanțele pozitive, fiind calculat ca raportul dintre TP și suma TP + FN.
F1-score-ul integrează precizia și recall-ul într-o singură măsură, calculată ca media armonică dintre ele, oferind o evaluare globală a modelului.
Tabelul 4 arată matricea de confuzie pentru toți clasificatorii analizați. Modelele de clasificare, cum ar fi Random Forest (RF), Decision Tree (DT), Bagging și AdaBoost, au fost comparate utilizând aceste măsurători. RF a obținut scoruri perfecte (1.0) la toate metricile de evaluare (acuratețe, precizie, recall și F1-score), ceea ce sugerează că este cel mai eficient model pentru a clasifica cancerul secundar (SC), identificând corect toate instanțele pozitive și negative.
În plus, curbele ROC și valorile AUC ale fiecărui model au fost prezentate în Figura 4, evidențiind echilibrul între rata de TP și rata de FP la diferite praguri de clasificare. RF a obținut un AUC de 1.0, indicând o performanță excepțională în compararea claselor. AdaBoost și DT au avut valori AUC de 0.964, iar Bagging a obținut 0.868.
Random Forest a fost selectat ca metodă preferată pentru determinarea importanței trăsăturilor și probabilității de SC în eșantioanele de test datorită performanțelor sale remarcabile. Figura 5 ilustrează importanța trăsăturilor pe baza metodei RF.
Cercetările subliniază că metode precum selecția trăsăturilor, echilibrarea datelor și gestionarea valorilor lipsă pot influența semnificativ eficiența modelului. O evaluare atentă a acestor strategii de preprocesare și a interacțiunilor lor este esențială pentru îmbunătățirea performanței și interpretabilității modelelor predictive.
3. REZULTATE ȘI DISCUȚII
- Comparația diferitelor metode pentru prezicerea riscului de SC la sân, vezică urinară, colon, esofag, ficat, plămân, tiroidă și stomac.
Au fost obținute valori ale riscului de cancer la sân de 0,59% și 0,70%. S-a observat că metoda ML a prezentat un risc de cancer secundar mai mare în comparație cu metodele alternative. Concluziile studiului se aliniază cu cercetările anterioare privind prezicerea riscului SC pentru sân, indicând astfel potențialul acestuia de a prezice cu exactitate riscul de SC.
Incidența SC a vezicii urinare ca criteriu final al cancerului este de 0,01% pentru metodele alternative, în timp ce metoda folosită de autori produce o incidență mai mare de 0,36% și 0,39%. Incidența SC pentru cancerul de colon a fost cuprinsă între,38% și 0,41% pentru seturile de date constând din 73,47 și 226 de persoane.
-Comparația metodelor MCNPX și ML utilizate pentru a evalua riscul de SC la pacienții cu leucemie.
Cele două metode diferite utilizate în acest studiu au utilizat ipoteze și calcule distincte, ceea ce a dus la variații ale riscului SC raportat. Mai exact, simularea MCNPX a prezis un risc SC de 0,51% în leucemie, în timp ce metoda autorilor ML a dat rezultate cuprinse între 0,60% și 0,70% atunci când au fost utilizate diferite seturi de date. În ciuda acestor variații, rezultatele demonstrează acordul între cele două metode utilizate. Autorii au concluzionat că pentru a stabili cea mai precisă și mai fiabilă abordare pentru prezicerea riscului SC la pacienții cu leucemie, sunt necesare analize și evaluare ulterioară a acestor metode.
- Comparația riscului de cancer secundar (SC) pentru Hodgkins, Laringe, mielom multiplu, pancreas, prostată și rect cu un studiu bazat pe populație și metoda ML.
Diferite tehnici ML pot produce estimări distincte de risc pentru riscul SC în Hodgkins, laringe, mielom multiplu, pancreas, prostată și rect. Descoperirile sugerează că alegerea metodei ML poate influența în mod semnificativ estimările de risc pentru aceste tipuri specifice de cancer. Utilizarea abordării ML a dus la predicții cuprinse între 0,31% și 0,78% în diferite seturi de date.
- Rezultatele riscului de cancer secundar (SC) în oase, cancer de piele non-melanom (NMSC) și limfom non-Hodgkin (NHL) folosind metoda ML.
Este subliniată necesitatea utilizării unor tehnici noi de modelare pentru a prognoza cu exactitate probabilitatea de a dezvolta SC după supunerea RT. Diferiți factori contribuie la probabilitatea SC, cuprinzând doza și volumul de radiații administrate pacientului, vârsta pacientului în timpul RT, organul sau țesutul specific supus iradierii și predispoziția genetică. Rezultatele indică un risc SC de 0,80% pentru cancer osos (pentru 15 cazuri).
4.REZUMAT ȘI CONCLUZIE
-Scopul principal al acestei investigații este acela de a spori înțelegerea și predicția riscului de dezvoltare a cancerului secundar. Lucrarea compară diferite metode, incluzând simularea, analiza bazelor de date, calculul matematic și modelele de învățare automată.
-Rezultatele au arătat anumite discrepanțe în raportarea riscurilor de cancer secundar, astfel evidențiind necesitatea dezvoltării unor modele de învățare automată care să poată analiza mai precis datele pacienților.
-De asemenea, datorită conștientizării limitărilor pe care le poate avea un model de învățare automată, în scopul combaterii acestor limitări, lucrarea utilizează un set de date care cuprinde instanțe și atribute pentru a antrena și evalua modelele de învățare automată (ML) în predicția apariției cancerului secundar (SC) pe baza datelor pacienților. Aceasta nu doar că îmbunătățește înțelegerea și predicția apariției SC după radioterapie (RT), dar facilitează și dezvoltarea unor abordări de tratament personalizate.
-Astfel, prin implementarea modelului automat propus la nivel programelor de screening al populației, ar putea avea loc reducerea ratei de mortalitate în rândul pacienților ce dezvoltă o a doua formă de cancer secundar, prin descoperirea timpurie a acestuia în faze incipiente și aplicarea unui tratament adecvat.
Comentarii
Trimiteți un comentariu