Lielākā daļa reālo veselības aprūpes datu ir tikai nepilnīgi pieejami pacientu privātuma apsvērumu, normatīvo šķēršļu, piemēram, HIPAA, un šādu datu sensitīvā rakstura dēļ. Šeit nāk sintētisko datu jēdziens: mākslīgi radīti dati, kas precīzi atspoguļo visas reālās pasaules datu kopas statistiskās īpašības. Šķiet, ka tā ir galvenā pārveide veselības aprūpes nākotnē.
Šajā rakstā mēs plānojam iedziļināties sintētisko datu tehniskajā sarežģītībā, to pielietojumos veselības aprūpē, kā tas var mainīt klīnisko izpēti, diagnostiku un pacientu pārvaldību, kā arī tehnoloģijās, kas to padara iespējamu.
Sintētiskie dati tiek uzskatīti par mākslīgi radītiem datiem, kuru darbība ir līdzīga reāliem datiem. Sintētisko datu izveidē tiek izmantotas vairākas metodes, tostarp statistikas modeļi, algoritmi un ģeneratīvie pretrunīgie tīkli (Generative Adversarial Networks — GAN). Lai gan sintētiskajos datos nav nevienas faktiskas saites uz pacientu failiem, anonimizētus datus nevar izveidot, lai nodrošinātu reālās pasaules veselības aprūpes scenāriju sarežģītību.
Mērogojamība: sintētiskos datus var ražot masu daudzumos, nodrošinot dažādus komplektus AI modeļu apmācībai vai skriešanas simulācijām.
ir datu ietilpīga; slimnīcas, pētniecības iestādes un farmācijas uzņēmumi, pieņemot lēmumus, ir ļoti atkarīgi no pacientu datiem. Tomēr reālās pasaules veselības aprūpes dati ir ierobežoti vairākos aspektos:
Sintētiskie dati atrisina šādas problēmas, piedāvājot ētiskas, mērogojamas un rentablas alternatīvas. Turklāt sintētiski bagātinātas datu kopas var ietvert dažādus demogrāfiskos mainīgos, retus apstākļus un neparastas medicīniskās ārstēšanas metodes, kuras tradicionālās datu kopas var neatbilstoši atspoguļot.
Daudzas augsto tehnoloģiju metodes ļauj mākslīgi ģenerēt datus. Populārākie ietver:
GAN ir viena no datu sintēzes metodēm, ko izmanto veselības nozarē. GAN sastāv no diviem tīkliem: ģeneratora un diskriminatora. Ģenerators ģenerē sintētiskos datus, un diskriminators mēģina noteikt, vai tie ir reāli vai sintētiski. Laika gaitā tas uzlabo ražotāja kompetenci, tādējādi nodrošinot reālistiskas kvalitātes datus.
GAN var mācīties no medicīniskās attēlveidošanas datu kopām, lai izveidotu, piemēram, sintētiskus MRI, CT skenējumus vai rentgenstarus, ko var izmantot kā apmācību datus vai apstiprināt dažus algoritmus veselības aprūpes lietojumprogrammās. Turklāt GAN ir izmantoti arī sintētisko elektronisko veselības karšu (EHR) datu sintezēšanai, vienlaikus saglabājot neskartas klīnisko mainīgo attiecības, neatklājot pacientu identitāti.
Piemērs: python kods
# Example of GAN-based synthetic data generation for EHR from keras.models import Sequential from keras.layers import Dense, LeakyReLU def build_generator(latent_dim): model = Sequential() model.add(Dense(256, input_dim=latent_dim)) model.add(LeakyReLU(alpha=0.2)) model.add(Dense(512)) model.add(LeakyReLU(alpha=0.2)) model.add(Dense(1024)) model.add(LeakyReLU(alpha=0.2)) model.add(Dense(784, activation='sigmoid')) return model
Šis kods ir vienkāršs GAN modeļa ģenerators, kas izveido sintētisko datu modelēšanas veselības aprūpes datu līdzekļus.
VAE ir vēl viens ģeneratīvs modelis sintētisko veselības datu sintezēšanai. VAE kodē reālos ievades datus kādā latentā telpā. No šīs latentās telpas tiek ģenerēti jauni datu punkti, saglabājot sākotnējās datu kopas statistiskās īpašības. Šādi modeļi ir īpaši piemērojami augstas dimensijas datu kopu ģenerēšanai veselības aprūpē, piemēram, genomikas vai omikas datu kopas.
Bajesa tīkli ir grafiski modeļi, kas attēlo varbūtības attiecības starp dažādiem mainīgajiem. Veselības aprūpē šie tīkli būtu īpaši noderīgi, lai radītu sintētiskos datus, kas atspoguļo cēloņsakarību, piemēram, slimības gaitu vai ārstēšanas režīma sekas.
Sintētiskie dati ir mainījuši medicīnisko attēlveidošanu, nodrošinot risinājumu ierobežotajai anotēto datu kopu pieejamībai, kas nepieciešamas mašīnmācīšanās modeļu apmācībai. Šajā sakarā GAN un VAE ir noderīgas metodes MRI, CT vai rentgena attēlu sintezēšanai. Šādu sintētisko attēlu izmantošana palīdz radiologiem un mākslīgā intelekta algoritmiem ar augstu precizitāti atklāt anomālijas medicīniskajos skenējumos. Sintētiskie attēlveidošanas dati sniedz pētniekiem iespēju apmācīt dziļas mācīšanās modeļus, neradot problēmas ar datu trūkumu vai pacienta privātumu.
Piemērs: GAN ģenerēti MRI: nesenā eksperimentā par smadzeņu audzēju segmentāciju pētnieki izmantoja GAN, lai radītu sintētiskos audzēja MRI skenēšanas attēlus. Viņi varēja apmācīt dziļas mācīšanās modeļus, lai atklātu šādus gadījumus ar lielāku precizitāti, neprasot pacientu datu apjomu.
Tiek uzskatīts, ka sintētiskie dati ir jāizmanto kopā ar tradicionālajiem klīniskajiem datiem, un tas jo īpaši attiecas uz reto slimību jomām, kur pacientu iesaistīšana pētījumos ir sarežģīta. Sintētiskās kohortas ļauj pētniekam simulēt pacientu rezultātus saskaņā ar dažādiem ārstēšanas protokoliem, tādējādi paātrinot zāļu atklāšanu un testēšanu.
Piemēram, sintētiskie EHR var ļaut farmācijas uzņēmumiem simulēt ārstēšanas rezultātus virtuālām pacientu grupām. Tas ļaus pārbaudīt hipotēzes un pārbaudīt zāļu efektivitāti un, visticamāk, samazinās klīnisko izmēģinājumu laiku un izmaksas.
Sintētiskie dati vienkāršos datu papildināšanas procesu mašīnmācībā, nodrošinot spēcīgākus prognozēšanas modeļus. Sintētiskie pacientu ieraksti vai attēlveidošanas dati var palīdzēt papildināt nelielas datu kopas veselības aprūpē, mazinot pārmērīgu pielāgošanu un ļaujot plašāk vispārināt AI modeļus.
Sintētiskā genomika jeb omikas datu ģenerēšana šajā ziņā paver jaunas iespējas precīzai medicīnai. Pētnieki var izpētīt, kā noteiktas ģenētiskās mutācijas ietekmē slimības risku vai ārstēšanas reakcijas tādā veidā, kas piedāvā personalizētas terapijas sintētiskās datu kopās, kas atspoguļo pacienta ģenētiku.
Lai gan sintētiskajiem datiem ir liela vērtība, tie tomēr rada dažus ļoti svarīgus regulējošus un ētiskus jautājumus:
Normatīvie regulējumi: Veselības aprūpes regulatori joprojām cenšas saprast, kā klasificēt sintētiskos datus. Tā kā šādi dati nav iegūti no faktiskiem pacientiem, tie var būt ārpus esošajiem noteikumiem vai ārpus regulatīvo aģentūru jurisdikcijas. Tomēr tai ir jāatbilst ētikas prasībām attiecībā uz MI izmantošanu veselības aprūpē.
Datu ģenerēšanas novirze: jebkura modeļa datu sintēzei ir dažas novirzes vai trūkumi. Tas var likt iegūtajai datu kopai atspoguļot šādas nepilnības un izraisīt kļūdainus vai neobjektīvus pētījumu rezultātus vai nepareizas AI prognozes.
Validācija: sintētisko datu precizitāte un derīgums ir jāpārbauda. Tikai tāpēc, ka sintētiskie dati var atspoguļot reālistiskus datus, tie nav pietiekami piemēroti laika ziņā jutīgām veselības aprūpes lietojumprogrammām.
Daži no uzlabotajiem rīkiem un sistēmām, kas nesen parādījās, lai atbalstītu sintētisko veselības aprūpes datu ģenerēšanu, ir šādi:
CTGAN: saīsinājums vārdam Conditional Tabular GAN — atvērtā koda rīks sintētisko tabulu datu iegūšanai. To parasti izmanto veselības aprūpē, lai sintezētu EHR.
Synthpop : šis ir R rīks sensitīvu datu sintētisko versiju izveidei. Tas ir plaši izmantots, lai veselības aprūpē ģenerētu privātumu saglabājošas datu kopas.
Datu sintezators: atvērtā pirmkoda sintezators, kas ģenerē sintētiskas datu kopas ar saglabātu privātumu. Šis rīks atbalsta nejaušo, neatkarīgo un korelēto atribūtu režīmu modeļus.
Sintētiskajiem datiem ir milzīgs potenciāls veselības aprūpē. Uzlaboti AI un ģeneratīvie modeļi var ievērojami paātrināt inovāciju vairākās jomās.
Telemedicīna: pieaugot telemedicīnas koncepcijai, iespējams, būs iespējams izveidot sintētiskas uz datiem balstītas apmācības datu kopas AI sistēmām, kas iesaistītas pacientu attālā uzraudzībā un diagnostikā.
AI diagnostikā: apmācība par sintētiskiem datiem, kas simulē retus vai mazāk pārstāvētus apstākļus, var palielināt veselības aprūpes sistēmu pacientu slimību diagnozes precizitāti, jo īpaši reto slimību gadījumā.
**Starpinstitūciju pētījumi:** Sintētiskie dati var nodrošināt drošu veselības aprūpes datu koplietošanu starp iestādēm. Tas atvieglo globālu sadarbību, nepievienojot papildu problēmas saistībā ar privātumu.
ir paradigmas maiņa veselības aprūpē, jo tie ļauj datiem pārvarēt iespējamos trūkumus piekļuves, mērogojamības un privātuma problēmu jomā. Pētnieki, ārsti un varētu brīvi ieviest jauninājumus, neapdraudot pacientu privātumu vai ētikas standartus. Turpinoties jauninājumiem ģeneratīvajos modeļos, tostarp GAN, VAE un Beijesa tīklos, sintētiskie dati kļūs par noderīgu lomu veselības aprūpes nākotnes veidošanā, sākot no klīniskiem pētījumiem un diagnostikas līdz personalizētai medicīnai.
Atbildīgi izmantojot šo tehnoloģiju, veselības nozare var atvērt vēl nebijušas iespējas pacientu aprūpē, pētniecībā un inovācijās.