Analiza to mało, w digital therapeutics musimy rozumieć dane

Analiza to mało, w digital therapeutics musimy rozumieć dane

– W biznesie przetwarza się zbiory danych przy użyciu technik machine learning i kiedy uzyskuje się dobry efekt, coś na podstawie tej analizy powstaje. Natomiast w nauce ważny jest nie tylko ciekawy rezultat analizy – musimy zrozumieć, z czego to wynika. Potrzebujemy zwrotnej interpretacji danych, żebyśmy potrafili dać zrozumiałą diagnozę konkretnej sytuacji, w jakiej jest człowiek – zaznacza psychoterapeuta, prof. Mateusz Gola, w którego pracy badawczej data science stanowi podstawowe narzędzie.

Mateusz Gola to specjalista w zakresie neuronauki, uzależnień behawioralnych i zmiany nawyków. Zajmuje się m.in. uzależnieniami od pornografii, zachowań seksualnych, gier komputerowych i hazardu. Pracuje na stanowisku profesora w Instytucie Psychologii Polskiej Akademii Nauk, a także w Institute for Neural Computation na Uniwersytecie Kalifornijskim w San Diego. Założył firmę PredictWatch, która rozwija technologie pomagające uzależnionym w utrzymaniu abstynencji i przewidywaniu ryzyka nawrotów. W ramach tej działalności powstała aplikacja Nałogometr, zbierająca równocześnie dane do Ogólnopolskiego Badania Nałogów.

Co to znaczy, że dane są dobre jakościowo?

Z mojej perspektywy, jako naukowca, oznacza to przede wszystkim, że są rzetelnie zebrane – czyli znamy ich pochodzenie, wiemy, czego dotyczą oraz jesteśmy pewni, że w procesie zbierania nie zostały zniekształcone. Muszą odzwierciedlać zjawiska, które chcemy analizować. Ważne, żeby były spójne, a więc zebrane od wszystkich uczestników w ustandaryzowany sposób. I najlepiej, aby były pozbawione większych braków. Luki w zbiorach danych to częsty problem w badaniach psychologicznych.

A jak to wygląda w praktyce, kiedy gromadzicie dane do Ogólnopolskiego Badania Nałogów?

W naszym przypadku chodzi o kilka kategorii informacji. Np. dane, które zbieramy z MONAR-em są mocno homogeniczne. Mamy do czynienia z osobami, które korzystają z pomocy w ośrodkach terapii uzależnień, zatem wiemy, co się z nimi dzieje, kiedy rozpoczęły terapię i w którym momencie ją kończą, jak zostały zdiagnozowane przez psychiatrów. Dodatkowo, takie osoby mają nie tylko aplikację, która zadaje pytanie kilka razy dziennie, ale też smartwatche i active trackery, dzięki którym możemy zbierać informacje o aktywności fizycznej, czy jakości snu z dużą częstotliwością – w każdej minucie.

W jaki sposób dbacie o jakość danych, poza zbieraniem ich systematycznie i szeroko?

Robimy to na kilku etapach. Pierwszym jest projektowanie procesu badawczego i tutaj uwzględniamy modele teoretyczne, czyli określamy, jakiego rodzaju dane mają największe znaczenie opierając się na wynikach wcześniejszych badań. Następny etap wiąże się już ze zbieraniem informacji, zachęcamy użytkowników, żeby podawali nam ich określoną ilość w konkretnym czasie.

Na przykład w Nałogometrze jest ważne, żeby trzy razy dziennie odpowiedzieć na przypomnienia i mikroankiety. Jeżeli użytkownik nie zrobi tego z właściwą częstotliwością, nie będzie mógł dostać prognozy dla siebie. W kolejnym kroku, czyli podczas analizy, patrzymy bardzo dokładnie na charakterystykę konkretnych użytkowników i grup użytkowników. Zanim przejdziemy do właściwej analizy, staramy się zrozumieć strukturę danych, ich pochodzenie i grupy. Zadbanie o jakość zgromadzonych informacji i ich odpowiedni pre-preocessing jest bardzo ważne.

Moje doświadczenie biznesowe pokazuje, że w komercyjnej analityce to podejście jest mniej restrykcyjne niż w badaniach naukowych. Sprawdza się strukturę bazy danych, ale nie wnika się w sposób ich zbierania czy pochodzenie. Często korzysta się z różnych narzędzi, np. machine learning. Dzięki temu przetwarzamy zbiory danych i kiedy powstaje dobry efekt, to coś tworzy się na jego podstawie. A dla nas ma znaczenie nie tylko to, żebyśmy mieli ciekawe rezultaty analizy, mogli coś przewidzieć, my chcemy też zrozumieć, z czego te przewidywania wynikają. Zależy nam na zwrotnej interpretacji danych, a więc nie na samym oszacowaniu ryzyka nawrotu nałogu, ale na określeniu, z czego on wynika, żeby dać użytkownikowi zrozumiałą diagnozę jego sytuacji.

Jak data science poszerza możliwości radzenia sobie z nałogami? Co dodaje do tradycyjnych metod?

Nowoczesna psychiatria i psychologia kliniczna starają się lepiej wyodrębnić podtypy osób doświadczających danego problemu. Podam przykład uzależnienia od alkoholu. Tradycyjna psychiatria uzna, że ktoś jest uzależniony od alkoholu jeśli wpełni listę symptomów związanych z tym problemem. Ktoś dostaje taką diagnozę i może w ramach systemu ubezpieczeń skorzystać z terapii. Problem w tym, że trwałość efektów takiej terapii wynosi średnio poniżej 25%. Trzy na cztery osoby z uzależnieniem od alkoholu w rok po zakończeniu terapii wróci do nałogu. Dlaczego tak się dzieje?

Jednym z powodów jest to, że uzależnienie może mieć bardzo różnorodne obrazy kliniczne i funkcje. Owszem, wszyscy spełniają te same kryteria diagnostyczne, ale jak spojrzymy na bogatsze i większe zbiory danych, to widać w nich, że dla części osób uzależnionych od alkoholu jest to np. sposób na radzenie sobie z napięciem, a dla innych sposób na dostarczenie sobie większej stymulacji. Każda z tych podgrup ma inne mechanizmy mózgowe, na które trzeba zadziałać w terapii, aby była skuteczna. W nowoczesnej psychiatrii stosuje się podejście, w którym staramy się zebrać jak najwięcej danych i nie przejmować się etykietami wynikającymi z systemów diagnostycznych. Próbujemy podejść od strony data driven, tzn. patrzymy, co nam wychodzi z klastrowania danych i jak możemy podzielić zaburzenia na różne podkategorie.

I w czym to pomaga?

Tradycyjne podejście psychiatryczne polegające tylko na diagnozie objawowej nie  przewiduje, czy ktoś skorzysta z danego typu terapii, lub jak szybko będzie miał nawrót zaburzenia. Nawet nie daje wskazówek, żeby wybrać, jaki sposób terapii i leczenia będzie dla danej osoby najwłaściwszy. I tu poza wyodrębnieniem podtypów osób z uzależnieniem i możliwością ustalenia do jakiej grupy należy dana osoba, pojawia się drugie zastosowanie data science. Dzięki analizie danych możemy również zaproponować najbardziej efektywną formę pomocy.

W przypadku uzależnień od nikotyny jest kilka bardzo ciekawych projektów opartych o big data. Da się np. szybko, w oparciu o analizę informacji, zdecydować, czy dla kogoś lepsza będzie terapia indywidualna, grupowa czy plastry antynikotynowe czy np. digital therapeutics. To jest też coś, co próbujemy zrobić w PredictWatch w kontekście uzależnień behawioralnych i uzależnień od substancji. Na podstawie sprofilowania danej osoby możemy przewidzieć ryzyko nawrotu – i właśnie w aktualnej edycji Ogólnopolskiego Badania Nałogów zbieramy dane, dzięki którym staramy się oszacować, jakie interwencje będą najbardziej skuteczne dla danych osób w konkretnej sytuacji.

Jak pan profesor ocenia potencjał Ogólnopolskiego Badania Nałogów i Nałogometru do realnego wpływu na skalę problemu w Polsce? Np. w odniesieniu do choroby alkoholowej.

To, co robimy, nie zmniejszy raczej odsetka osób uzależnionych od alkoholu, ale pomoże uzależnionym lepiej radzić sobie z trudnościami. Lata pokazują, że alkoholizm utrzymuje się na dość stabilnym poziomie. Wyjątkiem był okres pandemii, np. w Stanach Zjednoczonych o 20% wzrosła liczba osób sięgających systematycznie po alkohol. Rolą naszej technologii jest wspomaganie osób, które wychodzą z nałogu, tak aby zmniejszyć ryzyko nawrotu. Liczymy, że w przypadku alkoholu nasza technologia sprawi, że wzrośnie liczba osób, które skutecznie wyjdą z nałogu.

Ale działania w miękkich zakresach nie wpłyną na generalne statystyki?

Mogą, ale tylko w niektórych obszarach. Przykładowo, jeśli chodzi o alkohol, metaamfetaminę czy inne stymulanty, nie miałbym złudzeń, że będziemy w stanie zaoferować skuteczną profilaktykę. Tutaj celujemy w zwiększenie efektów terapii. Większe szanse widzę w odniesieniu do uzależnień behawioralnych czy substancji takich jak marihuana, które nie powodują tak silnego uzależnienia fizjologicznego.

Mamy teraz do czynienia z legalizacją marihuany w coraz większej liczbie państw, w konsekwencji wiele osób będzie sięgało po nią po raz pierwszy lub po raz pierwszy zacznie używać jej regularnie. Rolę digital therapeutics widzę we wsparciu nie tylko osób, które już weszły w problematyczny wzorzec korzystania, ale takich, które zamierzają robić to okazjonalnie, a chciałyby zadbać o swoje bezpieczeństwo. W ten sposób będziemy mogli zapobiegać wchodzeniu w problematyczne wzorce lub uzależnienia i odpowiednio wcześnie o nich ostrzegać. Tak może być w przypadku wspomnianej marihuany, ale też gamingu.

Od 2022 roku Światowa Organizacja Zdrowia uwzględnia uzależnienie od gier komputerowych. Gaming disorder jest bardzo szerokim zjawiskiem, gra ponad 90% nastolatków, a 6-14% ocenia, że stanowi to dla nich problem, który utrudnia codzienne funkcjonowanie. I w tym przypadku widzę szansę wpływania na globalne statystyki. Tym bardziej, że wkrótce uruchomimy specjalne wersje aplikacji zaprojektowane pod kątem marihuany oraz gier. Rozpowszechnimy wersje anglojęzyczne, zatem pojawi się możliwość szerszego oddziaływania. Aplikacja poświęcona marihuanie jest już w fazie produkcyjnej, musi przejść jeszcze testy i dostosowania kulturowe – zamierzamy opublikować ją w 2023 roku. Dalej będzie gaming, kompulsywne zachowania seksualne, pornografia, o kolejności jeszcze decydujemy.

Jakich narzędzi i technik używają państwo w pracy z danymi zbieranymi w ramach Ogólnopolskiego Badania Nałogów?

W naszych analizach stosujemy podejście hybrydowe. Z jednej strony korzystamy z klasycznej wielozmiennowej analizy regresji, która pozwala nam na analizy top down, oparte na wcześniejszej wiedzy naukowej, czyli jak poszczególne czynniki uzależnienia funkcjonują. Z drugiej strony korzystamy z dwunastu różnych metod machine learning (np. LSTM, random forest, SVM, LGBM, XGB). Niektóre z nich po odpowiedniej modyfikacji sprawdzają się lepiej w odniesieniu do konkretnych uzależnień i klastrów użytkowników, inne w odniesieniu do konkretnych typów danych.

Poszczególne metody machine learning dobieramy empirycznie do danej podgrupy i tworzymy algorytm, który może to robić automatycznie w miarę napływania nowych danych. Na potrzeby machine learning wyodrębniamy wiele cech naszych danych, poza uzyskaniem na ich podstawie predykcji zachowań ryzykownych staramy się też zwrotnie je zinterpretować, ponieważ  chcemy dawać użytkownikom informację, z czego wynika dotyczące ich ryzyko. Trudnością jest opisanie wniosków w sposób, który będzie zrozumiały dla użytkownika, metody machine learning nie dostarczają nam raportów w takiej postaci. Dlatego używamy różnych tool boxów, które umożliwiają przetłumaczenie efektu analizy big data na jasne rekomendacje.

To jest obszar, którym w PredictWatchu zajmuje się zespół AI/ML. Podobno szukacie nowej osoby na stanowisko data scientist.

Zgadza się, potrzebujemy wsparcia od października, bo wtedy skończy się zbieranie danych w ramach najnowszej edycji Ogólnopolskiego Badania Nałogów. Mamy już ponad 20 tys. użytkowników i chcemy w oparciu o dane, które nam udostępnili stworzyć nowe wersje modeli ryzyka, ale również opracować metodę skutecznego przewidywania – które interwencje będą dla danej osoby najbardziej pomocne.

Technologie są obszarem, który rozwija się szybko i w sposób trudno przewidywalny. Podobnie jest z dziedziną analityki danych. Eksperci uważają, że przyrost informacji jest tak duży, że zaraz będziemy potrzebowali nowych metod, nowych koncepcji i innego podejścia strukturalnego. Jak pan patrzy na przyszłość pracy z danymi?

Zgadzam się z tą oceną. Zarówno w naszym badaniu, jak i w tych, które prowadzą inni naukowcy, widać, że dane spływają tak szybko i w takich ilościach, że ciężko jest je na bieżąco integrować i analizować. Na pewno potrzebujemy ujednolicenia formatów zbierania i przetwarzania różnych danych oraz narzędzi do ich automatycznej lub przynajmniej półautomatycznej metaanalizy.

Ma pan na myśli standaryzację?

Tak, chodzi o standaryzację, a zatem o to, żeby można było bazy danych ze sobą integrować i analizować połączone zbiory za pomocą podobnych metod. Jeśli chodzi o badania neuronaukowe, takie standardy są powoli wypracowywane. Udało się to już zrobić w odniesieniu do badań mózgu z wykorzystaniem rezonansu magentycznego, natomiast w przypadku EEG – dopiero zaczynają powstawać takie formaty. Potrzebujemy nowych metod analizy danych, ale też nowych metod, które po zanalizowaniu będą pozwalały zwrotnie te wyniki zinterpretować i zrozumieć. To jest nadal duży problem – potrafimy za pomocą data science stworzyć prognozy, ale mamy kłopoty z określeniem, z czego zakładany scenariusz wynika. Mamy pięćdziesiąt tysięcy różnych cech, które dają nam jakąś predykcję. Tylko co one oznaczają? Jak je przedstawić zwrotnie użytkownikowi? Jak na ich podstawie zbudować modele zrozumiałe dla człowieka i postawić nowe hipotezy? To pozostaje dużym wyzwaniem w analityce big data.

Udostępnij link

https://www.datasciencerobie.pl/analiza-to-malo-w-digital-therapeutics-musimy-rozumiec-dane/