Zero waste i recykling zasobów, czyli czas na zielone modele uczenia maszynowego

Zero waste i recykling zasobów, czyli czas na zielone modele uczenia maszynowego

– Modele uczenia maszynowego w koncepcji zero waste mają szczególny potencjał w branży medycznej czy w samochodach autonomicznych. Jesteśmy pionierami, pokazujemy, na co należy zwracać uwagę przy ich rozwoju. Biznesowa wartość takich działań jest jak najbardziej realna. Mniejsze firmy nie mogą sobie pozwolić na zużywanie ogromnych mocy obliczeniowych, jak te niezbędne do działania ChatGPT czy innych zadań, w związku z tym naszymi badaniami nad zwiększaniem efektywności demokratyzujemy dostęp do uczenia maszynowego – prof. Tomasz Trzciński z IDEAS NCBR mówi o pracach swojej grupy badawczej i ich potencjale aplikacyjnym.

Dr hab. inż. Tomasz Trzciński, prof. PW kieruje pracami zespołu zajmującego się widzeniem maszynowym CVLab na Politechnice Warszawskiej. Jest liderem grupy badawczej „Uczenie maszynowe zero-waste w wizji komputerowej” w ośrodku badawczo-rozwojowym IDEAS NCBR.

Zero waste kojarzy się bardziej z ekologią niż z computer vision. Na czym polega ta koncepcja w przypadku modeli uczenia maszynowego?

Koncepcja zero waste, z perspektywy grupy badawczej w IDEAS NCBR, którą kieruję, polega na tworzeniu modeli, które przede wszystkim powinny być wydajne i wykorzystywać zasoby i obliczenia w taki sposób, aby minimalizować marnotrawstwo energii, operacji.

Jakiś przykład?

Wyobraźmy sobie, że jesteśmy w środku lasu i przy pomocy kamery w telefonie chcemy rozpoznawać obiekty wokół nas. Rozwijane przez naukowców i inżynierów modele składają się często z miliardów parametrów, jednak możemy przyjąć, że w lesie nie ma sensu wykorzystywać części modelu, która odpowiedzialna jest za analizę wysokich wieżowców czy zwierząt na Antarktydzie. Potrzebny jest nam tylko fragment, dotyczący konkretnego kontekstu, w którym się znajdujemy. Tylko część modelu odpowiedzialna za ten fragment powinna być aktywowana, a co za tym idzie cała operacja powinna zużywać mniej energii. Wtedy możemy mówić o podejściu zero waste. Podobnie działa ludzki mózg. Pewne jego fragmenty są aktywowane do konkretnych czynności, tak aby nie korzystać z pełni jego zakresu do prostych, konkretnych zadań.

Jak powinien zatem działać model uczenia maszynowego, jaki jest cel waszych badań?

Modele uczenia maszynowego w koncepcji zero waste mają szczególny potencjał dla widzenia komputerowego (computer vision). Przykładem może być branża medyczna, kiedy roboty wykorzystywane są przy operacjach. Im wydajniejszy będzie algorytm, tym krótszy będzie czas reakcji robota w trakcie zabiegu, a dzięki temu poprawi się bezpieczeństwo pacjenta i komfort chirurga. Podobnie w przypadku samochodów autonomicznych – kiedy czas analizy danych i reakcji jest zbyt długi, pojazdy takie mogą być niebezpieczne. Poza tym, chcemy, by modele wykorzystywały obliczenia wykonane w poprzednich etapach przetwarzania danych i wiedzę zdobytą podczas wcześniejszych epizodów uczenia, jeśli chodzi o modele uczone w trybie ciągłym. Krótko mówiąc, chodzi o recykling obliczeniowy.

Jak długo trwa projekt?

Badania dotyczące tej tematyki prowadzone są już 1,5 roku. Rozpoczęły się we wrześniu 2022, natomiast sama grupa badawcza zaczęła funkcjonować w pełnym składzie na początku 2023 roku. Dziś w grupie pracuje kilkadziesiąt osób.

Aktualnie w grupie badawczej realizujemy trzy ścieżki. Pierwsza z nich to wspomniana akumulacja wiedzy, czyli badania nad ciągłym uczeniem. Projektem kieruje Bartłomiej Twardowski. Drugi z zespołów zajmuje się wykorzystaniem modeli modularnych, czyli warunkowania, aby nie wykorzystywać całych modeli do pewnych zadań, ale tylko ich fragmentów. I jest jeszcze trzeci zespół, prowadzony przez Bartosza Zielińskiego, profesora Uniwersytetu Jagiellońskiego. Jego zadania związane są z zastosowaniem wypracowanych przez nas ścieżek w konkretnych urządzeniach - robotach, dronach czy platformach o ograniczonej mocy obliczeniowej.

Przy IDEAS NCBR powstał również ELLIS Unit Warsaw — pierwsza jednostka w Polsce będąca częścią ELLIS — europejskiej sieci badawczej promującej doskonałość naukową. Dzięki członkostwu w tej organizacji możemy tworzyć innowacje na poziomie międzynarodowym, być aktywną częścią europejskiego ekosystemu AI. Jednym z projektów, które w zakresie sieci realizujemy w ramach dużego konsorcjum, jest projekt ELIAS. Grant w wysokości 13 mln euro przeznaczony jest na rozwój sustainable AI.

Recykling zasobów brzmi bardzo ciekawie, ale może wystarczyłaby kompresja?

Kompresja to metoda, z którą wiążą się różnego rodzaju ograniczenia odzyskiwanej jakości. Możemy skompresować pełen model, który jest bardziej precyzyjny, zakładając, że wystarczy nam przybliżona odpowiedź. Jednak w naszej grupie badawczej staramy się unikać takiego podejścia. Skupiamy się na tym, aby zmaksymalizować zasoby, skorzystać jak najlepiej z tego, co już jest dostępne.

Recykling pozwala zatem na lepsze wykorzystanie zasobów niż kompresja?

Zdecydowanie tak, ale nie tylko utrata jakości jest problemem. Weźmy pod uwagę akumulację wiedzy w modelach. Aktualnie trenowane modele uczenia maszynowego, w szczególności sieci neuronowe, zapominają, czego zostały nauczone w poprzedniej iteracji, treningu, kiedy uczy się je na jednym zbiorze danych i przechodzi do kolejnego. To jest pewnego rodzaju strata, która nie wynika z tego, że chcieliśmy skompresować ten model, tylko jest to problem fundamentalny, dotyczący tego, jak trenujemy sieci neuronowe.

Dużo bardziej efektywne, zgodne z duchem idei zero waste byłoby budowanie na bazie wcześniejszego modelu i akumulacja wiedzy, czyli kolejnych danych w przypadku zmieniającego się zbioru danych, czy kolejnych zadań, do których staramy się dany model dostosować.

Poproszę o przykłady takiego recyklingu.

Kiedy uczymy się języków romańskich i powiedzmy na początek uczymy się francuskiego, a później włoskiego, a następnie hiszpańskiego, ze względu na podobieństwa w strukturze tych języków jesteśmy w stanie lepiej i szybciej nauczyć się np. języka włoskiego znając język francuski, niż gdybyśmy zaczynali od zera. Nie kompresujemy wiedzy, którą mamy, nie ograniczamy słownictwa, którym jesteśmy w stanie się posługiwać, w języku włoskim, hiszpańskim i francuskim, tylko wykorzystujemy wspólne elementy. Budujemy na bazie tego, co już wcześniej zostało wyliczone, wytrenowane, po to, aby ten recykling zachodził jak najskuteczniej.

Inny przykład pochodzi z opublikowanego przez nas zeszłorocznego artykułu na jednej z najważniejszych konferencji w obszarze informatyki – IJCAI. Jest to metoda aktywnej wizualnej eksploracji. Poprzez nią chcemy najbardziej wydajnie przeanalizować wysokiej jakości, wysokiej rozdzielczości obraz np. z kamery 360 stopni znajdującej się w robocie. Można to robić, analizując cały obraz, ale dużo wydajniejszym podejściem jest analizowanie mniejszych jego fragmentów, jeden po drugim.

W wyniku badań okazało się, że wykorzystując modele, które mają wewnętrzny wskaźnik, swoisty kompas - jak po kolei przemieszczać się po fragmentach obrazu, żeby jakość uzyskiwanych rezultatów na koniec była najwyższa - jesteśmy w stanie wykorzystać to, co w tym modelu wewnętrznie już jest.

Nie musimy tworzyć dodatkowych modułów, tylko bierzemy to czym dysponujemy i zastanawiamy się, czym taki model już dysponuje, jaką ma wiedzę, jaką ma możliwość, żeby nam pomóc zminimalizować energię potrzebną do jego obliczeń.

Jakie są wyzwania przy takim recyklingu zasobów?

Analiza tego, czy nasz proponowany model rzeczywiście jest wydajny, czyli, czy w jakiejś mierze ponownie wykorzystujemy dostępną wiedzę, jest częściowo zależna od kontekstu zadań, do których go trenujemy. Najbardziej ogólnym, wspólnym mianownikiem, jest sprawdzenie ilości operacji, którą musimy wykonać, żeby dojść do danego celu z jakimś określonym prawdopodobieństwem.

Do tego zapewne potrzebne są narzędzia, aby mierzyć taką efektywność. Z jakich korzystacie w swojej pracy badawczej?

Z reguły korzystamy z dostępnych bibliotek, w Pythonie lub w innych językach programowania, które tego typu liczby podają. Biblioteki te pozwalają na zmierzenie liczby FLOPów, czyli operacji wykonywanych przez procesory. Liczbę FLOPów możemy odnieść do energii, która jest potrzebna, aby te operacje wykonać. Ta energia mierzona jest już w postaci pobranych w jednostce czasu watów, czyli kilowatogodzin czy megawatogodzin.

A ile takiej energii potrzeba, ile da się zaoszczędzić?

Żeby zilustrować skalę zapotrzebowania energetycznego, możemy posłużyć się następującym przykładem. Nasz mózg wykorzystuje 600 watogodzin dziennie do tego, żeby funkcjonować, analizować rzeczy wokół nas, uczyć się, pracować. Natomiast trening GPT-3, który jest wcześniejszą iteracją, niż te, które są wykorzystywane dziś w ChatGPT, to był koszt energetyczny rzędu 1300 megawatogodzin. Taką w przybliżeniu ilość energii zużywa 680 4-osobowych gospodarstw domowych w ciągu jednego roku. Może wydawać się, że to stosunkowo niewiele, ale przy obecnej skali inwestycji w AI zużycie energii na trenowanie nowych modeli będzie rosło na całym świecie w ogromnym tempie.

Jaki jest teraz Wasz cel?

Metodologia polega na tym, aby ocenić, ile operacji, ile tych flopów, ile w końcu energii jest potrzebne do wykonania odpowiednich działań. Z jednej strony jest to kwestia energetyczna, natomiast mamy specyficzne metryki dotyczące recyklingu. Zaproponowaliśmy choćby metrykę badającą – jeśli wykorzystalibyśmy jakąś część tego modelu, to w jakim stopniu jesteśmy w stanie uzyskać odpowiedź o wystarczającej precyzji. Innymi słowy - jaki procent modelu wykorzystujemy w stosunku do całego modelu, by uzyskać wystarczający rezultat.

Zero waste i recykling kojarzy się jednak też z ekologicznym podejściem. Jak te badania mogą wpłynąć zarówno na biznes, jak i na postrzeganie budowy modeli uczenia maszynowego?

Nasza motywacja jest dwojaka, ale jak najbardziej zielona, ekologiczna. Po pierwsze, to kwestia kosztów, które przy aktualnym zapotrzebowaniu na moc obliczeniową, możemy zaobserwować w analizie pieniędzy przeznaczanych na startupy działające w generatywnej sztucznej inteligencji. Proszę sobie wyobrazić, że mniej więcej na każdego dolara, który zostaje wydany, aby sfinansować startup, ok. 50-60 centów de facto idzie na infrastrukturę. Efekt? Znacząca część inwestycji w startupy przekłada się na pokrycie kosztów obliczeń. Gdybyśmy mogli te pieniądze przeznaczyć nie na samą infrastrukturę, ale tworzenie lepszych modeli, bardziej etycznych, interpretowalnych, bliższych człowiekowi, to posunęlibyśmy się dużo dalej w rozwoju sztucznej inteligencji.

Druga motywacja wynika wprost z tego, z czym mamy do czynienia w Polsce, a mianowicie ok. 70 proc. energii jest wytwarzanych ze źródeł nieodnawialnych, w szczególności z węgla. Zatem gdybyśmy w Polsce potrzebowali tych 1300 megawatogodzin do wytrenowania GPT-3, to 70 proc. tej liczby pochodziłoby ze spalania węgla. Oznacza to zarówno duże obciążenie infrastruktury, jak i koszty środowiskowe.

A czy jest możliwość, aby modele, które badacie, w przyszłości samodoskonaliły się pod względem oszczędności, recyklingu tych zasobów?

Moim zdaniem to bardzo mocne wyjście w przyszłość i myślenie już o generalnej sztucznej inteligencji. Na dziś takie modele same z siebie raczej nie są w stanie się samodoskonalić pod tym względem. Zgodnie z tzw. scaling law, a więc prawem sugerującym, że wraz z większą ilością danych modele stają się coraz lepsze, modele te są coraz bardziej zasobożerne. Ich jakość natomiast, w szczególności w świecie przemysłowym i akademickim, jest oceniana na podstawie jakości uzyskiwanych rezultatów, a nie na podstawie wydajności energetycznej. W świecie modeli uczenia maszynowego jesteśmy na etapie poprawiania jakości rezultatów, bez względu na zasoby, które musimy w tym celu wykorzystać. Dlatego tak ważne jest wykorzystanie wszystkich zasobów i ich recykling.

A czy możemy dziś mówić już o jakichś modelach uczenia maszynowego, które są zielone, energooszczędne?

Modeli odgórnie klasyfikowanych jako modele uczenia maszynowego zero waste raczej jeszcze nie ma. Co ważne, nie ma też żadnej agencji, która by nadawała np. zielone certyfikaty modelom spełniającym określone parametry. Jednak pojawiają się już modele, które są skrojone specyficznie pod pewne aplikacje, np. w robotyce, w dronach, przy tworzeniu mobilnych platform. Te urządzenia wymagają oszczędności energii, w celu skuteczniejszego i dłuższego działania, stąd można tu mówić o modelach ukierunkowanych na zero waste.

Proszę też zauważyć, że największe koncerny zaczynają już spoglądać nieco inaczej na wykorzystanie energii. Gemini, najnowszy model od Google, został udostępniony w kilku wersjach, w wersji wydajniejszej obliczeniowo, standardowej oraz takiej bez żadnych ograniczeń. Moim zdaniem zaczyna się trend dostosowywania modeli do tych końcowych aplikacji, choć finalnej taksonomii, który model jest, a który nie jest zero waste, na razie nie ma.

Z tego wynika, że Wasze badania są niezwykle innowacyjne?

Wydaje mi się, że jesteśmy w tej kwestii pionierami i nadajemy kierunek, pokazujemy, na co należy zwracać uwagę przy rozwoju modeli uczenia maszynowego. Biznesowa wartość takich działań jest jak najbardziej realna. Mniejsze firmy nie mogą sobie pozwolić na zużywanie tak dużych mocy obliczeniowych dla konkretnych zadań, w związku z tym naszymi badaniami nad zwiększaniem efektywności demokratyzujemy dostęp do uczenia maszynowego.

https://ideas-ncbr.pl/badania/zero-waste-machine-learning-in-computer-vision/

Udostępnij link

https://www.datasciencerobie.pl/zero-waste-i-recykling-zasobow-czyli-czas-na-zielone-modele-uczenia-maszynowego/