Menedżer musi znać narzędzia analityczne, z których korzystają pracownicy

Menedżer musi znać narzędzia analityczne, z których korzystają pracownicy

– Wiele firm ma bałagan w danych. To powoduje, że analitycy poświęcają olbrzymią część swojej pracy na ich porządkowanie, czyszczenie. Później pojawia się frustracja i poczucie niewykorzystania kompetencji data scientistów. To wciąż jest spore wyzwanie w biznesie – uważa dr hab. Piotr Wójcik, profesor na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego, kierownik Data Science Lab.

Dr hab. Piotr Wójcik, prof. UW jest pracownikiem naukowo-dydaktycznym na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Profesor Wójcik to ekspert w obszarze wykorzystania oprogramowania R oraz SAS do przetwarzania danych i zaawansowanego modelowania statystycznego i ekonometrycznego, kierownik i wykonawca licznych projektów naukowych i naukowo-badawczych wykorzystujących ilościowe narzędzia analityczne. Wieloletnie doświadczenie zawodowe analityka ilościowego zdobywał m.in. w branżach finansowej, telekomunikacyjnej i badań marketingowych.

Ma Pan receptę na skuteczne nauczanie data science? Co jest kluczowe w tym zawodzie?

Proces poznawania data science to nic innego jak learning by doing, czyli uczenie się przez praktykę. Nie łudźmy się, że będzie to prosta droga. To olbrzymi wysiłek, wiele godzin spędzonych nad algorytmami i korzystanie z praktycznych przykładów. Konieczne jest łączenie kompetencji analitycznych oraz programistycznych, aby skutecznie wyciągać wnioski z danych. Trzeba też wiedzieć, jak nie dać się wpuścić w pułapki interpretacji.

Równie istotne, szczególnie na początku tej drogi, jest prowadzenie przez doświadczonego tutora – przewodnika, który pozwala ułożyć ścieżkę nauczania. Po nabyciu podstawowych umiejętności pozostaje samodzielny rozwój. Czyli uczenie się nowych, coraz bardziej wyrafinowanych algorytmów, tworzenie projektów, analiz, ale także nauka na własnych błędach.

To oczywiście wymaga unikalnych kompetencji. Modele czy algorytmy, które są stosowane w data science, mają podstawy matematyczne. Mam jednak wrażenie, że wiele osób pracujących w data science nie czuje tego. Z pozoru wydaje im się to czymś prostym, szczególnie jeśli mają doświadczenie jako programiści. W rzeczywistości tak nie jest.

Ważne jest zatem zrozumienie podstaw matematycznych: tego kiedy i jaki model stosować, jaką metodę użyć, do jakiego rodzaju problemu badawczego… Nazwałbym to intuicją badacza. Nie bez powodu ten zawód nazywa się „data scientist”, czyli badacz danych. To nie jest tylko czysta technika. Data science wymaga pewnej ciekawości wobec badanego problemu, umiejętności szukania właściwych odpowiedzi na trudne pytania.

Wiedza, doświadczenie, kompetencje. A z drugiej strony potrzebne są też odpowiednie narzędzia analityczne. Jak dalece są one ważne dla badaczy?

W data science narzędzia analityczne są kluczowe. Dzięki nim stale rośnie popularność tej nauki. Na przykład rozwój języków programowania, takich jak R, SAS czy Python, sprzyja poszerzeniu liczby osób, które je stosują. To rozwiązania niegdyś tworzone przez statystyków i programistów, którzy z ich pomocą prowadzili analizy.

Dziś osoby z jakimś doświadczeniem analitycznym po krótkim przeszkoleniu praktycznym często są przygotowane do skutecznego stosowania tych modeli. Co oczywiście nie znaczy, że nie mogą uzyskać lepszego efektu, jeśli dowiedzą się o nich więcej. Natomiast rozwój narzędzi analitycznych bardzo sprzyjał wzrostowi popularności nowoczesnych metod uczenia maszynowego. Ale też ogólnie data science.

O Pythonie już trochę wiemy, bo to chyba najpopularniejsze narzędzie w branży technologicznej. Czym jest natomiast język R i oprogramowanie SAS na rynku analitycznym? W jakich sytuacjach najlepiej się sprawdzają, a w jakich gorzej?

Języki R i SAS były tworzone przez statystyków. Z tego powodu są relatywnie łatwe do zrozumienia przez osoby, które mają wiedzę statystyczną. Język R jest takim opensource’owym, otwartym środowiskiem programistycznym. Wiele metod statystycznych, które dopiero powstają, w pierwszej kolejności jest implementowanych w R.

Czyli dla Pana jest to kluczowe narzędzie?

Korzystam z języka R dlatego, że mam dosyć szeroki zakres zainteresowań badawczych. To jest właściwie jedyne narzędzie, które daje mi możliwość wykorzystania różnorodnych elementów czy konkretnych modeli statystycznych w analizach przestrzennych, modelowaniu danych w formie tabelarycznej, szeregów czasowych czy danych tekstowych, a także rozwijania własnych narzędzi.

R jest moim ulubionym środowiskiem nie tylko ze względu na łatwość posługiwania się nim w codziennej pracy. Przede wszystkim ten język współtworzy społeczność specjalistów z całego świata. W sposób otwarty dzielimy się funkcjami, jakie tworzymy. To pokazuje, że mamy do czynienia z elastycznym narzędziem, które pozwala łatwo dodawać i tworzyć funkcje, a także programować nowe modele.

Rozumiem, że stosuje Pan te narzędzia analityczne również w Data Science Lab – niezależnej jednostce badawczej przy Uniwersytecie Warszawskim. Jakie projekty realizujecie?

Data Science Lab to taka „nieformalna” grupa badawcza, złożona głównie z moich magistrantów i kilku doktorantów. Mamy dwa główne bloki tematyczne. Pierwszy z nich to analizy regionalne i przestrzenne, gdzie aktualnie prowadzimy badania dotyczące przewidywania poziomu rozwoju polskich województw, gmin i powiatów na podstawie danych satelitarnych o nocnym naświetleniu ziemi czy zdjęć wykonywanych z satelity. Chodzi o kwestię relacji między cechami widocznymi na zdjęciach satelitarnych a poziomem rozwoju konkretnego obszaru i dobrostanem jego mieszkańców.

Drugi obszar to finanse ilościowe. Badaliśmy m.in. treść komunikatów o zmianach stóp procentowych w USA oraz wpływ tych informacji na wyceny akcji, wartość indeksów giełdowych, ceny walut itd. W tej chwili analizujemy z kolei wyceny tzw. tokenów NFT. To niewymienialne, unikatowe cyfrowe dobra oparte na technologii blockchain, których główną cechą są kosmiczne ceny. Analizujemy niewielkie cyfrowe obrazki kolekcjonerskie i sprawdzamy, czy i jak ich cechy wpływają na wartość tych tokenów.

Jakie narzędzia analityczne najczęściej wykorzystujecie?

Na przykład do analizy obrazów korzystamy z Pythona. Jest on również głównym narzędziem, jakie wykorzystujemy w projekcie naukowo-badawczym dotyczącym automatycznego marketingu online i realizowanym w firmie Cube Group. Z kolei w projekcie realizowanym na Wydziale na zlecenie Ministerstwa Finansów, badając nadużycia podatkowe, używam głównie języka R. Osobiście często używam także języka C++ w połączeniu z R, co zapewnia szybkie analizy chociażby przy tworzeniu algorytmicznych strategii inwestycyjnych.

Czy są jakieś obszary, w których R nie jest efektywny?

Żadne narzędzie nie jest doskonałe. Ostatnio bardzo intensywnie rozwijają się algorytmy uczenia głębokiego, sieci neuronowe, zaawansowane analizy tekstu, rozpoznawanie obrazów czy klasyfikacja obiektów na zdjęciu. Zdecydowanym liderem w tym obszarze jest Python.

Zarówno Python, jak i R mają tę wadę, że wykorzystywane dane są ładowane w całości do pamięci, co ogranicza możliwość stosowania ich na bardzo dużych zbiorach. W przeciwieństwie do SAS, w którym dane przechowuje się w formie plików na dysku. Dzięki temu ich rozmiar jest ograniczony tylko limitem przestrzeni dyskowej.

W tym ujęciu chyba każde z tych narzędzi ma swoje zalety i ograniczenia…

Zdecydowanie. Przykładowo R to środowisko statystyczne, więc nie jest łatwo implementować skomplikowane modele w środowisku biznesowym czy produkcyjnym, gdzie modele mają działać na danych w czasie rzeczywistym. W tej chwili pracuję m.in. przy wspomnianym wcześniej projekcie z obszaru marketing automation. Wykorzystujemy gromadzone w czasie rzeczywistym dane online, na które model powinien natychmiast reagować. To wymaga narzędzi, które taką implementację w środowisku produkcyjnym łatwo umożliwiają. I pod tym kątem najlepsze wydają się właśnie Python lub C++.

Czy dobrze rozumiem, że w zależności od branży konieczny jest inny zestaw narzędzi data science?

Przede wszystkim mamy do czynienia z różną specyfiką danych. Na przykład w bankowości operujemy na danych indywidualnych klientów i mamy pewną historyczną wiedzę na temat ich zachowania. To są dane przekrojowe, często abstrahujemy od wymiaru czasowego, po prostu patrzymy na każdego klienta jako jednostkę, analizując dane i starając się przewidzieć jego zachowania na przyszłość. W tym przypadku stosujemy modele, które nie mają wymiaru czasu, lecz analizują dane tylko w kontekście przekrojowym.

Z kolei w branży finansowej patrzymy np. na ceny akcji albo ceny instrumentów finansowych z perspektywy czasu – codziennie, co godzinę, co sekundę. Mamy inny rodzaj danych, które mają swoją sekwencję, są mierzone w kolejnych jednostkach czasu i do analizy takich danych musimy zastosować inne narzędzia analityczne.

W mojej grupie badawczej wspólnie ze studentami prowadzimy jeszcze inny wymiar analiz, który dotyczy danych i relacji przestrzennych. Jest to pomocne np. wtedy, gdy wyceniamy nieruchomości. Tam ważną rolę odgrywa chociażby lokalizacja. Analizujemy szereg cech, takich jak odległość od przystanku autobusowego, linii kolejowej, centrum miasta, ale również cechy nieruchomości sąsiadujących. W takich modelach należy wykorzystać tzw. efekty przestrzenne.

Wspomniał Pan o biznesie i rozwiązaniach tam tworzonych. Narzędzia analityczne w data science – wyłącznie dla specjalisty czy także np. dla menedżera?

Od kilkunastu lat prowadzę studia podyplomowe. Najpierw były to „Metody statystyczne w biznesie z wykorzystaniem pakietu SAS”, a od kilku lat mamy studia podyplomowe „Data science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R”, gdzie uczymy np. tego, jak używać języka R w biznesie. I muszę powiedzieć, że od samego początku zawsze uczestniczy w nich grupa menedżerów – osób, które zajmują stanowiska kierownicze, choć niekoniecznie w analityce.

Z czego wynika ta potrzeba wiedzy? Rozwój osobisty, chęć poznania materii, z jaką się będą stykać podczas procesu decyzyjnego?

Przede wszystkim jest to ciekawość. Narzędzia analityczne w data science rozwijają się w ostatnich latach bardzo szybko. Jeszcze 20 lat temu ludzie używali zwykłych modeli regresji liniowej czy regresji logistycznej, ewentualnie drzew decyzyjnych. Była to wiedza niemal tajemna, dla ograniczonej grupy osób – wysokiej klasy specjalistów, matematyków, statystyków. Dziś menedżerowie mogą śmiało pozyskać tę wiedzę na niemal każdym poziomie, bo jest to konieczne do realizacji projektów.

Poza tym szefowie i kierownicy chcą zrozumieć, jakie rozwiązania mogą zastosować w swoich firmach, zanim to wdrożą na „żywym organizmie”. Muszą też wiedzieć, jakiego rodzaju kompetencji poszukiwać u swoich pracowników, żeby potrafili potem z innowacyjnych narzędzi korzystać. Ważne jest to, aby osoba na kierowniczym stanowisku rozumiała, co robią jej pracownicy.

I na koniec chyba najważniejsze – menedżer stawia pytania biznesowe i warto, aby te pytania były stawiane w takiej formie, aby udało się skutecznie na nie odpowiedzieć za pomocą narzędzi analitycznych. Dobry menedżer umie planować pracę swojego zespołu. Jak to zrobić bez wiedzy o narzędziach, z który zespół korzysta? Po prostu się nie da.

Czyli zarządzający mimowolnie stają się po części specjalistami od danych. A może już wchodzą w buty data scientista?

Znam przypadki osób, które długo pracowały na stanowiskach kierowniczych, lecz na fali zainteresowania narzędziami data science stwierdziły, że chcą zmienić stanowisko. Tak bardzo fascynujący okazał się dla nich ten obszar, mimo że wymaga sporego wysiłku i nadal ma wysoką barierę wejścia. Znam kilku kierowników projektów w IT, którzy po studiach podyplomowych z data science na WNE UW zmienili pracę i zajęli się analityką. I są bardzo zadowoleni z tej zmiany.

Rozwijające się nowoczesne narzędzia analityczne to też wyzwania. Z czym borykają się firmy?

Z mojego doświadczenia biznesowego wynika, że wielu firmom – choć zabrzmi to gorzko – brakuje porządku w danych. Clive Humby stwierdził, że „dane to nowa ropa naftowa”. A zatem dane nieprzetworzone są bezużyteczne. Jeśli danych nie uporządkujemy, nie wyczyścimy, nie przetworzymy danych tekstowych czy obrazów na postać zrozumiałą dla algorytmów, nie będzie z nich pożytku. Umiejętność przygotowania danych daje dużą przewagę.

Bałagan w danych powoduje, że analitycy poświęcają olbrzymią część swojej pracy na ich porządkowanie, czyszczenie. Jeśli firma dopuszcza dowolność formy, w jakiej dane są jej przekazywane czy gromadzone, wiąże się to z ogromnym nakładem pracy analityka. To z kolei budzi frustrację i powoduje, że firmy nie wykorzystują w pełni kompetencji data scientistów. To nadal jest sporym wyzwaniem w biznesie.

W jakim stopniu stosowane narzędzia analityczne mają wpływ na decyzje, także te błędne?

Jest takie powiedzenie statystyków: „śmieci na wejściu to śmieci na wyjściu” (ang. garbage in, garbage out). Jeśli dane są nieprzygotowane, nieprzetworzone do właściwej postaci lub jeśli w tych danych jest bałagan, to z modelu i tak wychodzi jakiś wniosek. Pytanie, czy będzie to wniosek sensowny? Skoro na tej podstawie podjęliśmy decyzję, to może być nietrafiona i prowadzić np. do strat finansowych lub wizerunkowych.

Zatem głównym zagrożeniem jest zła jakość danych, nieumiejętność ich właściwego przygotowania, ale też ich niereprezentatywność. Jeśli mamy dane, w których pewne jednostki są nadreprezentowane albo niedostatecznie reprezentowane, to może prowadzić do tzw. dyskryminacji algorytmicznej.

Jest jeszcze kwesta zaufania.

Dlatego pojawiają się obawy związane z oddaniem wnioskowania maszynom, ponieważ nie zawsze wiadomo, w jaki sposób algorytmy wnioskują. Mówię tu o tzw. czarnych skrzynkach (ang. black boxes). Na szczęście badacze już pracują nad rozwiązaniami z obszaru wytłumaczalnej sztucznej inteligencji, które pozwalają rozwiewać te wątpliwości i tłumaczą krok po kroku działanie algorytmu.

Dużym zagrożeniem jest również zbytnie zaufanie ludzi do sztucznej inteligencji. Jeśli opieramy modele na coraz większych zasobach danych, to algorytmy „wiedzą” o nas coraz więcej. Mówię tu o kwestii utraty prywatności, inwigilacji, ale także o zagrożeniu wycieku takich danych.

Nie bagatelizowałbym też kwestii wykluczenia cyfrowego. Jeżeli warunkiem uzyskania zniżki przy ubezpieczeniu mieszkania albo samochodu jest zarejestrowanie się poprzez stronę internetową, aplikację albo podanie numeru telefonu, to osoby, które takich narzędzi nie mają albo nie chcą z nich korzystać w tym konkretnym przypadku, są z tego powodu wykluczone cyfrowo.

Sporo tych zagrożeń. Jak zatem Pan widzi przyszłość analityki danych?

Oczywiście nie jestem wróżką i trudno mi ocenić, jak będzie wyglądała przyszłość. Jednak bardzo się obawiam tego, co nazywamy Internetem Rzeczy (ang. Internet of Things). Do tego dążą główni gracze na rynku technologicznym. Chcą, aby wszystko było podłączone do Internetu, tak żeby o wszystkim co się dzieje zbierać dane i je analizować. To jest wizja, która trochę mnie przeraża. Mówiąc szczerze, nie chciałbym być zmuszonym żyć w rzeczywistości, w której np. moja koszula informuje mnie, że już powinna trafić do prania, a lodówka sama zamawia produkty spożywcze. W kontekście masowego zbierania danych (również wrażliwych) bardzo ważnym wyzwaniem będzie zadbanie o etyczność tych rozwiązań.

Gdzie bylibyśmy dziś bez analizy danych?

Nie wyobrażam sobie, abyśmy mogli wrócić do czasów sprzed analizy danych, bez dostępu do narzędzi analitycznych. Dziś to jest porównywalne z powrotem niemalże do ery kamienia łupanego. Z drugiej strony, firmy nadal mają spory potencjał do wykorzystania.

Wiele organizacji ma świadomość istnienia tych skomplikowanych algorytmów nowoczesnej analizy danych, jednak wbrew pozorom używa ich w bardzo ograniczony sposób. Potrafimy analizować dane zgromadzone w postaci tabelarycznej. Ale myślę, że olbrzymia przyszłość jest przed analizą danych nieustrukturyzowanych – tekstu, obrazów, nagrań audio i wideo. Tu jest nadal ogromne pole do rozwoju. Algorytmy, które działają na takich danych, wciąż są dalekie od doskonałości.

Warto też z drugiej strony zastanowić się nad kwestią zrównoważonego rozwoju i zadać sobie pytanie: czy warto stosować złożone obliczeniowo narzędzia analityczne, skoro wiemy, że powodują olbrzymie obciążenie tysięcy serwerów na całym świecie i generują efekt cieplarniany, zamiast poszukiwania rozwiązań minimalizujących te negatywne skutki?

Czego by Pan sobie życzył od analizy danych w przyszłości?

Wciąż jest wiele nieodkrytych pól, gdzie można z powodzeniem stosować algorytmy. Takim obszarem jest choćby kwestia automatycznej syntetyzacji tekstu. Aktualnie mamy zalew olbrzymiej ilości informacji w formie tekstowej lub zapisanych w formie audio, lecz nie jesteśmy w stanie ich odpowiednio przetworzyć. Algorytmy, które będą w stanie z dużego tekstu lub nagrania zrobić krótki, lecz sensowny abstrakt – a nie zlepek przypadkowych słów – będą prawdziwym przełomem. To bym zobaczył z wielką ciekawością.

Udostępnij link

https://www.datasciencerobie.pl/menedzer-musi-znac-narzedzia-analityczne-z-ktorych-korzystaja-pracownicy/