6 błędów poznawczych w data science

6 błędów poznawczych w data science

Błędy poznawcze są wpisane w zachowania człowieka. To uproszczenia, które pozwalają nam na co dzień oszczędzać czas, nawet jeśli dzieje się to kosztem nieco mniej precyzyjnych rezultatów działań. Warto jednak mieć świadomość, że korzystamy z tego typu skrótów myślowych i bacznie przyglądać się własnym analizom. Opisujemy 6 typów błędów poznawczych, które mogą zaważyć na wynikach analizy, jeśli data scientist straci czujność.

Analiza danych obecnie powszechnie wspiera podejmowanie decyzji i trudno sobie wyobrazić współczesny świat bez tego narzędzia. Jednak błędy poznawcze, pojawiające się na różnych etapach pracy z danymi, mogą wyrządzić sporo szkód, zanim się zorientujemy, że model nie działa według wstępnych założeń. Algorytmy sztucznej inteligencji, o ile bazują na niewłaściwych przesłankach, zachowują się nieprawidłowo i np. dyskryminują część użytkowników. Takie okoliczności mogą wpływać np. na decyzję o przyznaniu kredytu, a nawet na surowość wyroku sądowego. W niektórych stanach USA algorytmy pomagają oceniać ryzyko ponownego popełnienia przestępstwa przez sądzoną osobę.

Efekt potwierdzenia

Dużo łatwiej zauważyć błąd u kogoś innego niż we własnej pracy. Często na tyle mocno przywiązujemy się do własnych przekonań i przewidywań, że łatwo nam przychodzi szukanie dowodów ich poprawności. Pod wpływem efektu potwierdzenia eksperci bez trudu znajdą dane przemawiające na korzyść własnej hipotezy, choćby pomysł nie należał do najtrafniejszych. Z kolei dostrzeżenie i docenienie wagi pozornie niewielkich odchyleń, które mogą doprowadzić do odmiennej interpretacji wyników, przychodzi z ogromnym wysiłkiem. Efekt potwierdzenia powoduje, że niechętnie spoglądamy w kierunku zmiennych, których nie uwzględniliśmy w obliczeniach.

Heurystyka zakotwiczenia i dostosowania

Heurystyka zakotwiczenia i dostosowania to jeden z najpowszechniejszych błędów poznawczych, na które jesteśmy narażeni na co dzień — powszechnie korzysta z niej marketing. Wiąże się z faktem, że bardzo duże znaczenie w ocenie wartości produktu, ma pierwsza informacja, z jaką się zetkniemy. Dlatego, analizując dane, nie powinniśmy przywiązywać się do pierwszej napotkanej korelacji, ponieważ może nas sprowadzić na manowce. Dane powinniśmy oglądać ze wszystkich stron, analizując ich strukturę, możliwe związki i zmienne zależne. Warto być podejrzliwym wobec wyników, które wydają się "za dobre".

Efekt społecznych oczekiwań

Ankiety nie są najbezpieczniejszym sposobem modelowania procesów biznesowych. Wynika to z faktu, że mamy tendencję do przedstawiania siebie w sposób możliwie najbliższy czemuś, co sami uznajemy za normę. Niechętnie przyznajemy się do cech czy działań, które sami uznajemy za nieatrakcyjne. Z tego powodu trzeba brać poprawkę na wyniki ankiet przeprowadzanych np. wśród klientów albo pracowników i sprawdzać je dodatkowo danymi dotyczącymi analizowanych kwestii. Dla przykładu, jeśli klienci sugerują, że dana marka produkuje słabe jakościowo wyroby, a nic takiego nie wynika z liczby zwrotów, reklamacji czy spadku sprzedaży, możliwe, że mamy jedynie do czynienia z powielaniem powszechnego przekonania i nie warto z nim walczyć, tylko przeprowadzić rebranding.

Zasada podczepienia

Kolejne ryzyko błędów w analizie danych dotyczy zasady podczepienia nazywanej też efektem silniejszego. Ludzie mają skłonność do podążania za tłumem w działaniach i osądach, co może prowadzić do powstania krzywdzących i nieprawdziwych, bo opartych na stereotypach, wniosków. Przygotowujący zbiory treningowe dla algorytmów i ci, których dane dotyczą, nie są wolni od sugerowania się postępowaniem większości. A skoro oni, to sztuczna inteligencja i analiza danych tym bardziej. Narzędzia działają jak szkło powiększające — uwydatniają nie tylko fakty, ale też opinie i uprzedzenia. Dlatego dane po zebraniu powinny zostać przeanalizowane pod kątem występowania nieprawdziwych powiązań, które można odrzucić już na wstępnym etapie. Jednak żeby tak się stało, dobrze mieć w zespole osoby o różnych spojrzeniach na przedmiot analizy.

Pułapka przeżywalności

Błędy poznawcze pojawiają się już na etapie przygotowania danych do analizy. Dość łatwo można wpaść w tzw. pułapkę przeżywalności. Jeśli weźmiemy pod uwagę tylko dane dotyczące firm, które odniosły sukces, albo produktów, które dobrze się sprzedają, możemy wysnuć błędne wnioski na podstawie zaobserwowanych korelacji. Klasycznym przykładem takiego błędnego rozumowania była analiza uszkodzeń samolotów, które wracały do baz w czasie II Wojny Światowej. Następnie kolejne maszyny wzmacniano w miejscach, w których zostały trafione przez przeciwnika. Dopiero statystyk i matematyk, Abraham Wald, zwrócił uwagę, że takie działanie jest pozbawione sensu, ponieważ pilotom jednak udało się wrócić pomimo uszkodzeń. Wald przekonywał, że należałoby raczej przyjrzeć się częściom rozbitych samolotów.

Zatrudnij sceptyka, który pokona syndrom myślenia grupowego

Niewielkie zespoły data science są szczególnie narażone na wystąpienie błędów poznawczych. Co gorsza, często nie wystarczy pokazanie raportu koledze zza biurka, aby uniknąć pomyłek. Oczywiście druga para oczu i tak jest lepsza niż brak jakichkolwiek procedur weryfikowania zebranych informacji, jednak i w tym wypadku powinniśmy mieć świadomość ograniczeń. Szczególnym zjawiskiem, które utrudnia trzeźwą ocenę, jest tzw. syndrom myślenia grupowego. Polega na tym, że członkowie zespołów niechętnie krytykują swoich kolegów, ponieważ nie chcą narazić się np. na pogorszenie stosunków albo po prostu zbytnio ufają wiedzy i doświadczeniu osoby, która opracowywała dany raport. To znany problem, który przyczynił się do podjęcia błędnych decyzji przez amerykańskie wojsko w Wietnamie oraz do nieudanej interwencji w Zatoce Świń, której celem było obalenie dyktatury Fidela Castro. Aby uniknąć syndromu myślenia grupowego, warto postawić na zewnętrzny audyt. Dobrze też jest mieć w zespole kogoś, kto odgrywa rolę "adwokata diabła". Będzie mu łatwiej przedstawiać ryzyka i wytykać słabe punkty dotyczące modeli oraz samego procesu zbierania i przetwarzania danych.

Udostępnij link

https://www.datasciencerobie.pl/6-bledow-poznawczych-w-data-science/