Boty i wirtualni moderatorzy będą zapobiegać cyberprzemocy
— Od kilku lat rozwijamy dziedzinę AI, która nazywa się sztuczną inteligencją neuro-symboliczną. Łączymy uczenie maszynowe z przetwarzaniem symbolicznym, opartym o wnioskowanie. To pozwala na maksymalizację precyzji detekcji. Chodzi o to, żeby AI popełniała możliwie niewiele błędów. Jeśli chcemy naprawdę zapobiegać szkodliwym zjawiskom w sieci, system musi działać autonomicznie, podejmować samodzielne decyzje o tym, czy zablokować rozmowę, czy wysłać interwencję w czasie rzeczywistym – opowiadają współtwórcy Samurai Labs, Gniewosz Leliwa i Patrycja Tempska.
Patrycja Tempska - impact co-founder Samurai Labs. Prowadzi badania nad metodami zapobiegania przemocy w internecie. Wraz z platformą pomocowo-edukacyjną Życie Warte jest Rozmowy tworzą projekt o nazwie One life, w ramach którego docierają do osób w kryzysie wykorzystując algorytmy neurosymboliczne, analizujące setki milionów konwersacji online. Współautorka patentu i publikacji naukowych z obszaru sztucznej inteligencji i nauk społecznych, z wykształcenia filozofka. Ujęta w zestawieniu Top 100 Women in AI w 2022 roku.
Gniewosz Leliwa - CTO i współzałożyciel Samurai Labs. Współtwórca rozwiązań AI chroniących przed cyberprzemocą miliony użytkowników internetu na całym świecie. Z wykształcenia fizyk teoretyk zajmujący się kwantową teorią pola, który porzucił doktorat na rzecz pracy nad sztuczną inteligencją. Autor wielu patentów i publikacji naukowych z obszaru neuro-symbolicznej AI oraz jej zastosowania w wykrywaniu i przeciwdziałaniu takim zjawiskom jak cybernękanie, ideacje samobójcze czy child grooming. Współzałożyciel Fido.AI i współtwórca technologii rozumienia języka naturalnego wyróżnionej w rankingu TOP 100 AI przez CB Insights oraz Gartner’s Cool Vendor.
Czym zajmuje się Samurai Labs?
Patrycja Tempska: Naszą misją jest dbanie o dobrostan społeczności online poprzez wykrywanie i zapobieganie różnym niebezpiecznym zjawiskom w internecie. Mam tu na myśli zarówno cybernękanie, ataki personalne na tle rasistowskim, seksualnym, szantaże, czy groźby. W ostatnim czasie zajmujemy się też wykrywaniem intencji, myśli, czy deklaracji samobójczych. Docieramy do osób w kryzysie suicydalnym oferując im wspierającą interwencję, która zawiera odpowiednie materiały samopomocowe i miejsca, do których mogą się zwrócić o pomoc. System współtworzymy w ścisłej współpracy z zespołem ekspertów - suicydologów z platformy pomocowo-edukacyjnej „Życie warte jest rozmowy”. Są to osoby, które specjalizują się w badaniach nad zachowaniami samobójczymi, wspierają osoby w kryzysie, a także na co dzień pracują w obszarze ich profilaktyki.
W kontekście cyberprzemocy, kiedy ta pojawi się w danej społeczności, w zależności od zasad w niej panujących i szkodliwości zjawiska możemy wykonać różne akcje. W niektórych przypadkach pisemne komunikaty są blokowane, zanim dotrą do odbiorcy i wydarzy się potencjalna krzywda. W innych może być wysłana interwencja, która ma na celu pozytywne modelowanie dyskusji w sieci. Takie komunikaty projektujemy w oparciu o nauki społeczne, psychologię i filozofię. Wszelkie te działania dążą do edukacji użytkowników i promowania pożądanych norm komunikacji. Jak pokazują nasze badania, skutkują obniżoną ilością ataków w ramach danych społeczności online.
Na podstawie jakich danych wykrywacie takie zjawiska?
Gniewosz Leliwa: W zasadzie w grę wchodzi każda komunikacja tekstowa. Jeśli mówimy o Discordzie, czatach czy grach online, to analizujemy krótkie wiadomości tekstowe, jakie użytkownicy wymieniają między sobą. W przypadku forów i serwisów takich jak Reddit, analizie podlegają dłuższe formy wypowiedzi, ale też komentarze na tych forach. Z kolei na Twitchu system przetwarza wiadomości z czatu podczas streamingu. Możemy również dokonywać transkrypcji z plików audio i wideo, ale przede wszystkim skupiamy się na analizie i przetwarzaniu języka naturalnego w tekście.
Porozmawiajmy o technologiach. Z jakich rozwiązań korzystacie do wykrywania przemocy w sieci?
GL: Od kilku lat rozwijamy dziedzinę SI, która nazywa się sztuczną inteligencją neuro-symboliczną (ang. neuro-symbolic AI – przyp. red.). Łączymy uczenie maszynowe z przetwarzaniem symbolicznym, opartym o wnioskowanie. To pozwala na maksymalizację precyzji detekcji. Chodzi o to, żeby SI popełniała możliwie niewiele błędów. Warto zauważyć, że jeśli chcemy naprawdę zapobiegać szkodliwym zjawiskom w sieci, system musi działać autonomicznie, podejmować samodzielne decyzje o tym, czy zablokować rozmowę, czy wysłać interwencję w czasie rzeczywistym.
W naszym podejściu system symboliczny trzyma pod kontrolą komponenty oparte o uczenie maszynowe. W ten sposób machine learning lepiej “rozumie” język, a wnioskowanie symboliczne powstrzymuje komponenty statystyczne przed popełnianiem typowych dla nich błędów. Na przykład, zbytnio wyczulony na wulgaryzmy model mógłby zacząć je wykrywać jako mowę nienawiści czy ataki personalne.
A co, jeśli nie będzie precyzyjny?
GL: W przeciwnym razie będzie reagował na to, na co nie powinien. Wystarczy, że ktoś użyje wulgarnego słowa, ale nie po to, aby kogoś obrazić, tylko żeby podkreślić emocje. Takie interwencje, monity czy blokady mogłoby się spotkać z brakiem akceptacji po stronie społeczności wśród których działamy. Jak ochroniarz w klubie, który wyrzuca normalnie bawiące się osoby.
Ile osób pracuje w Waszym zespole?
GL: Przy tworzeniu i wdrażaniu modeli pracuje ponad 20 osób. Praca ta realizowana jest przez trzy zespoły inżynierów. Pierwszy to zespół produktowy, który “opakowuje” wszystkie tworzone przez nas modele w API, buduje systemy do konfiguracji, panele analityczne i kolejki moderacyjne. Drugi i trzeci to zespoły AI, jeden bardziej nastawiony na tę część symboliczną i wnioskującą, a drugi na uczenie maszynowe.
Jak wygląda praca z danymi w Samurai Labs?
GL: Tak jak wspominałem, dane wsadowe to przede wszystkim rzeczywiste rozmowy uczestników wszelkiego rodzaju czatów, forów czy innych społeczności internetowych. Korzystamy z otwartych źródeł takich jak Reddit, ale jeśli możemy wykorzystywać dane partnerów czy klientów, to oczywiście też to robimy. Wszystkie zebrane dane są przekazywane do anotacji, gdzie specjalnie przeszkolone osoby, anotatorzy oznaczają, w dedykowanym narzędziu i zgodnie z przygotowaną wcześniej instrukcją, fragmenty wypowiedzi zawierające poszukiwane przez model zjawiska. Np. ataki personalne lub myśli samobójcze.
Zbudowaliśmy własny zespół ponad 20 anotatorów, których staramy się rekrutować spośród osób z doświadczeniem w psychologii i pedagogice, ale zwracamy też uwagę na zróżnicowanie geograficzne (część zespołu pochodzi z Ameryki Południowej – przyp. red.) oraz znajomość danej tematyki. Np. staramy się, aby treści z gier online anotowali gracze. Cały framework anotacyjny wypracowaliśmy sami. Na początku naszej drogi próbowaliśmy wykorzystywać dostępne zbiory danych, ale bardzo szybko okazywało się, że niestety nie są tak dobrej jakości, jakiej potrzebujemy.
Wykorzystujemy też sztuczną inteligencję w samym procesie anotacji. Stworzyliśmy tzw. wirtualnego anotatora, specjalny model AI, którego decyzje zestawiamy z ludzkimi anotatorami. Jesteśmy wtedy w stanie wychwycić nawet niewielkie różnice i poddać takie przykłady ponownej anotacji.
Jak wygląda trenowanie takich modeli AI?
GL: Kiedy startujemy z nowym projektem tworzymy instrukcję anotacji danych we współpracy z ekspertami z danej dziedziny, np. suicydologii oraz zespołem zajmującym się sztuczną inteligencją. Instrukcja jest później wielokrotnie aktualizowana, żeby wychwycić i uwzględnić wszystkie niuanse. Następnie zaczyna się proces anotacji danych i trenowania pierwszych modeli, które mają nam pomagać w doborze przypadków do kolejnych rund anotacji.
Każdą anotację wykonujemy co najmniej w modelu 3+1. Oznacza to, że trzech niezależnych anotatorów ocenia każdą wiadomość, następnie “superanotator” podejmuje ostateczną decyzję w przypadkach dyskusyjnych. Kiedy pojawia się problem, który powinien być uwzględniony w instrukcji, zostaje ona zaktualizowana. Bardzo dużą wagę przykładamy do jakości danych, bo jak wiemy — model uczenia maszynowego jest tak dobry, jak dane, na których został wyuczony.
Oznaczone dane trafiają do obu zespołów AI i rozpoczyna się praca nad docelowymi modelami.
Z jakich narzędzi korzystacie?
GL: Jeśli chodzi o system symboliczny i jego sprzężenie z uczeniem maszynowym, to jest to nasze autorskie podejście i rozwiązanie. Zbudowaliśmy własny framework i mamy swoje patenty w tym zakresie.
Jeśli chodzi o samo uczenie maszynowe to oczywiście transformery i duże modele językowe (LLM). Korzystamy przede wszystkim z bibliotek Transformers (Hugging Face), Torch, Sklearn. Do kwantyzacji modeli sieci neuronowych używamy ONNX, do logowania eksperymentów - MLFlow, a do automatyzacji procesów - DVC. Naszym środowiskiem do uruchamiania eksperymentów jest SageMaker, a do prototypowania używamy Jupyter Notebook.
Jak wygląda użycie modeli w praktyce? Na jakie problemy podczas analizy danych i późniejszej detekcji natrafiacie?
GL: Ciekawym elementem jest wykorzystanie dużych modeli językowych do odsiewania wyników fałszywie pozytywnych. Kiedy mamy już działający model detekcji, a chcemy wziąć pod uwagę większy kontekst wypowiedzi, to możemy to zrobić. Wyobraźmy sobie, że mamy na forum post na temat jakiegoś przestępstwa, a osoby komentujące niechętnie odnoszą się do przestępcy. Normalnie system mógłby zareagować na te komentarze, “myśląc”, że chodzi o innego użytkownika forum, ale dzięki szerszemu kontekstowi może podjąć decyzję o zaniechaniu reakcji.
A co ze skutecznością modeli?
GL: Wszystkie nasze modele produkcyjne posiadają precyzję na poziomie co najmniej 95 procent. To jest główny parametr, który nas interesuje, ponieważ modele te działają autonomicznie, bez ingerencji człowieka. W przypadku rozwiązań konkurencyjnych, nawet połowa zwracanych wyników to wyniki fałszywie pozytywne.
Każda społeczność jest inna. Jak wygenerować model detekcji szyty na miarę?
GL: Zdecydowanie inaczej powinna wyglądać moderacja kanałów dla dorosłych, gdzie użytkownicy nie życzą sobie żadnej cenzury, a zależy im wyłącznie na utrzymaniu odpowiedniego poziomu dyskusji, a inaczej moderacja kanałów dla dzieci. W tym drugim przypadku chcemy wyeliminować wszystkie potencjalnie szkodliwe elementy, wliczając w to wulgaryzmy czy na przykład rozmowy o seksie. W Samurai Labs przyjmujemy podejście kompozycyjne. Każdy duży problem dzielimy na mniejsze, tak jak cyberprzemoc, którą dzielimy na ataki personalne, nękanie na tle seksualnym, wykluczenie, groźby czy szantaże. Następnie każdy z tych mniejszych problemów jest dzielony na jeszcze mniejsze. W ten sposób budujemy wąskie i bardzo precyzyjne modele, które są łatwe w rozwijaniu i utrzymaniu oraz dużo lepiej radzą sobie z tzw. biasami, czyli systematyczną stronniczością lub uprzedzeniem modeli ML. Chodzi zwłaszcza o te end-to-end, które próbują rozwiązywać duże i złożone problemy, takie jak mowa nienawiści lub cybernękanie.
Jak działa Samurai Cyber Guardian?
GL: To system do zaprojektowania i wdrożenia całego moderacyjnego workflow, skrojonego dla danej społeczności internetowej. Produkt składa się z kilku komponentów. Mamy modele AI odpowiedzialne za detekcję poszczególnych zjawisk i “centrum sterowania”, do którego loguje się użytkownik (np. moderator – przyp.red.), na które składają się poszczególne narzędzia i panele. Panel konfiguracyjny pozwala użytkownikowi zdecydować na co system ma reagować automatycznie i w jaki sposób, a co przekazywać do moderacji manualnej. Kolejka moderacyjna pozwala na obsługę przypadków skierowanych do moderacji manualnej. Z kolei panele analityczne pozwalają na śledzenie działania systemu i obserwowanie zmian zachowań użytkowników i ogólnego poziomu przemocy w danej społeczności. Produkt jest dostarczany w formie API i może być wykorzystany do sterowania botem moderacyjnym lub dowolnym innym systemem moderacji. Oferujemy również bezpośrednie integracje z platformami i serwisami, takimi jak Discord czy Twitch.
Moderacja treści na forum to działanie na żywym organizmie, który zmienia się w czasie rzeczywistym. Czy Wasze systemy są aktualizowane?
GL: Wychodzimy z założenia, że nie da się zbudować modelu, który będzie działał zawsze i wszędzie. Podobnie jak ma to miejsce w przypadku systemów antywirusowych. Nasze modele są aktualizowane średnio raz na dwa tygodnie - zbieramy logi, analizujemy dane i na tej podstawie wprowadzamy poprawki do modeli.
Klasycznym sposobem utrudniania detekcji jest tzw. leet speak, czyli zamiana liter na inne, podobnie wyglądające symbole, np. S na symbol dolara. Nasz system również jest na to bardzo odporny, co wynika po części z podejścia neuro-symbolicznego. Co więcej, jeśli użytkownicy wiedzą, że system moderacji jest sterowany przez sztuczną inteligencję, to tym chętniej próbują go oszukać. Ale im bardziej kreatywny jest użytkownik, tym lepiej nasz system uczy się radzić sobie z takimi próbami obejścia systemu.
PT: Jednym z takich przykładów są komentarze, które nastolatki wymieniały między sobą na anonimowym forum Formspring. Dziś ta strona jest zamknięta z powodu powszechnego na niej cybernękania na skutek którego doszło do kilku prób samobójczych młodych osób. Część komentarzy oznaczonych przez ludzi jako neutralne, po przetworzeniu naszym systemem okazała się być w całości zawoalowanymi w leet speak atakami.
Algorytmy w walce z cybernękaniem to jedno, ale też próbujecie edukować społeczności?
PT: Oprócz wykrywania cyberprzemocy przy użyciu algorytmów neuro-symbolicznych niezwykle ważną kwestią są badania nad wykorzystaniem tych metod. Prowadzimy je aby stworzyć kompleksowe strategie dla wspólnot online, w ramach których sztuczna inteligencja wykorzystywana jest nie tylko do wykrywania cyberprzemocy, ale też do jej proaktywnego zapobiegania. Badamy różne strategie odpowiadania użytkownikom na ich komentarze, celem obniżenia ilości ataków personalnych. Jedno z takich badań, które przeprowadzaliśmy miało miejsce na anglojęzycznym forum Reddit. Stworzyliśmy bota Jamesa, który wyposażony był w modele detekcji ataków personalnych oraz w system do generowania licznych interwencji, odwołujących się do empatii lub konkretnych norm. Za każdym razem, kiedy ktoś atakował członka dyskusji, James wykrywał atak w czasie rzeczywistym i reagował przy pomocy jednego z komunikatów, np. “Hej, większość z nas zwraca się tutaj do siebie z szacunkiem.” Same takie komentarze wystarczyły, aby James, w jednej z bardziej zradykalizowanych wspólnot na Reddicie, obniżył poziom ataków o 20%.
GL: Warto dodać, że użytkownik nie wiedział, że ma do czynienia z botem. Nasz James przedstawiał się jako zwykły użytkownik forum, miał też stworzoną swoją historię aktywności i legendę. Jego interwencje musiały wyglądać naturalnie i nie mogły się powtarzać.
PT: Dokładnie tak. Dlatego też liczba unikalnych interwencji wynosiła ponad 100 tysięcy, a stworzona została na kanwie kilkunastu wypowiedzi bazowych. To badanie, jak i szereg innych prowadzonych przez nas czy inne instytucje pokazują, że na styku sztucznej inteligencji, nauk społecznych i data science możemy empirycznie walidować skuteczność konkretnych metod przeciwdziałania zjawiskom szkodliwym i maksymalizować ich społecznie pozytywny wpływ.
Czy ma to jakiś wymiar finansowy dla Waszych klientów?
PT: Wskaźniki impaktowe (związane ze społecznie pozytywnym wpływem – przyp.red.) są ważne, ale te biznesowe również. W końcu wdrażamy nasze rozwiązania w społecznościach, których właściciele chcą zarabiać. Okazuje się, że wskaźniki impaktowe są powiązane z tymi biznesowymi poprzez zaangażowanie. Jeszcze 10 lat temu dominowało przeświadczenie, że więcej agresji implikuje więcej zaangażowania użytkowników - komentarzy, kliknięć, itp. Dziś mamy dowody na to, że jest inaczej. Według badania Riot Games gracze League of Legends, którzy przy pierwszej ekspozycji na grę doświadczyli toksycznych interakcji, ponad trzykrotnie częściej nie wracali do rozgrywek w porównaniu do tych, którzy takich treści nie napotkali.
W Samuraju z kolei w jednym z naszych badań obserwacyjnych na podstawie ok. 200 tysiącach komentarzy na Reddicie, pokazaliśmy, że ataki znacząco obniżają aktywność osób atakowanych. Korzystaliśmy z metod klasycznej statystyki i estymacji Bayesowskich,
Świadomość problemu społecznego rośnie proporcjonalnie do motywacji związanej z dbaniem o dobrostan wspólnot online. Ma to związek z szeregiem negatywnych konsekwencji behawioralnych czy psychologicznych związanych z doświadczeniem cyberprzemocy, które są coraz liczniej badane i opisywane.
GL: Dodatkowo zmienia się też otoczenie prawne. Weźmy moduł do detekcji ideacji samobójczych. Gdy zaczynaliśmy nad nim pracę w 2020 roku, był to jeszcze temat tabu. Przykładowy rodzic był w stanie uwierzyć, że jego dziecko może spotkać w internecie coś złego, typu atak pedofilski, ale większość rodziców nie była w stanie nawet pomyśleć, że ich dziecko może popełnić samobójstwo, między innymi na skutek kontaktu z treściami w sieci dotyczącymi samookaleczania czy samobójstw. Dzięki regulacjom prawnym ta świadomość rośnie.
PT: Tutaj jednym z katalizatorów do zmian polityki działania mediów społecznościowych i pracy nad nową legislacją jest przykład z Wielkiej Brytanii. Chodzi o nagłośniony medialnie przypadek Molly Russell, 14-latki która odebrała sobie życie po ekspozycji na treści związane z zachowaniami samobójczymi, których widoczność wzmacniały algorytmy portali społecznościowych.
Jaka przyszłość czeka tworzone przez Was systemy? Idziemy w kierunku pełnej autonomii decyzji?
GL: Samurai Labs jest pionierem, jeśli chodzi o zapobieganie i autonomiczną moderację treści. Wydaje mi się, że jest to naturalny kierunek i cała branża będzie bardzo mocno skręcać w tę stronę. Jeżeli reakcja następuje dużo po tym, jak ktoś został zaatakowany, to ofiara, a być może również inni uczestnicy rozmowy, zdążyli to przeczytać i krzywda już się wydarzyła. Szkodliwe zjawiska należy wykrywać maksymalnie szybko i reagować natychmiast.
Jest też kwestia legislacji, jeśli chodzi o dostęp do danych. W przypadku wykrywania treści samobójczych to często same wiadomości lub listy pożegnalne są wysyłane poprzez publiczne fora. Natomiast w przypadku ataków pedofilskich najczęściej jest to prywatna komunikacja, a napastnik dąży do jak najszybszej zmiany platformy na kanały szyfrowane.
Myślę, że złotym środkiem będą systemy autonomiczne, gdzie to sztuczna inteligencja będzie analizować wysyłane treści i nie będzie potrzeby, aby ktokolwiek czytał te wiadomości. Jeżeli AI wykryje coś niepokojącego, to zareaguje blokując komunikację tego predatora (sprawca przestępstw seksualnych – przyp. red.) i poinformuje właścicieli serwisu lub organy ścigania.
PT: Zmiana paradygmatu, żeby działać automatycznie, bez udziału człowieka lub z jego częściową ingerencją spowoduje, że możemy zapobiec wielu negatywnym konsekwencjom cyberprzemocy. Warto pamiętać, że dziś mamy do czynienia z dużym obciążeniem, które spoczywa głównie na moderatorach. Systemy oparte o metody uczenia maszynowego w większości nie działają automatycznie, tylko flagują posty do dalszej weryfikacji przez człowieka, który podejmuje ostateczną decyzję co do tego czy post usunąć czy nie.
Podejmując te decyzje, codziennie stykają się z treściami ekstremalnie drastycznymi, z okrucieństwem tego świata, jaki my jako ludzkość generujemy. To wszystko spoczywa na nich. Dlatego też widzimy wielką potrzebę, aby moderatorów odciążyć, pozwalając skupić się im na tym, jak pozytywnie zwiększać zaangażowanie użytkowników w ramach serwisów online.