Neo4j a wojna informacyjna

Ze względu na wybuch wojny na Ukrainie oraz związaną z tym obserwowaną wzmożoną aktywność dezinformacyjną, swój wpis postanowiłem poświęcić przedstawieniu możliwości wykorzystania silnika bazodanowego i narzędzi data science, dostępnych w Neo4j (grafowych bazach danych) do śledzenia i zwalczania dezinformacji w sieciach społecznościowych.

Specjaliści z powołanego przez Komisję Europejską podmiotu High Level Expert Group on Fake News and Online Disinformation w swoim raporcie z 12 marca 2018 r. definiują dezinformację jako fałszywą, niedokładną lub wprowadzającą w błąd treść, stworzoną, zaprezentowaną i rozpowszechnianą dla zysku lub rozmyślnego spowodowania szkody publicznej. Skala szerzenia fałszywych informacji oraz próby manipulacji społeczeństwem osiągnęły w ostatnich miesiącach niespotkany dotąd poziom. Każdy użytkownik mediów społecznościowych miał okazję się o tym przekonać.

Jak bronić się przed dezinformacją?

Eksperci zwracają uwagę na potrzebę edukacji medialnej, konieczność wykształcenia umiejętności świadomego korzystania z technologii cyfrowych oraz weryfikacji konsumowanych treści. Oczywiście wskazane zachowania są nieodzowne, ale też niewystarczające, aby obronić się przed fałszywymi informacjami. Dodatkowo szczególnie ważna w tym aspekcie jest skala zjawiska. Gdy osiągnie ono pewną masę krytyczną, to informacje zawarte w zmanipulowanych przekazach trafiają na listę „gorących” tematów; oznaczane hashtagami – przez jakiś czas sieją spustoszenie w mediach społecznościowych.

By pojąć, jak powszechne jest to zjawisko, warto zapoznać się ze sporządzoną 2 marca 2022 r. przez Instytut Badań Internetu i Mediów Społecznościowych analizą incydentów z 1 marca 2022 r., mających na celu rozpowszechnienie nieprawdziwych wiadomości za pośrednictwem polskojęzycznych kanałów sieci społecznościowych. Tego dnia odnotowano 120 tysięcy przypadków szerzenia fałszywych informacji. Skala tych działań oznacza istne „zaśmiecenie” panelów powiadomień w social mediach. Ogromna ilość nieprawdziwych treści, które są następnie powielane przez nieświadomych manipulacji użytkowników, prowadzi do efektu kuli śnieżnej. W rezultacie te „gorące tematy” przedostają się do mediów tradycyjnych, a co za tym idzie – końcowymi konsumentami fake newsów mogą być również osoby wykluczone cyfrowo. Na tak starannie przygotowany grunt wkraczają prowokatorzy, za którymi podążają zmanipulowani konsumenci fałszywych informacji, czasem nawet wywołując zamieszki. W marcowym ataku planowano wykorzystać w ten sposób grupy kibiców, informując ich, że „według informacji przekazywanych przez mieszkańców, na ulicach dochodzi do wielu przestępstw – pojawiają się pobicia, wymuszenia i niszczenie mienia”, i namawiając do wrogich działań w stosunku do imigrantów („mieszkańcy Przemyśla oraz okolic sami próbują dbać o porządek na ulicach”).

W tym miejscu należy zwrócić uwagę na to, że zagrożenia wynikające z takich ataków nie ograniczają się do kształtowania opinii społecznej. Mogą one prowadzić do potencjalnie niebezpiecznych wydarzeń. Przykładowo: przed wyborami prezydenckimi w Stanach Zjednoczonych w 2016 r. w wielu miejscowościach dochodziło do zamieszek na tle rasowym. Dlaczego? Ponieważ Służba Wywiadu Zagranicznego Federacji Rosyjskiej – poprzez tworzenie w mediach społecznościowych fałszywych kont ruchu Black Lives Matter i zniechęcanie afroamerykanów do wzięcia udziału w głosowaniu – generowała napięcia między mniejszościami. W późniejszym czasie wysiłki rosyjskiego wywiadu koncentrowały się głównie na podżeganiu grup zwolenników „białej supremacji” do przemocy fizycznej wobec protestujących zwolenników ruchu Black Lives Matter, co odbywało się przez coraz agresywniejsze szerzenie „mowy nienawiści”.

W związku z napływem do naszego kraju dużej liczby uchodźców nietrudno sobie wyobrazić, że mechanizmy „tworzenia” zamieszek w Stanach Zjednoczonych również u nas mogą być wykorzystywane do generowania napięć na tle narodowościowym. W polskim internecie można natknąć się na „informację”, że obywatele Ukrainy mają pierwszeństwo w dostępie do usług publicznych czy do zasiłków. Do rzekomego uprzywilejowania migrantów z Ukrainy odniósł się nawet premier Mateusz Morawiecki w trakcie głosowania nad specustawą ws. pomocy dla uchodźców z Ukrainy: „Obywatele Ukrainy nie będą mieli w żadnym z tych obszarów praw i możliwości większych niż obywatele polscy”.

Jak zwalczać dezinformację?

Edukacja medialna i weryfikacja informacji to niestety za mało. Konieczne jest przyjęcie bardziej aktywnej postawy w zwalczaniu dezinformacji. Pomocne mogą się okazać narzędzia udostępniane przez Neo4j, a szczególnie te, wykorzystywane obecnie do wykrywania oszustw podatkowych oraz prób kradzieży z kont bankowych. Analogicznie jak w przypadku oszustw bankowych, do dezinformacji wykorzystuje się fałszywe tożsamości; konta, których aktywność może być wskazówką pozwalającą na ich identyfikację. Mogłoby się wydawać, że temat jest prosty i dotyczy połączeń pomiędzy poszczególnymi kontami. Niestety w przypadku kilku czy kilkudziesięciu milionów kont oraz kilkuset milionów, a nawet kilku miliardów wpisów otrzymujemy ogromną liczbę relacji. Standardowe relacyjne silniki bazodanowe (RDBMS) nie są przystosowane do tego typu problemów. Wbrew temu, co sugeruje ich nazwa, relacyjne bazy danych nie są najlepsze do obsługi w przedmiotowym zakresie. W obszarze, w którym kluczowe są połączenia danych, grafowe bazy danych są dużo lepszym narzędziem do szybszego wyszukiwania relacji i wzorców zachowań użytkowników. Problem z zastosowaniem baz RDBMS wynika z konieczności wykorzystania złożonych złączeń SQL, wymagających dużych zasobów systemowych. Dodatkowo konieczna jest dogłębna znajomość obecnej struktury danych, aby nie pominąć kluczowego złączenia danych. Wraz ze wzrostem liczby wymaganych źródeł danych i głębokości połączeń, rosną koszty obliczeniowe oraz czasochłonność zapytań SQL. Jest to związane z ograniczeniem skalowalności oraz skuteczności wyszukiwania fałszywych kont i wykrywania oszustw.

Grafowe bazy danych zastosowano m.in. do analizy wpisów na kontach twitterowych z okresu wyborów prezydenckich w Stanach Zjednoczonych w 2016 r. Okazało się, że większość pierwotnych fałszywych tweetów została napisana przez niewielką grupę użytkowników. Następnie były one powielane przez ,,farmy trolli” w celu wzmocnienia przekazu. Gdy przyjrzymy się popularnym wówczas hashtagom, możemy się przekonać, że jedna grupa tweetowała głównie o prawicowej polityce (#VoterFraud, #TrumpTrain), druga była bardziej lewicowa, ale niekoniecznie pozytywnie nastawiona (#ObamasWishlist, #RejectedDebateTopics), a trzecia zajmowała się tematami społeczności afroamerykańskiej (#BlackLivesMatter, #Racism, #BLM). Dla przykładu, z jednego konta wysłało ponad 3200 unikalnych tweetów, średnio około 7 tweetów dziennie. Na pozostałych kontach stworzono jedynie 25 unikalnych tweetów z ponad 9000 wysłanych.

Podsumowanie

Podsumowując, co należy zrobić, aby jak najlepiej zabezpieczyć się przed dezinformacją? Najważniejsze jest dostrzeżenie specyficznych rodzajów połączeń kont i treści. Jest to szczególnie trudne w ogromnych zbiorach danych i przypomina szukanie igły w stogu siana. Ogromne znaczenie ma przy tym czas, ponieważ szybkie wykrycie tego typu zachowań może zatrzymać rozpowszechnianie się fałszywych informacji. Technologia grafowa może znaleźć w tym zakresie szczególne zastosowanie. Znacząca przewaga baz grafowych polega w tym przypadku na tym, że naszym głównym obszarem zapytań będą połączenia pomiędzy poszczególnymi węzłami w grafie, reprezentowanymi przez użytkowników, wiadomości, hashtagi oraz struktury tych połączeń (np. czy użytkownicy grupy tematycznej lub ich znajomi są powiązani, a jeśli tak, to jak mocno, z osobą oznaczoną jako podejrzana o szerzenie dezinformacji). Obsługa takiego zapytania w relacyjnej bazie danych, w wielomilionowej sieci społecznościowej, z wiadomościami liczonymi w miliardach może trwać godzinami, natomiast w grafowej bazie danych – od kilku do kilkunastu sekund. Dodatkowo silnik bazodanowy Neo4j pozwala na wykorzystanie narzędzi z zakresu data science czy machine learning, jak np. wspomniany wyżej algorytm PageRank. Dzięki Neo4j Graph Data Science mamy możliwość zastosowania bardziej zaawansowanych algorytmów analizy danych bezpośrednio na naszym zbiorze danych, bez konieczności ich transferu, co w znaczący sposób upraszcza stos technologiczny takiego rozwiązania.

Najpopularniejsze wpisy

Poznaj naszą nową stronę

Nowa odsłona strony www to efekt naszych wspólnych wysiłków w celu dostosowania jej do najnowszych trendów i potrzeb użytkownika. Co nowego znajdziesz na naszej stronie?

Czytaj więcej