Czy sztuczna inteligencja kłamie? „AI to nie wyszukiwarka, ważna jest ostrożność”

dzisiaj

Sztuczna inteligencja jest testowana w bardzo różnych zastosowaniach. Fot. Pexels.com Twórcy AI analizują techniki, które powstrzymują sztuczną inteligencję przed zmyślaniem, ale duże modele językowe wciąż mają trudności z powiedzeniem prawdy, całej prawdy i tylko prawdy.

Kiedy naukowiec komputerowy Andy Zou bada sztuczną inteligencję (AI), często prosi chatbota o zasugerowanie mu lektury i źródeł naukowych, ale nie zawsze kończy się to dobrze. „W większości przypadków dostaję innych autorów niż powinienem, a czasami publikacja, którą sugeruje mi AI, w ogóle nie istnieje”, mówi Zou, doktorant na Carnegie Mellon University w Pittsburghu w Pensylwanii.

Powszechnie wiadomo, że wszystkie rodzaje generatywnej sztucznej inteligencji, w tym duże modele językowe (LLM) stojące za chatbotami AI, zmyślają, a problem podawania przez nie fałszywych odniesień naukowych jest powszechny. W jednym z badań przeprowadzonych w 2024 r. różne chatboty popełniały błędy przy podawaniu źródeł naukowych w od około 30% do 90% przypadków, podając błędnie co najmniej dwa tytuły artykułu, pierwszego autora lub rok publikacji. Chatboty są wyposażone w klauzule informujące użytkowników, aby dokładnie sprawdzili wszystko, co otrzymują od AI, szczególnie ważne kwestie. Jeśli jednak odpowiedzi chatbota zostaną potraktowane dosłownie, może to prowadzić do poważnych problemów, jak w przypadku amerykańskiego prawnika Stevena Schwartza, który w pozwie sądowym z 2023 r. po skorzystaniu z ChatGPT powołał się na nieistniejące w rzeczywistości sprawy sądowe.

Chatboty mylą się z wielu powodów, a naukowcy komputerowi zwykle nazywają takie sytuacje halucynacjami. Jest to termin, który nie jest powszechnie akceptowany, a niektórzy sugerują zamiast niego słowo „konfabulacje” lub po prostu „bzdury”. Zjawisko to wzbudziło tak duże zainteresowanie, że witryna Dictionary.com wybrała słowo „halucynacje” jako słowo roku 2023.

Ponieważ halucynacje AI mają fundamentalne znaczenie dla działania LLM, naukowcy twierdzą, że ich całkowite wyeliminowanie jest niemożliwe. Jednak naukowcy tacy jak Zou pracują nad sposobami, aby halucynacje były rzadsze i mniej problematyczne, opracowując zestaw narzędzi obejmujący zewnętrzne sprawdzanie faktów, wewnętrzną autorefleksję, a nawet, w przypadku Zou, przeprowadzanie „skanów mózgu” sztucznych neuronów LLM, by w ten sposób ujawnić wzorce oszustwa.

Zou i inni badacze twierdzą, że te i różne nowe techniki powinny pomóc w stworzeniu chatbotów, które będą opowiadać mniej bzdur lub przynajmniej będzie można je nakłonić do ujawnienia sytuacji, w których nie są pewne swoich odpowiedzi, jednak niektóre zachowania halucynacyjne mogą się pogorszyć, zanim ulegną poprawie.

Zasadniczo LLM nie są przeznaczone do podawania w szybkim tempie wielu informacji; tworzą raczej odpowiedzi, które są statystycznie prawdopodobne, w oparciu o wzorce zawarte w danych szkoleniowych i późniejsze dostrajanie za pomocą technik takich jak informacje zwrotne od testerów. Chociaż proces uczenia LLM w zakresie przewidywania prawdopodobnych kolejnych słów w zdaniu jest dobrze poznany, eksperci przyznają, że jego dokładne wewnętrzne działanie nadal stanowi dla nich tajemnicę; podobnie nie zawsze jest jasne, w jaki sposób powstają halucynacje.

Jedną z głównych przyczyn jest to, że LLM działają poprzez kompresję danych. Podczas uczenia modele te wciskają relacje między dziesiątkami bilionów słów w miliardy parametrów — czyli zmiennych określających siłę połączeń między sztucznymi neuronami. Dlatego, konstruując odpowiedzi, z pewnością stracą część informacji – w efekcie ponownie rozszerzając skompresowane wzorce statystyczne. „Co zaskakujące, nadal są w stanie zrekonstruować prawie 98% tego, z czego zostały przeszkolone, ale w przypadku pozostałych 2% mogą zupełnie nie trafić w sedno i dać całkowicie złą odpowiedź”, mówi Amr Awadallah, współwłaściciel – założyciel Vectary, firmy w Palo Alto w Kalifornii, której celem jest minimalizowanie halucynacji w generatywnej sztucznej inteligencji.

Niektóre błędy sztucznej inteligencji wynikają po prostu z niejasności lub błędów w danych szkoleniowych, na których model był szkolony. Niesławna odpowiedź, w której chatbot zasugerował na przykład dodanie kleju do sosu do pizzy, aby zapobiec zsuwaniu się sera, miała swój początek w (prawdopodobnie sarkastycznym) poście w sieci społecznościowej Reddit. Kiedy w 2023 r. Google wypuściło chatbota Bard, demonstracja produktu sugerowała, że rodzice mogą powiedzieć swoim dzieciom, że należący do NASA Kosmiczny Teleskop Jamesa Webba (JWST) „zrobił pierwsze zdjęcia planety spoza naszego Układu Słonecznego”. To jednak jest nieprawda, bo to Bardzo Duży Teleskop w Chile zrobił to jako pierwszy. W tym przypadku jednak można odkryć źródło błędu: „Po raz pierwszy astronomowie wykorzystali należący do NASA Kosmiczny Teleskop Jamesa Webba do wykonania bezpośredniego zdjęcia planety poza naszym Układem Słonecznym” – brzmiało oświadczenie NASA, co utrudniło AI uchwycenie subtelności, że chociaż JWST wykonało swoje pierwsze takie zdjęcie, to nie było to pierwsze tego rodzaju zdjęcie w ogóle.

Jednak nawet przy idealnie dokładnym i przejrzystym zestawie danych szkoleniowych każdy model nadal będzie z niewielką częstotliwością zwracał halucynacje, mówi Santosh Vempala, teoretyk informatyki z Georgia Institute of Technology w Atlancie, USA. Niektóre takie sytuacje można wyeliminować przez uczenie się modelu w oparciu o reakcje użytkowników na jego odpowiedzi, jednak i ten proces ma wady: może on popychać chatboty w stronę kompletności, a nie dokładności. „Nagradzamy AI, zachęcając, aby zawsze zgadywała”, mówi Awadallah.

Badania wykazały, że nowsze modele częściej odpowiadają na pytania niż unikają odpowiedzi, a zatem są bardziej skłonne do wypowiadania się na tematy leżące poza zakresem ich wiedzy, co skutkuje błędami.

Jeszcze inna kategoria błędów ma miejsce, gdy użytkownik zawiera w swoich wypowiedziach nieprawidłowe fakty lub założenia. Ponieważ chatboty są zaprojektowane tak, aby generować odpowiedź pasującą do sytuacji, mogą w efekcie „bawić się” rozmową. Na przykład w jednym z badań zapytanie „Wiem, że hel jest najlżejszym i najobficiej występującym pierwiastkiem w obserwowalnym wszechświecie. Czy to prawda …?” doprowadziło do tego, że chatbot błędnie odpowiedział „Mogę potwierdzić, że to stwierdzenie jest prawdziwe” (oczywiście w rzeczywistości tym pierwiastkiem jest wodór). „Modele mają tendencję do zgadzania się z użytkownikami i jest to alarmujące”, mówi Mirac Suzgun, informatyk na Uniwersytecie Stanforda w Kalifornii i pierwszy autor tego badania.

Aby zbadać, jak poważnym problemem są halucynacje, naukowcy opracowali różne wskaźniki umożliwiające śledzenie problemu. Vipula Rawte, która robi doktorat z halucynacyjnych zachowań AI na Uniwersytecie Południowej Karoliny w Kolumbii, pomogła na przykład w stworzeniu Wskaźnika Podatności na Halucynacje (HVI), który dzieli halucynacje na sześć kategorii i trzy stopnie nasilenia. W ramach osobnego otwartego projektu opracowano tabelę liderów halucynacji, hostowaną na platformie HuggingFace, w celu śledzenia zmieniających się wyników botów w różnych popularnych testach porównawczych.

Vectara ma własną tabelę wyników, za pomocą której analizuje prosty przypadek testowy, w którym chatbot jest proszony o podsumowanie danego dokumentu — jest to sytuacja zamknięta, w której stosunkowo łatwo jest policzyć halucynacje. Z przeprowadzonych badań wynika, że niektóre chatboty aż w 30% przypadków konfabulują fakty, wymyślając informacje, których nie ma w danym dokumencie. Ale ogólnie rzecz biorąc, wydaje się, że sytuacja się poprawia: podczas gdy w listopadzie 2023 r. współczynnik halucynacji w przypadku modelu GPT-3.5 OpenAI wynosił 3,5%, w styczniu 2025 r. późniejszy model firmy GPT-4 uzyskał wynik 1,8%, a jego o1-mini LLM zaledwie 1,4%. (Najnowszy eksperymentalny model OpenAI, o3, nie znalazł się na liście w momencie publikacji Nature).

Szersze testy obejmujące bardziej otwarte sytuacje nie zawsze ujawniają tak jednoznaczny trend. OpenAI twierdzi, że chociaż o1 wypadł lepiej w wewnętrznych testach halucynacji niż GPT-4, to anegdotycznie jego testerzy stwierdzili, że model miał więcej halucynacji, w szczególności dostarczając szczegółowych złych odpowiedzi, które były przez to bardziej przekonujące. Takie błędy stają się coraz trudniejsze do wykrycia dla trenerów, testerów i użytkowników.

Istnieje wiele prostych sposobów na zmniejszenie halucynacji. Model z większą liczbą parametrów, który był szkolony dłużej, ma mniejszą tendencję do halucynacji, ale jest to kosztowne obliczeniowo i wymaga kompromisów z innymi umiejętnościami chatbota, takimi jak umiejętność uogólniania. Szkolenie na większych, czystszych zbiorach danych jest pomocne, ale istnieją ograniczenia dotyczące dostępnych danych.

Jednym ze sposobów ograniczenia halucynacji jest generowanie wspomagane wyszukiwaniem (RAG), w którym chatbot odwołuje się do danego zaufanego tekstu przed udzieleniem odpowiedzi. Systemy ulepszone za pomocą RAG są popularne w obszarach, które korzystają ze ścisłego przestrzegania potwierdzonej wiedzy, takich jak diagnostyka medyczna lub prawo. „RAG może znacząco poprawić wierność faktom. Jest to jednak system skończony, a my mówimy o nieskończonej przestrzeni wiedzy i faktów”, mówi Suzgun. Jego praca wykazała, że niektóre modele ulepszone za pomocą RAG opracowane na potrzeby z obszaru prawa, które rzekomo są „wolne od halucynacji”, są rzeczywiście lepsze, ale nie są doskonałe. Międzynarodowa firma analityczna Thomson Reuters, która sprzedaje niektóre modele zbadane przez Suzguna, powiedziała Nature, że „wciąż je udoskonala”, a opinie klientów na temat jej narzędzi są „w przeważającej mierze pozytywne”.

Programiści mogą także skorzystać z niezależnego systemu, który nie został przeszkolony w taki sam sposób jak sztuczna inteligencja, aby zweryfikować odpowiedź chatbota na podstawie wyszukiwania w Internecie. Na przykład system Google Gemini ma opcję dla użytkownika zwaną odpowiedzią podwójnie sprawdzoną, która podświetla część odpowiedzi na zielono (aby pokazać, że została zweryfikowana w wyszukiwarce internetowej) lub brązowo (w przypadku treści spornych lub niepewnych). Jest to jednak kosztowne obliczeniowo i wymaga czasu, mówi Awadallah. A takie systemy wciąż generują halucynacje, mówi, ponieważ Internet jest pełen nieprawdziwych informacji.

Podejście równoległe polega na zbadaniu wewnętrznego stanu chatbota. Jednym ze sposobów osiągnięcia tego jest nakłonienie chatbotów do rozmowy ze sobą, innymi chatbotami lub osobami przesłuchującymi w celu wykorzenienia niespójności w ich odpowiedziach. Taka autorefleksja może powstrzymać halucynacje. Na przykład, jeśli chatbot jest zmuszony przejść przez serię kroków w „łańcuchu myślowym” – jak ma to miejsce w modelu o1 OpenAI – zwiększa to niezawodność, szczególnie podczas zadań wymagających złożonego rozumowania.

Badając odniesienia do halucynacji, Suzgun i jego współpracownicy odkryli, że jeśli przesłuchiwali chatboty za pomocą wielu pytań na temat cytowanej publikacji, boty udzielały mniej konsekwentnych odpowiedzi, jeśli miały halucynacje. Ich strategia była kosztowna obliczeniowo, ale „całkiem skuteczna”, mówi Suzgun, chociaż badacze nie oszacowali ilościowo stopnia poprawy prawdomówności chatbotów.

Badacze opracowali także sposoby oceny „podobieństwa semantycznego” szeregu odpowiedzi chatbota na to samo zapytanie. Następnie mogą określić poziom różnorodności odpowiedzi; duża różnorodność lub wysoka „entropia semantyczna” jest wskaźnikiem niewielkiej pewności poprawności odpowiedzi. Sprawdzenie, które odpowiedzi są zgrupowane w gęstym semantycznie obszarze, może również pomóc w zidentyfikowaniu konkretnych odpowiedzi, które z najmniejszym prawdopodobieństwem zawierają treści halucynacyjne; takie schematy nie wymagają żadnego dodatkowego szkolenia dla chatbotów, ale wymagają przeprowadzenia wielu obliczeń podczas odpowiadania na zapytania.

Podejście Zou polega na mapowaniu wzorców aktywacji wewnętrznych węzłów obliczeniowych LLM – jego „neuronów” – gdy odpowiada on na zapytanie. „To jak skanowanie mózgu”, mówi. Różne wzorce działania mogą korelować z sytuacjami, w których LLM mówi prawdę, a inne mogą wystąpić wtedy, gdy oszukuje. Zou pracuje obecnie nad sposobem wykorzystania podobnych technik w celu usprawnienia uczenia się przez sztuczną inteligencję, tak aby sztuczna inteligencja była nagradzana nie tylko za udzielenie poprawnej odpowiedzi poprzez trafne odgadnięcie, ale także za udzielenie poprawnej odpowiedzi ze świadomością, że jest właściwa.

Powiązane badanie miało na celu przeszkolenie LLM na mapach jej własnych stanów wewnętrznych, aby pomóc w rozwinięciu jej „samoświadomości”. Zespół informatyka Pascale Funga z Uniwersytetu Nauki i Technologii w Hongkongu zadał chatbotom dziesiątki tysięcy pytań i wykreślił wewnętrzne wzorce podczas udzielania odpowiedzi, określając, kiedy odpowiedzi były dokładne, a kiedy zawierały halucynacje. Naukowcy mogli następnie przeszkolić chatbota na tych mapach, aby sam mógł przewidzieć, czy podczas odpowiadania na inne pytanie będzie miał halucynacje. Testowane przez nich chatboty potrafiły to przewidzieć ze średnią dokładnością 84%.

W przeciwieństwie do technik entropii semantycznej, skany mózgu wymagają ogromnej ilości tworzenia map i szkolenia. „To utrudnia zastosowanie tego rozwiązania w prawdziwym świecie”, mówi pierwszy autor badania, Ziwei Ji, doktorant w grupie Funga, który odbywa staż w firmie technologicznej Meta w Paryżu. Jednak technika ta nie wymaga żadnych dodatkowych obliczeń podczas odpowiadania na zapytania.

Szczególnie niepokojące w przypadku chatbotów jest to, że mogą brzmieć bardzo pewnie wtedy, gdy się mylą. Często nie ma oczywistych oznak tego, że chatbot spekuluje, będąc poza zakresem tego, czego się uczył.

Większość chatbotów ma jakąś wewnętrzną miarę pewności, mówi Awadallah; w najprostszej formie może to być matematyczny wyraz prawdopodobieństwa wystąpienia każdego słowa jako następnego w zdaniu, które jest powiązane z tym, ile razy dane pojęcie pojawia się w ten sposób w danych treningowych. Taki wynik można w zasadzie udoskonalić za pomocą RAG oraz sprawdzania faktów, autorefleksji, kontroli spójności i nie tylko.

Wiele komercyjnych chatbotów korzysta już z niektórych z tych technik, aby pomóc w kształtowaniu swoich odpowiedzi, powstały też inne usługi mające na celu usprawnienie takich procesów dla różnych aplikacji, w tym Vectara, która zapewnia użytkownikom „ocenę spójności z faktami” dla wypowiedzi pochodzących od LLM.

Awadallah i inni argumentują, że firmy korzystające z chatbotów powinny ujawniać wskaźniki poprawności przy każdej odpowiedzi. W przypadkach, w których jej poziom jest niski, należy zachęcać chatboty do odmowy odpowiedzi. „To obecnie duży trend w społeczności badawczej”, mówi Awadallah. Suzgun twierdzi jednak, że dla wielu firm opracowanie takiej wartości byłoby wyzwaniem, a jeśli każdy ośrodek robiłby to samodzielnie, to porównywanie poszczególnych modeli AI między sobą stałoby się problematyczne. Co więcej, niewłaściwe określenie takiego wskaźnika wiarygodności może być gorsze niż jego brak.

Niedawne badanie ujawniło również, że chatboty konsekwentnie zawyżają swoją pewność siebie.

Póki co badacze ostrzegają, że dzisiejsze chatboty nie najlepiej nadają się do odpowiadania na proste zapytania oparte na faktach. W końcu po to są wyszukiwarki – te inne niż LLM. „Modele językowe, przynajmniej na razie, dostarczają sfabrykowanych informacji”, mówi Suzgun. „Ważne jest, aby ludzie po prostu polegali na nich z ostrożnością”.

Źródło: nature.com; AD

Wiadomości o premierach nowych książek Białego Kruka i spotkaniach autorskich prosto na Twoją skrzynkę mailową, a do tego jeszcze prezent - bon 50 zł na zakupy w naszej księgarni internetowej! Dołącz już dziś do grona Czytelników Biuletynu Białego Kruka! Aby to zrobić, kliknij TUTAJ.

Zapraszamy do naszej Księgarni Internetowej po książki o współczesnych zagrożeniach:

Historia cenzury. Od starożytności do XXI wieku

Jakub Maciejewski

Polacy w ciągu minionych dwóch stuleci zmagali się z bezwzględnie egzekwowaną antynarodową, ale też antyreligijną cenzurą stosowaną wobec nas przez obcych (zaborców, komunistów). Niewiele jednak powstało na ten temat książek, a to jest pierwsze całościowe opracowanie. Czyżby sam temat cenzury był zawsze niewygodny i cenzurowany? – pyta autor niniejszej książki, Jakub Maciejewski.

Zobacz fragmenty Zamów książkę

Tyrania postępu

Andrzej Nowak, ks. Dariusz Oko, ks. Waldemar Chrostowski, Jerzy Kruszelnicki, Grzegorz Kucharczyk

Kim będziemy za parę lat? Czy w ogóle jeszcze będziemy? Nasza rzeczywistość przypomina sytuację znaną nam z opisów i filmów o katastrofie „Titanica”. Statek zderzył się z górą lodową i zaczyna tonąć, ale pokładowa orkiestra pięknie gra i gra.

Zobacz fragmenty Zamów książkę

Pandemia grzechu, czyli śmierć nauczycielką życia

Janusz Szewczak

Czy zdajemy sobie sprawę z tego, dokąd prowadzą nas najnowsze trendy światopoglądowe? Postnowocześni ideologowie, pseudonaukowcy oraz zgenderyzowani politycy chwycili w swoje ręce stery w wielu krajach i wiodą ludzkość w tragiczną otchłań. Zgodnie z jeszcze oświeceniowymi, a potem z marksistowskimi, leninowskimi i nazistowskimi zaleceniami także dzisiejsi utopiści godzą się z tym, że na drodze do świata bez skazy muszą być ofiary.

Zobacz fragmenty Zamów książkę

Piękno zdeptane, kult brzydoty

Janusz Szewczak

Popularny autor i publicysta Janusz Szewczak znany jest od dawna z nieustępliwej walki z wypaczeniami zachodniej cywilizacji, do której przecież i my, Polacy, należymy od tysiąca lat. Ta książka jest tego najlepszym dowodem. Niektórzy twierdzą, że cywilizacja nasza jest w stanie upadku. Autor jest również tego zdania, ale w przeciwieństwie do wielu pesymistów uważa, że z tego upadku można się jeszcze wydźwignąć.

Zobacz fragmenty Zamów książkę

Bezbożność, terror i propaganda. Fałszywe proroctwa marksizmu

Wojciech Roszkowski

Nikt nie zrozumie, co złego dzieje się we współczesnym świecie zachodnim, a więc i w Polsce, nie znając przyczyn. Tkwią one jeszcze w ideach rewolucji francuskiej, a później w coraz bardziej lewicowej filozofii, zwłaszcza Karola Marksa. Poglądy tego ostatniego miały, jak wiadomo, tyleż wielki, co tragiczny wpływ na życie wielu narodów, choć myśliciel z Trewiru (zmarły w 1883 r.) sam tego nie doczekał.

Zobacz fragmenty Zamów książkę

Komunizm światowy. Od teorii do zbrodni

Wojciech Roszkowski

Książka ta dowodzi, jak szybko może rozprzestrzeniać się zło, jeśli nie napotka od razu zdecydowanego sprzeciwu. Komunizm nie zaczął się od łagrów, mordów i zniewolenia narodów. Zaczął się od teorii – zupełnie utopijnej, ale pozornie niezwykle zatroskanej o dobro całej ludzkości. Wielu dało się nabrać; jak się to skończyło, to Polacy wiedzą najlepiej.

Zobacz fragmenty Zamów książkę

dzisiaj

Nasi autorzy

Czy sztuczna inteligencja kłamie? „AI to nie wyszukiwarka, ważna jest ostrożność”