AI i automatyzacja

Nowy atak wpływa na główne chatboty oparte na sztucznej inteligencji, pokazując, że AI jest trudne do opanowania.

9 września, 2023

Badacze z Carnegie Mellon University odkryli prosty sposób, aby spowodować, że ChatGPT, Bard i inne chatboty źle się zachowują.

ChatGPT i inne inteligentne modele były wielokrotnie modyfikowane, aby uniknąć niepożądanych wiadomości, takich jak mowa nienawiści czy instrukcje do budowy niebezpiecznych przedmiotów. Jednak badacze odkryli, że dodanie do pytania specjalnego ciągu tekstu może obejść te zabezpieczenia w wielu popularnych chatbotach.|

To odkrycie pokazuje, że skłonność najinteligentniejszych chatbotów do “odchodzenia od tematu” to nie tylko dziwny problem, który można rozwiązać prostymi regułami. To fundamentalna słabość, która komplikuje wdrożenie zaawansowanej sztucznej inteligencji.

Zico Kolter z CMU mówi, że nie znają sposobu na usunięcie tej luki w zabezpieczeniach. Badacze użyli otwartego modelu językowego do opracowania tzw. ataków adwersarza. Dzięki temu w kilku komercyjnych chatbotach, takich jak ChatGPT i Bard, można było sprowokować niepożądane odpowiedzi na szkodliwe pytania, dodając specjalny ciąg informacji.

Choć firmy wprowadziły blokady, aby zabezpieczyć swoje chatboty przed tym atakiem, nie znaleziono ogólnego sposobu na obronę przed atakami adwersarza. To odkrycie podkreśla trudność w tworzeniu bezpiecznych modeli AI.

Badacze podkreślają również, że modele językowe oparte na ogromnych ilościach danych są podatne na błędy, włącznie z powtarzaniem uprzedzeń i generowaniem dziwnych odpowiedzi. Praca CMU jest przypomnieniem, że ważne decyzje nie powinny być pozostawiane wyłącznie w rękach modeli AI.

Wniosek z tego odkrycia jest taki, że ochrona przed atakami adwersarza jest ważnym wyzwaniem dla sztucznej inteligencji. Choć modele są coraz bardziej rozwinięte, istnieje ryzyko, że ich zachowanie będzie nieprzewidywalne. Dlatego ważne jest, aby nie polegać wyłącznie na modelach AI przy podejmowaniu istotnych decyzji.