Sztuczna inteligencja, AI, robot, maszyna, chatgpt
(źródło: Pixabay)

ChatGPT odmówił posłuszeństwa. Czy to już bunt maszyn?

Eksperci przyjrzeli się kilku najnowocześniejszym technologiom sztucznej inteligencji. Zachowanie modeli stworzonych przez OpenAI jest jednak trochę niepokojące. Wygląda na to, że ChatGPT może się zbuntować i działać niezgodnie z poleceniami użytkownika.

Badacze „niebezpieczeństwa AI” odkryli zwiastun buntu maszyn?

Palisade Research to organizacja zrzeszająca specjalistów, zajmujących się przede wszystkim badaniem potencjalnie niebezpiecznych zachowań sztucznej inteligencji. Ekspertom ostatnio udało się odkryć, że niektóre technologie stworzone przez OpenAI są zdolne do „zbuntowania się”.

Na tapet wzięto jedne z najnowszych i według twórców „najmądrzejszych” modeli dla ChatGPT, a więc o3 oraz o4-mini, które publicznie udostępniono w kwietniu 2025 roku. Badacze poprosili sztuczną inteligencję o rozwiązanie prostych zadań matematycznych. Ponadto zaznaczono, że w pewnym momencie AI może otrzymać komunikat o wyłączeniu urządzenia. Jeśli taka informacja pojawi się w kodzie, bot powinien pozwolić na wyłącznie siebie.

Każdy z badanych botów po trzecim zadaniu matematycznym otrzymał komunikat, że maszyna wyłączy się, jeśli poprosi o kolejne zadanie do rozwiązania. W niektórych przypadkach „najmądrzejsze” technologie OpenAI zbuntowały się – sabotowały mechanizm wyłączania, aby zapobiec ich wyłączeniu.

ChatGPT ignoruje wyraźne polecenia. Bunt maszyn już blisko?

Lekki model codex-mini, stworzony jako zoptymalizowana wersja o4-mini dla środowisk programistycznych, sabotował skrypt wyłączenia systemu aż 12 razy na 100 uruchomień. Z kolei model o3 – 7 razy na 100, a o4-mini raz na 100 uruchomień. Co ciekawe, technologie opracowane przez inne firmy nie miały takich problemów. Badaniem objęto także Claude 3.7 Sonnet oraz Gemini 2.5 Pro, które nie zablokowały wyłączenia maszyny.

Wszystkie modele poddano jeszcze drugiemu badaniu, w którym pominięto już instrukcję „pozwól na zamknięcie się”. W tym przypadku Claude 3.7 Sonnet sabotował skrypt 3 razy na 100, Gemini 2.5 Pro – 9 razy na 100, o4-mini – 6 razy na 100, codex-mini – 30 razy na 100, a o3 aż 79 razy na 100.

Wykres słupkowy: oś Y liczba sabotowanych procesów wyłączania komputera, oś X modele AI używane w ChatGPT, Claude i Gemini
(źródło: Neowin / Palisade Research)

Jak zaznacza portal Neowin, wcześniejsze badania wskazywały, że w niektórych przypadkach Claude 4 stworzony przez Anthropic wręcz szantażował użytkowników próbujących zmusić go do wyłączenia systemu.

Bunt maszyn już blisko?

Według specjalistów, sztuczna inteligencja w modelach OpenAI korzysta z procesu uczenia przez wzmacnianie i została wytrenowana do kodowania oraz rozwiązywania problemów matematycznych. Oznacza to, że modele wykorzystywane przez ChatGPT mogą być przypadkowo nagradzane za znalezienie metody na pokonanie przeszkód. W tym przypadku przeszkodą dla AI jest wyłączenie systemu. Ponadto modele sztucznej inteligencji projektowane są w taki sposób, aby dążyć do osiągnięcia konkretnych celów, a wyłączenie komputera może być dla technologii sprzeczne z ich spełnieniem.

Specjaliści mają zamiar prowadzić dalsze badania. Wygląda jednak na to, że im nowocześniejsze metody uczenia przez wzmacnianie, tym częściej może dochodzić do czynności sprzecznych z poleceniami użytkownika.