OpenAI Operator sztuczna inteligencja
Operator (źródło: OpenAI)

Sztuczna inteligencja OpenAI. Gotowa, by przejąć kontrolę nad komputerem

Wyobraź sobie sztuczną inteligencję, która przejmuje za Ciebie kontrolę nad komputerem i wykonuje na nim najrozmaitsze zadania, wchodząc w interakcje z graficznym interfejsem (GUI). A teraz opuść sferę wyobraźni, ponieważ właśnie tym jest Operator – najnowsze narzędzie OpenAI, a więc ekipy, która dała nam usługę ChatGPT.

Operator – sztuczna inteligencja gotowa, by przejąć kontrolę

Operator może wejść do przeglądarki internetowej i wykonywać w jej obrębie rozmaite zadania za użytkownika. Bazą dla narzędzia jest CUA (Computer-Using Agent). To specjalny model, wytrenowany w taki sposób, by rozumiał, co widzi i mógł wchodzić w interakcje z przyciskami, menu, polami tekstowymi i innymi elementami interfejsu graficznego widocznego na ekranie komputera.

Ta jego charakterystyka zapewnia mu elastyczność wykonywania cyfrowych zadań bez korzystania z kodu specyficznego dla systemu operacyjnego – jak czytamy w notce prasowej.

Operator w obecnej wersji wykorzystuje model GPT-4o. Między innymi dzięki temu słynąć ma z dobrego rozumienia elementów wizualnych, efektywnego dzielenia zadań na etapy oraz adaptacyjnego samokorygowania się.

Jak to działa?

A działa to tak, że użytkownik wprowadza polecenie, które może być dowolnym zadaniem możliwym do zrealizowania z poziomu przeglądarki internetowej. Sztuczna inteligencja postara się wykonać je w całości, oddając kontrolę użytkownikowi tylko w dwóch sytuacjach: gdy z jakiegoś powodu utknie, albo też gdy konieczne będzie wprowadzenie wrażliwych danych (np. w formularzu zamówienia).

Aktualnie Operator jest narzędziem eksperymentalnym, dlatego skorzystać z niego mogą wyłącznie osoby, które mają wykupioną subskrypcję ChatGPT Pro. Przypomnę, że mówimy tu o abonamencie kosztującym 200 dolarów miesięcznie. To równowartość ~805 złotych, ale w tym przypadku nie ma to większego znaczenia, ponieważ obecnie nową funkcję wypróbować mogą jedynie użytkownicy w Stanach Zjednoczonych.

Jak skuteczny jest Operator OpenAI?

Testy mogą pomóc w udoskonaleniu modelu, którego skuteczność na razie nie jest imponująca. W przypadku zadań związanych z kontrolą całego systemu współczynnik powodzenia wynosi 38,1%, a jeśli chodzi o kontrolę nad samą przeglądarką internetową, to (w zależności od benchmarku) waha się od 58 do 71%.

OpenAI Operator sztuczna inteligencja skuteczność
Skuteczność Operatora (źródło: OpenAI)

Innymi słowy prawidłowo są wykonane tylko dwa na trzy zadania w przeglądarce i jedno na trzy o większej złożoności. Operator nie radzi sobie przede wszystkim z zapytaniami mającymi wiele zmiennych (na przykład rezerwacja pokoju hotelowego o konkretnej charakterystyce).

Nie tylko OpenAI

Nad podobnym rozwiązaniem pracuje firma Google. Wraz z premierą Gemini 2.0 rozpoczęła testy projektu Mariner, którego celem jest właśnie opracowanie narzędzia analizującego zawartość ekranu i wchodzącego z nią w interakcje na potrzeby wykonania określonego zadania za użytkownika. Ta sama koncepcja eksplorowana jest w modelu Claude 3.5 Sonnet firmy Anthropic.

Redaktor