Wyobraź sobie sztuczną inteligencję, która przejmuje za Ciebie kontrolę nad komputerem i wykonuje na nim najrozmaitsze zadania, wchodząc w interakcje z graficznym interfejsem (GUI). A teraz opuść sferę wyobraźni, ponieważ właśnie tym jest Operator – najnowsze narzędzie OpenAI, a więc ekipy, która dała nam usługę ChatGPT.
Operator – sztuczna inteligencja gotowa, by przejąć kontrolę
Operator może wejść do przeglądarki internetowej i wykonywać w jej obrębie rozmaite zadania za użytkownika. Bazą dla narzędzia jest CUA (Computer-Using Agent). To specjalny model, wytrenowany w taki sposób, by rozumiał, co widzi i mógł wchodzić w interakcje z przyciskami, menu, polami tekstowymi i innymi elementami interfejsu graficznego widocznego na ekranie komputera.
Ta jego charakterystyka zapewnia mu elastyczność wykonywania cyfrowych zadań bez korzystania z kodu specyficznego dla systemu operacyjnego – jak czytamy w notce prasowej.
Operator w obecnej wersji wykorzystuje model GPT-4o. Między innymi dzięki temu słynąć ma z dobrego rozumienia elementów wizualnych, efektywnego dzielenia zadań na etapy oraz adaptacyjnego samokorygowania się.
Jak to działa?
A działa to tak, że użytkownik wprowadza polecenie, które może być dowolnym zadaniem możliwym do zrealizowania z poziomu przeglądarki internetowej. Sztuczna inteligencja postara się wykonać je w całości, oddając kontrolę użytkownikowi tylko w dwóch sytuacjach: gdy z jakiegoś powodu utknie, albo też gdy konieczne będzie wprowadzenie wrażliwych danych (np. w formularzu zamówienia).
Aktualnie Operator jest narzędziem eksperymentalnym, dlatego skorzystać z niego mogą wyłącznie osoby, które mają wykupioną subskrypcję ChatGPT Pro. Przypomnę, że mówimy tu o abonamencie kosztującym 200 dolarów miesięcznie. To równowartość ~805 złotych, ale w tym przypadku nie ma to większego znaczenia, ponieważ obecnie nową funkcję wypróbować mogą jedynie użytkownicy w Stanach Zjednoczonych.
Jak skuteczny jest Operator OpenAI?
Testy mogą pomóc w udoskonaleniu modelu, którego skuteczność na razie nie jest imponująca. W przypadku zadań związanych z kontrolą całego systemu współczynnik powodzenia wynosi 38,1%, a jeśli chodzi o kontrolę nad samą przeglądarką internetową, to (w zależności od benchmarku) waha się od 58 do 71%.

Innymi słowy prawidłowo są wykonane tylko dwa na trzy zadania w przeglądarce i jedno na trzy o większej złożoności. Operator nie radzi sobie przede wszystkim z zapytaniami mającymi wiele zmiennych (na przykład rezerwacja pokoju hotelowego o konkretnej charakterystyce).
Nie tylko OpenAI
Nad podobnym rozwiązaniem pracuje firma Google. Wraz z premierą Gemini 2.0 rozpoczęła testy projektu Mariner, którego celem jest właśnie opracowanie narzędzia analizującego zawartość ekranu i wchodzącego z nią w interakcje na potrzeby wykonania określonego zadania za użytkownika. Ta sama koncepcja eksplorowana jest w modelu Claude 3.5 Sonnet firmy Anthropic.