Sztuczna inteligencja OpenAI. Gotowa, by przejąć kontrolę nad komputerem

Wyobraź sobie sztuczną inteligencję, która przejmuje za Ciebie kontrolę nad komputerem i wykonuje na nim najrozmaitsze zadania, wchodząc w interakcje z graficznym interfejsem (GUI). A teraz opuść sferę wyobraźni, ponieważ właśnie tym jest Operator – najnowsze narzędzie OpenAI, a więc ekipy, która dała nam usługę ChatGPT.

Operator – sztuczna inteligencja gotowa, by przejąć kontrolę

Operator może wejść do przeglądarki internetowej i wykonywać w jej obrębie rozmaite zadania za użytkownika. Bazą dla narzędzia jest CUA (Computer-Using Agent). To specjalny model, wytrenowany w taki sposób, by rozumiał, co widzi i mógł wchodzić w interakcje z przyciskami, menu, polami tekstowymi i innymi elementami interfejsu graficznego widocznego na ekranie komputera.

Ta jego charakterystyka zapewnia mu elastyczność wykonywania cyfrowych zadań bez korzystania z kodu specyficznego dla systemu operacyjnego – jak czytamy w notce prasowej.

Operator w obecnej wersji wykorzystuje model GPT-4o. Między innymi dzięki temu słynąć ma z dobrego rozumienia elementów wizualnych, efektywnego dzielenia zadań na etapy oraz adaptacyjnego samokorygowania się.

Jak to działa?

A działa to tak, że użytkownik wprowadza polecenie, które może być dowolnym zadaniem możliwym do zrealizowania z poziomu przeglądarki internetowej. Sztuczna inteligencja postara się wykonać je w całości, oddając kontrolę użytkownikowi tylko w dwóch sytuacjach: gdy z jakiegoś powodu utknie, albo też gdy konieczne będzie wprowadzenie wrażliwych danych (np. w formularzu zamówienia).

Aktualnie Operator jest narzędziem eksperymentalnym, dlatego skorzystać z niego mogą wyłącznie osoby, które mają wykupioną subskrypcję ChatGPT Pro. Przypomnę, że mówimy tu o abonamencie kosztującym 200 dolarów miesięcznie. To równowartość ~805 złotych, ale w tym przypadku nie ma to większego znaczenia, ponieważ obecnie nową funkcję wypróbować mogą jedynie użytkownicy w Stanach Zjednoczonych.

Jak skuteczny jest Operator OpenAI?

Testy mogą pomóc w udoskonaleniu modelu, którego skuteczność na razie nie jest imponująca. W przypadku zadań związanych z kontrolą całego systemu współczynnik powodzenia wynosi 38,1%, a jeśli chodzi o kontrolę nad samą przeglądarką internetową, to (w zależności od benchmarku) waha się od 58 do 71%.

OpenAI Operator sztuczna inteligencja skuteczność — Skuteczność Operatora (źródło: OpenAI)

Innymi słowy prawidłowo są wykonane tylko dwa na trzy zadania w przeglądarce i jedno na trzy o większej złożoności. Operator nie radzi sobie przede wszystkim z zapytaniami mającymi wiele zmiennych (na przykład rezerwacja pokoju hotelowego o konkretnej charakterystyce).

Nie tylko OpenAI

Nad podobnym rozwiązaniem pracuje firma Google. Wraz z premierą Gemini 2.0 rozpoczęła testy projektu Mariner, którego celem jest właśnie opracowanie narzędzia analizującego zawartość ekranu i wchodzącego z nią w interakcje na potrzeby wykonania określonego zadania za użytkownika. Ta sama koncepcja eksplorowana jest w modelu Claude 3.5 Sonnet firmy Anthropic.

Zobacz również

Sztuczna inteligencja OpenAI. Gotowa, by przejąć kontrolę nad komputerem

Operator – sztuczna inteligencja gotowa, by przejąć kontrolę

Jak to działa?

Jak skuteczny jest Operator OpenAI?

Nie tylko OpenAI

Eufy oficjalnie wjeżdża do Polski. I proponuje coś ciekawego

Microsoft wprowadzi dwa nowe urządzenia. Zaletą będą mniejsze ekrany

Gemini jest teraz ładniejsze. Nowy wygląd trafia do wielu użytkowników

Sztuczna inteligencja OpenAI. Gotowa, by przejąć kontrolę nad komputerem

Operator – sztuczna inteligencja gotowa, by przejąć kontrolę

Jak to działa?

Jak skuteczny jest Operator OpenAI?

Nie tylko OpenAI

Eufy oficjalnie wjeżdża do Polski. I proponuje coś ciekawego

W USA sprzedają iPhone’y z TikTokiem. Ceny są kosmiczne

Microsoft wprowadzi dwa nowe urządzenia. Zaletą będą mniejsze ekrany

Gemini jest teraz ładniejsze. Nowy wygląd trafia do wielu użytkowników

Obserwuj nas

SUBSCRIBE