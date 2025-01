Wyobraź sobie sztuczną inteligencję, która przejmuje za Ciebie kontrolę nad komputerem i wykonuje na nim najrozmaitsze zadania, wchodząc w interakcje z graficznym interfejsem (GUI). A teraz opuść sferę wyobraźni, ponieważ właśnie tym jest Operator – najnowsze narzędzie OpenAI, a więc ekipy, która dała nam usługę ChatGPT.

Operator – sztuczna inteligencja gotowa, by przejąć kontrolę

Operator może wejść do przeglądarki internetowej i wykonywać w jej obrębie rozmaite zadania za użytkownika. Bazą dla narzędzia jest CUA (Computer-Using Agent). To specjalny model, wytrenowany w taki sposób, by rozumiał, co widzi i mógł wchodzić w interakcje z przyciskami, menu, polami tekstowymi i innymi elementami interfejsu graficznego widocznego na ekranie komputera.

Ta jego charakterystyka zapewnia mu elastyczność wykonywania cyfrowych zadań bez korzystania z kodu specyficznego dla systemu operacyjnego – jak czytamy w notce prasowej.

Operator w obecnej wersji wykorzystuje model GPT-4o. Między innymi dzięki temu słynąć ma z dobrego rozumienia elementów wizualnych, efektywnego dzielenia zadań na etapy oraz adaptacyjnego samokorygowania się.

Jak to działa?

A działa to tak, że użytkownik wprowadza polecenie, które może być dowolnym zadaniem możliwym do zrealizowania z poziomu przeglądarki internetowej. Sztuczna inteligencja postara się wykonać je w całości, oddając kontrolę użytkownikowi tylko w dwóch sytuacjach: gdy z jakiegoś powodu utknie, albo też gdy konieczne będzie wprowadzenie wrażliwych danych (np. w formularzu zamówienia).

Aktualnie Operator jest narzędziem eksperymentalnym, dlatego skorzystać z niego mogą wyłącznie osoby, które mają wykupioną subskrypcję ChatGPT Pro. Przypomnę, że mówimy tu o abonamencie kosztującym 200 dolarów miesięcznie. To równowartość ~805 złotych, ale w tym przypadku nie ma to większego znaczenia, ponieważ obecnie nową funkcję wypróbować mogą jedynie użytkownicy w Stanach Zjednoczonych.

Nie tylko OpenAI

Nad podobnym rozwiązaniem pracuje firma Google. Wraz z premierą Gemini 2.0 rozpoczęła testy projektu Mariner, którego celem jest właśnie opracowanie narzędzia analizującego zawartość ekranu i wchodzącego z nią w interakcje na potrzeby wykonania określonego zadania za użytkownika. Ta sama koncepcja eksplorowana jest w modelu Claude 3.5 Sonnet firmy Anthropic.