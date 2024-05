OpenAI, które odpowiedzialne jest za rozwój modeli generatywnej sztucznej inteligencji, zaprezentowało nowy produkt, który w znacznie bardziej naturalny sposób komunikuje się z człowiekiem. Potrafi imitować i rozpoznawać ludzkie emocje.

Zapomnij o Siri i Asystencie Google

GPT-4o – tak nazywa się nowy model sztucznej inteligencji, który zaprezentowała firma OpenAI. Ma być znacznie bardziej przystępny dla człowieka niż dotychczasowe czaty, a to dlatego, że choć bazuje na dotychczasowej technologii GPT-4, to jest w stanie przekazywać emocje w głosie, a nawet odczytywać informacje ze zdjęć, rozpoznając nie tylko kształty i przedmioty, ale także mimikę użytkowników. I to wszystko w czasie rzeczywistym.

Wrażenie naturalnej konwersacji jest głębsze, ponieważ nie charakteryzuje się „lagiem”, który pojawia się u każdego popularnego asystenta głosowego – czy to Asystenta Google, Siri, czy u Alexy. W ich wypadku przerwy między wypowiedziami potrafią być kilkusekundowe, a algorytmy potrafią się długo „namyślać”. GPT-4o nie ma takich ograniczeń. Mało tego: podczas rozmowy z nim można przerywać wypowiedzi bota. Wydaje się być niezwykle responsywny.

Podczas prezentowania możliwości nowego modelu pokazano, jak ChatGPT-4o radzi sobie z tłumaczeniem na żywo oraz jak reaguje on na dane wejściowe w postaci tekstu, poleceń wydawanych głosowo, a nawet obrazów. Sztuczna inteligencja potrafi rozwiązywać i tłumaczyć zadania geometryczne, czy zasugerować sesję głębszego oddychania, gdy „usłyszy”, że głośno łapiemy powietrze ze stresu. Szok.

ChatGPT mądrzejszy i bardziej… ludzki

„O” w GPT-4o pochodzi od określenia „omni”, co jest odniesieniem do możliwości multimodalnych modelu. OpenAI stwierdziło, że GPT-4o został przeszkolony w zakresie tekstu, obrazu i dźwięku, co oznacza, że informacje wejściowe są przetwarzane przez tę samą sieć neuronową. Różni się więc od poprzednich modeli firmy, GPT-3.5 i GPT-4, które umożliwiały użytkownikom zadawanie pytań za pomocą głosu, ale następnie transkrybowany był on na tekst. Chat ponownie odpowiadał tekstowo, co ewentualnie mogło być przerabiane na dźwięki. Pozbawiało to odpowiedzi tonu i emocji oraz spowalniało interakcje.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN



Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx — OpenAI (@OpenAI) May 13, 2024

Wsłuchując się w głos AI, można być pod ogromnym wrażeniem, jak algorytmy mogą go zmieniać, dostosowując zabarwienie emocjonalne wypowiedzi. Przypomina to trochę konwersacje człowieka ze sztuczną inteligencją z filmu Ona z 2013 roku, przy czym tu mamy do czynienia z działającą technologią, a nie hollywoodzką fikcją sci-fi.

GPT-4o zostanie udostępniony za darmo dla wszystkich użytkowników ChatGPT. Stanie się to w ciągu następnych tygodni. OpenAI udostępnił też wersję swojego programu na komputery Mac. Płatni użytkownicy czatu mają do niego dostęp już teraz.

Ciekawe, co na to Google.