OpenAI ogłosiło premierę gpt-realtime. To całkiem nowy model speech-to-speech, który lepiej rozumie polecenia, brzmi naturalniej i… co najważniejsze dla deweloperów, kosztuje mniej niż dotychczasowe rozwiązania.
Nowy model = nowe możliwości?
OpenAI to nie tylko ChatGPT i wykorzystywane w nim modele, takie jak choćby niedawno zaprezentowany GPT-5. Po miesiącach testów i analiz, zaprezentowano model gpt-realtime. Jak chwali się firma, to najbardziej zaawansowana do tej pory wersja technologii przetwarzania mowy.
W porównaniu do wcześniejszych, nowy system nie tylko oferuje wyraźnie wyższy poziom rozumienia poleceń, ale także generuje głos o znacznie bardziej naturalnym brzmieniu i ekspresji. Co istotne, mimo istotnych usprawnień model jest tańszy w użyciu niż jego poprzednik, czyli GPT-4o-realtime-preview.
Model gpt-realtime jest kontynuacją kierunku zapoczątkowanego przez OpenAI w październiku 2024 roku, kiedy to udostępniono interfejs Realtime API. Od tamtej pory tysiące deweloperów zintegrowały to rozwiązanie w swoich aplikacjach, budując całkiem nowe interfejsy głosowe.
W benchmarku Big Bench Audio nowy model osiągnął dokładność na poziomie 82,8%, co stanowi znaczący skok względem 65,6% uzyskanych przez poprzednią wersję. W teście MultiChallenge wynik wzrósł z 20,6% do 30,5%, a w ComplexFuncBench z 49,7% do 66,5%. To jednoznacznie wskazuje na lepsze zrozumienie złożonych poleceń, efektywniejsze przetwarzanie dźwięku i wyższy poziom funkcjonalności w codziennych zastosowaniach.
Wraz z premierą modelu firma zaprezentowała również dwie nowe syntetyczne głosy. Ich „imiona” Marin i Cedar. Dodatkowo zaktualizowano brzmienie sześciu dotychczasowych głosów, aby wyniki ich pracy brzmiały jeszcze bardziej realistycznie.
Co wraz z gpt-realtime obiecuje OpenAI?
OpenAI wprowadziło też szereg zmian do samego Realtime API. Najważniejsze z nich to obsługa zdalnych serwerów MCP, możliwość podawania obrazów jako danych wejściowych oraz integracja z telefonicznym protokołem SIP, który umożliwia realizowanie połączeń głosowych. Firma wprowadziła także funkcję zapisywania i ponownego wykorzystywania promptów, co znacząco skraca czas budowania interaktywnych scenariuszy.
Nowy model nie tylko działa lepiej, ale także jest bardziej dostępny. Cena za milion tokenów wejściowych audio została obniżona do 32 dolarów (~117 złotych), a koszt tokenów wyjściowych spadł do 64 dolarów (~234 złote) za milion. To około 20% mniej niż w przypadku GPT-4o-realtime-preview. Różnica cenowa może przesądzić o decyzji wielu firm planujących wdrożenia usług głosowych opartych na AI.