Modele głosowe oparte o AI to bardzo szybka metoda zamiany tekstu na mowę. Nowinki zaprezentowane przez OpenAI dla ChatGPT sugerują, że wkrótce będziemy mieli wielu wyśmienitych lektorów na wyciągnięcie ręki.
Trzy nowe modele głosowe OpenAI
Rozwiązania ujawnione przez twórców ChatGPT nazywają się, kolejno, gpt-4o-transcribe, gpt-4o-mini-transcribe oraz gpt-4o-mini-tts. Modele będą wstępnie dostępne w API sztucznej inteligencji dla zewnętrznych programistów budujących swoje aplikacje. Możliwa będzie także personalizowana wersja demo dostępna na stronie OpenAI.fm dla pojedynczych użytkowników do ograniczonego testowania.
Modele powstały w oparciu o obecny model GPT-4o, dostępny na platformie od maja 2024 roku. OpenAI chciało jednak dotrenować model, aby jeszcze lepiej radził sobie z mową oraz transkrypcją. Całość ma zastąpić dwuletni, open source’owy model text-to-speech Whisper. Według firmy, gpt-4o w nowej odsłonie rzadziej popełnia błędy, lepiej radzi sobie w hałaśliwym otoczeniu ze zróżnicowanymi akcentami i prędkością mowy. Całość ma funkcjonować w ponad stu językach.

Po raz pierwszy można będzie również wpłynąć na brzmienie modelu. Odpowiedni prompt będzie w stanie zmienić nie tylko akcent, wysokość czy ton wokali, ale również emocje słyszane w głosie. Próbki OpenAI prezentują m.in. głos surfera, średniowiecznego rycerza czy osoby czytającej bajkę na dobranoc. Niestety, zabraknie póki co opcji diaryzacji, czyli oddzielania różnych źródeł dźwiękowych i przypisywania ich do konkretnych osób – całość ma zatem opierać się na jednym kanale wejściowym i odpowiadaniu na wszystko jednym głosem wyjściowym.
Nowe modele głosowe mają znaleźć zastosowanie w call center, spotkaniach z transkrypcją itp. Dzięki udostępnionemu niedawno SDK Agents, wdrożenie interakcji głosowych do LLM bazujących na tekście wymaga dodania dziewięciu linijek kodu.
Ceny za używanie poszczególnych modeli wyglądają następująco:
- gpt-4o-transcribe – 6 dolarów (~23 złote) za 1M tokenów wejścia audio (~0,006 dolarów (~0,023 złotych) za minutę),
- gpt-4o-mini-transcribe – 3 dolary (~12 złotych) za 1M tokenów wejścia audio (~0,003 dolarów (~0,012 złotych) na minutę),
- gpt-4o-mini-tts – 0,60 dolarów za 1M tokenów wejścia tekstowego, 12 dolarów za 1M tokenów wyjścia aduio (~0,015 dolara (~0,058 złotych) na za minutę),
Usprawnienia w obszarze graficznym
Dzięki osobom przeczesującym aplikacje na Androida dla serwisu Android Authority wiemy również, czego spodziewać się po OpenAI w niedalekiej przyszłości. Androidowa wersja ChatGPT w wersji v1.2025.077 sugeruje, że cyfrowy asystent otrzyma wkrótce poprawiony system generowania grafik. ChatGPT, wykorzystujący model DALL-E 3, ma tworzyć teraz dokładniejsze i bardziej szczegółowe obrazy, a do listy funkcji dołączy „ImageGen”.
Niestety, kod nie zdradza, kiedy pojawią się usprawnienia, ani czy będą dostępne dla wszystkich, czy tylko dla subskrybentów jednego z planów ChatGPT.