Inteligentny asystent Alexa nauczy się mówić tak, jak ludzie

... czyli sztuczna intonacja, dykcja i szept

Inteligentni asystenci to już nie przyszłość – to teraźniejszość. Jedyne, co fikcyjne dla mieszkańców Polski, to język, za pomocą którego można komunikować się z różnymi „pomocnikami”. Niestety, najbardziej rozpoznawana trójka, do której należą Siri, Asystent Google i Alexa, dalej nie potrafi mówić po polsku. A nawet to, co wypowiadali w innych językach, dotychczas było raczej łatwo rozpoznawalnym, sztucznym syntezatorem mowy. Mówię dotychczas, bo Amazon jest w trakcie implementowania do swojego rozwiązania „umiejętności”, które powinny zmienić aktualny stan rzeczy.

Już wkrótce Alexa będzie mogła popisać się szeptem, wstrzymaniem „oddechu” w celu podkreślenia znaczenia, czy nawet modulacją wysokości, szybkości i głośności wypowiadanych słów. Co ciekawe, ma być zdolna także do „wypikania” danych wyrazów, choć ani to specjalnie ludzkie, ani – w moim odczuciu – przydatne.

Jednym z tańszych urządzeń obsługujących Alexę jest Amazon Echo Dot, którego drugą generację można zakupić już za 50 dolarów (fot. Amazon)

Należy teraz zadać fundamentalne pytanie – kiedy Alexa będzie wiedziała, jak wypowiadać dane informacje? Po prostu, za pomocą SSML (Speech Synthesis Markup Language) deweloperzy aplikacji mogą regulować dane odpowiedzi, w tym wymienioną już intonację i modulację, a także określić humor asystentki.

Warto zaznaczyć, że Alexa już teraz jest dosyć „spersonalizowana”. Mówienie do lakonicznie potwierdzającego robota raczej nie należałoby do najprzyjemniejszych, więc miły i ciepły, kobiecy głos chętnie odpowie na zadane pytania, opowie dowcipy, a także ustosunkuje się do deklaracji „kocham cię”. Ale przecież Alexa nie jest od tego, żeby śpiewać swoim „posiadaczom” piosenki (bo to też potrafi!), ale po to, by być asystentem głosowym właśnie.

Ale wspomniane już umiejętności to jeszcze nie wszystko – w Niemczech i Wielkiej Brytanii dostępne są speechcons, które warunkują specyficzne wypowiedzenie danych haseł. Sami wiecie, że gotchaeurekaaloha czy abracadabra, musi zostać wypowiedziane specyficzny sposób, aby miało odpowiedni wydźwięk.

Jak tłumaczy sam Amazon, deweloperzy mogą równie dobrze sprawić, żeby Alexa odpowiadała jak E.T., czyli znany wszystkim kosmita. Takie rozwiązanie mogłoby być całkiem zabawne, lecz przecież nie o to chodzi. Chodzi u uczłowieczenie. Już teraz można śmiało powiedzieć, że wirtualny asystent jest w stanie w jakiś sposób zastąpić nie tylko analogowe rozwiązania, ale również sprawy bardziej technologiczne, takie jak samodzielne przeglądanie poczty e-mail i sprawdzenie pogody.

Obecnie należy tylko sprawić, aby Alexa – i nie tylko – mogła być użytkowana w przyjazny dla użytkownika sposób. Ale to wszystko zależy już od społeczności – dostępnych jest 12000 „umiejętności mowy” dla Alexy – teraz wystarczy więc czekać, aż zostaną one zaimplementowane przez deweloperów.

źródło: Amazon Developer, TechCrunch