Translatotron od Google przemówi twoim głosem. Witaj, przyszłości tłumaczeń

Trudno zliczyć przypadki, w których Google anonsowało jakieś przełomowe rozwiązania technologiczne, ułatwiające kontakt między osobami posługującymi się różnymi językami. Być może pamiętamy, z jak wielką pompą chwalono się słuchawkami Pixel Buds, które miały zrewolucjonizować kontakty z osobami mówiącymi w obcym nam języku. I niewiele z tego wyszło. Poniższą informację przekazuje więc nie jako kamień milowy w ludzkiej komunikacji, a interesującą ciekawostkę.

Słuchawki Pixel Buds po raz pierwszy pokazano na konferencji Google I/O w roku 2017. Umożliwiały rozmowę dwóch osób posługujących się różnymi językami, jednak ograniczenie tego rozwiązania pojawiało się już na samym początku, gdyż jedna i druga osoba musiała mieć założone słuchawki Google. Firma nie przestała jednak pracować nad technologiami umożliwiającymi swobodną komunikację z ludźmi posługującymi się nieznanym nam językiem. Dlatego obecnie poświęca czas czemuś, co zyskało nazwę Translatotron.

Translatotron brzmi trochę jak nazwa trzeciej frakcji Transformersów (dodać do tego jeszcze jakąś losową, okrągłą liczbę, na przykład „3000” i od razu brzmi bardziej złowieszczo). Jest to jednak tylko pseudonim, który badacze sztucznej inteligencji nadali swojemu modelowi tłumaczeń EESSTM. Translatotron ma pewną interesującą zdolność – potrafi zachować źródłowy głos danej osoby, by tłumaczoną mowę przedstawić później słowami obcego języka, ale z zachowaniem głosu użytkownika.

Głos źródłowy:

https://google-research.github.io/lingvo-lab/translatotron/grdt_source/10148907792880119076.wav?_=1

Głos wyjściowy (tłumaczenie bazujące na głosie źródłowym):

https://google-research.github.io/lingvo-lab/translatotron/cond_source/10148907792880119076.wav?_=2

Większość systemów tłumaczeń dzieli swoją pracę na trzy części. Pierwszy zamienia mowę na tekst. Następnie tekst ten jest tłumaczony, po czym w trzecim etapie, tłumaczenie jest odczytywane przez przygotowanych wcześniej „cyfrowych lektorów”. Ten kaskadowy system jest skuteczny w wielu wypadkach, ale naukowcy z Google’a chcą pozbyć się środkowego etapu, w którym mowa jest przekładana na język pisany. Zamiast tego, używa głosu wejściowego użytkownika do przedstawienia tłumaczenia wyjściowego.

Jak każdy model tłumaczenia opartego na uczeniu maszynowym, Translatotron będzie z czasem się ulepszał. W tym momencie oferuje bardzo ograniczoną funkcjonalność, zamkniętą w laboratoriach Google. Usłyszenie, jak nasz własny głos przemawia w kompletnie obcym nam języku, musi być dość specyficznym doświadczeniem.

Tu znajdziecie więcej próbek głosów po tłumaczeniach wykorzystujących głos użytkownika.

Tłumacza Google czeka najważniejsza aktualizacja od lat – wykrywanie obcego języka przez aparat

źródło: Google przez Slashgear

Exit mobile version