Wszechstronne AI to takie, które potrafi nie tylko odpowiadać na nasze pytania i prowadzić konwersację – oczekujemy od niego czegoś więcej niż tylko analizy tekstu. Wkrótce androidowa wersja sztucznej inteligencji Gemini zyska możliwość rozumienia nowego źródła.

Co potrafi aplikacja Gemini?

Na ten moment Google wymienia szereg różnych zadań, do jakich zdolna jest ich sztuczna inteligencja. Wśród najważniejszych funkcji, gigant wskazuje m.in. możliwość nauki poprzez konwersację, pomoc w pisaniu, w tym tłumaczenie i poprawianie błędów gramatycznych czy podsumowywanie tekstów. Od strony wizualnej oficjalna strona wsparcia zapewnia natomiast, że Gemini powinien poradzić sobie również z pytaniami dotyczącymi tego, co widzi na zdjęciu lub na ekranie urządzenia.

A co z możliwościami związanymi z dźwiękiem? AI jest w stanie rozpoznać grany w danej chwili utwór i reagować na komendy głosowe – i to w zasadzie tyle. Pliki audio są dla modelu póki co czarną magią. To się jednak może wkrótce zmienić.

Gemini odsłucha (i zrozumie) Wasze pliki dźwiękowe

Serwis Android Authority w trakcie analizowania aplikacji Google w wersji 16.30.59.sa.arm64 natrafił na możliwość zamieszczania plików z dźwiękiem w trakcie prowadzenia rozmowy z Gemini. Funkcja była testowana z pomocą formatu MP3. Po wprowadzeniu załącznika pojawiła się nowa sugestia „porozmawiajmy na żywo o tym” (tłum. własne).

Niestety, po wgraniu pliku bez względu na to, czy wybierzemy nowy przycisk, czy zdecydujemy się na zadanie własnego pytania, Gemini nie jest w stanie pojąć z czym ma do czynienia. Czasami całkowicie ignoruje załącznik lub – jak to bywa czasami z AI – zmyśla odpowiedź dotyczącą pliku.

Nieopublikowana funkcja analizowania plików audio przez aplikację Gemini. (Źródło: Matt Horne, Assemble Debug | Android Authority)

Warto zauważyć, że API Gemini rozumie dane wejściowe audio w postaci mowy. Jest w stanie opisać, co słyszy, podsumować wypowiedź lub dokonać transkrypcji wraz ze znacznikami czasu. Całość działa z formatami MP3, WAV oraz FLAC. Wszystko wskazuje więc na to, że możliwość wgrywania plików dźwiękowych i rozumienie ich przez aplikację na smartfony jest rozwijane przez Google, jednak nie wiadomo, kiedy firmie uda się dopracować rozwiązanie.