Niepokojąca technologia Samsunga. Wystarczy jedno zdjęcie twarzy, by zrobić film z mówiącym człowiekiem

Karol Kunat

5 lat temu

W moskiewskim oddziale Samsunga przeprowadza się dziwne eksperymenty. Opracowano tam technikę, która umożliwia przekształcenie naszego zdjęcia w film, na którym w przekonujący sposób wypowiadamy jakieś słowa. Sęk w tym, że w „nasze” usta można by wtedy włożyć dowolną wypowiedź i nikt by się nie zorientował, że to nie my mówimy, a algorytmy udające naszą osobę.

Zasadniczo, deepfake to nic nowego. Wykorzystywanie sztucznej inteligencji do podmiany twarzy na filmach i naśladowanie mimiki konkretnych osób widzieliśmy już pewnie nie raz. Być może mieliśmy wtedy trudności z określeniem, czy na ekranie widzimy rzeczywiście tę osobę publiczną, czy tylko jej oblicze, nałożone na ruch twarzy innego aktora. Jednak żeby osiągnąć zadowalający efekt (czytaj: stworzyć wiarygodne fałszerstwo), potrzebne są ogromne zestawy danych – dziesiątek, jeśli nie setek zdjęć, które później można złożyć w model 3D. I tu zastosowanie ma wspomniana nowa technologia Samsunga.

W przeciwieństwie do istniejących rozwiązań, sztuczna inteligencja Samsunga nie wykorzystuje modelowania 3D i może wygenerować syntetyczny klip na podstawie nawet jednego zdjęcia. Oczywiście im więcej fotografii twarzy, tym lepiej, ale nawet jedno powinno wystarczyć, by ożywić czyjś portret.

Nowy model tworzenia realistycznych filmów zawierających cudze twarze zakłada, że sztuczna inteligencja ożywia zdjęcia za pomocą dostępu do bazy nagrań wideo, ukazujących rozmawiających ludzi. Z tych klipów wyodrębniane są punkty orientacyjne twarzy, które później porównywane są z podobnymi punktami na zdjęciach. Łącząc te dane, system może tworzyć realistycznie wyglądające modele, bez zestawiania ze sobą dziesiątek zdjęć i robienia z nich „maski 3D”.

Film towarzyszący publikacji Samsunga ukazuje, jak ten algorytm radzi sobie z ożywieniem twarzy Mony Lisy, po zrobieniu zaledwie jednego zdjęcia. Choć technologia ta może mieć wiele zastosowań, między innymi w grach wideo czy filmach, to w głowie od razu zapala się czerwona lampka. Skoro przy pomocy tego typu narzędzi tak łatwo można nas oszukać, to czy podobne rozwiązanie nie zostanie wykorzystanie do szerzenia fałszywych newsów czy siania dezinformacji? W końcu oprogramowanie do tworzenia filmów deepfake jest powszechnie dostępne. Wydaje się, że to tylko kwestia czasu, zanim w sieci pojawi się wideo przedstawiające jakiegoś polityka, który wypowiada słowa dyktowane sztucznej inteligencji przez jego przeciwników.

To nie są zdjęcia. Twarze tych ludzi „wymyśliła” Sztuczna Inteligencja. Trochę straszne

źródło: arXiv.org przez Tech2