Aby lepiej zrozumieć założenia poniższego artykułu, serdecznie zachęcamy do zapoznania się z naszym wcześniejszym artykułem pod nazwą “Czym Są Deep Fake’s”.
Jak mogłaby powstać metoda “Na wnuczka” w XXI wieku?

W pierwszym kroku program komputerowy musi nauczyć się czytać w określonym języku i być w stanie odtworzyć to, co zostało przeczytane. Opiera się to na ogólnym głosie, dla którego musi być dostępnych dużo materiału głosowego, co najmniej 24 godziny dźwięku jednak istnieją już wcześniej przygotowane “modele” dzięki którym nie jest to już tak czasochłonne. Ponadto nagrania muszą być dostępne w transkrypcjach, aby tekst mógł zostać ostatecznie przekonwertowany na dźwięki głosowe. Program komputerowy jest karmiony nagraniami i transkrypcjami. Segmenty tekstowe i dźwiękowe podane programowi nie powinny być dłuższe niż 10 sekund. Oznacza to, że przygotowanie danych do takiego modelu generycznego wymaga dużego nakładu pracy. Z jednej strony musi być dostępna wystarczająca ilość dobrych nagrań, z drugiej zaś nagrania i teksty muszą być doprowadzone do stanu oczekiwanego przez modela. Po przygotowaniu materiału, wykonywane są długie obliczenia, aby umożliwić modelowi ustalenie korelacji między tekstem a dźwiękiem. Daje to ogólny model podstawowy w żądanym języku, który można wykorzystać w następnym kroku do dostrojenia modelu z głosem docelowym.
Jednak obecnie istnieją metody aby skrócić czas tego procesu nawet do kilku minut. Światowi pionierzy klonowania głosu w ostatnim czasie pokazali równiez niezwykłe możliwości dotyczące jakości klonowanego głosu oraz tego jak permanentne może być to narzędzie gdy już raz wgramy i “wytrenujemy” swój głos, ponieważ wtedy możemy nawet doprowadzić do sytuacji w której “mówimy” za pomocą klawiszy klawiatury naszego laptopa. Oczywiście mowa tutaj przede wszystkim o wiadomościach dźwiękowych. Klonowanie głosu na żywo to już inna para kaloszy.
Warto jednak zwrócić uwagę na nieco inne ryzyko. Związane z tym, że istnieje mozliwość wysłania tym firmom pliku dźwiękowego, aby same zamiast nas przygotowały niezbędne pliki już z podrobionym głosem. Oznacza to ryzyko w którym głos np. policjanta na służbie zostanie nagrany dyktafonem a następnie przesłany do takiej firmy a następnie wykorzystany przy rozmowie telefonicznej, przy której nie musimy się nawet wysilać, wszystko czego potrzebujemy aby podszyć się pod policjanta to umiejętność szybkiego pisania na klawiaturze.

Dostrajanie wymaga kolejnych 30% czasu potrzebnego na uczenie modelu podstawowego. Aby osiągnąć dobry wynik, potrzeba około 2,5 do 3 godzin nagrań głosowych żądanego mówcy. Jednak wyniki uzyskane w wyniku tego dostrojenia nadal brzmią stosunkowo metalicznie i podobnie do robota. Powodem tego jest to, że w tym treningu trenowano tylko najważniejsze częstotliwości, ponieważ ilość obliczeń i wymaganego czasu byłyby zbyt duże, aby trenować poprawnie dla wszystkich obecnych częstotliwości. Aby zmienić metaliczny głos w lepiej brzmiącą imitację lub nierozpoznawalną imitację głosu, potrzebny jest ostatni krok. Uzyskane wyniki trafiają do tak zwanego wokodera neuronowego , który wypełnia luki w częstotliwościach i tym samym nadaje całości naturalny dźwięk.
Jakie narzędzia są obecnie dostępne?
Istnieją różne publicznie dostępne narzędzia. Dwa z tych narzędzi, które wyglądają bardzo obiecująco, to TTS firmy Mozilla i tacotron2 firmy NVIDIA . Oba mają instrukcje, jak z nich korzystać, ale szybko staje się jasne, że obecnie dostępne narzędzia wymagają zrozumienia technicznego, a także zrozumienia, jak działają deepfake audio.
Czy ryzyko jest realne?
Już w roku 2019 zaczęto dostrzegać, że deep fakes mogą stanowić wyzwanie dla ludzkości.

We fragmencie powyższego artykułu znajdziemy informację o publicznym repozytorium 7000 zdjęć celebrytów pozyskanych z YouTutbe.

W połączeniu z wizualnymi podróbkami może to potencjalnie stworzyć całkowitą imitację osoby .
Oprócz tego pojawiają się jednak inne problemy. Dzięki możliwości imitowania głosów można przeprowadzać przekonujące ataki phishingu telefonicznego na firmy oraz tytułowe stosowanie metody na wnuczka w sytuacji gdy osoby starsze niejednokrotnie mają również problemy ze słuchem a dodatkowo głos napastnika do złudzenia będzie przypominał głos członka rodziny. Co więcej, podstawowe istnienie tej technologii daje ludziom możliwość odrzucenia w sądach potencjalnych dowodów wideo lub audio jako fałszywych, niezależnie od tego, czy dowody te są prawdziwe, czy fałszywe.
Radzenie sobie z atakami Deepfake audio przez telefon
Przynajmniej sensowne byłoby rozłączenie się, gdy podejrzewa się fałszywe połączenie i oddzwonienie do tej osoby i potwierdzenie tego, co zostało omówione. Oddzwanianie nie powinno odbywać się na numer podany w telefonie, ale na znany numer osoby, która rzekomo dzwoniła.
Autor artykułu: Adam Mucha
