fbpx

"Każdy rząd pozbawiony krytyki jest skazany na popełnianie błędów"

18.7 C
Warszawa
czwartek, 23 maja, 2024

"Każdy rząd pozbawiony krytyki jest skazany na popełnianie błędów"

Klonowanie głosu Anthony’ego Bourdaina budzi w ludziach lęk – „The Washington Times” wyjaśnia, dlaczego tak się dzieje

Fala krytyki i etycznych obaw wezbrała, kiedy okazało się, że dokumentalista wykorzystał oprogramowanie komputerowe pozwalające klonować głos, dzięki czemu otrzymał wypowiedź zmarłego kucharza Anthony’ego Bourdaina, która nigdy nie miała miejsca. Jakie są granice wykorzystywania tak potężnych technologii?

Warto przeczytać

Chodzi o film „Roadrunner: A Film About Anthony Bourdain”, który trafił niedawno do kin. To dokument składający się w większości z autentycznych materiałów filmowych dotyczących znanego szefa kuchni, osobowości telewizyjnej i podróżnika, który zmarł w 2018 roku. Jednak reżyser, Morgan Neville, zdradził w „The New Yorker”, że fragment pojawiającego się w filmie dialogu został stworzony przy użyciu technologii sztucznej inteligencji.

W ten sposób powrócił temat klonowania głosu, który dotyczy nie tylko świata rozrywki i mediów, ale także polityki. Programy przekształcające tekst w ludzką mowę rozwinęły się w ostatnich latach bardzo szybko, a efekty są coraz bardziej realistyczne.

„Nieautoryzowane klonowanie głosu to śliski temat” – napisał na blogu Andrew Mason, założyciel i dyrektor firmy, która stworzyła generator głosu Descript. „Od miejsca, w którym subiektywnie oceniasz, czy konkretne zastosowania mogą być etyczne, jest już niedaleko do tego, by wszystko się zawaliło”.

Do tej pory tego typu technologie były kontrowersyjne głównie ze względu na możliwość tworzenia deepfake’ów – ciężkich do wykrycia symulacji głosu (lub – przy innych technologiach – obrazu), które mogły szerzyć dezinformację i podsycać konflikty na tle politycznym. Jednak we wspomnianym materiale Mason zdradził, że Descript wielokrotnie odrzucał prośby o odtworzenie głosu „od ludzi, którzy kogoś stracili i są w żałobie”.

„To nawet nie chodzi o to, że chcemy wydać wyrok. Naszym zdaniem po prostu potrzebne są jasne granice tego, co jest OK, a co nie” – napisał.

Oburzone reakcje w sprawie klonowania głosu Bourdaina pokazują, jak palące są kwestie przejrzystości i zgody na podobne działania, uważa Sam Gregory, dyrektor programowy w organizacji Witness, która zajmuje się wykorzystywaniem nowoczesnych technologii i prawami człowieka. Jego zdaniem takie przeróbki wymagają otrzymania zgody oraz ujawnienia tego, że miały one miejsce. Tymczasem w przypadku filmu widzowie zostali oszołomieni – początkowo za sprawą samego fałszowania nagrań, a następnie wypowiedzią reżysera, który wydawał się odrzucać wszelkie etyczne dylematy. Więc w konsekwencji wyrazili swoje oburzenie w internecie.

„Film dotyka także naszych lęków przed śmiercią i wyobrażeń o tym, jak ludzie mogliby przejąć kontrolę nad naszą cyfrową podobizną i sprawić, że mówilibyśmy lub robili rzeczy bez możliwości powstrzymania tego” – powiedział Gregory.

Neville nie powiedział, którego z programów użył do odtworzenia głosu Bourdaina, zdradził natomiast, że wykorzystał technologię jedynie do stworzenia nagrania kilku zdań, które Bourdain rzeczywiście napisał, jednak nigdy nie wypowiedział na głos.

„Użyliśmy technologii AI za pozwoleniem jego spadkobierców i agenta literackiego. W kilku miejscach użyłem nowoczesnej techniki opowiadania historii, bo uznałem za ważne, by słowa Tony’ego ożyły” – powiedział Neville w pisemnym oświadczeniu.

Także w wywiadzie dla magazynu „GQ” Neville powtórzył, że otrzymał zgodę wdowy i agenta literackiego Bourdaina. Tymczasem żona szefa kuchni, Ottavia Busia, napisała na Tweeterze: „Z pewnością NIE byłam tą, która powiedziała, że Tony’emu by to pasowało”.

Obecnie prym w badaniach nad technologiami text-to-speech (zamiany tekstu na mowę) wiodą technologiczni giganci: Google, Microsoft i Amazon. Jednak obok nich działa też grupa startupów, do których należy wspomniany Descript. Oferują one oprogramowanie umożliwiające klonowanie głosu, które może być zastosowane między innymi w chatbotach obsługujących klientów, grach wideo czy podcastach.

Większość tego typu firm zamieszcza na swojej stronie oświadczenia związane z kwestiami etycznymi, wskazując na warunki korzystania z programów oraz granice ich użycia. Agencja Associated Press skontaktowała się z kilkoma firmami, by zapytać, czy to one odtworzyły głos Bourdaina. Większość zaprzeczyła nie tylko temu, że to zrobiła, ale że zgodziłaby się na to, gdyby została poproszona. Kilka jednak nie odpowiedziało na zapytanie.

„Mamy dość silne zasady dotyczące tego, co można zrobić na naszej platformie” – powiedział Zohaib Ahmed, założyciel i dyrektor generalny Resemble AI, firmy z Toronto, która sprzedaje usługi generatora głosu AI. „Kiedy klonujesz czyjś głos, musisz mieć zgodę jego właściciela”.

Ahmed przyznał, że zdarzało mi się zezwolić na klonowanie pośmiertne, to znaczy odtwarzanie głosu osoby zmarłej, ale za każdym razem było to w celach badań akademickich. Był to między innymi głos Winstona Churchilla.

Ahmed przyznał, że dużo częściej pojawiają się zlecenia polegające na edytowaniu reklam telewizyjnych. Tego typu reklamy zostały nagrane przez prawdziwych lektorów, jednak agencje chcą je dostosować do konkretnego regionu poprzez dodanie lokalnych odniesień. Inne zastosowanie to dubbing w filmach anime i innych zagranicznych produkcjach, dzięki czemu możemy sprawić, by ten sam głos „przemawiał” w innym języku.

Ahmed przypomina, że tego typu innowacje pojawiają się w przemyśle rozrywkowym od dawna – na podobnych zasadach pojawiali się kaskaderzy czy wdrażano technologię greenscreen.

Sztuczna inteligencja potrzebuje tylko kilka minut, czasem nawet sekund nagrania ludzkiej mowy, by wygenerować syntetyczny głos. Oczywiście uzyskanie czystości i odpowiedniego rytmu głosu Anthony’ego Bourdaina prawdopodobnie wymagało więcej materiału – uważa Rupal Patel, profesor na Uniwersytecie Northeastern, a jednocześnie dyrektor innej firmy zajmujacej się produkcją syntetycznych głosów – VocaliD. Większość jego produktów to głosy do chatbotów obsługujących klientów różnych sklepów i portali.

„Aby stworzyć głos łudząco przypominający taką osobę, potrzeba sporo materiału, może nawet 90 minut dobrych, czystych nagrań. Budujesz algorytm, który uczy się mówić tak, jak mówił Bourdain” – wyjaśnia Patel.

Morgan Neville jest uznanym dokumentalistą, autorem filmu o Fredzie Rogersie „Won’t You Be My Neighbor?” oraz „20 Feet From Stardom”, za którego dostał Oscara. Film o Bourdainie zaczął kręcić w 2019 roku, rok po samobójczej śmierci kucharza.

Więcej artykułów

ZOSTAW ODPOWIEDŹ