Google stworzyło bazę danych łączącą zsyntetyzowane nagrania głosowe

Specjaliści z Google stworzyli bazę kilku tysięcy wpisów wariantów syntezowanej mowy, przybliżając tym samym dzień, w którym żywa i sztuczna mowa będą od siebie nie do odróżnienia.

Synteza mowy służy do przekształcenia wpisanego tekstu w sygnał mowy. Nie musisz wypowiadać całej frazy, wystarczy, że ją wypowiesz, a system znajdzie jej kontynuację.

Jaki jest cel tego archiwum danych? Google chce przeszkodzić cyberprzestępcom w wykonywaniu ich pracy. Bo jeśli w ich ręce wpadnie wysokiej jakości syntezatorowe nagranie, każdy z głosów może zostać wykorzystany dla osobistych korzyści. Eksperci opublikowali bazę kilku tysięcy fragmentów czytanych przez 68 różnych tonów głosu. Obecnie z tych danych mogą korzystać jedynie uczestnicy konkursu Automatic Speaker Verification, który specjalizuje się w tworzeniu systemów syntezy głosu.

Aby być uczciwym, Google nie jest pionierem w tej dziedzinie. Kilka lat temu firma Lyrebird stworzyła narzędzie z wbudowaną sztuczną inteligencją, zdolne do odtworzenia każdego głosu. Maszyna potrzebowała zaledwie kilku minut nagrania, aby odtworzyć fragment dźwięku. System AI badał specyfikę głosu każdej osoby, a na podstawie otrzymanych informacji tworzył odtwarzanie. Precyzyjna replikacja była możliwa dzięki zastosowaniu sieci neuronowych, które działają według scenariusza identycznego z procesami zachodzącymi w naturalnych sieciach ludzkiego mózgu. System ten nie był pozbawiony wad. Na przykład odbierana mowa często nie była dostatecznie zrozumiała, a czasem pojawiały się wyraźne zakłócenia, zbyt wyraźnie wskazujące na sztuczność głosu.

Comments: 2

Marcelina 15.11.2023 at 19:17

Czy zwiększenie bezpieczeństwa w infospace dzięki wykorzystaniu syntetyzowanej bazy głosów Google’a przekłada się na większą ochronę danych osobowych i ograniczenie możliwości manipulacji informacjami?

Odpowiedz
Wiktoria Kowalska 19.01.2024 at 15:10

Czy zsyntetyzowana baza głosów Google’a faktycznie poprawi bezpieczeństwo w infospace? Czy wierzymy, że syntezowany dźwięk jest bardziej wiarygodny i trudniej go sfałszować? Czy technologia ta ma również negatywne skutki, takie jak manipulacja informacjami w mediach? Czy warto zaryzykować wprowadzenie tej bazy głosów, czy powinniśmy zachować zdrową ostrożność?

Odpowiedz

Dodaj komentarze

Podobne wpisy: