БЛОГ

ИИ-модель, точно имитирующая голос

20.01.2023 10:00 17701 Комментарии (52)

Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E — она преобразует текст в речь, точно имитируя голос человека, а образцом может служить запись продолжительностью всего в три секунды. При этом ИИ сохраняет эмоциональную окраску речи образца.

Авторы проекта говорят, что система окажется полезной при разработке приложений с возможностью высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами контента вроде GPT-3. Хотя они также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил.

При создании модели использовалась разработанная Meta технология EnCodec, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он бы мог звучать за пределами трёхсекундного образца. Обучение модели производилось на библиотеке LibriLight, собранной Meta* — она же, в свою очередь, была построена на 60 000 часов англоязычной речи более чем 7000 носителей: данные были позаимствованы преимущественно из коллекции LibriVox.

Из-за опасности злоупотреблений технологией Microsoft не стала публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут. В компании добавили, что аналогичным образом будут поступать и с другими проектами, если они несут потенциальную угрозу злоупотреблений. (Отсюда.)

Технология, конечно, очень интересная, и ее много для чего полезного можно будет использовать, но нельзя не отметить, что грань между реальностью и фейком становится совсем призрачной, если буквально по трехсекундному образцу можно создать совершенно реалистично звучащую искусственную копию и заставить ее говорить все что угодно.

Вот здесь на сайте проекта представлены разнообразные образцы. Speaker Prompt - образцы речи, Ground Truth - запись необходимого текста в исполнении человека, с которого был записан образец, Baseline - традиционный преобразователь текста в речь, VALL-E - работа нового ИИ.

Там также показано, что система может не только придавать голосу нужный эмоциональный окрас, но и имитировать звуковое окружение - телефонный разговор, помехи на улице и так далее. Там много примеров - в том числе, и с имитацией акустического окружения.

технологии

20.01.2023 10:00

Предыдущая запись Следующая запись

Комментарии 52

Теперь актеры озвучки будут не нужны. А в будущем, можно будет выпускать для каждого рынка свои версии, в каждой из которых движение губ актера совпадает с текстом.
twitter.com

satyr

26.01.23 09:30

0 0

Я чёт не очень понимаю, в чем прикол этой разработки. Не, ну с инженерами понятно, для них это просто фан и челлендж. Они не то что в предпоследнюю очередь, они вообще о последствиях не думают обычно. Но мелкомягким-то это зачем? Какой с этого гешефт, я не понимаю.

Ronin07

21.01.23 20:24

0 0

А по мне так отличная новость.
1. Шантаж станет абсолютно бессмысленным.
2. Число успешных разводов если и увеличится, то только в краткосрочной перспективе.
3. По идентификации, останется как есть сейчас.

Нимун

21.01.23 15:07

0 0

Есть и обратный эффект. Любую запись можно будет объявить фейком. Коллеги Соловьёва из будущего в Гааге будут говорить, что передачи вели не они. И что это всё синтезировано недоброжелателями

Black Krok

21.01.23 09:55

0 3

Если одни придурки пытаются чего-то там запретить, это лишь означает, что другие придурки это с удовольствием сделают и продадут первыми. Прогресс не остановить.

Aндpeй

20.01.23 21:45

0 0

Где-то очень обрадовались Лексус и Вован.

DarkWingGB

20.01.23 14:42

0 5

Имитация акустического окружения была в каких-то совсем древних телефонах.

DGNLTD

20.01.23 13:41

0 1

Имитация акустического окружения была в каких-то совсем древних телефонах.

Помнится, в эпоху платных рингтонов у нас какая-то конторка предоставляла такую услугу - ваш вызов произвольному абоненту на фоне криков толпы, звуков автомобильной пробки етс. Не пользовался, поэтому как это было реализовано, даже не знаю. Но их рекламу помню.

RusselRaven

DGNLTD

20.01.23 14:47

0 1

Мне кажется это сони делала, она же единственная из всех делала человеческий автоответчик и запись с линии.

DGNLTD

RusselRaven

20.01.23 15:17

0 0

Мне кажется это сони делала, она же единственная из всех делала человеческий автоответчик и запись с линии.

Человеческий автоответчик был в Моторола Таймпорт 250, а запись с линии вообще в моторах была повсеместно.

IlyaSh

DGNLTD

20.01.23 17:21

0 0

Кто первый выложит, как путлер признается в своих преступлениях начиная со штази и до нападения на Украину?

kf-bm

20.01.23 12:32

1 1

Кто первый выложит, как путлер признается в своих преступлениях начиная со штази и до нападения на Украину?

Foglet

kf-bm

20.01.23 13:06

0 1

Зиновий Юрьев. "Полная переделка". Год выхода в свет не помню / не знаю, я читал однозначно до 1982г.

Ключевой момент сюжета: установка, разработанная профессором Ламонтом, которая по короткой записи оригинала может синтезировать любой голос, заставляя его произносить набранный на клавиатуре текст. Синтез настолько точен, что электронные машины, которые в мире будущего заменили судей в уголовных процессах, признаЮт синтезированные записи в качестве доказательств на процессе.

Serg Lakhno

20.01.23 12:17

0 3

Та же фигня в его же "Белом снадобье". ИИ синтезирует голос босса гангстеров.

Vinny_The_Poo

Serg Lakhno

21.01.23 17:22

0 0

И молвит старику ИИ голосом старухи:

- Переведи ты мне на карту все свои пенсионные накопления.

Удивился старик, испугался. Он айтишничал тридцать лет и три года и не слыхивал, чтоб старуха говорила. Так как померла его старуха.

Ivan-gorod

20.01.23 11:30

0 19

Он айтишничал тридцать лет и три года и не было у него никогда старухи, ибо апгрейдился он каждые три года и была у него сейчас Баба v.11... 😉

Zmitrok

Ivan-gorod

20.01.23 11:41

0 6

Ежу понятно, что старуха звонит с того света; ей нужны деньги там, надо переводить!

runcyclexcski

Ivan-gorod

20.01.23 12:15

0 2

Keter

20.01.23 11:23

0 12

А первой части это же тип, воспользовался утечкой персональных данных в телефонной будке! Рецедивст.

Khul

Keter

20.01.23 12:27

0 3

Во второй части уже апгрейд. Т-1000 уже базу данных полиции через компьютер использует 😄

Keter

Khul

20.01.23 12:34

0 0

«Рецидивист»! 🙄

Рекорд Надоев

Khul

20.01.23 16:47

0 2

утечкой персональных данных

И закончил разговор утечкой монеток (это было в 1 или 2?)

runcyclexcski

Khul

20.01.23 18:40

0 0

А первой части это же тип, воспользовался утечкой персональных данных в телефонной будке! Рецедивст.

Умоляю, не надо запятой между подлежащим и сказуемым! Зачем, вы, так, делаете?!!

Vinny_The_Poo

Khul

21.01.23 17:07

0 0

Послушал.
Видимо, трёхсекундного сэмпла всё же маловато будет. Индивидуальные/диалектные особенности произношения отдельных фонем сглаживаются по сравнению с Ground Truth.

BOPOHOK

20.01.23 10:52

0 1

Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E
Через 15 лет кто-то вспомнил мультик "WALL-E"? Закончились в MS креативщики... пичалька!

Zmitrok

20.01.23 10:45

0 0

Точно. Пересматривал на праздниках. Кстати его "Ева-а-а" сложно назвать человеческим, скорее наоборот - излишне компьютеризировано

Vzanuda

Zmitrok

20.01.23 12:23

0 0

В смысле, 15 лет??????!!!!!!!!! 8-( )

DarkWingGB

Zmitrok

20.01.23 14:41

0 3

Это уже далеко не первая модель. Еще несколько лет назад банковские айтишники предупреждали, чтобы на звонки отвечали не "да", а "алло", потому что стали подделывать голоса при подтверждении транзакций. В прошлом году даже Зеленского фейковали и вроде даже Путина с Шойгу.

sbastinda

20.01.23 10:40

0 1

не "да", а "алло"

- Дедушка, это вы подбили танк?
- Я.
- Но это же наш, советский танк!
- Я, я!

Zmitrok

sbastinda

20.01.23 10:55

0 16

Я, я!

- Дедушка, а ты правда три самолета сбил?!
- Правда, внучек! Ну, не совсем сбил - недозаправил..

RusselRaven

Zmitrok

20.01.23 14:49

0 4

Жена почему-то очень любит про "Gut, Waldemar, Gut".

runcyclexcski

Zmitrok

20.01.23 18:41

0 2

Мошенники звонят на номер директора, "снимают его речь", перезванивают бухгалтеру и дают указание сделать срочный перевод. На эту уловку попадаются фирмы, просто получив емайл, представьте, что будет, когда бухгалтер услышит суровый голос начальника.
Вспомните "мама я попал в аварию, голос из-за удара об руль изменился , сижу в полиции, передаю телефон следователю, срочно нужны деньги погасить ущерб".
Это пример из личного опыта. Мои родители собирали деньги, пока не догадались мне перезвонить.
Вы представляете, чем это грозит?
Мне только вчера звонили из "миграционной службы", обратились по имени-фамилии и были посланы, так как не знали государственного литовского языка.
Из какой страны звонили, думаю нетрудно догадаться.

Dmitrij_z

20.01.23 10:34

0 18

Вы представляете, чем это грозит?

И какие ваши предложения? Кого запретить на этот раз?

Khul

Dmitrij_z

20.01.23 10:39

0 2

Нененене. Если на фирме все норм то бухгалтер перезвонит именно на телефон директора да еще позадает глупых вопросов типа какого цвета стены в кабинете и когда они последний раз виделись лично. Для идентификации. Я у себя людей так учу.
А вот то что некоторые банки начали голосовую идентификацию делать это беда...

sergiy.fakas

Dmitrij_z

20.01.23 11:11

0 8

На эту уловку попадаются фирмы, просто получив емайл, представьте, что будет, когда бухгалтер услышит суровый голос начальника.

То же самое. Если культура документооборота в конторе настолько ниже плинтуса, что срочные переводы на неизвестные реквизиты (!) делаются по телефонному звонку, эту контору уже ничего не спасет.

aldor

Dmitrij_z

20.01.23 12:13

0 9

Как раз про "голос изменился" они никогда не упоминают, потому что жертва тут же насторожится и задаст пару наводящих вопросов.

Жертва сама себя убедит, что говорили "твоим голосом".

Увы, знаю на личном опыте, маму развели так. Причем, я с ней про такое говорил, ликбезы проводил, но все равно.

phanex

Dmitrij_z

20.01.23 15:52

0 1

Да просто охренеть и быть готовым, ничего не сделаешь.
Но я вам гарантирую, в небольших конторах вопросы переводов решаются быстро, бухгалтер женщина за 50 получила звонок от нервного начальника сделать перевод на счёт, который пришёл только что ей на почту, счёт прислал клиент. 80 процентов перезвонит начальнику, ну а 20 процентов безропотно переведут.

Dmitrij_z

Khul

20.01.23 16:11

1 2

80 процентов перезвонит начальнику, ну а 20 процентов безропотно переведут.

Решается вторым фактором у того, самого начальника. Т.е. разделяем доступы. Бухгалтер оформляет платежку, проводит и обяазана ввести код подтверждения, который приходит тому самому нервному начальнику. Нет кода - нет перевода.

Khul

Dmitrij_z

20.01.23 16:16

0 5

Ну, переведут и больше не будут, если обучаемы.

Увы, мошеннические схемы, основанные на социальной инженерии, были и будут. Синтез голоса усугубит, но не коренным образом.

phanex

Dmitrij_z

20.01.23 16:31

0 0

Увы, мошеннические схемы, основанные на социальной инженерии, были и будут.

В начале 2000-х знакомую строительную фирму (довольно крупную, кстати) развели элементарным образом: совершенно посторонний мужик с уверенным видом заявился в бухгалтерию, сказал "я от *имя-отчество-гендиректора*, он просил срочно выдать *** рублей наличкой рассчитаться с подрядчиками". Естественно, выбрал момент, когда гендиректора не было на месте. Бухгалтер выдала деньги, не моргнув глазом.

aldor

phanex

20.01.23 20:42

0 2

И как вы поняли, из какой страны звонят?

Ватник_на_минималках

Dmitrij_z

21.01.23 11:26

0 1

Только выросло поколение, которое не понимает, как можно принимать судебные решения на основании свидетельских показаний, ведь сейчас все снимают на смартфоны и камеры наблюдения, как всё это начало сворачиваться.

Daario Nahalis

20.01.23 10:32

1 1

Развод "Мам, я в полиции, сбил человека, срочно нужно 10 тыс. долларов" выходит на новый уровень

Vzanuda

20.01.23 10:29

0 14

имитировать звуковое окружение - телефонный разговор, помехи на улице

Вот это как раз настолько элементарно, что непонятно, зачем вообще упоминать.

aldor

20.01.23 10:09

0 1

Пока что, очень заметно что синтез.

Ilya__

20.01.23 10:08

0 1

То-то банки вводят авторизацию по голосу...
Хороший план.
Надёжный.

xoxol

20.01.23 10:07

1 16

Вот только что мне робот от сбера пытался кредит втюхать! Пафосный такой!..

Nick_l

xoxol

20.01.23 10:17

0 0

То-то банки вводят авторизацию по голосу...

Еще раз, для тех кто в танке. Не авторизацию. А второй фактор. Авторизация только по одному фактору (не важно какому) уже давно недопустимая роскошь. А как второй фактор, голос во многом лучше, чем коды с СМСок, которые вытягивают с помощью банальной социальной инженерии.

Khul

xoxol

20.01.23 10:32

5 0

Надежный второй фактор это хардварный ключ. Или OTP. СМС уже давно не являются надежными т.к. их можно перехватить или увести симку. И нет, в разрезе этих новостей голосовой отпечаток это не надежный второй фактор.

sergiy.fakas

Khul

20.01.23 11:15

0 5

СМС уже давно не являются надежными т.к. их можно перехватить или увести симку.

Вы это собираетесь миллионам клиентов рассказать? Которым нафиг не уперлись эти ваши токены и прочие OTP. Дело не в надежности, а в массовости. А в массе своей люди склонны забивать на безопасность пока не будет слишком поздно.
Поэтому голос, как один из дополнительных факторов - ничуть ни хуже многих других решений. И главное - от клиента для того, чтобы им воспользоваться ничего не требуется.

И нет, в разрезе этих новостей голосовой отпечаток это не надежный второй фактор.

В разрезе этих новостей, мы сравниваем запись, которую слышит наше ухо. Далеко не идеальный измерительный инструмент. Как при этом реагируют системы распознования, строящие и сравнивающие математические модели цифровых отпечатков в разрезе данной новости понять нельзя. К примеру, большинство современных сканеров отпечатков пальца, вполне себе умеют отличать живой палец от всего прочего. Т.е. сосканировать чужой отпечаток, чтобы обойти такую систему уже будет мало.

Khul

sergiy.fakas

20.01.23 11:29

0 1

И главное - от клиента для того, чтобы им воспользоваться ничего не требуется.

А от мошенника - доступ к Сети и клавиатура.

Т.е. сосканировать чужой отпечаток, чтобы обойти такую систему уже будет мало.

Есть и для этого решения. Но лень - она раньше нас родилась.

xoxol

Khul

20.01.23 13:52

0 0

А от мошенника - доступ к Сети и клавиатура.

Нет, от мошенника, как и раньше, будет требоватся откуда то взятые креды клиента. Только в добавок к ним, нужна будет еще и рабочая модель голоса, которая пройдет определенные проверки. Т.е. вся это биометрия она дополнительно, а не вместо. Создаются дополнительные барьеры, которые необходимо будет преодолевать мошенникам и которые не нужно преодолевать клиентам.

Есть и для этого решения.

Вечную войну щита и меча никто не отменял. Но при этом глупо на основании того, что изобрели универсальную отмычку под названием "автоген" утверждать, что эти ваши дверные замки глупость откровенная.

Khul

xoxol

20.01.23 14:17

0 2

Предыдущая запись Следующая запись

Поиск

e-mail Экслера - toffler@gmail.com

Теги