ИИ-модель, точно имитирующая голос
Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E — она преобразует текст в речь, точно имитируя голос человека, а образцом может служить запись продолжительностью всего в три секунды. При этом ИИ сохраняет эмоциональную окраску речи образца.
Авторы проекта говорят, что система окажется полезной при разработке приложений с возможностью высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами контента вроде GPT-3. Хотя они также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил.
При создании модели использовалась разработанная Meta технология EnCodec, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он бы мог звучать за пределами трёхсекундного образца. Обучение модели производилось на библиотеке LibriLight, собранной Meta* — она же, в свою очередь, была построена на 60 000 часов англоязычной речи более чем 7000 носителей: данные были позаимствованы преимущественно из коллекции LibriVox.
Из-за опасности злоупотреблений технологией Microsoft не стала публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут. В компании добавили, что аналогичным образом будут поступать и с другими проектами, если они несут потенциальную угрозу злоупотреблений. (Отсюда.)
Технология, конечно, очень интересная, и ее много для чего полезного можно будет использовать, но нельзя не отметить, что грань между реальностью и фейком становится совсем призрачной, если буквально по трехсекундному образцу можно создать совершенно реалистично звучащую искусственную копию и заставить ее говорить все что угодно.
Вот здесь на сайте проекта представлены разнообразные образцы. Speaker Prompt - образцы речи, Ground Truth - запись необходимого текста в исполнении человека, с которого был записан образец, Baseline - традиционный преобразователь текста в речь, VALL-E - работа нового ИИ.
Там также показано, что система может не только придавать голосу нужный эмоциональный окрас, но и имитировать звуковое окружение - телефонный разговор, помехи на улице и так далее. Там много примеров - в том числе, и с имитацией акустического окружения.