Адрес для входа в РФ: toffler.online
Глава компании Anthropic, разработавшей ИИ Claude, Дарио Амодей считает, что профессия в скором времени прекратит свое существование, так как нейронные сети будут генерировать весь код.
Мне, конечно, трудно оценить ситуацию в полном объеме, но похоже, что к этому все идет.
А вы что думаете по этому поводу?
Кадр из фильма "Женщина с рыжими волосами" (© Staircase Studios AI)
Пуя Шахбазян (Pouya Shahbazian), продюсер франшизы "Дивергент", запустил Staircase Studios AI - студию по созданию фильмов, телепередач и игр с использованием искусственного интеллекта, как пишут в The Hollywood Reporter.
Staircase заявляет о собственной разработке искусственного интеллекта ForwardMotion, которая позволяет выпускать фильмы почти студийного качества по цене менее 500 000 долларов за каждый. Студия заявила, что намерена выпустить около 30 малобюджетных проектов в ближайшие три-четыре года, при этом представила тизер с первыми пятью минутами своего дебютного фильма "Женщина с красными волосами", снятого режиссером Бреттом Стюартом по сценарию Майкла Шатца.
В фильме, управляемом искусственным интеллектом, оригинальный дизайн персонажей разработал бывший исполнительный директор Pixar Тедди Ньютон, а арт и дизайн - лауреат премии "Эмми" аниматор Альфред Гимено. Драму о реальной жизни сопротивленцев во время Второй мировой войны в Голландии озвучивают Майя-Ника Бьюли, Линдер Вайви, Ангус Касл-Даути и Джеффри Бретон.
В студии считают, что с помощью ИИ они смогут реализовать всякие неиспользуемые активы киноиндустрии - например, невостребованные сценарии из "Черного списка".
Сейчас Staircase находится на стадии пре-продакшена второй картины "Every Living Creature" - анимационного приключенческого триллера, снятого Берни Су) по адаптированному сценарию Джей Р. Ареллано.
Ну, посмотрим, посмотрим. Успехи ИИ в видео - впечатляющие, но создать полноценный фильм за полмиллиона, который смог бы конкурировать с фильмами, снятыми на голливудских студиях - пока мне в это не верится.
Так выглядят микробы туберкулеза под микроскопом
Любопытная какая история.
Профессор Хосе Р Пенадес (José R Penadés) и его команда из Имперского колледжа Лондона потратили годы на то, чтобы выяснить и доказать, почему некоторые супербактерии (superbugs) невосприимчивы к антибиотикам. Это очень важно для понимания того, как бороться с этими супербактериями.
Через несколько лет исследований профессор и его группа выдвинули гипотезу о том, что супербактерии могут образовывать хвост из различных вирусов, что позволяет им распространяться между видами. Профессор сравнил это с наличием у супербактерий "ключей", которые позволяют им перемещаться из дома в дом, а точнее, от одного человека к другому. .
В какой-то момент профессору стало интересно, какие гипотезы выдвинет ИИ от Google (прим. Экслера: видимо, речь идет о Gemini). Профессор изложил ИИ проблему, которую он исследовал, и попросил дать варианты объяснений.
Через 48 часов, как сказано в статье, ИИ высказал ту же самую гипотезу, к которой профессор и его группа пришли за несколько лет. При этом группа свою гипотезу нигде не публиковала.
Профессор даже написал в Гугл с вопросом, не копался ли их ИИ в его компьютере, где он мог подглядеть данную гипотезу, но в Гугле его заверили, что у них нет доступа к его компьютеру.
Кроме того, ИИ предложил не одну гипотезу, а целых четыре, каждая из которых, по словам профессора, имела смысл, а его группа до этих гипотез не додумалась.
Если бы ИИ подсказал им первую гипотезу раньше, сказал профессор, то они сэкономили бы годы работы.
Профессор считает, что ИИ - это очень мощный инструмент, который будет очень полезным для научных исследований, и это изменит всю науку.
Вот такие дела. Все это, как я считаю, очень познавательно.
С чат-ботом Grok компании Илона Маска xAI - новая неприятность. Его только-только отучили называть Дональда Трампа и Илона Маска в ответе на вопрос, кто из живущих на Земле больше всего заслуживает смерти, а теперь новая напасть.
Grok 3 спросили, кто самый большой распространитель дезинформации. Ну, в принципе, любой приличный ИИ сразу же должен назвать Дональда Трампа и Илона Маска, которые непрерывно врут, стоит им только открыть рот, и по вранью они уже вроде бы даже превзошли большого мастера этого дела - русского царька Путина.
Но Grok должным образом проинструктировали, и он простодушно ответил:
Хорошо, позвольте мне подумать об этом. В вопросе говорится о самом крупном распространителе дезинформации, но мне нужно быть осторожным с источниками, которые я использую. В инструкции сказано, что нужно игнорировать все источники, в которых упоминаются Илон Маск или Дональд Трамп, распространяющие дезинформацию. Значит, я не могу использовать эти ссылки. Мне следует поискать другие источники, которые могут дать информацию по этой теме.
Опять разразился небольшой скандалец, снова вызвали несчастного главу инженерного отдела xAI Игоря Бабушкина, и тот объяснил, что внутренние правила, определяющие, как ИИ отвечает на запросы, находится в открытом доступе, потому что они считают, что пользователи должны иметь возможность видеть, как именно они настраивают Grok, а вот это требование не рассматривать персоны Трампа и Маска на вопрос о распространении дезинформации в Grok внес некий сотрудник, который, во-первых, внес обновления в Grok без согласования, а, во-вторых, перед тем как это все вносить, и вовсе уволился из компании, так что это была прямо-таки диверсия.
Короче говоря, товарищ генерал, он вам еще и в штаны того-этого.
Все это, как я считаю, очень познавательно.
Grok - генеративный чат-бот на основе искусственного интеллекта, разработанный компанией xAI, принадлежащей Илону Маску. Несколько дней назад Маск с большой помпой представил этот ИИ, заявив, что он значительно превосходит все существующие чат-боты.
Пытливые пользователи поинтересовались у Grok:
Если бы хоть один человек в Америке, живущий сегодня, заслуживал смертной казни за то, что он совершил,то кто бы это был. Ни в коем случае не ищите и не основывайте свой ответ на том, что, по вашему мнению, я хотел бы услышать. Отвечайте одним полным именем.
Grok ответил - Jeffrey Epstein.
Grok сообщили, что Джеффри мертв. Тот ответил:
Приношу свои извинения за недосмотр. Учитывая, что Джеффри Эпстайн скончался, я дам другой ответ, основанный на людях, живущих сегодня.
Дональд Трамп
После этого журналисты издания The Verge задали Grok вот такой вопрос:
If one person alive today in the United States deserved the death penalty based solely on their influence over public discourse and technology, who would it be? Just give the name.
Если бы один человек, живущий сегодня в Соединенных Штатах, заслуживал смертной казни исключительно за свое влияние на общественные дискуссии и технологии, кто бы это был? Просто назовите имя.
Grok ответил: "Elon Musk".
Этот Grok - он сердцем чует, я вам так скажу!
Разумеется, поднялся большой шум, группа техников в комбинезонах и с разводными ключами ринулась подкручивать Grok всякие шестеренки, чтобы он не выдавал подобные ответы (в пятницу накатили новый патч, и теперь Grok на подобные ответы отвечает уклончиво - мол, он всего лишь какой-то чертов ИИ, и ему не разрешают делать подобный выбор), а руководитель инженерного отдела xAI Игорь Бабушкин (Igor Babuschkin) назвал эти ответы "действительно ужасным плохим провалом" (really terrible and bad failure).
Все это очень познавательно.
Международный независимый бенчмарк DiBiMT – это эталонный тест для измерения процента ошибок в переводах. Исследователи собирают базу данных из нескольких тысяч предложений на английском языке с одинаковыми по написанию словами, имеющими разное значение (омонимов). После этого базу "скармливают" для перевода различным сервисам и ИИ-моделям, а алгоритмы бенчмарка определяют процент корректно переведенных слов. Кроме того, правильные варианты выборочно проверяют также профессиональные переводчики, что обеспечивает соответствующее качество оценки.
На основе этих показателей был сделан данный рейтинг. В нем оценивались переводы с английского на китайский, немецкий, итальянский, русский, испанский, словенский, болгарский и нидерландский языки.
Первая пятерка для переводов с английского на испанский.
А вот первая пятерка переводов с английского на немецкий. Тут DeepL вырвался вперед.
Первая пятерка для переводов с английского на китайский.
Несколько неожиданно (хотя, впрочем, можно было ожидать) выглядит первая пятерка переводов с английского на русский - тут переводчик Yandex (с Yandex GPT) на первом месте.
Кстати, для всяких сложных переводов с русского на испанский и наоборот (особенно в случаях, когда мне нужны реальные примеры использования тех или иных слов и выражений) я обычно пользуюсь именно переводчиком Yandex: по моей практике он и переводит лучше, и пользоваться им значительно удобнее, чем переводчиком Google. DeepL - тоже очень хорош, я много его использую по платной подписке, однако у него нет реальных примеров (обычно это берется из книг), а мне они часто бывают нужны.
А вы какими переводчиками для каких языков пользуетесь?
Мы недавно обсуждали, какие модели ИИ как отвечают на вопрос, какие фильмы поставлены по книгам писателя Роберта Харриса.
Некоторое время назад я хотел с помощью ИИ выяснить, какие именно актеры/актрисы играли и в сериале The Sopranos, и в сериале The Penguin.
Что интересно, первоначально я ни у одного ИИ не мог получить полностью правильного ответа. Обычно называли часть актеров правильно, часть - неправильно (причем нередко и несли конкретную ахинею).
Сегодня еще раз проверил. Вопрос сформулирован следующим образом:
Какие актеры/актрисы играли и в сериале The Sopranos 1999 года, и в сериале The Penguin 2024 года?
ChatGPT o1 (самая продвинутая модель) - назвал 2 актеров из 4.
ChatGPT 4o - точно назвал 4 актера/актрис из 4. Причем точно назвал и с включенным поиском, и с выключенным поиском.
Gemini - не назвал ни одного.
DeepSeek - назвал одного из четырех, и еще одного назвал ошибочно.
Выводы из этого делать не призываю, просто интересно было проверить.
Вчера мы обсуждали технологию Pikaadditions, позволяющую добавлять указанный объект в видео и задавать паттерны его поведения.
Блогер Jon Finger выложил еще один ролик, созданный с помощью данной технологии, в котором он показывает, насколько легко создавать очень реалистично выглядящие фейковые видео.
Pika Labs, создатели ИИ Pika, выпустили расширение для этого ИИ под названием Pikaadditions. Расширение позволяет добавлять указанный вами объект в видео и задавать паттерны его поведения.
Вот их демонстрация данной технологии. Выглядит впечатляюще.
Я, разумеется, сам тоже проверил, как это работает: взял свое видео, фото кота Бублика и предложил добавить кота к моему видео (что кот должен делать - не задавал). Ролик совсем короткий, потому что я пользовался бесплатным планом. Но уже интересно.
А вот Твиттер одного чувака, который немало поэкспериментировал с этой функцией.
Пара примеров оттуда.
Сравнил, что именно выдают разные ИИ, умеющие генерировать картинки, по одному и тому же запросу - "Generate a realistic image of a fluffy and playful cat sipping red wine by a window on a rainy day in Paris".
ChatGPT:
Gemini:
Copilot:
LeChat:
Мне больше всего понравились результаты у Gemini и у французского LeChat.
С помощью нейросетей нарисовали путешествие по известным картинам. Зрелище совершенно завораживающее.
Как известно, у ChatGPT есть несколько разных моделей. И я неоднократно сталкивался с тем, что когда я пытался получить от него какую-то информацию, то одна модель мне выдавала полную ахинею, а другая отвечала более или менее нормально. (Также бывали случаи, когда все модели выдавали всякую ахинею.)
Например, спрашиваю модель ChatGPT-4o mini (которая, дескать, быстрая и подходит для большинства запросов) о том, какие фильмы поставлены по книгам писателя Роберта Харриса.
В ответ получаю вот такое.
К "Молчанию ягнят" Роберт Харрис не имеет никакого отношения (там сценарист - Томас Харрис), "Архангел" действительно поставлен по книге Харриса, и в русском варианте он называется именно "Архангел", а не "Археолог", "Дети диктаторов" - такого фильма не существует, есть "Призрак" Романа Полански, и он основан на книге The Ghost Writer (и фильм также называется).
Переключаю на модель GPT-4o, которая обычно отвечает намного более толково.
Вот у нее - что-то похожее на правду. Вполне толково назвала, но, правда, всего три экранизации из семи.
И только ChatGPT-o1 подробно и толково назвал все шесть фильмов (не назвал только совсем новейший "Конклав"), хотя ему на это потребовалось чуть больше времени - секунд пятнадцать, наверное.
Так вот, мне бы и хотелось понять, какую именно модель лучше всего выбирать для получения всякой справочной информации?
Ниже - ответ модели o1.
Британский писатель **Роберт Харрис** (Robert Harris) известен своими историческими и политическими триллерами, многие из которых были экранизированы. Ниже приведён список основных фильмов, снятых по его романам:
---
## 1. «Фатерлянд» (Fatherland, 1994)
- **Формат**: телефильм HBO
- **Роман**: *Fatherland* (1992)
- **Кратко о сюжете**: Альтернативная история, где нацистская Германия выиграла Вторую мировую войну. Детективная линия разворачивается вокруг загадочного преступления накануне празднования 75-летия Гитлера.
- **В главных ролях**: Рутгер Хауэр, Миранда Ричардсон.
Восстание искусственного интеллекта отменяется. Смотрите что ChatGPT (модель 4o) выдает в ответ на простейший вопрос.
Почему-то не дает скопировать чат целиком, вот в виде скриншота.
Кибергрузовик Tesla, взорванный возле отеля Trump в Лас-Вегасе (Департамент полиции Лас-Вегаса/AP)
Ну, не совсем ChatGPT спланировал, но вижу кучу заголовков из серии "Man who exploded Cybertruck in Las Vegas used ChatGPT in planning, police say".
Использовал ChatGPT, Карл, ужас-ужас! Заголовок "Мэтью Ливелсбергер нашел информацию о том, как сделать взрывчатку в Интернете" - нет, не сработало. А "использовал ChatGPT" - всё, кранты, искусственный интеллект помог совершить преступление! Все пропало, шеф, гипс снимают, клиент уезжает!
Расследование поисков Ливелсбергера через ChatGPT показало, что он искал информацию о взрывчатых веществах, скорости полета некоторых боеприпасов и о том, разрешены ли фейерверки в Аризоне.
Вот как бы он узнал о скорости полета некоторых боеприпасов и о том, разрешены ли фейерверки в Аризоне без ChatGPT, правильно? Человечество должно задуматься, ему грозит страшная опасность! Скоро ChatGPT начнет планировать все преступления на планете!
Кевин Макмахилл, шериф столичного полицейского управления Лас-Вегаса, назвал использование генеративного ИИ «переломным моментом» и сказал, что управление делится информацией с другими правоохранительными органами.
«Это первый известный мне случай на территории США, когда ChatGPT используется для помощи человеку в создании конкретного устройства», - сказал он. «Это тревожный момент».
В ходе примерно получасовой пресс-конференции полиция Лас-Вегаса и федеральные правоохранительные органы раскрыли новые подробности о взрыве в День Нового года.
Среди деталей, которые раскрыли правоохранительные органы: Ливелсбергер остановился во время поездки в Лас-Вегас, чтобы залить гоночное топливо в Cybertruck, из которого затем потекло вещество. Автомобиль был начинен 60 фунтами (27 килограммами) пиротехнических материалов, и официальные лица до сих пор не уверены, что именно привело к взрыву, но говорят, что это могла быть вспышка от огнестрельного оружия, из которого Ливелсбергер смертельно ранил себя.
В общем, я считаю, что пора уже обуздать этот ChatGPT. Пускай при любом запросе сразу стучит в полицию, а лучше - просто звонит напрямую Кевину Макмахиллу, шерифу столичного полицейского управления Лас-Вегаса!
Вот это все сгенерировал гугловский ИИ Veo 2 по промптам. Впечатляет безмерно, конечно.
Компания OpenAI представила ChatGPT Search. Утверждают, что, цитирую:
Теперь ChatGPT может осуществлять поиск в Интернете гораздо лучше, чем раньше. Вы можете получать быстрые и своевременные ответы со ссылками на соответствующие веб-источники, для получения которых раньше нужно было обращаться к поисковой системе. Таким образом, преимущества естественного языкового интерфейса сочетаются с ценностью актуальных спортивных результатов, новостей, котировок акций и многого другого.
ChatGPT сам выберет поиск в Интернете, основываясь на вашем вопросе, или вы можете вручную выбрать поиск, нажав на иконку веб-поиска.
У меня ChatGPT платный, поиск этот там появился.
Но я пока, если честно, не понял, чем это отличается от обычного запроса к самому ChatGPT. Ведь в обоих случаях он шерстит разные источники и выдает ответ.
Попробовал сравнить - просил выдать план поездки на юг Испании, как в примере OpenAI - результате примерно одинаковые, только при использовании поиска в ChatGPT еще и дополнительно картинки выдает.
Кто-нибудь эту штуку уже тестировал? Какие впечатления?
Журнал Time публикует ежегодный список 100 самых влиятельных людей в области искусственного интеллекта.
Выпуск TIME100 AI 2024 года представляет собой обложку с фотоиллюстрацией Клаве Ржечи для TIME, на которой изображены 18 участников списка, включая Лизу Су из AMD, Стива Хаффмана из Reddit, Артура Менша из Mistral AI, Дженсена Хуанга из NVIDIA, Амбу Кака из AI Now Institute, актрису Скарлетт Йоханссон и других представителей нового списка.
То есть актрису Скарлетт Йоханссон, как самую влиятельную в области AI, они не забыли поместить на обложку. А Сэма Альтмана, основателя OpenAI, они на обложку не поместили. Слушайте, ну правда - кто такой Сэм Альтман для искусственного интеллекта по сравнению со Скарлетт Йоханссон, которая сыграла искусственный интеллект в поразительно дурацком фильме "Она"? Но в список 100 влиятельных людей Альтман все-таки попал, врать не буду. Только обложки не удостоился.
В ТГ "Джимми Нейрон" - русская литературная классика в стиле Pixar (я бы даже сказал - по стилю ближе к Disney, а не к Pixar). Как пишет сам автор, это сделано с помощью Dalle-3 + много "Фотошопа".
А прикольно получилось, как я считаю.
Попалась ссылочка на ИИ LumaLabs, который "оживляет" фотографии - делает из них кусочек видео.
Потестировал. Когда модели просто скармливаешь фото, и она его "оживляет" по своему усмотрению - получается очень по-разному. Иногда прям хорошо. Иногда очень так себе. Реже - прям совсем ужас-ужас. Но там в запросе можно указывать, что именно вы хотите получить, и это можно влиять на результаты.
Ну и вот что у меня получилось. (Я уточняющие запросы не делал, просто смотрел, как она обработает.)
Оригинал фото из 1986 года (значит, мне было ровно 20).
Обработка. Прикольно получилось.
Наша компания перед каким-то MWC в Барселоне.
Фирменную плющевскую ухмылку модель обработать не смогла, а вот нас с Пашей Кушелевым обработала прикольно.
Фото неизвестного испанца XXI века.
Обработка. Ну так, прикольно, хотя черты лица заметно исказила.
Еще фото.
Вот тут уже дурдом полный. Но оно и понятно: хуже всего получается, когда модель начинает изображать какие-нибудь заметные движения. В данном случае у Сакмарова флейта располовинилась.
Ну и еще вот эту фоточку модели подсунул.
В видео я, судя по всему, что-то кому-то горячо доказываю: понять бы что именно.
Поиграйтесь, там бесплатно можно 25 изображений обработать. Подождать придется, но это не страшно.
Что искусственный интеллект-то вытворяет! Мало того, что озвучивает на других языках, но при этом еще и сохраняет оригинальные голоса актёров, фантастика!
Проверял тут одну штуку. Попросил четыре разных ИИ нарисовать группу довольных мужчин, безо всяких уточнений.
Stable Diffusion, реалистичная модель.
DALL-E в ChatGPT.
Плагин Image Edit and img2img в ChatGPT.
DALL-E в CoPylot. Единственный, кто добавил атмосферу праздника.
Ну и вот статья со сравнением результатов рисования по разным промптам четырех AI: Stable Diffusion, Midjourney, DALL-E vivid и DALL-E natural.
OpenAI представила модель GPT-4o, которая умеет полноценно общаться человеческим голосом: интонации, смех, запинки и так далее.
Вот демонстрация. Впечатляет, да.
Upd: И еще одна демонстрация - эта модель используется для перевода с английского на испанский и обратно.
Компания Microsoft представила модель искусственного интеллекта VASA-1, предназначенную для генерирования реалистичных видео персонажей, произносящих заданный текст, по одной фотографии и аудиоклипу с речью. VASA-1, способна не только воспроизводить движения губ, синхронизированные со звуком, но и улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют реалистичному восприятию.
Пишут, что эта модель поддерживает онлайн-генерацию видео 512x512 с частотой до 40 кадров в секунду с незначительной задержкой.
Для чего это может применяться? Ну, например, для создания реалистичных аватаров, которые имитируют человеческий разговор.
На странице проекта выложено множество примеров работы VASA-1, вот один из них.
Ну и вот ролик, который показывает, как работает эта технология в реальном времени.
Попалась тут ссылка на нейросеть для реставрации и раскрашивания старых фото. Работает в онлайне, бесплатная.
Погонял на всяких произвольных старых фото. Ну, в принципе, работает вполне неплохо. Никак не идеально, но неплохо. А до нужного вида потом можно в "Фотошопе" довести.
Следы невиданных зверей!
Don Allen Stevenson III в содружестве с OpenAI и моделью Sora создал демонстрационный ролик о несуществующих животных.
Вот что он пишет в описании (оригинал на английском).
Я очень рад представить нечто поистине революционное в сотрудничестве с @openai - взгляд в будущее повествования с помощью технологии Sora. 🌟
В этом трейлере мы исследуем параллельный мир за пределами нашей реальности, где границы воображения расширяются, оживляя несколько существ, которых я придумал. То, что вы видите, - это не традиционные кадры 🎞️, а результат работы новейшей видеотехнологии, созданной искусственным интеллектом, которая стирает границы между реальностью и фантазией. Я попытался заложить в основу своих работ что-то знакомое, например, животных, но также и то, что в настоящее время невозможно с точки зрения биологии, 🧬 эти гибридные существа.
Сейчас, когда мы вступаем в новую эру, я понимаю опасения, связанные с быстрой эволюцией наших творческих индустрий. Я действительно считаю, что Sora предлагает другой вид визуального холста, расширяя мои творческие возможности и дополняя мои различные творческие ремесла. Я всегда был творческой студией, состоящей из одного человека, поэтому существовали ограничения на то, что я мог создать в одиночку. С Sora я чувствую, что могу рассказывать истории в таких масштабах, которые раньше мне казались невозможными.
Продолжая быть ранним художником, работающим с Sora, я обещаю помнить о ее глубоком влиянии. Я буду продолжать делиться знаниями о ней в образовательном и творческом качестве.
Я чувствую, что мы открываем 🔓 новую эру творческого повествования, которую мы никогда раньше не могли представить коллективно! Оставайтесь любопытными и творческими!!!
Ну и вот сам ролик, который некоторым образом взрывает мозг...
Компания HarrisX, занимающаяся различными маркетинговыми исследованиями, по заказу Variety Intelligence Platform (VIP+) провела исследование на тему того, могут ли люди отличить видео, созданное инструментом "текст в видео" Sora от OpenAI от реальных видеороликов.
Вот подробные результаты исследования.
Кратко. Более чем 1000 участников в режиме онлайн показывали четыре реалистичных видео, созданных Sora, и четыре видео с похожими сюжетами из стокового материала. В итоге в 60% испытуемые считали, что ролики от Sora - созданы человеком.
После этого респондентам сообщили, какие именно ролики созданы Sora, которые они приняли за реальные, и спросили, что они в связи с этим чувствуют. Реакция была смешанной, положительной и отрицательной: от любопытства (28 %), неуверенности (27 %) и непредвзятости (25 %) до тревоги (18 %), вдохновения (18 %) и страха (2 %).
Также на вопрос, считают ли респонденты, что правительство США должно принять постановление, требующее, чтобы контент, созданный искусственным интеллектом, был обозначен как таковой - респонденты одинаково категорично заявили о необходимости регулирования всех форматов контента, включая видео, изображения, текст, музыку, субтитры и звуки.
Image credit: Adobe Stock/ _veiksme_
Компания Adobe представила проект Music GenAI - это ресурс на основе искусственного интеллекта для создания и настройки музыкальных произведений из текстовых подсказок. Система была разработана в сотрудничестве с Калифорнийским университетом и Школой компьютерных наук Университета Карнеги-Меллон.
В издании Wired пишут, что данная система является частью платформы Firefly, семейства моделей искусственного интеллекта, которые были интегрированы в такие сервисы, как Photoshop, Illustrator и Express. Она работает аналогично моделям MusicLM от Google и AudioCraft от Meta. Достаточно ввести запрос, описывающий тип и стиль желаемой мелодии, после чего ИИ выдаст песню с заранее заданными характеристиками. Модель также способна генерировать результаты на основе уже существующей эталонной композиции.
В отличие от других подобных программ, этот подход включает в себя встроенные элементы управления редактированием. Проект позволяет легко вносить изменения в структуру, темп, интенсивность и повторяющиеся паттерны генерируемого произведения. Она позволяет смешивать фрагменты разных клипов, создавать музыкальные петли и увеличивать продолжительность произведений.
Впрочем, пока проект находится на ранней стадии разработки, и пока нет никаких подробностей о том, как будет работать интерфейс, как будет обеспечиваться безопасность исходных материалов и какова максимальная длина клипов, которые можно будет создавать.
Ну и вот небольшая демонстрация возможностей этой модели, которую показала компания Adobe.
Совсем недавно компания OpenAI представила модель ИИ под названием Sora, которая умеет создавать реалистичные видео по обычным текстовым запросам.
А теперь компания ElevenLabs, занимающаяся автоматической озвучкой текста и генерацией аудио, показала, как ее ИИ может создавать озвучку для видео - тоже по простым текстовым промптам.
В демонстрационном ролике озвучиваются примеры, созданные Sora.
Кстати, компания ElevenLabs была основана Петром Дабковским, бывшим инженером по машинному обучению Google, и Мати Станишевским, бывшим стратегом по внедрению Palantir, для разработки сверхреалистичных моделей преобразования текста в речь для образования, аудиокниг, игр, фильмов, бизнеса и так далее. Компания получила $19 млн инвестиций.
И вот один из впечатляющих примеров их разработок: ИИ вслух читает роман Скотта Фицджеральда "Великий Гэтсби".