Материал создан совместно соSberZvuk

Сам себе оператор: как искусственный интеллект создает музыкальные клипы

Чем быстрее развиваются современные технологии, тем больше слухов возникает: неужели искусственный интеллект захватит власть над человечеством и все мы окажемся в «Матрице»? Будущее туманно, так что тревожиться зря не стоит: мы призываем обратить внимание на настоящее, где от механического ума можно получить пользу. Как насчет того, чтобы искусственный интеллект сделал для вас уникальный музыкальный клип?

Сам себе оператор: как искусственный интеллект создает музыкальные клипы
© DeepMind/unsplash.com

Умельцы разработали новое программное обеспечение, которое управляется искусственным интеллектом — и с помощью него можно создавать музыкальные видеоклипы для любимых песен. Как сообщает Classic Rock, процесс создания видеоклипов невероятно прост. Программа создает визуальный ряд на основе текста песни, генерируя образы в изображения. Порой картинки выглядят как настоящие произведения искусства, а их последовательность создает отдельную вселенную.

Например, можно ввести слова трека Don't Stop Me Now группы Queen вместе с несколькими звуковыми индикаторами (например, «колокол» или «инструментальный бридж»), и программа создаст совершенно новые изображения, из которых легко составить видеоряд. В данном случае клип получился ярким, футуристическим и порой абстрактным, а увидеть смысл в нем очень легко — образы легко читаются.

Таким образом, создавать клипы может любой желающий — если, конечно, несколько своеобразный подход искусственного интеллекта к выбору изображений устраивает автора.

Еще один эксперимент с искусственным интеллектом провел солист группы Rummstein Тилль Линдеманн. Для создания клипа на трек Ich weiß es nicht музыкант обратился к нейросетям, а именно к программе GAN — генеративно-состязательным сетям, обладающим способностью к машинному обучению. Результатом получилось видео, в котором лица разных людей постоянно меняются, превращаясь из одного в другое — мрачновато, но интересно.

Наблюдая такой прогресс, сложно не задаваться вопросами о будущем: неужели искусственный интеллект все-таким сможет заменить человека даже в такой творческой сфере и как скоро это произойдет? За ответами Звук обратился к Виталию Горбачеву, владельцу продуктов в Управлении экспериментальных систем машинного обучения SberDevices:

_Каковы шансы, что к помощи искусственного интеллекта в создании клипов станут прибегать постоянно, а не в качестве развлечения и эксперимента?_

— Отличная формулировка вопроса — именно к помощи искусственного интеллекта станут прибегать уже совсем скоро, и уже точно прибегают в других областях; однако на полную замену людей в ближайшее время рассчитывать не стоит. Вероятность этого растет с развитием технологий. Модели нейросетей становятся лучше и эффективнее, уменьшая время на редактуру и подбор правильного результата генерации, а также требования к вычислительным мощностям. Кроме того, стоимость самих вычислительных мощностей уменьшается с каждым годом и то, что когда-то требовало миллионов вычислительного бюджета, становится доступно обычным компаниям.

Виталий Горбачев: «Стоит понимать, что последние, самые мощные, виды искусственного интеллекта — трансформерные и диффузионные модели — совсем недавно вышли из лаборатории, и требуется некоторое время на их оптимизацию и появление инструментов на их основе».

_Что потребуется для того, чтобы ИИ снял клип, который будет не набором кадров или меняющихся психоделических изображений, а, например, чем-то с сюжетом и главными героями? Возможно ли это вообще?_

— Конечно, это возможно. Проблема в том, что модели плохо держат контекст происходящего; однако уже есть подходы к тому, чтобы улучшить этот аспект генерации. Правда, для того, чтобы с нуля снять клип, понадобится настоящий ансамбль моделей: начиная с генерации текста сценария, заканчивая сведением музыки с видео, и, конечно, самой генерации видеоряда по сценарию.

Я думаю, что state of the art (самые передовые технологии — прим. ред.) уже позволяет использовать генерацию текста для вменяемых коротких сценариев, однако полноценная генерация видео потребует времени. Сейчас, по моей оценке, генерация видео в зачаточном состоянии, но я уверен, что мы увидим прорыв на уровне GPT-3 (самая продвинутая языковая модель в мире — прим. ред.) или DALL-E (нейросеть для генерации изображений по текстовым описаниям — прим. ред.) уже в следующем году. Однако следует понимать, что дорога из лабораторий к бизнес-применениям далеко не короткая.