Клип The Beatles - Now and Then с голосом Джона Леннона появился благодаря ИИ

Клип с последней песней The Beatles - Now and Then за неделю набрал более 26 млн просмотров. Однако не все знают, что ни клип, ни сама песня вряд ли бы появились без участия искусственного интеллекта (ИИ).

Клип The Beatles - Now and Then с голосом Джона Леннона появился благодаря ИИ
© Российская Газета

Нет, искусственный интеллект не помогал Джону Леннону написать эту песню в конце 1970-х годов. Не участвовал ИИ в создании единственного дошедшего до нас демо Now and Then, которое Леннон записал в 1977 у себя дома в знаменитом Dakota Apartments. В те времена еще не было того, что сейчас называют искусственным интеллектом - нейросетевых моделей. Однако в 2023 году такая модель появилась у товарищей Леннона по "Битлз" Пола Маккартни и Ринго Старра, а также у режиссера трилогии "Властелин Колец" Питера Джексона.

Для того чтобы понять, причем тут Джексон, придется вернуться в январь 1994 года, когда вдова Леннона Йоко Оно подарила Полу Маккартни две магнитофонные кассеты, где были домашние записи песен, которые Леннон так и не завершил. На одной из кассет, с надписью For Paul, как раз и была записана Now and Then. Первая попытка сделать полноценный коммерческий релиз состоялась в 1995-м и продлилась ровно два дня. Еще один, увы, тоже ушедший от нас "битл" Джордж Харрисон тогда не поверил, что запись можно использовать ввиду ее отвратительного качества. Однако после отказа Харрисона продолжить работу проект не умер, а лишь впал в летаргический сон, из которого в 2021 году его вывел именно Питер Джексон. После просмотра документального мини-сериала The Beatles: Get Back и, вероятно, вдохновившись тем, что сделал Джексон в этом фильме, Маккартни вновь озвучил идею вернуться к работе над Now and Then. Для работы над фильмом The Beatles: Get Back инженеры продюсерской компании Джексона - WingNut Films разработали специальное ПО с использованием нейросетевой модели. Такой же подход использовался и для работы с архивными аудиозаписями The Beatles при разделении речи и музыкальных инструментов с одноканальных монозаписей для дальнейшей их реставрации. Так, благодаря специально обученной нейросетевой модели MAL с демозаписи Now and Then удалось "снять" голос Леннона. Дальнейшее было делом техники и таланта Пола Маккартни и Ринго Старра. Они записали свои музыкальные партии, гитара Харрисона была частично взята с сессии 1995 года, частично перезаписана Маккартни. А затем лучшие звукорежиссеры мировой музыкальной индустрии выстроились в очередь, чтобы поработать с этим материалом. Так, собственно, и появилась Now and Then. По словам Джексона, его команда разработала систему машинного обучения, которая научилась точному звучанию гитары и голоса Леннона, бас-гитары Маккартни, барабанов Ринго Старра и пр. Именно это и позволило взять архивную запись и разделить инструменты и вокал Леннона. Успех команды Джексона сложился из двух ключевых элементов. Во-первых, она блестяще реализовала концепцию узкоспециализированной нейросетевой модели. А во-вторых, смогла составить качественный датасет, без которого невозможно создать хорошую модель. Концепция узкоспециализированных нейросетей сейчас становится все более и более популярной у датасайентистов и является альтернативой гигантским LLM моделям типа GPT-4 или LLaMA.

"Представьте, что вы обучаете в течение года ребенка математике, биологии, социологии, истории, географии и пр. А другой ребенок весь год учит только математику. Разумеется, этот предмет он будет знать лучше и глубже, чем ребенок, учивший все предметы. То же самое с моделями машинного обучения. Узкоспециализированные модели лучше работают в той области, для которой они созданы, в отличие от универсальных гигантов типа GPT", - говорит генеральный директор компании Nisli.io Отари Меликишвили.

Вторая составляющая успеха WingNut Films это уникальный датасет для обучения модели. Высококачественное обучение нейросети становится возможным только с использованием миллионов примеров. Но, как правило, звукозаписывающие компании тщательно оберегают свои мастер-записи, поэтому найти хорошие моногоканальные треки для обучения моделей очень сложно. В нашем случае Джексон получил доступ к студийным записям The Beatles для обучения нейросети, и она училась на них звучать, как Леннон, Маккартни, Харрисон и Старр, что и позволило максимально точно выделить вокал Леннона из старой демозаписи.