Команда из пяти человек, четыре месяца работы и нейросети вместо десятков специалистов и многочасовых съемок — так родился новый клип Konsta (настоящее имя Шариф Абдуллаев). Режиссер Дамир Мубинов сознательно отказался от привычной для индустрии схемы, чтобы проверить, возможно ли создать продукт без громоздкого продакшена и длительных съемочных процессов.
В проекте ставка была сделана на компактность и технологичность. Использование нейросетей позволило оперативно вносить правки, тестировать разные решения и формировать итоговую картинку в сжатые сроки. За два дня клип набрал 112 тыс просмотров, на 14 августа более 300 тыс просмотров.
Дамир Мубинов рассказал Spot о режиссуре рекламных роликов, как происходила разработка клипа на нейросетях, почему каждую деталь кадра приходилось делать в разных нейросетях, какие перспективы у искусственного интеллекта в коммерческих видео.
Дамир Мубинов,
режиссер.
В индустрию съемок я пришел в 2019 году. Вместе с супругой мы запустили собственный продакшн, которым занимались почти четыре года. В начале пути я сознательно пробовал себя в разных ролях, берясь за самые разные задачи, чтобы глубже понять, как устроена работа изнутри. Со временем стало ясно: продюсирование — не то, что меня заряжает. Меня вдохновляет творчество, а не цифры, отчеты и организационная рутина. Когда я полностью сосредоточился на режиссуре, качество моих работ выросло в разы. Сейчас я занимаюсь режиссурой коммерческих роликов. Состою в пуле агентства талантов Abstract Talents.
Когда компания хочет снять рекламу, она обращается в рекламное агентство, оно, в свою очередь, нанимает продакшн, который уже выбирает режиссера исходя из его портфолио. Под каждый рекламный бриф я готовлю режиссерский тритмент — презентацию с моим видением будущего ролика. То же делают и другие режиссеры, участвующие в тендере, после чего агентство и клиент выбирают, с каким режиссером они идут.
После полного перехода в режиссуру я успел поработать с разными крупными брендами, как «Яндекс», Coca-Cola, Payme, Anorbank, TBC, Humans и другими. Основную часть заказов дают IT-компании, и особенно выделяются среди них цифровые банки — их реклама заказывается чаще всего.
Если говорить о знаковом опыте, то таким для меня стал проект «Легкое ретро» — это концептуальный бренд одежды. Заказ был абсолютно некоммерческий, мне просто понравился проект, вдохновленный эпохой 2000-х и атмосферой ностальгии. На тот момент они даже еще не продавали одежду, а только анонсировали запуск. Я предложил снять для них ролик, и команда дала мне полный карт-бланш. Для этого проекта я сам написал музыку, разработал сценарий, придумал концепцию основного ролика и серию видеовизиток. В итоге мы забрали кучу наград на местном фестивале и попали в шорт-листы зарубежных конкурсов.
Этот опыт стал для меня настоящим озарением: в рекламе сильно не хватает авторских проектов. Большинство сценариев, которые приходят от агентств, реализуются строго по брифу, а это редко дает возможность выйти за рамки. А вот когда появляется коллаборация с автором, где никто не держит тебя в жестких рамках, рождаются самые сильные и живые работы, которые потом хочется пересматривать.
В своей работе я опираюсь на три ключевых принципа. Первый — наглядность. Любой бриф, который ко мне попадает, я превращаю в черновой видеоролик — аниматик. Это такой набросок будущей рекламы: с музыкой, темпом, примерными кадрами и ракурсами. Чаще всего мы просто берем телефон, быстро снимаем нужные фрагменты, монтируем их, и в итоге получается ролик без актеров, но с понятной структурой. Главный плюс аниматики в том, что все сразу видят, как будет выглядеть реклама. Не нужно листать огромные презентации и представлять в голове свой вариант.
Второе — музыкальная составляющая. Я обожаю музыку. Хоть у меня и нет музыкального образования, почти в каждом проекте я стараюсь участвовать в создании саундтрека. Не люблю, когда берут однотипную стоковую музыку, поэтому, если есть возможность, пишу ее сам: достаю инструменты, работаю в программах, записываю, продюсирую, а потом вместе с аранжировщиком довожу до нужного звучания. Например, для Humans мы делали ролик с Анваром Джураевым из группы Sahar: он исполнял песню, а я отвечал не только за постановку, но и за создание самой песни — мы написали ее с нуля совместно с аранжировщиком.
Третий мой принцип — технологичность. Мне нравится работать с формой и искать нестандартные решения, за счет которых ролик цепляет зрителя. Дома у меня есть мастерская, где мы собираем разные конструкции для необычных кадров.
С недавних пор я активно интересуюсь нейросетями. Меня давно привлекала тема искусственного интеллекта, но я понимал, что не хочу ограничиваться тестовыми картинками и короткими роликами. Хотелось сделать что-то полноценное, и мне как раз появилась такая возможность — я захотел сделать клип с большим количеством экшена для рэпера Konsta (Шарифжон Абдуллаев).
Фото: Личный архив
Как начинался рабочий процесс
С Konsta мы были знакомы уже много лет, но напрямую с ним не работали. Мой опыт ограничивался исключительно коммерческими проектами, в создании клипов я раньше не участвовал.
Весной этого года у Шарифа вышел новый альбом, и он выложил его в закрытую группу для фанатов, где были и режиссеры, включая меня. Я переслушал весь альбом и искал ту песню, которая сможет выделиться. Среди серьезных и социальных треков была одна веселая, динамичная и хулиганская — «Исмим Шариф» (Меня зовут Шариф). Я понял, что на фоне остальных клипов, которые будут снимать для альбома, эта история могла бы прозвучать особенно свежо.
Как раз тогда нейросети переживали настоящий «бум». Каждую неделю появлялся новый инструмент: один превращал фото в аниме, другой писал песни, третий делал «интервью» с любым человеком. Но хайп длился всего пару дней — потом все забывали про предыдущую «сенсацию». Контент, созданный ИИ, становился однообразным и терял ценность также, как и люди, подстраиваясь под тренды, утрачивают индивидуальность. Трек Konsta был полон отсылок и сатиры. Он был о том, что Шариф никогда не стремился быть модным или пафосным, а в мире где каждый гонится за однообразным фейковым успехом искренность стала редкостью.
Я заметил совпадение этих идей — искусственность нейросетевого контента и однообразное поведение людей в погоне за трендами.
Поэтому я предложил артисту сделать клип, где эта параллель будет подчеркнута. Купил несколько пробных подписок на нужные сервисы, собрал за неделю 30-секундный тестовый фрагмент и показал Шарифу. Он посмеялся, но сразу согласился на создание полноценного ролика. Дальше мы обратились к Алишеру — представителю бренда SAVR, который часто поддерживает независимые проекты. Им тоже понравилась задумка и в тот же день мы решили начать работу.
С того момента мы четыре месяца работали над клипом, из которых два, практически не отходили от компьютера. Сейчас, когда работа завершена, я готов разрушить миф о том, что создавать с нейросетями — это быстро и дешево. Наоборот, это оказалось трудоемким, сложным и технически выматывающим процессом, который открывает тысячу возможностей.
Техническая сторона проекта
Когда я показал концепцию Шарифу, он предложил добавить еще больше отсылок. Поэтому в первом куплете клипа появилось много мировых референсов: на сериал «Во все тяжкие», на клипы 50 Cent, The Weekend и игры типа GTA и San Andreas, а также множество других отсылок. А во втором куплете были отсылки только на узбекскую культуру: концерт Маршакара, где он ломает джентру, ток-шоу Амирхона и встречу с местными рэперами.
Фото: Кадры из клипа в сравнении с отсылками
Я наивно планировал сделать клип в одной нейросети, но быстро стало понятно, что универсальных решений не существует. Каждая сеть хороша только в своей определенной задаче. Одна потрясающе рисует, но игнорирует действия заданные в промпте, другая следует указаниям, но выдает сомнительное качество, третья идеально передает физику движения, но общий стиль выглядит как мультфильм. Мне приходилось постоянно менять инструменты. Например, изображение я генерировал в MidJourney, но если нужно было что-то изменить, а результат не устраивал, перегонял картинку в другую нейросеть. Там добавлял детали, но лицо могло оказаться искаженным — тогда выгружал изображение на свой телефон, запускал FaceApp и Pica AI, корректировал лицо, сохранял и снова загружал обратно. После всех действий качество падало, и приходилось использовать отдельную сеть для улучшения картинки или видео.
Работу начал с генерации фото. Нам нужно было, чтобы лицо артиста оставалось одинаковым на всех кадрах, поэтому мы дважды сканировали Шарифа: сначала в студии мы сделали его фото со всех сторон, а потом сняли серию коротких роликов на зеленом фоне, где он делает разные движения. Эти сканы загружали в разные нейросети и через час-полтора получали готового цифрового персонажа. Дальше можно было задавать любые сценарии — например, «он едет в машине». Уже готовые видео мы адаптировали и собирали в клип.
Потом я подключил технологию ActTwo — имитацию движений и жестикуляции. В некоторых сценах он должен был не просто читать текст, но и жестикулировать. Я садился перед камерой, делал нужные движения, загружал запись, ставил на нее сгенерированное лицо Консты — и его цифровой двойник повторял все за мной.
Видео: применение технологии ActTwo
На финальной стадии мы накладывали липсинг, чтобы артист попадал в текст своих слов. Так, за 12 часов работы мы получали две сцены — около 15 секунд материала.
В общей сложности мы использовали около 20−25 нейросетей. У меня дома целая стена стикеров с их названиями и сроками подписок, чтобы не забыть вовремя отменить — иначе прилетает счет. Многие думают: заплатил за месяц и генерируй сколько угодно. Но почти все сервисы ограничены по количеству генераций: подписка в $80 порой может дать всего 70 клипов. Это очень мало, ведь в клипе десятки кадров, и на каждый уходит 20−30 неудачных дублей. Поэтому изначально заложенные подписки быстро заканчивались, и два месяца приходилось докупать их, что в итоге обошлось гораздо дороже, чем планировалось.
Хочу отметить и то, что разница между теми нейросетями, что были в марте, и тем, что есть сейчас — колоссальная. Я начинал с одной сети, потом выходили новые, и я переходил на них. Постепенно мы задействовали почти все, что можно было попробовать.
Важно понимать, что не весь процесс можно было делегировать искусственному интеллекту. Режиссура, сценарий, отсылки, концепция — все это оставалось на мне. Машины просто не понимают, «как надо». Даже генерация изображений и видео не превращалась в автоматическую работу: на один результат мог уходить целый день. В отличие от реального стажера, которому можно дать определенное задание, с нейросетями мне приходилось самому подбирать запросы, проверять и дорабатывать каждый кадр.
Различия живой команды и искусственного интеллекта
Главное отличие производства этого клипа от классического видеопродакшена было в размере команды. Вместо привычных 40+ специалистов у нас работали всего пятеро: Аслбек заменял фоны и делал графику, Акбар отвечал за саунд-дизайн и звуковые эффекты — от выстрелов до атмосферных шумов, Коля и я занимались промпт-инжинирингом и генерацией, Саддат делал 2D графику на экраны компьютера, а я промптил, монтировал и режиссировал.
Такой командой мы создали ролик, в котором герой ездит по ночному городу с пистолетом, летает на огромной брови в облаках, превращается в персонажа GTA и делает еще много эпичных и забавных действий. Теоретически все это мог бы сделать один человек, но слаженная команда позволила сделать быстрее и качественнее.
При хорошем бюджете такой проект можно было бы снять вживую за 40 дней. Но каждая полноценная смена в Узбекистане с подходящей локацией и профессиональной командой стоит от $30 тыс. В классическом продакшене команда выглядит так: режиссер-постановщик, оператор-постановщик с группой осветителей, продюсеры (генеральный, линейный, исполнительные), художник-постановщик с реквизиторами и декораторами, второй режиссер, фокус-пуллер, механик камеры, инженеры плейбэка, кастинг-директор, актеры, гримеры, стилисты, костюмеры и звукооператоры. Итого на площадке работает более 60 человек, а к ним еще добавляется команда постпродакшена — минимум 15 специалистов.
Смена длится 12 часов, и если не успеть, то нужно платить за переработки. Также им нужно предоставить комфортные условия, питание, трансфер между съемочными локациями, так как редко все ограничивается одной.
Даже при бюджетном варианте съемок, расходы на клип составили бы $60−70 тыс. Найти спонсоров крайне сложно и скорее всего, клип просто не появился бы. Нейросети дали возможность воплотить все эти сцены в жизнь. При этом это не просто «клип на нейросетях» ради галочки, а в первую очередь — сильная работа о погоне за внешним успехом в нашем узбекском обществе.
Так нашим основным расходом были подписки на сервисы. За все время на них ушло около $2 тыс: иногда лимиты заканчивались, приходилось подключать дополнительные сети, но бюджет все равно остался в этих пределах. За такую сумму можно месяц создавать десятки сцен. Остальные графы расходов — это съемки вступительной части, VFX и сканирование персонажа. Благо была поддержка от бренда SAVR, которая помогла клипу состоятся.
Отдельная гордость за весь проект — это медиабюджет, который составил 0 сумов. Вместо рекламы мы придумали вирусную историю: записали фейковое интервью, где Konsta говорил, что нейросети «ни на что не способны». В ответ блогеры и подписчики, в том числе известные, начали выкладывать сгенерированные фото с Шарифом. В конце мы признались, что это был прогрев к клипу, но все же у нас получилось креативное и эффективное продвижение.
Фото: съемочный процесс, кадры из клипа и фейкового интервью
Ожидание vs реальность. Так как у меня была свобода действий, у нас не было поэтапного согласования, поэтому клип артист и Алишер увидели уже когда он был полностью готовым.
Я приехал к ним на студию, они вообще ничего не ждали, даже не представляли, что сейчас увидят. Я просто включил клип и все. Реакция была шикарна: все отсылки для них были неожиданны, они едва осознавали и понимали шутку, как тут же появляется следующая.
Около 80% комментариев на YouTube и в Instagram были восторженными.
Конечно, были те, кому совсем не понравились ни клип, ни песня. Возможно, если бы клип был проще, он завирусился бы еще больше — ведь не все считывают отсылки и сатиру в тексте. Но именно эта насыщенность и сделала его особенным. Появились даже неожиданные отзывы: кто-то написал, что «Узбекистан не готов к таким клипам».
Клип и сама песня максимально сатирические. Например, во втором куплете есть строки о взрослом и обеспеченном мужчине, который сидит в дорогой черной машине и поет о любовных переживаниях. Здесь артист подшучивает над коллегами, у которых вроде бы все есть, но они продолжают выпускать треки о любви — потому что такие песни лучше заходят молодежи, а особенно девушкам.
В клипе у нас получилось гораздо жестче и больше сатиры, чем в тексте, и некоторые сцены мы даже убрали, чтобы не создавать себе проблем (смеется).
Перспектива нейросетей в коммерции
Я думаю, запросы на проекты с использованием нейросетей будут расти. Они начали поступать еще до выхода клипа. Но я точно не хочу, чтобы меня воспринимали исключительно как «ИИ-режиссера». Потому что хочется верить, что ИИ будет востребован не как жанр, а как помощь. Мне нравится работать на площадке, снимать по-настоящему. Ничего не заменит ощущение нахождения на съемочной площадке. Для меня нейросети лишь мощный инструмент, но не самоцель. Их задача — помогать воплощать идеи, а не подменять собой человеческий креатив.
Фото: съемочный процесс клипа
В моем подходе нейросети — способ оптимизации в постпродакшене. Например, обработка звука сейчас на другом уровне. Был случай, когда в кадре спикер сказал не ту фразу и мы сгенерировали его голос с правильным текстом и синхронизировали под движение губ, чтобы выглядело естественно. В графике потенциал не меньше. Коллега делал сцену взрыва для малобюджетного сериала — обычная подписка на ИИ позволила создать убедительный эффект.
Однако, я уверен, что результат всегда зависит от человека, который задает направление. У искусственного интеллекта нет амбиций, он не хочет сделать хайповую работу или выиграть Канны — он лишь выполняет поставленную задачу. Один и тот же инструмент в руках новичка и опытного специалиста даст совершенно разный результат. Поэтому развиваться и совершенствоваться нужно, даже если ИИ уже умеет многое.
Но чем более «математическая» профессия, тем быстрее там ИИ сможет полностью заменить человека.
Взять к примеру музыку. Еще два года назад музыкальные нейросети писали потрясающие треки. И получались они хорошо, потому что музыка — это математика: частоты, ноты, вся музыкальная теория похожа на формулы. Достаточно «загрузить» эту математику в нейросеть и она начинает выдавать действительно классные песни.
Например, то, что делает Suno — это просто невероятно. Я недавно написал песню и попросил сделать в жанре блюз. В итоге получил идеально готовую композицию, которую можно использовать для саундтрека к фильму.
То же самое с профессиями, связанными с цифрами — там ИИ очень быстро сокращает штат.
А вот в креативной сфере нейросети пока скорее помощники. Да, они могут оптимизировать процессы, но всех стажеров ты не уволишь. Если раньше нужно было четыре джуниора, то теперь можно нанять одного, который разбирается в нейросетях, и он выдаст мне объем работы, который раньше делала целая команда.
Опыт, который я получил, точно пригодится и в обычных съемках. Теперь я понимаю, что один кадр можно «оживить» или «спасти» с помощью нейросетей, а другой создать в реальности, без графики. Мне важен баланс — чтобы за каждым проектом стоял живой, горящий своей идеей человек, а нейросети помогали воплотить ее быстрее, дешевле и качественнее. Иначе весь контент станет одинаковым, и заходить на него просто не захочется.