19 октября 2023

Кодовая нота: чем занимается аудиопрограммист в эпоху нейросетевого бума

Изображение создано
с помощью нейросети

Изображение создано с помощью нейросети

1054

19 октября 2023

Искусственный интеллект снова в центре внимания — на этот раз в мире музыки. Только за последние несколько лет в сети появились десятки сервисов, генерирующих музыкальный контент, — такие как Music LM от Google, Audiocraft от Meta* или MuseNet от OpenAI. На слуху у ценителей разбогатевшие на калифорнийских инвестициях стартапы с российскими корнями Mubert и Endel, а также отечественные «чистокровки» — обновлённая «Яндекс Музыка» и «Маэстро» от «Сбера». Но ажиотаж вокруг всех этих проектов преждевременен, считает профессиональный аудиопрограммист, музыкальный продюсер, доктор наук Глеб Рогозинский. По его мнению, судить о генеративном искусстве по нейросетям — занятие неблагодарное. В беседе с «Истовым инженером» Рогозинский рассказал, чем написанный на Csound код лучше нейросетевого произведения, где сегодня востребовано аудиопрограммирование и в чём специфика этой необычной профессии.

Из статьи вы узнаете

кого легче научить генерировать музыку — композитора или программиста
зачем нужны саундскейпы — «звуковые пейзажи»
когда компьютер впервые написал музыкальную композицию

О восторгах и созвучиях

Раз тема наша связана с музыкой, давайте выберем ноту, с которой начнём общение. Мой выбор — минорная, созвучная тем чувствам, с которыми я смотрю на всеобщие восторги от искусственного интеллекта. Нейросети проникли, кажется, уже во все сферы человеческой деятельности, и сегодня, когда мы говорим о генеративной музыке, то почти всегда подразумеваем под этим нейросетевую основу.

Я говорю об этом с сожалением, потому что на самом деле генеративное искусство многограннее, сложнее и интереснее, чем это может показаться пользователям сегодняшних Music LM или Mubert. Музыкальное программирование — удивительный процесс, и чем глубже в него погружаешься, тем сильнее в этом убеждаешься.

С нейросетями пока иначе. Вслушиваясь даже в самые успешные машинные генерации звуков, мы чувствуем: нейросеть — это своего рода усреднение. Стандартный подход к решению задачи с помощью нейросети — это предоставить ей обучающее множество, много гигабайт разных произведений. Но эффективен ли этот метод? Мы можем скормить ИИ все полонезы и ноктюрны Шопена. Он их переварит и что-нибудь «шопенообразное» выдаст. Допускаю даже, что какая-то музыкальная фраза окажется очень удачной, но за ней последует ошибка, которую человек никогда бы не сделал. А всё потому, что музыка таит в себе разные масштабы восприятия.

Можно удачно повторить какой-то микромотив или часть фразы в стиле Шопена, но затем ошибиться с формой, то есть с тем, как композиция развивается во времени. Талант композитора не в сочетании нескольких нот, а в том, как эти ноты раскрывают тему произведения, в нужный момент повторяясь, — именно тогда, когда наши чувства на пределе.

Об истоках и игре в кости

Последние годы генеративная музыка переживает второе рождение. Именно так — второе — потому что истоки явления следует искать еще в конце 1950-х. И если под термином «генеративная» мы будем подразумевать то, что вложил в это понятие Брайан Ино, то есть будем говорить про музыку, построенную на алгоритмах таким образом, что исполнять её можно на разный лад бесконечно долго, при этом постоянно в ней что-то меняя, то можно смело констатировать: это уже неотъемлемая часть мировой музыкальной культуры. Больше скажу — в каком-то смысле даже Моцарт занимался генеративной музыкой, подбрасывая кубики и выбирая в зависимости от выпавших чисел такты. Это называлось Musikalisches Würfelspiel — «музыкальная игра в кости».

Классический пример генеративной музыки — это Iliac Suite, которую в 1957 году для компьютера Iliac написал Леджарен Хиллер, преуспевший не только в искусстве, но и в естественных науках. Тогда компьютеры не могли не то что звук издать — у них даже дисплея не было. Но компьютер Iliac вывел некие значения в результате работы алгоритма, заложенного в него композитором, и дальше эти значения были переведены в обычные ноты, которые играл струнный квартет.

Об именах и человеческом начале

О генеративном искусстве до эпохи искусственного интеллекта я могу говорить часами. Есть выдающиеся музыкальные произведения, полученные генеративным путем, которые созданы людьми и сегодня изучаются в университетах. Есть имена композиторов, на которых опирается история музыки Нового времени, и ряд из них непосредственно связан с нашей темой. Думаю, не погрешу против истины, если отнесу к «генеративному» значительную часть наследия американского композитора, музыковеда и философа Джона Кейджа. Француз греческого происхождения Янис Ксенакис, архитектор по образованию, считается мастером применения математических моделей для сочинения музыки. Его соотечественник Пьер Булез, по крайней мере, в период увлечения сериализмом использовал много разных алгоритмов в процессе написания музыки. Американец Чарльз Вуоринен выводил целиком из музыкальной серии всё произведение. Брайан Ино, говоря о генеративности, отсылает нас к экспериментам минималистов. К примеру, к таким произведениям, как Piano Phase Стива Райха или In C Терри Райли.

Брайан Ино: «Я заинтересовался идеей создания музыки, которая в определённом смысле сочиняет саму себя, ещё в 1960-е годы, когда впервые услышал таких композиторов, как Терри Райли, и когда только начал играться с магнитофонами. У меня были два ленточных магнитофона на полу и кусок ленты, их соединявший. Это в результате позволяло создать очень длительное эхо и наслаивать звуки друг на друга».

О сообществе одиночек

То, чем занимаюсь я, — написание кода на языке Csound — по сути, это такое же формулирование алгоритмов, только прописываю я их не в партитуре, а в компьютерном файле. Сегодня это основной мой хлеб. Отсюда и название моей профессии — аудиопрограммист. Хотя можно ли назвать это профессией? В этом я до сих пор не уверен. С одной стороны, какого-то внятного рынка на услуги аудиопрограммистов не существует — по крайней мере, в России, в моём родном Петербурге. Вместо него есть сообщество одиночек с особым междисциплинарным набором знаний. С другой — всё больше энтузиастов из мира науки, бизнеса или образовательной среды интересуются принципами программной генерации звуков и готовы хорошо платить за уникальный продукт.

О кино и педагогике

Как аудиопрограммисту, мне посчастливилось поработать и с наукой, и с бизнесом, и с образованием. С преподавания, собственно говоря, и началась моя история познания Csound. У меня техническое образование, и такие языки программирования, как С, Python или MathLab, были мне знакомы. Однако всю свою жизнь посвятить классическому программированию я был не готов. Тогда, на стыке 1990-х и «нулевых», в стране возрождалась индустрия кино — открывались новые кинотеатры, на экран выходили фильмы, снятые с использованием новейших технологий. Увлечённый всем этим, я поступил в Институт кино и телевидения.

Одна из дисциплин, которую мы изучали в магистратуре, была посвящена медиапрограммированию, и вёл её Александр Константинович Явленский — профессор из ГУАП, специалист по диагностике космических аппаратов, казалось бы, максимально далёкий от всего творческого. Каким-то парадоксальным образом именно он и познакомил меня с Csound, о котором никто из нас совершенно ничего не слышал.

Всего три занятия, посвящённые этому языку в рамках целого курса, навсегда изменили моё представление о границах музыкального прогресса.

Я был отличником, на хорошем счету в институте, и года через полтора сам стал преподавателем. Когда же встал вопрос о том, какой курс вести студентам-звукорежиссёрам, я сразу понял, что это судьба: ну конечно же, курс по Сsound!

О Сsound и его перспективах

С того момента прошло уже много лет, но моя жизнь по-прежнему связана с Сsound, и могу с радостью сказать: язык очень активно развивается. Стремиться есть к чему, ведь вокруг всё также быстро меняется — регулярно обновляются операционные системы, выходит новое «железо», появляются новые технологии. Для всех активных пользователей Сsound это также означает совершенно новые задачи, которые надо решать. Я, как и многие другие, занимаюсь этим — время от времени пишу что-то новое в общий код.

О консерваторах и консерваториях

«Протокол», «общий код», «активный пользователь» — знатоки Рахманинова и Прокофьева после такого набора слов, скорее всего, напряглись и подумали: пожалуй, нам тут не место. И действительно, со стороны кажется, что там, где обучение ведётся языку программирования, гуманитариям делать нечего — студенты с техническим складом ума их с лёгкостью заткнут за пояс.

На практике всё иначе: лучшие мои ученики — выпускники консерватории. К моему удивлению, композиторы-теоретики, то есть люди, готовые к восприятию современной музыки, лучше воспринимают программный код.

Мне кажется, это связано с тем, что современные авторы, которые пишут музыку, где большое значение имеет предкомпозиционная модель, вынуждены становиться отчасти программистами, даже если сначала воротят от этого нос. Потому что они делают расчеты, планируют форму порой до десятых долей секунды — на таком уровне, где граница между программированием и композицией нивелируется.

Подкаст по теме

52 выпуск

26 октября 2023

Язык музыкального программирования Csound и основы генеративной музыки

В этом выпуске на примере одного из старейших языков музыкального программирования — Csound — поговорим о том, что представляет из себя процесс генерации музыки. Глеб Рогозинский, специалист в области музыкальной кибернетики и компьютерных музыкальных технологий, познакомит слуша…

Общая же закономерность такая: ученикам, не знакомым с программированием, тяжело в начале, когда требуется понимание того, как в принципе устроены языки для машин — какой у них набор команд, синтаксис, и так далее. Не понимающим основы гармонии, закономерности раскрытия музыкальной темы, не чувствующим мелодию сложнее всего в финале обучения, когда для написания алгоритма уже нужна идея. Если её нет — процесс останавливается.

К сожалению, сегодня я преподаю меньше. Но интерес к генеративной музыке и Сsound с тех пор только вырос, да и образовательные учреждения стали внимательнее следить за тенденциями. Благодаря этому у современных студентов большой выбор — например, можно пойти обучаться на аудиопрограммиста. Где и как долго этому учат — легко найти в интернете. Если же вы до сих пор слабо себе представляете, чем вам придется заниматься после, то знайте: это одна из издержек выбранного пути, на котором будут тысячи ответвлений и перекрёстков.

О главном перекрёстке

Знаковым событием в моей жизни стал звонок от коллеги с сообщением, что одна крупная телекоммуникационная компания проводит исследования. Он пояснил, что эксперимент требует особого звукового сопровождения — на время его проведения нужно было обеспечить беспрерывную генерацию случайных звуков, причём максимально разнообразных. Конечно, от музыки это было всё очень далеко, но новизна задачи и исследовательский подход меня заинтересовали. В итоге я сделал звуковое ядро для этого проекта — работающее быстро, эффективно и с простой интеграцией в общую систему.

До сих пор точно не знаю, какую конечную цель ставили перед собой организаторы исследований. Может быть, они хотели разработать какой-то инструмент подавления шума или улучшить автоматическое распознавание речи в условиях нестабильной связи с помехами. Или они тестировали какие-то иные алгоритмы, направленные на «вылавливание» определённых слов из общего шумового потока. Не в том суть. Для меня эта история оказалась знаковой, потому что я вдруг осознал свои возможности в этой области. Раньше меня немного смущало моё положение «чужого среди своих».

Для гуманитариев я всегда был «технарём», а «технари» смотрели на меня как на гуманитария. Композиторы видели во мне программиста, «айтишники» — музыканта. Но тот проект дал мне понять, что аудиопрограммирование намного более перспективная деятельность, чем я думал, и лежащая в его основе междисциплинарность — не минус, а огромный плюс.

В самом деле — с программистами я могу говорить как программист, не вдаваясь в теорию музыки и избегая чтения нотного стана. Композиторам стараюсь прояснять сложные технические слова и выражаться максимально гуманитарно, при этом отдельно акцентируя их внимание на строгости каких-то норм, не всегда для них очевидных. Получается такой особый вид дипломатии. Думаю, им было бы сложнее общаться друг с другом напрямую, без моего «посредничества».

О звуке как терапии

Чем дольше я работаю в аудиопрограммировании, тем чётче осознаю, насколько эта специализация кажется узконаправленной при беглом знакомстве и какой разноплановой является на самом деле. Живой пример тому — текущий проект, который мы воплощаем в жизнь вместе с финскими коллегами. Моя задача — генерация интерактивных звуковых ландшафтов — саундскейпов — для слабовидящих и незрячих людей, чтобы улучшить их ориентацию в незнакомой обстановке: торговом павильоне, аэропорту, на вокзале или просто на улице.

Предполагается, что в скором будущем такие люди будут носить с собой индивидуальное устройство со специальной программой или просто смартфон с приложением, которое, считывая в реальном времени данные о положении владельца девайса и анализируя объекты вокруг, будет звуком или специальной командой сообщать о препятствии на пути, подсказывать действия, которые необходимо совершить для его обхода, помогая выбрать верный маршрут до дома, правильный номер автобуса и тому подобное.

История эта очень интересная в том числе потому, что если всё удастся, то её можно будет масштабировать. В таком случае технология станет доступна и абсолютно здоровым людям, у которых появится возможность «развернуть» подобный звуковой ландшафт у себя дома и получать звуковые оповещения в зависимости от того, с каким бытовым предметом или в какой комнате, на каком этаже он находится.

О параллельных вселенных

Мог ли я представить себе на той лекции у профессора из ГУАП, что когда-нибудь буду работать над такими амбициозными и разноплановыми проектами в рамках одной специальности? А ведь это только несколько её граней. Также аудиопрограммистом справедливо будет назвать специалиста, который трудится в геймдизайне, разрабатывая при этом звуки и обеспечивая их интеграцию в код. Возможно, он даже что-то сам пишет на движке типа OpenAI или FMOD. Аудиопрограммистом можно назвать и композитора, имеющего дело с кодом, и человека, который решает вопросы с обработкой или синтезом звука, встраивая новое звуковое ядро в какой-то промышленный проект. И всё это далеко не всегда пересекающиеся друг с другом, практически параллельные вселенные. Полагаю, что в перспективе таких вселенных станет еще больше — генеративный контент потребуется аэропортам и выставочным площадкам, заиграет в фитнес-центрах и музеях, в городских скверах и гостиничных лобби.