Інтерв’ю з Олексієм Лукіним, iZotope, ProSound

Інтерв'ю з Олексієм Лукіним, iZotope

олексієм

Нам представилася можливість взяти інтерв'ю у Олексія Лукіна. Багато хто знає його як головного розробника програми RMAA, а у професійному середовищі як провідного розробника американської компанії iZotope, відомої своїми плагінами для обробки звуку iZotope Ozone, iZotope RX.

Коротка довідка Олексій Лукін, к.ф.-м.н., молодший науковий співробітник ф-ту ВМіК МДУ ім. М. В. Ломоносова, розробник алгоритмів у компанії iZotope, Inc.

Привіт Олексію! Ми з тобою давно знайомі, вже майже 10 років. Слідкуємо за твоєю кар'єрою і дуже раді. Три рази сплюнемо. Дуже добре бачити успішну історію визнання та затребуваності фахівця світового рівня, застосування наукових знань на практиці з користю для справи. Розкажи, будь ласка, двома словами: чим ти займався, навчаючись в університеті? У яких проектах брав участь? Для яких компаній?

Дякую за таку багатозначну виставу, але «світовий рівень» я б приміряти до себе поки не став. Я, швидше, належу до фахівців «широко відомих у вузьких колах».

Коли я вступав до університету, на ринку з'являлися перші доступні звукові карти комп'ютера, формат MP3, трекерна музика. Комп'ютери ставали мультимедійними. Пам'ятаю, мене тоді дуже цікавило питання якості звучання таких дешевих звукових карт. Це підштовхнуло до вивчення цифрової обробки сигналів та перетворення Фур'є. Я знову і знову брав у бібліотеці книгу Рабінера та Голда, яка викладала відповідну теорію. На жаль, на нашому факультеті вивченням звуку та радіоелектронікою мало хто займається. Натомість у нас хороші можливості для вивчення програмування.

Питання про твій фірмовий алгоритм нойз-шейпінгуMegaBitMax, який зустрічається у багатьох продуктах. Розкажи коротко, як ти його розробив, що він дає, коли його треба застосовувати?

Оскільки в лабораторії ми активно займалися перетворенням форматів зображень, я зацікавився перетворенням розрядності та аудіосигналів. Головною метою розробки алгоритму було надання користувачеві широких можливостей з налаштування нойз-шейпинга, насамперед — його агресивності. При кожному заданому рівні агресивності (тобто максимально допустимому рівні ВЧ-шуму) я прагнув домогтися найкращого придушення чутного шуму квантування. Більшість існуючих на той момент систем нойз-шейпінгу використовували фільтри невисокого порядку, внаслідок чого АЧХ шуму виходила пульсуючої та неточно наближає необхідну форму спектра. У MegaBitMax я використовував фільтри вищого порядку (до 50-го) та кілька спеціальних трюків для зниження пікових викидів ВЧ-шуму.

Розкажи, як ти потрапив до компанії iZotope? Ти постійно живеш і працюєш у Штатах?

iZotope зацікавилися моєю веб-сторінкою з описом MegaBitMax та запропонували співпрацювати. Нашим першим спільним проектом був процесор ефектів Spectron. Далі з'явилися й інші напрямки. Довгий час я працював у компанії віддалено - з Москви. Але зараз графік робіт вимагає частих «відряджень» до штатів.

Чим ти займаєшся у компанії? Як триває технологія?

Останні п'ять років велику частину свого часу в iZotope я присвячую розробці алгоритмів реставрації аудіосигналів. Наш реставраційний продукт RX складається з окремої програми та набору плагінів, що реалізують різні види шумоподавлення та аналізу аудіосигналу. Я відповідаю за математику цього продукту і можу з гордістю сказати, що багато хтоалгоритми RX є продовженням моєї наукової роботи та представлені в публікаціях на таких профільних конференціях, як AES.

Запитання про продукти компанії iZotope. Спочатку був лише Ozone, тепер цілий спектр продуктів. Є навіть залізний пристрій реального часу. Вражає! Розкажи нам про компанію.

Компанія була заснована у 2001 році у Бостоні випускниками Массачусетського технологічного інституту (MIT). Коли я починав співпрацювати з iZotope (у 2002 році), у її штаті було лише кілька людей, але певне ім'я компанія вже мала завдяки своєму продукту Ozone. Цікаво, що на початку існування компанія мала пару невеликих продуктів по роботі із зображеннями, проте пізніше ми повністю переключилися на роботу зі звуком.

Перші кілька років iZotope була відома виключно плагінами - програмними модулями, що підключаються, для обробки звуку. Однак згодом сфера нашої діяльності розширилася. Ми розробили залізний прилад ANR-B для придушення шуму в реальному часі. Значну частину нашої роботи також становлять спільні проекти з іншими компаніями та ліцензування наших технологій для таких програм як Audition, Sound Forge, Pro Tools.

Звісно, ​​таке розширення сфери діяльності призвело до збільшення штату компанії. Наразі в iZotope працює кілька десятків фахівців: розробників, тестувальників, дизайнерів, маркетологів. Однак компанію не можна назвати міжнародною: єдиний офіс iZotope знаходиться в Бостоні, США, і майже всі її співробітники - американці.

Іноді дивує, наприклад, плагін еквалайзера або компресора, де тільки імітація трьох ручок апаратного приладу, навіть без пікметра сигналу, не кажучи про спектр, тобто взагалі не використовує комп'ютера! А якти оцінюєш сучасну ситуацію із плагінами обробки?

Невелика кількість ручок - це не завжди погано. Наприклад, у найбільш шанованих реставраційних приладах Cedar найчастіше є лише одна ручка: «більше-менше». Вся справа в умілій реалізації алгоритмів. В iZotope ми часто йдемо у бік надання великої кількості регулювань та засобів візуалізації. Однак намагаємося, щоб навіть непідготовлений користувач міг швидко освоїти наш продукт. Цікавий підхід обраний у новому вокальному процесорі iZotope Nectar: ​​за замовчуванням на дисплеї виводяться лише найнеобхідніші налаштування, але просунуті користувачі мають можливість відкрити «закладки» з детальними параметрами кожного модуля.

Сучасна ситуація з плагінами така, що плагінів стає все більше, а частка хороших плагінів все менше. Коли засоби розробки стали доступними практично кожному, цілком логічно, що багато плагінів стали створюватися непрофесіоналами, з відповідними результатами. Як приклад наведу плагін ReLife, що наробив багато шуму свого часу, нібито відновлює динаміку перекомпресованих або кліпованих записів. При уважному вивченні виявилося, що це плагін є лише всепропускающим фільтром, т. е. він змінює ФЧХ сигналу деяким фіксованим чином. Пікові рівні лімітованих записів при цьому справді підвищуються, але говорити про зміну динаміки і взагалі про зміну в звучанні — безглуздо.

iZotope RX. Про історію цього продукту. З чого все почалося, як прийшли до цього? У чому основна ідея продукту, у чому переваги конкурентам? Як вдалося подолати внутрішню суперечність перетворення Фур'є — висока роздільна здатність або за часом, або за частотою? Якою була твоя участь у розробці? Якпродукт прийняли у професійній спільноті?

Ідея створення реставраційного продукту з'явилася у нас ще приблизно 2003 року, коли я активно займався алгоритмами придушення шуму на зображеннях. Було зроблено прототип плагіна для звукового шумоподавлення. Однак незабаром стало зрозуміло, що для ефективної реставраційної роботи необхідні засоби візуалізації та навігації, які неможливо зробити у плагіні. Так розпочалася робота над окремим додатком для реставрації, який у 2007 році був випущений під назвою RX.

Основна ідея продукту – зробити роботу зі звуком по-справжньому візуальною. І, звісно, ​​головну роль цьому грає спектрограмма. У RX вона дуже гнучка: швидко перемальовується, підлаштовує масштаб під поточне вікно, має безліч налаштувань, зокрема унікальних. Вперше стало можливим відображати форму хвилі поверх спектрограми та працювати з обома. У нашій спектрограмі є кілька спеціальних режимів підвищення чіткості зображення, що перевершують по можливості традиційне перетворення Фур'є. Один із них називається Reassignment і дозволяє абсолютно точно побачити частоту тону, навіть якщо вона змінюється у часі. Інший називається Adaptively sparse - він автоматично підлаштовує розмір вікна FFT під сигнал для найбільшої чіткості спектрограми як за частотою, так і за часом. Цим спеціальним режимам спектрального аналізу було присвячено мою дисертацію.

До речі, дані методи спектрального аналізу застосовуються не тільки під час візуалізації спектрограми, але й при обробці сигналу, дозволяючи досягти вищої якості шумоподавлення, ніж продукти, що конкурують. Мушу сказати, що шумопридушення — наша сильна сторона. У iZotope є кілька публікацій з реставрації на AES, а кілька років тому нас навіть запросили.прочитати двогодинну навчальну лекцію з цієї теми на Нью-Йоркській конвенції.

Я приймаю найактивнішу участь у розробці RX, фактично відповідаючи за всю алгоритмічну начинку, що обробляє та аналізує звук. Разом зі мною над продуктом працюють фахівці з архітектури програми та інтерфейсу, і маю сказати, що їхній внесок теж величезний. Будучи незалежним додатком, RX включає модулі роботи з файлами, зі звуковою картою, візуалізації, малювання виділень, а також кілька реставраційних модулів і більш прості компоненти для редагування. Крім того, основні реставраційні модулі були випущені у вигляді плагінів.

У професійному співтоваристві RX прийняли дуже тепло. Адже ми зробили якісні алгоритми доступними навіть невеликим студіям. Стандартна версія RX містить самі алгоритми реставрації, що й розширена (Advanced) версія, але з меншим числом налаштувань. Тому навіть зі стандартною версією можна досягти повної якості обробки.

Питання про автоматичне видалення немузичних звуків із сигналу - взяття дихання, прицмокування, свисти і т. п. Розкажи про iZotope Nectar.

Nectar замислювався як аналог продуктів Ozone або Alloy для роботи з вокальними доріжками – своєрідний комбайн, що дозволяє швидко досягти бажаного звуку. За одним із задумів, Nectar повинен був містити деякі базові реставраційні функції для вокалу: придушення прицмокування, взяття дихання, «задувань» мікрофона і т.п. і продукт стане малозастосовним при трекінгу в реальному часі. Тому було вирішено обмежитися придушенням дихання. Алгоритм досить цікавий: це не просто гейт, ааналізатор спектра сигналу, що намагається відокремити звуки дихання від корисних приголосних звуків. Звичайно, це важке завдання, яке потребує елементів штучного інтелекту, але в першому наближенні розроблений алгоритм можна вважати успішним. Він ідентифікує моменти взяття дихання та дозволяє обмежити їх за гучністю.

Що нового в останній версії iZotope RX 2? Що б ти радив випробувати?

На мою думку, найголовніше поліпшення RX 2 - нові алгоритми для придушення шуму (Denoiser D) і вінілових клацань (Declicker/Decrackler і Deconstruct). Можу порекомендувати наступний ланцюжок обробок, що дає хороші результати при реставрації вінілу:

  1. Declicker (два проходи в режимі Multiband),
  2. Decrackler,
  3. ручне придушення клацань, що залишилися модулем Interpolate або Spectral Repair,
  4. Denoiser,
  5. Deconstruct.

Ще один фірмовий секрет: для придушення електричного гулу не поспішайте скористатися фільтрами режектора з модуля Hum. У багатьох випадках більш акуратних результатів можна досягти модулем Denoiser в режимах D або C - він менше торкнеться корисного сигналу на частотах гулу.

У розширеній версії RX Advanced, окрім підтримки плагінів, тепер є алгоритм iZotope Radius для високоякісної зміни хронометражу та тональності (time/pitch), а також спеціальний модуль азимут-корекції для реставрації записів із магнітної стрічки.

Розкажи про онлайн-проект порівняння різних алгоритмів SRC. Чим там справа закінчилася? Хто переміг? Чи не дійшло до зіставлення суб'єктивної оцінки з об'єктивною?

Ідея зробити такий сайт із порівнянням алгоритмів SRC (перетворення частоти дискретизації) витала у повітрі досить давно. Однак першим її втілив не я, а Дейв Хоррокс.майстер-інженер канадської студії Infinite Wave. Він використовував програму RMAA для відображення спектрів синусоїди 1 кГц після пропускання через різні SRC-конвертери. Через деякий час я набрав на сайт Дейва і запропонував розширити тест, доповнивши його результатами для «плаваючого синусу» та імпульсів. Так народився сьогоднішній набір тестів. Я не буду тут докладно розповідати про нього, тому що вже написав на цю тему статтю в Звукорежисері: Тест конвертерів частоти дискретизації.

Скажу тільки, що, на мій погляд, більшість протестованих конвертерів цілком добрі. Ми навмисно використовуємо широкий динамічний спектр спектрограми для підсвічування їх відмінностей. Насправді ж найкращу половину цих конвертерів навряд чи здатний розрізнити на слух.

У тесті на Infinitewave не дійшло до суб'єктивних порівнянь. Але я чую від звукорежисерів, що об'єктивні оцінки на Infinitewave в цілому добре відображають їх суб'єктивні уподобання. Так, часто відзначається якість алгоритму iZotope SRC та конвертера Weiss. Серед безкоштовних програм високо оцінюються SoX та r8brain.

Чи заходиш ти на сайт iXBT у вільний час? Твоє бажання читачам сайту.

Так, на сайт iXBT заходжу. Традиційно цікавлюся оглядами напівпрофесійних звукових карт та моніторів для домашніх студій. Іноді з цікавістю переглядаю на форумі теми про покращення звучання якоїсь звукової карти шляхом заміни компонентів. Радію, якщо бачу, як на допомогу описовим характеристикам приходять графіки RMAA. Бажаю читачам iXBT успіхів у пошуку досконалого звучання!

  1. Олексію, дякую за інтерв'ю, і побажаємо тобі подальших успіхів!