Scientific journal
Modern problems of science and education
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 1,006

TRANSAURAL STEREOPHONY AND BASES OF BINAURAL SYNTHESIS

Ivanov Yu.M. 1 Aldoshina I.A. 1 Ignatov P.V. 1
1 Saint-Petersburg University of Humanities and Social Sciences
Throughout the results presented in the article "Binaural stereophony at the present stage of development of binaural technologies" in this article the principles of creation of a transaural stereophony (technology of reproduction binaural signals or recordings by stereo loudspeaker setup) which basic advantage before a traditional stereo, is ability of a reconstruction of three-dimensional sound field are considered. Also, the article discusses the basic principles and simulation processes signals from monaural to binaural using head transfer function (HRTF) for the left and right ears. This trend has been called binaural synthesis. Binaural synthesis technique is actively developing and already finds application in various areas of creative activity engineer - in the process of converting multi-channel stereo signals into binaural (downmix) and (upmix), in auralization, in scientific research and various directions and areas of auditory art.
binaural technology transauralnaya In stereo
binaural synthesis
auralization
creativity auditory art
the art of sound engineers

Со времени первых экспериментов по звукозаписи бинауральных сигналов предпринимались попытки их воспроизведения через громкоговорители, поскольку при этом восприятие звука происходит более естественно, что приводит к меньшей утомляемости слушателя. Однако при воспроизведении через громкоговорители возникают перекрестные связи, что приводит к сжатию виртуального источника во фронтальной плоскости с потерей пространственного образа. Первые системы, реализующие подавление перекрестных связей, назывались TRADIS (true reproduction of all direction stereophony) и были основаны на технологии, разработанной B. Atal и M. Schroeder [1]. Дальнейшие исследования в области воспроизведения бинауральных записей через громкоговорители обусловили появление отдельного направления, повлиявшего на развитие бинауральных технологий, которое получило название трансауральная стереофония.

Трансауральная стереофония – система воспроизведения бинауральных записей (сделанных на голове слушателя или на искусственной голове) через два громкоговорителя. Принципиальным отличием трансауральной от обычной стереофонии является то, что с ее помощью воспроизводится трехмерная звуковая картина, в то время как при стереофоническом воспроизведении слышимые звуковые источники располагаются в плоскости между громкоговорителями.

Надпись:  
Рис.1 Амплитудные и фазовые характеристики HRTF при разных углах падения звуковой волны

Если бинаурально записанные сигналы (внутри слухового канала) прямо воспроизводить через два громкоговорителя, то пропадает пространственный эффект (из-за наличия перекрестных связей), получается очень узкий стереообраз (особенно на низких частотах из-за малого расстояния между микрофонами, расположенными на голове), заметны значительные искажения тембра (поскольку сигналы уже обработанные ушной раковиной слушателя (или ИГ) при записи и имеющие достаточно большую неравномерность (рис.1), еще раз обрабатываются ушными раковинами слушателя, что еще больше увеличивает неравномерность на высоких частотах). Именно это – плохая совместимость бинауральных записей с прослушиванием через громкоговорители и необходимость четко фиксировать положение головы слушателя и были основными причинами, сдерживающими развитие трансауральной стереофонии.

Надпись:  
Рис. 2. Структурная схема трансауральной стереофонии

Для того чтобы добиться ощущения пространственности при воспроизведении бинауральных записей через громкоговорители, необходимо решение целого ряда технических проблем:

- устранение сигналов, попадающих на противоположные уши, т.е. «перекрестных связей» (cross-talkcancellation), что соответствует передаточным функциям HLR, HRL рис. 2. Устройство, выполняющее такие функции, получило название «бифонический процессор»;

- эквализация (выравнивание) прямых связей – HLL,HRR (рис. 2–9), чтобы устранить вторичную обработку сигнала ушными раковинами слушателя (они уже были включены в сигнал при записи на искусственной голове) и влияние отраженных сигналов во вторичном помещении (желательно чтобы помещение было достаточно хорошо заглушено).

В матричной форме эта задача может быть записана следующим образом [3]:

[H] [A]=[1], (2)

где матрица Н определяется передаточными функциями правого и левого канала (рис. 2):

H=;

матрица А состоит из коэффициентов корректирующих фильтров:

A=

Матрица 1 представляет собой единичную матрицу равную

Таким образом, как следует из формулы (2), необходимо создать инверсные фильтры, с помощью которых должны быть обработаны входные сигналы на левый и правый громкоговоритель с тем, чтобы на слуховые каналы слушателя поступили сигналы, точно совпадающие с бинауральными сигналами, записанными в первичном поле на ИГ (или естественной голове). Тогда у слушателя восстанавливается пространственная звуковая картина, как и при прослушивании через стереотелефоны. Необходимо отметить, что через два громкоговорителя восстанавливается в основном переднее полупространство в отличие от стереотелефонов.

Следует выбирать громкоговорители с минимально возможными искажениями, в т.ч. с гладкой АЧХ, или необходимо производить их эквализацию, иначе они будут вносить искажения в сигналы, которые могут привести к потере пространственности.

Общая теория трансауральной стереофонии для нескольких громкоговорителей была развита в трудах Bauck J., Cooper D. [3].

Искажения тембра могут возникать за счет погрешностей при расчете инверсных фильтров (устраняющих перекрестные связи), поэтому иногда используются специальные алгоритмы, позволяющие в известных пределах сгладить пики-провалы передаточных функций без потери пространственности, чтобы несколько снизить эти искажения [6].

Рассчитанные параметры инверсных фильтров подходят только для одного фиксированного положения головы. При сдвиге или повороте головы надо пересчитывать параметры фильтров, иначе ощущение пространственности теряется. В настоящее время разработано достаточно много систем, позволяющих отслеживать движение головы (headtracker), при этом используются акустические, оптические, механические и др. датчики, регистрирующие повороты головы [4,6], что дает возможность пересчитать характеристики инверсных фильтров, причем было показано, что порог заметности задержки пересчета от реального движения составляет 85мс [7].

Оригинальная идея была предложена в работе G.Thiele и др. [5] – воссоздать с помощью системы WFS два виртуальных громкоговорителя, положение которых будет меняться при поворотах головы, тогда параметры инверсных фильтров будут постоянными.

В настоящее время трансауральная стереофония находит применение для воспроизведения пространственного звука через два компьютерных громкоговорителя для различных мультимедийных приложений и игр, когда положение головы слушателя относительно стабильно.

Бинауральный синтез

Бинауральным синтезом (VAD) называется процесс моделирования бинауральных сигналов, при котором вместо записанных в слуховом канале звуковых сигналов создаются сигналы с помощью процесса обработки монофонического сигнала от звукового источника двумя фильтрами, которые моделируют передаточные функции (HRTF) для левого и правого уха [6].

Надпись:  
Рис. 3. Структурная схема бинаурального синтеза

Во временной области это может быть представлено как операция свертки сигнала источника p0(t) с импульсными передаточными функциями

hL и  hR (рис.3): pL(r,θ,φ,t)=hL(r,θ,φ,t)*p0(t);   

pR(r,θ,φ,t)=hR(r,θ,φ,t)*p0(t).

Техника бинаурального синтеза начала развиваться с 80-х годов прошлого века и в настоящее время активно расширяется.

Параметры фильтров могут быть вычислены как из измеренных передаточных функций (банки данных для таких функций, измеренные для любого положения источника, с большой разрешающей способностью имеются в сети Интернет на ресурсе [8]), так и из рассчитанных HRTF (HRIR). Расчет производится численными методами с учетом дифракции на голове, торсе и ушных раковинах [4,6].

Для моделирования глубины (расстояния до источника) используются передаточные функции ближнего поля, они могут быть измерены или вычислены из стандартных HRTF [6]. Для учета отражений в помещении в процессе синтеза должны использоваться импульсные бинауральные функции BRIR (рассчитанные или измеренные) с последующей их сверткой с монофоническим сигналом. Поскольку реальный пространственный слух позволяет локализовать не только единичный, но и множественные источники, а также формировать общее пространственное впечатление, в том числе с учетом движения головы и источников, то в настоящее время развивается техника бинаурального синтеза, формирующая все эти свойства, она получила название VAE – virtual acoustical environment display.

Проблемы реализации алгоритмов бинаурального синтеза сталкиваются со значительными трудностями, обусловленными точностью аппроксимации передаточных функций с помощью фильтров, выбором длины импульсной характеристики в помещении (при большой длине требуются слишком большие объемы вычислений, при малой удается учесть только несколько первых отражений и др.). Все проблемы, перечисленные выше для бинауральной и трансауральной стереофонии, остаются и в процессе бинаурального синтеза, а именно – необходимость калибровки стереотелефонов, подавление перекрестных связей между громкоговорителями, учет движения головы, требующий пересчета параметров бинауральных фильтров в реальном времени и т.д.

Техника бинаурального синтеза активно развивается и совершенствуется и уже находит применение в процессах преобразования многоканальных стереосигналов в бинауральные и, наоборот, в аурализации помещений, в научных исследованиях, в различных направлениях и сферах аудиального искусства. В этой связи необходимо отметить, что современная процессорная обработка звука с помощью цифровых и компьютерных технологий, новых видов тембральной обработки звукового сигнала (морфинг, вокодинг и др.) открыли огромные возможности изменения и обогащения звуковой сферы за счет управления различными характеристиками звука. Новые методы управления параметрами звукового поля – за счет создания новых алгоритмов и принципов построения многоканальных систем пространственной передачи звука, таких как матричная стереофония, системы волнового синтеза, адаптивная фильтрация и аурализация, и наконец, бинауральная стереофония и ее производные – бинауральный синтез и трансауральная стереофония, стали новыми сильнейшими средствами художественной звуковыразительности в формировании и передаче пространственного звукозрительного образа.

Таким образом, научное и практическое развитие направления трансауральная стереофония открывает уникальные возможности и решения принципиально новых творческих задач в процессе записи, передачи и воспроизведении звука с погружением реципиента в трехмерные пространственные системы виртуальной реальности с заданными и регулируемыми параметрами звукового поля с учетом взаимодействия аудио-визуального и тактильного восприятия.

Рецензенты:

Денисов А.В., доктор искусствоведения, профессор кафедры теории и истории культуры Российского государственного педагогического университета им. Герцена, г. Санкт-Петербург;

Соломонова Н.А., доктор искусствоведения, профессор кафедры звукорежиссуры Негосударственного образовательного учреждения высшего профессионального образования «Санкт-Петербургский гуманитарный университет профсоюзов», г. Санкт-Петербург.