Звуковое давление можно измерить. Образно говоря, нужно поставить на пути звуковой волны мембрану, связанную с очень чувствительными пружинными весами или динамометром (рис. 1.1).
Рис. 1.1. Звуковые волны и звуковое давление
Показания этого прибора будут циклически меняться много раз в секунду. Если вы сможете уследить за колебаниями стрелки, то по величине максимальных ее отклонений в ту и другую сторону, зная чувствительность весов и площадь мембраны, удастся рассчитать абсолютное звуковое давление, например в килограммах на квадратный метр.
На практике чаще говорят об относительном звуковом давлении или уровне звука. Было измерено звуковое давление или мощность самого тихого звука, который еще способен расслышать среднестатистический человек. Это значение приняли за ноль и назвали порогом слышимости. О любом другом звуке можно сказать, что его мощность или звуковое давление во столько-то раз выше порога слышимости. Максимальное звуковое давление, при котором звук вызывает уже болевые ощущения (болевой порог), примерно в 100 000 000 раз превышает порог слышимости. Для удобства отношение силы звука к порогу слышимости измеряют не в разах, а в логарифмических единицах – децибелах (дБ, dB). 1дБ = 20lg(p
/p
), где p
– звуковое давление измеряемого звука, а p
– звуковое давление, соответствующее порогу слышимости. Болевой порог в таком случае составляет примерно 140 дБ. С небольшими оговорками уровень звука можно называть и просто громкостью.
Слух человека устроен так, что субъективно мы оцениваем громкость именно в логарифмическом масштабе: увеличение мощности сигнала в десять раз ощущается как увеличение громкости всего в два раза. Минимальное различие уровня двух сигналов, которое способен заметить человек, составляет 1 дБ.
Отсюда вытекает понятие динамического диапазона, то есть разницы между самыми тихими и самыми громкими звуками. Человеческий слух обладает динамическим диапазоном около 120 дБ. Точно так же можно говорить о динамическом диапазоне какого-либо музыкального фрагмента. Если самые тихие звуки в нем имеют громкость 10 дБ, а самые громкие – 60 дБ, то динамический диапазон составит 60 – 10 = 50 дБ.
Если в воображаемом приборе, с помощью которого мы измеряли звуковое давление, вместо стрелки использовать острую иглу, а под этой иглой с постоянной скоростью протаскивать ленту, покрытую каким-нибудь мягким составом типа воска, то игла будет выцарапывать на нем извилистую бороздку – график изменения давления, или своеобразное графическое изображение звуковых колебаний, их временную развертку (рис. 1.2). Более того, если затем вновь провести иглой по бороздке, то мембрана начнет колебаться в соответствии с ее изгибами, и вы услышите звук. Именно так был устроен первый в истории звукозаписывающий аппарат – фонограф Эдисона. Только в нем звуковая дорожка процарапывалась на вращающемся валике, покрытом воском.
Рис. 1.2. Запись звуковых волн
Звуковые волны можно преобразовать в электрические колебания. Чувствительный элемент – мембрана микрофона – движется в соответствии с колебаниями воздуха и передает это движение на преобразователь – катушку, пластину конденсатора или пъезоэлемент. В любом случае на выходе микрофона возникают колебания электрического тока или напряжения, изменяющиеся во времени аналогично давлению на поверхности мембраны. В дальнейшем эти электрические колебания можно усиливать и записывать на какой-нибудь носитель, движущийся относительно записывающего элемента, например на магнитную ленту. Опять же, колебания намагниченности магнитной ленты почти точно повторяют форму звуковых колебаний – это аналоговая запись.
В процессе воспроизведения носитель движется относительно воспроизводящей головки, записанный на нем сигнал наводит в головке электрические колебания, которые затем усиливаются электроникой и заставляют колебаться диффузор динамика.
В качестве примера был приведен «чистый тон», то есть звук, представляющий собой колебания одной, строго определенной частоты. Развертка такого звука имеет форму правильной синусоиды (рис. 1.3), кривой, описываемой формулой y = sin(x).
Рис. 1.3. Синусоида – график звуковых колебаний
На практике подобные звуки встречаются редко – это, например, звук, издаваемый камертоном или вырабатываемый простейшим генератором, его еще называют гармоническим колебанием. Чистый тон характеризуется всего двумя параметрами – частотой и амплитудой. Субъективно частота воспринимается как высота тона, а амплитуда – как его громкость.
Реальные звуки, вроде звучания музыкальных инструментов, голоса или шума, образуются сочетанием множества колебаний разных частот. Графическая развертка таких колебаний выглядит как кривая сложной формы (рис. 1.4).
Рис. 1.4. Разложение колебания на гармонические составляющие
Именно так – графиком моментального значения сигнала – показывается звуковая дорожка в окне рабочей области программы Sound Forge (см. гл. 2, раздел «Окна рабочей области»). О средней за какой-то период времени амплитуде или уровне реального звука говорить уместно, но понятие частоты или тона здесь неприменимо.
Математическое описание сложения колебаний с разными частотами лежит далеко за пределами школьной программы, но практический вывод знать просто необходимо: любой, даже самый сложный, колебательный процесс можно представить как результат сложения нескольких гармонических колебаний или синусоид! Так называемое преобразование Фурье позволяет выделить из реального звука отдельные синусоидальные составляющие, то есть полностью разложить этот звук на множество отдельных синусоидальных колебаний, каждое со своей частотой и амплитудой. Если частоты составляющих кратны друг другу, то такие составляющие обычно называют гармониками.
Разложив звук на гармонические составляющие, можно (теоретически) измерить амплитуду каждой из них, а затем перечислить в порядке частот эти составляющие, указав амплитуду каждой из них. На практике поступают несколько иначе: разбивают весь диапазон слышимых частот на несколько участков (от… и до…) и указывают средние уровни всех составляющих, попадающих в каждый диапазон. Для музыканта совершенно естественно брать в качестве диапазонов октавы, а «техникам» свойственно указывать границы диапазонов частотами (в герцах). Уровень звука в пределах диапазона принято выражать в тех же децибелах. Такое описание звука называется спектром. Обычно спектр изображают в виде столбчатой диаграммы. Наглядное представление о спектре дают полосковые индикаторы звукозаписывающей аппаратуры. Субъективно спектр воспринимается как тембр или окраска звука: чем больше доля высших гармоник, тем более звонким, «металлическим» является звучание. В зависимости от наличия и соотношения разных гармонических составляющих звук может казаться «прозрачным» или, наоборот, хриплым.
Усиление или ослабление звукового сигнала в целом или изменение уровня отдельных его гармонических составляющих называют линейным преобразованием звука. В результате может меняться соотношение уровней отдельных гармоник, но новые гармоники при этом не возникают. В противоположность этому говорят о нелинейных преобразованиях, при которых в измененном звуковом сигнале появляются такие частоты или гармоники, которые в исходном звуке отсутствовали. Нелинейные преобразования специально используются для создания определенных эффектов, в противном случае их считают искажениями. Нелинейными искажениями сопровождается как оцифровка звука, так и восстановление сигнала из цифрового вида в аналоговый.
Оцифровка звука
Сегодня аналоговая запись и обработка звука окончательно сдала позиции цифровым технологиям. Сейчас аналоговыми устройствами являются только микрофоны, звукосниматели электромузыкальных инструментов и предварительные усилители, иногда микшеры. В них звук представляется непрерывным, меняющимся во времени электрическим сигналом. Далее звуковой сигнал оцифровывается, и вся последующая работа ведется уже с цифровыми данными.
Оцифровка сигнала заключается в том, что аналоговый сигнал разбивается на отдельные, очень короткие участки (дискретизация или выборка), и уровень сигнала на каждом участке измеряется и записывается в виде целого числа (квантование). Каждый «столбик» (рис. 1.5) изображает одно измерение.
Рис. 1.5. Принцип оцифровки аналогового сигнала
Частота дискретизации показывает, сколько раз за секунду измеряется моментальное значение сигнала. Например, если сигнал оцифровывается при частоте дискретизации 44 кГц, то измерения производятся 44 000 раз в секунду. Очевидно, что чем чаще делаются замеры (чем выше частота дискретизации), тем более точным окажется представление сигнала в цифровой форме. Больше всего частота дискретизации влияет на передачу высокочастотных составляющих звука. В любом случае, она должна по меньшей мере в два раза превышать частоту самых высокочастотных составляющих оцифровываемого сигнала. Для оцифровки речи, например в телефонии, еще приемлема частота дискретизации около 8 или 12 кГц, для обычной «домашней» оцифровки музыки уже нужна частота дискретизации не менее 22,5 кГц, а «студийное качество» оцифровки начинается с 48 кГц. Наиболее качественной оцифровке соответствуют частоты дискретизации 88, 96 и даже 192 кГц, хотя оцифровывать сигнал с такой частотой способны лишь дорогие «профессиональные» звуковые карты.
Каждое полученное значение моментального уровня должно быть записано в виде целого двоичного числа фиксированной длины или разрядности. Разрядность двоичного числа выражается в битах и показывает, сколькими двоичными знаками (нулями и единицами) записано это число. Например, 16 бит – это последовательность из 16 двоичных знаков.
Аналоговый сигнал является непрерывным, любое моментальное значение может оказаться и дробным, поэтому оно округляется до ближайшего целого. Точность измерения или грубость округления зависит от того, какая задана разрядность (bit depth, буквально – глубина битов). Если оцифровка производится с разрядностью 8 бит, то доступно всего 28 = 256 различных значений уровня, а при разрядности 16 бит число может принимать уже одно из 28 = 65 536 значений. Чем выше разрядность, тем ближе оказываются округленные значения к реальным, физическим значениям. В конечной частоте дискретизации и округлении полученных значений уровня сигнала кроется причина неизбежной потери информации и возникновения искажений при оцифровке.
Оба взаимосвязанных действия – дискретизацию и квантование – выполняет микропроцессор звуковой карты, точнее, его часть, являющаяся аналого-цифровым преобразователем (АЦП). Возможности звуковой карты выражаются максимальными значениями частоты дискретизации и разрядности и зависят от ее класса. Встроенные в материнскую плату или распространенные недорогие звуковые карты способны оцифровывать сигнал с частотой дискретизации до 48 кГц и разрядностью 8 или 16 бит. Дорогие полупрофессиональные или профессиональные карты поддерживают частоту дискретизации до 192 кГц и разрядность 24, 32, вплоть до 64 бит.
Перед записью или оцифровкой сигнала звуковая карта настраивается через свой драйвер, а пользовательский интерфейс для настройки предоставляет операционная система (так задаются настройки по умолчанию) или та программа, с помощью которой управляют записью. В частности, при создании нового файла Sound Forge каждый раз запрашивает частоту дискретизации и разрядность. Следует учитывать, что при оцифровке звукового сигнала нельзя «перепрыгнуть» действительные аппаратные возможности звуковой карты пользовательского компьютера.
Таким образом, аналоговый сигнал превращается в последовательность чисел, которая является почти готовым файлом. Файл формата WAVE (несжатый звуковой поток), помимо такой последовательности, содержит также сведения о том, с какой частотой и разрядностью оцифровывался сигнал, и некоторую другую служебную информацию. Легко рассчитать, какой объем информации занимают данные о звуке. Если, например, в секунду производилось 44 000 замеров уровня сигнала, а каждый замер занимает 16 бит, то для хранения одной секунды фонограммы нужно 44000 ? 16 = 704 000 бит, то есть примерно 690 Кбит, или 86 Кбайт.
Примечание
1 байт = 8 бит, 1 Кбит = 1024 бит, а 1 Кбайт = 1024 байт. Эти соотношения позволят сориентироваться в приводимых числах: объем данных принято измерять в байтах, а скорость передачи данных выражают и в битах в секунду, и в байтах в секунду.
Вся обработка и преобразования оцифрованного звука сводятся к математическим действиям над этими потоковыми данными. Иногда формулы преобразования бывают очень сложны, но программы, подобные рассматриваемой в этой книге, позволяют задавать параметры обработки простым и наглядным образом.
Сжатие звука
Формат WAVE достаточно точно сохраняет данные исходного аналогового сигнала, но является очень расточительным в отношении объема, занимаемого информацией. Тем не менее этот формат предпочтителен для первоначальной записи звуковых данных, которые впоследствии нужно будет обрабатывать. На практике обычно прибегают к сжатию звукового потока, которое почти всегда сопряжено с потерей части информации, а иногда и с появлением дополнительных искажений.