Оцифровка звука
Сегодня аналоговая запись и обработка звука окончательно сдала позиции цифровым технологиям. Сейчас аналоговыми устройствами являются только микрофоны, звукосниматели электромузыкальных инструментов и предварительные усилители, иногда микшеры. В них звук представляется непрерывным, меняющимся во времени электрическим сигналом. Далее звуковой сигнал оцифровывается, и вся последующая работа ведется уже с цифровыми данными.
Оцифровка сигнала заключается в том, что аналоговый сигнал разбивается на отдельные, очень короткие участки (дискретизация или выборка), и уровень сигнала на каждом участке измеряется и записывается в виде целого числа (квантование). Каждый «столбик» (рис. 1.5) изображает одно измерение.
![](/pic/5/6/3/0/8//i_005.png)
Рис. 1.5. Принцип оцифровки аналогового сигнала
Частота дискретизации показывает, сколько раз за секунду измеряется моментальное значение сигнала. Например, если сигнал оцифровывается при частоте дискретизации 44 кГц, то измерения производятся 44 000 раз в секунду. Очевидно, что чем чаще делаются замеры (чем выше частота дискретизации), тем более точным окажется представление сигнала в цифровой форме. Больше всего частота дискретизации влияет на передачу высокочастотных составляющих звука. В любом случае, она должна по меньшей мере в два раза превышать частоту самых высокочастотных составляющих оцифровываемого сигнала. Для оцифровки речи, например в телефонии, еще приемлема частота дискретизации около 8 или 12 кГц, для обычной «домашней» оцифровки музыки уже нужна частота дискретизации не менее 22,5 кГц, а «студийное качество» оцифровки начинается с 48 кГц. Наиболее качественной оцифровке соответствуют частоты дискретизации 88, 96 и даже 192 кГц, хотя оцифровывать сигнал с такой частотой способны лишь дорогие «профессиональные» звуковые карты.
Каждое полученное значение моментального уровня должно быть записано в виде целого двоичного числа фиксированной длины или разрядности. Разрядность двоичного числа выражается в битах и показывает, сколькими двоичными знаками (нулями и единицами) записано это число. Например, 16 бит – это последовательность из 16 двоичных знаков.
Аналоговый сигнал является непрерывным, любое моментальное значение может оказаться и дробным, поэтому оно округляется до ближайшего целого. Точность измерения или грубость округления зависит от того, какая задана разрядность (bit depth, буквально – глубина битов). Если оцифровка производится с разрядностью 8 бит, то доступно всего 28 = 256 различных значений уровня, а при разрядности 16 бит число может принимать уже одно из 28 = 65 536 значений. Чем выше разрядность, тем ближе оказываются округленные значения к реальным, физическим значениям. В конечной частоте дискретизации и округлении полученных значений уровня сигнала кроется причина неизбежной потери информации и возникновения искажений при оцифровке.
Оба взаимосвязанных действия – дискретизацию и квантование – выполняет микропроцессор звуковой карты, точнее, его часть, являющаяся аналого-цифровым преобразователем (АЦП). Возможности звуковой карты выражаются максимальными значениями частоты дискретизации и разрядности и зависят от ее класса. Встроенные в материнскую плату или распространенные недорогие звуковые карты способны оцифровывать сигнал с частотой дискретизации до 48 кГц и разрядностью 8 или 16 бит. Дорогие полупрофессиональные или профессиональные карты поддерживают частоту дискретизации до 192 кГц и разрядность 24, 32, вплоть до 64 бит.
Перед записью или оцифровкой сигнала звуковая карта настраивается через свой драйвер, а пользовательский интерфейс для настройки предоставляет операционная система (так задаются настройки по умолчанию) или та программа, с помощью которой управляют записью. В частности, при создании нового файла Sound Forge каждый раз запрашивает частоту дискретизации и разрядность. Следует учитывать, что при оцифровке звукового сигнала нельзя «перепрыгнуть» действительные аппаратные возможности звуковой карты пользовательского компьютера.
Таким образом, аналоговый сигнал превращается в последовательность чисел, которая является почти готовым файлом. Файл формата WAVE (несжатый звуковой поток), помимо такой последовательности, содержит также сведения о том, с какой частотой и разрядностью оцифровывался сигнал, и некоторую другую служебную информацию. Легко рассчитать, какой объем информации занимают данные о звуке. Если, например, в секунду производилось 44 000 замеров уровня сигнала, а каждый замер занимает 16 бит, то для хранения одной секунды фонограммы нужно 44000 ? 16 = 704 000 бит, то есть примерно 690 Кбит, или 86 Кбайт.
Примечание
1 байт = 8 бит, 1 Кбит = 1024 бит, а 1 Кбайт = 1024 байт. Эти соотношения позволят сориентироваться в приводимых числах: объем данных принято измерять в байтах, а скорость передачи данных выражают и в битах в секунду, и в байтах в секунду.
Вся обработка и преобразования оцифрованного звука сводятся к математическим действиям над этими потоковыми данными. Иногда формулы преобразования бывают очень сложны, но программы, подобные рассматриваемой в этой книге, позволяют задавать параметры обработки простым и наглядным образом.
Сжатие звука
Формат WAVE достаточно точно сохраняет данные исходного аналогового сигнала, но является очень расточительным в отношении объема, занимаемого информацией. Тем не менее этот формат предпочтителен для первоначальной записи звуковых данных, которые впоследствии нужно будет обрабатывать. На практике обычно прибегают к сжатию звукового потока, которое почти всегда сопряжено с потерей части информации, а иногда и с появлением дополнительных искажений.
Не вдаваясь в подробности алгоритмов сжатия, скажем, что в основе их лежит обман слуха, связанный с особенностями субъективного восприятия звука человеком. Психоакустическая модель позволяет упростить оригинальный сигнал так, чтобы объем данных уменьшился существенно, а качество звучания оставалось на приемлемом для большинства слушателей уровне. В частности, применяется удаление из сигнала наименее заметных частотных составляющих, искусственное сужение динамического диапазона и другие хитрые приемы.
Среди алгоритмов сжатия широко известны MPEG-1 Layer I, II, III (последний также называют MP3), MPEG-2 AAC (Advanced Audio Coding), Ogg Vorbis, Windows Media Audio (WMA). Сжатие оцифрованного звука по этим методам позволяет уменьшить объем данных в десять и более раз. Применительно к сжатому звуку, помимо частоты дискретизации и разрядности, используют третье понятие – битрейт – объем данных, соответствующий одной секунде звучания и измеряющийся в килобитах в секунду (Кбит/с, kilobits per second). При прочих равных параметрах, чем ниже битрейт, тем больше степень сжатия и, соответственно, ниже качество.
На практике нужно стараться по возможности обрабатывать звуковые данные в несжатом виде, а сжимать их уже на завершающем этапе. Каждая последующая перекодировка неизбежно только ухудшает качество: сжатие – процесс односторонний и необратимый. Точно так же ресэмплинг (от англ. resampling – изменение частоты дискретизации оцифрованных аудиоданных) не способен восстановить в сигнале изначально отсутствующие в нем данные!
Синтез звука и формат MIDI
До настоящего момента речь шла об оцифровке и обработке реального звука, получаемого и записываемого с различных источников. Существует и совершенно иная задача – создание (синтез) звука на компьютере. Синтезатор – это набор управляемых генераторов, способный выдавать звуки с заданными характеристиками по командам исполнителя-музыканта.
Известно всего два метода синтеза звука: FM (Frequency modulation – частотная модуляция) и WT (Wave Table – таблично-волновой). В основе FM-синтеза лежит идея, что любое колебание является суммой простейших синусоид. Таким образом, можно наложить друг на друга сигналы от конечного числа генераторов синусоид и путем манипуляций с их частотами и амплитудами извлечь звуки, похожие на настоящие, полученные физическими методами.
Таблично-волновой WT-синтез основан на преобразовании заранее записанных (оцифрованных) образцов звуков реальных музыкальных инструментов. Эти образцы (сэмплы) хранятся в постоянной памяти синтезатора и составляют таблицу (sample table), из которой выбираются нужные звуки.