распознавания речи называется «Горыныч». По сути, модуль «Горыныч» – это русификация системы Dragon с добавлением русских словарей и русских команд. Данная система позволяет вводить в компьютер тексты с помощью голоса на русском и английском языках; управлять с помощью голоса периферийным офисным оборудованием; отдавать компьютеру голосовые команды, перемещать курсор, открывать меню и выполнять множество других операций; голосом управлять различными функциями текстовых редакторов и прикладных программ; использовать программы «голосовая мышь» и «голосовой калькулятор». Скорость голосового набора текстов может достигать 500–700 печатных знаков в минуту, что сравнимо со скоростью двух-трех одновременно работающих машинисток.

Цель идентификации по образцу речи – убедиться, что говорящий является именно тем, за кого себя выдает, либо идентифицировать незнакомого человека. Идентификация по образцу речи тесно связана с биометрическими технологиями, предназначенными для идентификации людей по их уникальным физическим признакам, таким как отпечатки пальцев или рисунок радужной оболочки глаза. Эти технологии используются в криминалистике и в системах безопасности.

Технология синтеза речи обеспечивает преобразование любого хранимого в компьютерном формате текста в синтетическую речь, звучащую приблизительно как человеческая. Речевой вывод используется на компьютерах уже в течение некоторого времени. Однако «репертуар» первых систем был сильно ограничен. Сегодня имеется широкий выбор синтезаторов речи, большинство из которых укомплектовано собственным текстовым процессором. В основном синтезаторы говорят на американском английском, но некоторые на других языках, в том числе и русском. Иногда можно выбирать и голос: нормальный мужской, нормальный женский, басовитый мужской, хриплый женский и т. д.

И при распознавании, и при синтезе речи основная опора при анализе идет на акустическую картину звука. В связи с этим современному учителю русского языка необходимы представления об акустической структуре звука и о возможностях работы со звуковыми базами данных.

Современные компьютерные программы, позволяющие производить акустический анализ звучащей речи, многочисленны. Каждая из них имеет свои особенности и предназначена для определенного типа задач. Рассмотрим одну из самых простых.

Программа Goldwave – это звуковой редактор, который позволяет проигрывать, записывать и преобразовывать звуки. С помощью этой программы можно создавать звуковые файлы для web-сайтов, автоответчиков, системные звуки Windows. Программа позволяет вырезать часть звукового файла, измерять спектральные и временные характеристики звука, менять параметры частоты и амплитуды, накладывать на запись звуковые эффекты и т. д., при этом вы можете работать одновременно с несколькими звуковыми файлами. Goldwave написана под Windows, и владение другими приложениями Windows существенно облегчит использование программы. Goldwave поддерживает целый ряд надежных звуковых форматов (.wav, voc, mp3, au, aif, iff, snd, smp, vox и др.). Программа снабжена удобной справкой (правда, на английском языке). Интерфейс также англоязычный. На сайте разработчика Goldwave www.goldwave.com можно найти демонстрационную версию программы.

Пример использования программы Goldwave для анализа звукового фрагмента

Как уже говорилось выше, интерфейс программы англоязычный. Ниже дан перевод команд основного меню в той последовательности, как они представлены в программе (количество и состав команд могут отличаться в разных версиях программы. Первая строка: File (файл), Edit (правка), Effects (эффекты), View (вид), Tools (инструменты), Options (сервис), Window (оюго), Help (справка). Если вы хотите получить информацию о возможностях программы или о ее использовании, нажмите Help (меню справки частично русифицировано).

Рис. 11. Основное меню программы Goldwave

• Вторая строка: New (новый), Open (открыть), Save (сохранить), Undo (отменить), Copy (копировать), Past

(вставить), P.New (вставить новое), Mix (совместить), Repl (заменить), Del (удалить), Trim (обрезать), Sel Vw (выделить), Sel All (выделить все), Set (установить), All (показать общий вид), Sel (показать выделенное), Prev (предыдущий масштаб), In (увеличить), Out (уменьшить), 1:1 (в масштабе 1:1), Cues (ключевые точки), Eval (параметры сигнала), CDX (компакт-диск), Chain (цепь эффектов), Help (справка). Последняя клавиша дублирует клавишу Help первой строки.

• Третья строка содержит ряд символов, обозначающих эффекты: допплер, динамики, эхо, сжатие/растяжение, преобразовать, интерполяция, инвертировать, модуляция, офсет, частота, реверберация, реверс, эквалайзер, фильтры, частотные фильтры, параметрический эквалайзер, уменьшение шума, поп/клик, удаление тишины, сглаживание, громкость, постепенное увеличение громкости, постепенное уменьшение громкости, совместить, максимальная громкость, форма, баланс, скорость воспроизведения (без пересчета частот), скорость воспроизведения (с пересчетом частот), микшер каналов, максимальное соответствие, понижение громкости голоса, время звучания.

• Четвертая строка объединяет клавиши управления звуком (кнопки магнитофона): играть зеленую, играть желтую, стоп, назад, вперед, пауза, запись, остановить запись, установки.

Все команды снабжены выходом в справку непосредственно из команды.

Для примера был выбран коротенький фрагмент из звуковой хрестоматии «Городские социолекты: Пермская городская речь» (Ерофеева Т.И. и др. 2000) – слово «мясо» в произнесении информанта № 23 (мужчина, место рождения – Пермская область, образование среднее, 52 года) из фразы Беру мясо, нарезаю его кусочками.

В окне представлена осциллограмма данного слова. Для того чтобы получить в окне осциллограмму звукового файла, щелкните левой клавишей мыши по кнопке Open (открыть) и выберите нужный вам звуковой файл (в данном случае файл mjaso. wav).

Информация нижней строки меню касается параметров звукового файла: моно или стерео звук, длину звукового фрагмента в мс, положение курсоров на временной оси (поскольку в данном случае выделен весь файл, то положение курсоров соответствует началу и концу файла).

Рис. 12. Осциллограмма русского гласного [а]

Осциллограмма показывает периоды колебаний. В данном случае как в верхнем (большом) окне, так и в нижнем (маленьком) окне показана осциллограмма всего звукового фрагмента целиком. Если вы хотите рассмотреть форму колебаний более подробно, вы можете увеличить масштаб, нажимая клавишу In (увеличить) во второй строке меню до тех пор, пока масштаб не будет вас удовлетворять. При этом в нижнем окне появляется рамка, показывающая положение фрагмента верхнего окна на осциллограмме всего фрагмента звучания. Перемещать рамку можно с помощью нижнего механизма прокрутки.

Например, на рисунке внизу вы можете видеть увеличенные периоды колебания ударного гласного [a].

Для прослушивания звукового фрагмента полностью выделите его, для чего щелкните мышью по клавише Sel All (выделить все). Осциллограмма должна оказаться на синем фоне (обыкновенно при открытии файла он уже весь выделен). После этого нажмите зеленую клавишу Play (играть). Вы должны услышать слово «мясо» целиком.

Рис. 13. Окно с выделенным участком со слогом мя

Перемещая мышью курсор по осциллограмме (курсоры изначально находятся у левого и правого краев окна), вы можете прослушать разные фрагменты слова и определить, какие участки осциллограммы соответствуют каким звукам в слове. Помните, что воспроизводится тот участок звука, который находится на синем фоне. Например, выше (см. рис. 11) помещено изображение окна, в котором курсор находится между слогами мя и со, при этом выделен участок со слогом мя, и именно он и будет воспроизводиться при проигрывании. Если вы выделите другую часть осциллограммы, то воспроизводиться будет слог со.

Если вы хотите вырезать из файла сегмент меньшего размера (например, соответствующий ударному гласному [a]), установите левый курсор на начало того сегмента, который вы хотите вырезать, а правый –

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату