непрерывная.
Системы УРР, оперирующие с раздельной речью, обрабатывают слова, которые произносятся раздельно. На сегодняшний день это наиболее распространенные системы УРР. В данном случае пользователю необходимо делать паузы между командными словами. В нашем устройстве РР будут использоваться как раз отдельные слова.
Связная речь занимает промежуточное положение между произнесением отдельных слов и непрерывным потоком речи. В этом случае пользователь может произносить группы слов в качестве команд. ИС HM2007 может быть установлена на распознавание слов или фраз длиной до 1,92 с. В этом случае словарь команд сокращается до 20 единиц.
Непрерывный поток разговорной речи мы используем в повседневной жизни. Для УРР распознавание непрерывной речи представляет фантастически трудную задачу, поскольку в таком потоке слова проявляют тенденцию к слиянию. Например, фраза «Здравствуйте, как вы поживаете?» фонетически звучит как «Здраствуте, каквыпоживате». Подобные системы распознавания непрерывного потока речи уже появились на рынке и находятся в процессе постоянного развития.
Схемное решение УРР
Демонстрационная схема выполнена на ИС HM2007, включенной в режим ручной моды. В данной моде для программирования ИС HM2007 используется микрофон и простейшая клавиатура.
В качестве клавиатуры использована стандартная телефонная клавиатура, имеющая 12 нормально разомкнутых кнопок.
При включении питания ИС HM2007 осуществляет тестирование «бортовой» статической ОП. После завершения тестирования зажигаются цифры «00» на бортовом семисегментном индикаторе, зажигается красный светодиод, и устройство ожидает подачи команды.
Нажмите «1» (на индикаторе загорится «01»), и светодиод погаснет. Затем нажмите «Т» (Training – обучение), и светодиод загорится снова.
Держите микрофон поближе ко рту и произнесите ключевое (обучающее) слово. Допустим, в качестве обучающего слова используется слово «компьютер». Произнесите «компьютер» в микрофон. Если устройство воспримет слово, то это вызовет мигание светодиода. Слово компьютер запрограммировано как слово под номером «01». Теперь если УРР «услышит» слово «компьютер», то оно отобразит число «01» на индикаторе.
Если диод не будет мигать после произнесения слова «компьютер», то либо попробуйте повторить это слово громче, либо начните сначала – наберите «01» а затем «Т».
Продолжайте введение образцов новых слов в УРР. Для второго слова нажмите «02» и затем «Т». Напомню, что устройство способно запомнить 40 слов. Понятно, что нет необходимости вводить все 40 слов. Введите необходимое вам количество слов и перейдите к следующему этапу.
Произнесите одно из ранее запомненных слов в микрофон. На цифровом индикаторе должен высветиться соответствующий номер. Допустим, ключевое слово «директория» было введено под номером 25. Соответственно, произнесение слова «директория» должно вызвать зажигание цифры 25 на цифровом индикаторе.
• 55 = слишком длинное слово
• 66 = слишком короткое слово
• 77 = соответствующего слова не найдено
Вы можете удалять отдельные записи ключевых слов путем набора номера слова и кнопки CLR. Для полной очистки памяти необходимо набрать 99 и кнопку CLR.
ИС HM2007 для распознавания речи представляет собой однокристальную ИС КМОП-структуры высокой степени интеграции. В ИС имеется аналоговый вход, анализатор голоса, блок распознавания и блок контроля системных функций. ИС может использоваться самостоятельно или под управлением ЦПУ.
• Однокристальная ИС для распознавания речи КМОП-структуры высокой степени интеграции
• Распознавание речи конкретного источника
• Поддержка внешней ОП
• До 40 распознаваемых ключевых слов
• Максимальная длина слова 1,92 с
• Возможность подключения микрофона
• Возможность работы в ручной моде и под управлением ЦПУ
• Время реагирования менее 300 мс
• Напряжение питания 5 В
Устройство РР можно изготовить на основе готового набора деталей, поставляемого Images Company (см. список деталей в конце этой главы). Принципиальная схема приведена на рис. 7.1. Монтаж деталей удобно осуществлять на печатной плате.
Рис. 7.1. Схема устройства распознавания речи
Припаяйте выводы клавиатуры к печатной плате согласно рис. 7.2. Клавиатура имеет семь проводников, которые соединяются с ИС HM2007 на печатной плате. Каждый вывод клавиатуры соотносится с соответствующим выводом ИС HM2007.
Рис. 7.2. Распайка клавиатуры для УРР
На рис. 7.3. изображено расположение деталей на печатной плате со стороны компонентов. На рис. 7.4 изображено УРР в сборе.
Рис. 7.3. Вид сверху расположения деталей на печатной плате
Рис. 7.4. Устройство РР в сборе
Демонстрационная схема УРР позволяет производить эксперименты по распознаванию речи как в зависимости, так и независимо от говорящего. Обычно система настраивается под конкретного человека в предположении, что он будет ее использовать.
Мы можем использовать другой способ и «обучить» систему реагировать относительно независимо от говорящего. Для достижения этой цели мы будем использовать четыре модели «обучения» для каждого командного ключевого слова.
Для упрощения последующей цифровой обработки сообщений используем следующую логику. Для обозначения ключевого слова мы будем использовать только первую цифру (младший разряд) на цифровом индикаторе.
Таким образом, модели «01», «11», «21» и «31» будут распознаваться как одно и то же ключевое слово. Поскольку учитывается только младший разряд, то во всех случаях распознаваемое слово будет обозначаться как «1». Аналогично, модели «04», «14», «24» и «34» будут соответствовать ключевому слову «4».
Проблемы могут возникнуть при распознавании кодов ошибок.
• 55 = слишком длинное слово
• 66 = слишком короткое слово
• 77 = соответствующего слова не найдено
В использованной логике эти коды будут интерпретироваться как ключевые слова «5», «6» и «7» соответственно. Для решения проблемы существуют два пути. Первый способ использует специальную логическую схему (см. рис. 7.5), которая выдает сигнал высокого уровня при появлении цифр 5, 6 или 7 в старшем разряде, который является сигналом блокировки. Такая схема выдает сигнал высокого уровня на