Staten Island, NY 10314

(718) 698-8305

(718) 982-6145 (fax)

• (1) Макетная плата – Radio Shack PN# 276-175

• (1) конденсатор 0,1 мкФ – Radio Shack PN# 272-1069

• (8) Светодиод красный – Radio Shack PN# 276-208

• (8) Резистор 470 Ом – Radio Shack PN# 270-1115

• (1) Резистор 4,7 кОм – Radio Shack PN# 271-1124

• (8) Резистор 10 кОм – Radio Shack PN# 271-1126

• (1) Регулятор напряж. 7805 – Radio Shack PN# 276-1770

• (2) Выключатель 4 позиц. – Radio Shack PN# 275-1301

• Зажим батареи 9 В – Radio Shack PN# 270-325

Детали можно заказать в:

Radio Shack

James Electronics

JDR MicroDevices

Глава 7

Передвижной робот с голосовым управлением

Речь является идеальным способом управления и коммуникации в робототехнике. Схема устройства распознавания речи (УРР), которой будет посвящена эта глава, функционирует независимо от основного «интеллекта» роботы (ЦПУ). Этот факт является позитивным, поскольку ресурс ЦПУ робота не используется для решения задачи распознавания речи. Задача ЦПУ сводится к тому, чтобы время от времени опрашивать шины выхода устройства распознавания для обнаружения возможных поступивших речевых команд. Данный процесс может быть оптимизирован путем подключения одной из выходных шин устройства распознавания к шине прерываний ЦПУ. При этом распознаваемое слово вызовет прерывание, оповещая ЦПУ, что команда была произнесена. Преимущество использования прерывания в том, что при этом отпадает необходимость постоянного опроса состояния устройства распознавания, что, таким образом, экономит ресурс ЦПУ.

Другим преимуществом отдельного законченного блока устройства распознавания речи (УРР) является его программируемость. Вы можете запрограммировать и «научить» УРР распознаванию тех конкретных слов, которые вы предполагаете использовать в качестве команд. Легко создать интерфейс, сопрягающий УРР с ЦПУ робота.

Большинство сегодняшних систем распознавания речи, появляющихся на рынке, представляют собой специальное матобеспечение, требующее наличия рабочего компьютера (как правило, системы РС или совместимого) и звуковой карты. Система УРР в своей основе представляет собой программу, хотя для своей работы требует некоторого «железа» (звуковая карта). Такие программы функционируют обычно под платформой DOS или Windows, занимая при этом определенную часть памяти и ресурса ЦПУ, допуская в то же время одновременную работу других программ, таких как Word или Lotus. Одновременная работа программы УРР замедляет работу других программ, использующих данные программы УРР.

Распознавание речи используется не только в робототехнике, но находит множество применений вне ее. Распознавание речи найдет применение как способ управления роботами в виртуальной реальности (ВР), приборах, играх, инструментах и компьютерах. Данная технология обладает в долгосрочной перспективе очень хорошим потенциалом, поэтому компании развивают методы распознавания речи. Возможность управлять и отдавать команды компьютеру (или прибору) непосредственно голосом сделает процесс управления таким устройством гораздо более простым, эффективным и удобным. Такой тип управления голосом в своей основе позволит пользователю осуществлять параллельно и другие операции (т. е. при голосовой работе с компьютером или прибором глаза и руки остаются «свободными» для другой работы).

В этой главе мы рассмотрим три проекта построения устройств распознавания речи. Первый проект представляет собой собственно схему УРР. Второй проект посвящен интерфейсу, связывающему УРР с мобильным шасси, взятым от радиоуправляемой модели автомобиля. Наконец, в третьем проекте рассматривается плата универсального интерфейса для набора УРР.

Проект 1: Программируемая схема распознавания речи

Первым проектом является создание программируемой схемы распозна-, -т вания речи. Термин «программируемый» используется в том смысле, что вы T'7V можете запрограммировать устройство для распознавания 40 отдельных слов по вашему выбору. «Сердцем» устройства является единственная ИС типа HM2007 – ИС распознавания речи. ИС обеспечивает распознавание слов длиной 0,96 с или 1,92 с.

При длине слова 0,96 с и статической оперативной памяти (RAM) размером 8Кх8 возможно распознавание до 40 отдельных слов. Возможно включение опции распознавания более длинных слов длиной 1,92 с. Хотя при этом количество распознаваемых слов сокращается до 20, появляется возможность распознавания не только отдельных слов, но и коротких фраз. В нашем проекте мы будем использовать интервал распознавания 0,96 с, что образует библиотеку из 40 распознаваемых слов.

Обучение процессу восприятия речи

Мы принимаем собственные способности к распознаванию речи как нечто само собой разумеющееся. Однако процесс выделения речи одного человека в толпе собравшихся на вечеринке лежит далеко за пределами возможностей современных систем УРР. Такие системы, точно так же как и мы, сталкиваются с нелегкими задачами разделения сигналов и фильтрации посторонних шумов.

Для надежной работы устройства УРР расстояние от говорящего до микрофона УРР не должно превышать 30 см. При использовании УРР на подвижном шасси робота, мы включили две небольшие радиостанции типа Walkie-Talkie. Выход одной из радиостанций соединен с микрофонным входом УРР. Другая радиостанция используется для собственно подачи голосовых команд роботу. Такая конфигурация снимает проблему удаленности от УРР и снижает посторонние шумы.

Задача распознавания речи не совпадает с задачей «понимания» речи. Если компьютер способен реагировать на звуковую команду, то это не означает, что он ее «понимает». Будущие системы распознавания речи, возможно, приобретут возможности распознавания смысловых и интонационных оттенков значения слов, т. е. будут реагировать по типу «Делай то, что я подразумеваю, а не то, что я произношу». Тем не менее подобные системы – вопрос отдаленного будущего.

Распознавание речи в зависимости и независимо от говорящего

В процессе распознавания речи можно выделить две задачи: распознавание речи для конкретного говорящего и независимо от него. Система распознавания речи «обучается» речью конкретного человека, который будет в дальнейшем ее использовать. Подобные системы способны запоминать значительное количество команд и распознавать их с вероятностью более 95 %. Недостатком такого подхода является то, что система достаточно точно распознает команды только того человека, который производил ее «обучение». Такой подход является наиболее распространенным для систем, основанных на использовании программного обеспечения персональных компьютеров.

Система, не зависящая от говорящего, «обучается» для понимания команд независимо от того, кто их произносит. По этой причине система должна иметь возможность адекватно реагировать на широкий спектр моделей речи, включая интонационное своеобразие и особенности произношения ключевых слов. В этом случае набор командных слов, как правило, значительно меньше, однако достижение необходимой точности реагирования и в этом случае возможно. Для промышленных целей чаще требуются именно системы распознавания, независимые по отношению к говорящему.

Наше УРР относится к системам, настроенным на речь конкретного человека. Мы можем сделать нашу систему отчасти «независимой» путем резервирования для каждого ключевого слова нескольких речевых моделей, каждая из которых программируется отдельно и занимает соответствующее место. Каждая из этих речевых моделей будет вызывать выполнение одной и той же команды.

Виды распознавания речи

Системы УРР имеют еще одно специфическое ограничение, которое относится к виду или стилю распознаваемой речи. Предполагается существование трех видов речи: раздельная, связная и

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату