Разговор с машиной: мифы и реалии речевого управления (стр. 3 из 3)

В этом месте необходимо сделать небольшое, но важное, “лирическое отступление”, касающееся облика интерфейса экспертных систем, сопрягаемых с командно-речевыми системами. Нужно помнить, что человек “устроен” так, что выступать со своими альтернативными советами и соображениями машина должна крайне осторожно. Работать с “машиной–занудой”, особенно когда у тебя плохое настроение, “запахло жареным” и нет времени на раздумье, или когда имеется собственное и, конечно же, единственно правильное мнение не склонен ни один хомо сапиенс. Вспомните, как поступала пушкинская царица со своим чудо зеркальцем в проблемных случаях. Вспомнили? Правильно! В первый сунула под лавку, а во второй – разбила об пол…

Отдельного рассмотрения заслуживает упомянутый вариант диалогового подтверждения команды. Машина и человек, зная о том, что они обоюдно на 100 % не застрахованы от ошибок (см. приведенные выше возможные типы ошибок), должны иметь “супернадежную” совместную процедуру сертификации принятия решения на выполнение речевой команды.

В основу такой процедуры может быть положен принцип разделения команд по длительности. Например, человек в ответ на распознанную и оглашенную машиной команду может ответить короткое “Да” или произнести длинное “Отставить” (или, возможно, что-то другое длинное и грубое) в случае своего несогласия. Подобный предельно простой принцип распознавания с использованием только 2-х возможных хорошо различимых команд представляется наиболее надежным в отличие от использования любых других известных принципов, предполагающих применение “навороченных” математических методов типа формантного анализа или нейрокомпьютерных технологий.

После получения подтверждения или отказа от выполнения команды возможны следующие основные варианты реакции машины:

На команду человека - “Да”:

выполнить распознанную и “озвученную” команду;

выполнить распознанную и “озвученную” команду и информировать оператора голосом о ее выполнении.

На команду человека - “Отставить”:

не выполнять распознанную и “озвученную” команду;

не выполнять и “озвученную” команду и сообщить об этом оператору.

Кстати, реализуя данную процедуру, совсем не лишним будет заранее “договориться” с машиной о том, как она будет интерпретировать молчание хозяина:

молчит - выполнить команду;

молчит - не выполнять команду;

молчит - у хозяина отказали мозги или пропал голос, запрошу еще раз, а там видно будет…

Особый интерес представляет случай, когда распознанная команда идентифицируется как известная недоступная. В данном случае наступает “пикантная” ситуация, связанная с ошибкой оператора, по каким-то причинам забывшего режимы и логику работы управляемой им технической системы.

Возможны следующие основные варианты реакции машины:

промолчать и ничего не делать;

сообщить оператору о невозможности выполнения команды;

сообщить оператору о невозможности выполнения команды и проинформировать его о причинах этого;

сообщить оператору о невозможности выполнения команды, причинах этого и предложить список доступных команд или наиболее рациональную, по мнению машины, команду.

Рассмотрим еще один безусловно важный с эргономической и психологической точек зрения вопрос, связанный с процессом инициации работы системы речевого управления. Должна ли она работать постоянно, пока осуществляется управление технической системой или включаться вручную на время ввода команды?

На первый взгляд более удобен первый вариант, не требующий никаких дополнительных тактильных действий со стороны оператора, т.к. ничего не нужно нажимать или переключать. Однако не все так просто и для человека и для машины.

Люди в процессе управления имеют обыкновение разговаривать не только с машиной, но и со своими коллегами. Некоторые вообще разговаривают сами с собой (есть и такие!) или поют песню “Вечерний звон” как в фильме “Небесный тихоход”… Постоянное осознание того, что в это время машина как преданный пес пытается уловить известную ей команду и может неверно интерпретировать не обращенные к ней речи хозяина, нервирует человека-оператора и мешает ему нормально работать. Не легче и машине, которая захлебывается в потоке незнакомых слов и звуков. Как уже отмечалось ранее, сегодня существуют серьезные трудности с обеспечением приемлемой вероятности распознавания слитной речи. Поэтому, по мнению автора настоящей статьи, более рациональным является второй вариант – использование единой кнопки ввода, которую, например, следует нажимать перед началом ввода любой речевой команды и отпускать после ее окончания. Это, кстати, дополнительно дисциплинирует оператора, заставляя предварительно подумать над тем, что он на самом деле хочет сказать машине.

Ежели Вы все же склонны остановиться на первом варианте как более “продвинутом”, осмелюсь рекомендовать использование некоторой предварительной уникальной хорошо распознаваемой в различных условиях команды – обращения к машине. И после того как Ваш верный железный Мухтар “пролает” в ответ на обращение к нему о том, что он Вас услышал и ждет команду, можете смело произносить исполнительную команду: “Фас!”. Последующее выделение исполнительной команды из слитной речи может быть эффективно осуществлено по временному признаку: сделайте небольшую паузу до и после исполнительной команды (Твикс при этом можно не кушать!).

Как показывает анализ известных автору коммерческих программ распознавания речи, первый вариант оказывается неплохим для студийных условий с использованием предварительных команд конкретного диктора компьютеру типа: “Wake up!” и “Go to sleep!”, но в реальной жизни не работоспособен.

Заключение

Предложенный в статье подход к созданию систем речевого управления в части психолого-эргономических аспектов проектирования интерфейса “человек – машина” для работы на ограниченном наборе речевых команд был достаточно успешно апробирован автором при создании компьютерных прототипов систем речевого управления общего назначения с использованием собственного оригинального программного обеспечения процедуры распознавания, которая в данной статье не рассматривалась.

Статья является оригинальной разработкой: при ее написании не использовались материалы никаких отечественных и зарубежных организаций или частных лиц.

Изложение материала сознательно облечено в научно-популярную форму, чтобы не перегружать статью “заумными” формулами и ссылками на “приличествующие” случаю обзорные монографии, не “выплеснуть ребенка”, а также не детализировать до уровня возможности практического использования имеющиеся авторские know-how. Вместе с тем, как мне кажется, объем приведенных в статье соображений вполне достаточен для того, чтобы составить общее представление и впечатление об актуальности, новизне и практической значимости предлагаемых решений, равно как и о заблуждениях и ошибках автора.

Буду весьма признателен, получив Ваши отзывы, критические замечания, советы, пожелания и, возможно, предложения о дальнейшей совместной работе. Пожалуйста, если можно, критикуйте и советуйте не по форме изложения материала, а по существу обсуждаемой проблемы!

Весьма интересны для автора мнения психологов, специалистов в области эргономики и конечных пользователей, на практике управляющих сложными техническими системами (моряков, летчиков, операторов систем УВД и АЭС, “телекоммуникационьщиков”), а также специалистов в области компьютерного распознавания речи, робототехники и всех остальных кто “в теме”:

Нужны ли подобные системы для автомобилей, кораблей, самолетов, в быту и т.п.? Как Вы представляете их использование?

Приходилось ли Вам сталкиваться с элементами изложенного подхода, и как Вы его оцениваете (достоинства, слабые места)?

Целесообразен ли форум или телеконференция по этой проблематике?

Какие вопросы в рамках рассматриваемой проблематики Вас волнуют?

Что следует почитать автору для ликвидации текущей безграмотности?