Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов (стр. 1 из 17)

РЕФЕРАТ

Метою дослідження є розробка програмного забезпечення для голосового керування тривимірними моделями функціонування промислових роботів.

Основними задачами є аналіз методів цифрової обробки звукових сигналів, аналіз систем розпізнання мовлення, розробка програмного забезпечення для розпізнання команд керування промисловим роботом.

Розглядаються питання обробки звукової інформації, її аналізу та фільтрації. Проаналізовані методи реалізації систем розпізнання мовлення.

Реалізовано програмне забезпечення для запису, відтворення й аналізу звукової інформації. Програмне забезпечення розроблене в середовищі розробки програмного забезпечення Visual C++ 6.0 з використанням мультимедійної бібліотеки mmsystem, а також графічної бібліотеки OpenGL.

СПЕКТРАЛЬНИЙ АНАЛІЗ, ДИСКРЕТНЕ ПЕРЕТВОРЕННЯ ФУР'Є, MMSYSTEM, ГРАФІЧНА БІБЛІОТЕКА, OPENGL, СЕРЕДОВИЩЕ ПРОГРАМУВАННЯ, VISUAL C++.

РЕФЕРАТ

Целью исследования является разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов.

Основными задачами является анализ методов цифровой обработки звуковых сигналов, анализ систем распознавания речи, разработка программного обеспечения для распознавания команд управления промышленным роботом.

Рассматриваются вопросы обработки звуковой информации, её анализа и фильтрации. Проанализированы методы реализации систем распознавания речи.

Реализовано программное обеспечение для записи, воспроизведения и анализа звуковой информации. Программное обеспечение разработано в среде разработки программного обеспечения Visual С++ 6.0 с использованием мультимедийной библиотеки mmsystem, а также графической библиотеки OpenGL.

СПЕКТРАЛЬНЫЙ АНАЛИЗ, ДИСКРЕТНОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ, MMSYSTEM, ГРАФИЧЕСКАЯ БИБЛИОТЕКА, OPENGL, СРЕДА ПРОГРАММИРОВАНИЯ, VISUAL С++.

THE ABSTRACT

Software development for the voice control by the three-dimensional models of industrial robots functioning is a purpose of research.

Basic tasks are the analysis of the digital sounds signal processing methods, analysis of the speech recognition systems, software development for recognition of control commands by an industrial robot.

The questions of sound information processing, of its analysis and filtration are examined. The methods of implementation of the speech recognition systems are analyzed.

Software for a record, reproducing and analysis of sound information is implemented. Software is developed in the environment of Visual C++ 6.0 with the using of mmsystem multimedia library, and also OPENGL graphic library.

SPECTRAL ANALYSIS, DISCRETE TRANSFORMATION OF FURJE, MMSYSTEM, GRAPHIC LIBRARY, OPENGL, PROGRAMMING ENVIRONMENT, VISUAL C++.

Перечень условных сокращений, обозначений, терминов

ПР - промышленный робот

ЭВМ - электронно вычислительная машина

ДПФ - дискретное преобразование Фурье

БПФ - быстрое преобразование Фур'е

ЛП - линейное предсказание

PCM - Pulse-Code Modulation

Содержание

Введение

1. Цифровая обработка сигналов и её использование в системах распознавания речи

1.1Дискретные сигналы и методы их преобразования

1.2Основы цифровой фильтрации

1.3Особенности акустической фонетики и её* учёт при обработке речевых сигналов

1.4Обработка речевого сигнала во временной области

2. Реализация систем распознавания речи

2.1Гомоморфная обработка речи

2.2Кодирование речи на основе линейного предсказания

2.3Цифровая обработка речи в системах речевого общения человека с машиной

3. Разработка программного обеспечения для распознавания команд управления промышленным роботом

3.1 Реализация интерфейса записи и воспроизведения звукового сигнала в операционной системе Microsoft Windows

3.2 Реализация программного обеспечения для записи, воспроизведения и анализа звукового сигнала

3.3 Реализация функции распознавания голосовых команд голосового управления промышленным роботом

3.4 Реализация голосового управления трёхмерными моделями промышленного робота

Выводы

Перечень ссылок

Приложение А. Элементы текстов программы

Введение

Распознавание человеческой речи является одной из сложных научно-технических задач. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Проблема речевого управления возникла, кроме того, в связи с тем, что в некоторых областях применения речь стала единственно возможным средством общения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности, при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.). Хотя в этой области и достигнуты существенные успехи, тем не менее, системы распознавания еще весьма далеки по своим возможностям от человеческих.

Проблема реализации речевого диалога человека и технических средств - актуальная задача современной кибернетики.

Задача машинного распознавания речи привлекает внимание специалистов уже очень давно. Тем не менее, продвинуться далеко в этом направлении пока не удалось. Чисто формально процесс распознавания речи можно описать буквально в нескольких фразах. Аналоговый сигнал, генерируемый микрофоном, оцифровывается, и далее в речи выделяются так называемые фонемы, то есть элементарные фрагменты, из которых состоят все произносимые слова. Затем определяется, какое слово, какому сочетанию фонем соответствует, и строится соответствующий словарь. Распознать слово - значит найти его в этом словаре по произнесенному сочетанию фонем. По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.

В настоящее время всё более актуальным становится управление роботом при помощи голосовых команд. Однако создание программного обеспечения для голосового управления промышленным роботом предусматривает проведение экспериментов во время разработки программы на всех этапах разработки. Проведение таких экспериментов, обеспечивающих устранение недостатков, ошибок программы, является экономически невыгодным в условиях промышленного производства и приводит к повышению стоимости разработки и отладки программного обеспечения. Для уменьшения затрат на создание программного обеспечения целесообразно разработать программу, которая обеспечит трёхмерное моделирование голосового управления промышленным роботом, что приводит к необходимости проведения экспериментов в условиях производства лишь на последнем этапе разработки программного обеспечения.

Темой данного исследования является голосовое управление трёхмерными моделями функционирования промышленных роботов. Его задачами является анализ методов цифровой обработки звуковых сигналов, анализ систем распознавания речи, разработка программного обеспечения для распознавания команд управления промышленным роботом.

1. Цифровая обработка сигналов и её использование в системах распознавания речи

1.1 Дискретные сигналы и методы их преобразования

Акустическое колебание, формируемое в речевом тракте человека, является непрерывно изменяющимся процессом. С математической точки зрения его можно описать функцией непрерывного времени 1. Аналоговые (непрерывные во времени) сигналы будут обозначаться через х_а(1). Речевой сигнал можно представить и последовательностью чисел. Последовательности обозначаются через х(п). Если последовательность чисел представляет собой последовательность мгновенных значений, аналогового сигнала, взятых периодически с интервалом Т, то эта операция дискретизации обозначается через х_а(пТ). На рис. 1.1 показан пример речевого сигнала в аналоговой форме и в виде последовательности отсчетов, взятых с частотой дискретизации 8 кГц.

32 мс	Г____ ^
.„...„.„ ... .!-«•-■- .............. и-¹"............... ".\|\|\|\|\|11\|\|\|\|И..\|\|\|
...., 256 отсчё!	\|\|\|\| ■гов	\	\|\|\| г	1	----- ►

Рис. 1.1 – Представление речевого сигнала

Для удобства даже при рассмотрении дискретных сигналов иногда на графике будет изображается непрерывная функция, которая может рассматриваться как огибающая последовательности отсчетов. При изучении систем цифровой обработки речи требуется несколько специальных последовательностей. Единичный отсчет или последовательность, состоящая из одного единичного импульса, определяется как

(1.1)

Последовательность единичного скачка имеет вид

(1.2)

Экспоненциальная последовательность

(1.3)

Если а - комплексное число, т. е.

, то

(1.4)

Если z=1 и

, х(n) - комплексная синусоида; если

. х(n) -действительное; если z<1 и

, то х(n) - экспоненциально-затухающая осциллирующая последовательность. Последовательности этого типа часто используются при представлении линейных систем и моделировании речевых сигналов.

Обработка сигналов включает преобразование их в форму, удобную для дальнейшего использования. Таким образом, предметом интерес представляют дискретные системы или, что то же самое, преобразования входной последовательности в выходную. Подобные преобразования далее изображаются на структурных схемах. Многие системы анализа речевых сигналов разработаны для оценивания переменных во времени параметров по последовательности мгновенных значений речевого колебания. Подобные системы имеют многомерный выход, т. е. одномерная последовательность на входе, представляющая собой речевой сигнал, преобразуется в векторную последовательность на выходе.