Обробка зображень розпізнавання образів (стр. 2 из 2)

Розпізнавання мови

Сьогодні інтенсивно розвиваються технології, пов'язані, по-перше, з голосовим керуванням комп'ютером, а по-друге - з введенням текстів з голосу. Робототехніка. Застосування методів розпізнавання в робототехніці є абсолютно природним і необхідним, оскільки роботи повинні безпосередньо сприймати зовнішній світ, і, відповідно, мати пристрої машинного зору.

В останні роки розпізнавання образів знаходить усе більше застосування в повсякденному житті. Розпізнавання мови і рукописного тексту значно спрощує взаємодія людини з комп'ютером, розпізнавання друкованого тексту використовується для перекладу документів в електронну форму. Популярна думка, що розпізнавання, як та інші алгоритми штучного інтелекту, є чорна магія, недоступна простим смертної. Насправді ж алгоритми, що лежать в основі розпізнавання, досить очевидні, потрібно лише зайти ледве здалеку і визначитися з термінами.

Базовим є невизначене поняття безлічі. У комп'ютері безліч представляється набором неповторюваних однотипних елементів. Слово "неповторюваних" означає, що якийсь елемент у безлічі або є, або його там немає. Універсальна безліч включає всі можливі для розв'язуваної задачі елементи, порожнє не містить жодного.

У класичній постановці задачі розпізнавання (дивно називати класичної науку, який від сили кілька десятиліть:) універсальна безліч розбивається на дріботі-образи. Образ якого-небудь об'єкта задається набором його приватних проявів. У випадку з розпізнаванням тексту в універсальну безліч увійдуть усі можливі знаки, в образ "И" - усі можливі накреслення цієї букви, а програма розпізнавання займається тим, що на основі невеликого набору прикладів накреслень кожної букви (навчальної вибірки) визначає, яку з них символізує введена карлючка.

Методика віднесення елемента до якого-небудь образа називається вирішальним правилом. Ще одне важливе поняття - метрика, спосіб визначення відстані між елементами універсальної безлічі. Чим менше ця відстань, тим більше схожими є символи, звуки - те, що ми розпізнаємо. Звичайно елементи задаються у виді набору чисел (а як ще?), а метрика - у виді функції. Від вибору представлення образів і реалізації метрики залежить ефективність програми, один алгоритм розпізнавання з різними метриками буде помилятися з різною частотою (право на помилку для програм розпізнавання так само характерно, як і для людей).

Добре показує принцип роботи розпізнавання образів елементарний алгоритм на основі методу безлічі еталонів. На вході його мається навчальна вибірка - набір прикладів А'іj для кожного образа Ai, метрика d і сам розпізнаваний об'єкт x. За допомогою метрики обчислюємо відстань від x до кожного елемента навчальної вибірки d(x, aij) і знаходимо умовну відстань d(x, Ai) як відстань від x до найближчого елемента з Ai. Елемент x відноситься до образа, що виявиться ближче усіх.

Практично отут потрібно знайти мінімум відстані по кожнім класі і ще раз узяти мінімум. Аматори торкати руками можуть узяти як представлення елемента пари координат, як метрику - відстань по теоремі Пифагора, і накидати програмку, що буде виконувати описану операцію над масивом крапок двомірного простору і відображати це в графіку.

Ще один елементарний алгоритм - метод k-найближчих сусідів. Як випливає з назви, у ньому вводиться додатковий вхідний параметр, ціле число k. Отут усе ще простіше - береться k найближчих до x елементів навчальної вибірки і підраховується, скільки з них належить до якого образа. До якого образа належить більше, до того відноситься і x.

В обох алгоритмах може виникнути невизначена ситуація - коли x буде знаходитися на однаковій відстані від декількох образів. У такому випадку програма повинна або запитати в користувача, до якого образа відносити елемент, або тихо кинути жереб. Це залежить від вимог до точності з одного боку, і зручності використання з іншої, найкраще реалізувати обидва варіанти.

Незважаючи на надзвичайну простоту, описані алгоритми цілком застосовні на практиці. Існує безліч інших методів, більш складних, і теоретичні роботи з даної теми можуть повалити в трепет своєю монументальністю (крім того, велика їхня частина написана на англійському), але і програми на елементарних алгоритмах, толково реалізовані, можуть видавати непогані практичні результати.