Смекни!
smekni.com

Проблеми штучного інтелекту (стр. 6 из 10)

Перший подібний до дії простих рефлексів. Тобто з усього каналу інформації витягається частина, що відразу надсилається на відповідні її модальності аферентні структури або спочатку поєднується з іншою інформацією. Машини, що працюють за такою схемою досить швидко реагують на зовнішні подразники і у відповідь певним чином змінюють свою програму дій.

Альтернатива цьому підходу – підхід модельний. Тобто стимули, що надійшли ззовні спочатку конструюють модель зовнішнього світу. При цьому робота починається функції. Що відображає стан світу W на окремі стимули S. Ця функція S = f (W) добре відома і вирішується в області комп’ютерної графіки. Робота ж комп’ютерного бачення прямо протилежна до завдання комп’ютерної графіки, тобто ми повинні обрахувати W через S. Але в цьому і полягає проблема, бо з картини світу ми не в змозі відновити всі аспекти його існування. Інша проблема цього методу полягає у надмірності задач, поставлених перед програмою. Щоб вирахувати функцію f у комп’ютерній графіці для 1 кадру може знадобитися біля кількох годин, а для вирахування оборотної функції – ще більше. До того ж, на відміну від промальовування комп”ютерної графіки, штучному інтелекту для виконання його завдань рідко коли потрібна настільки детальна картина світу.

Формування зображення

Світло, що розсіюється предметами на «сцені» концентрується у процесі зору і утворює двовимірне зображення. Площина, на якій утворюється зображення, покрита фото чутливими елементами, наприклад фоторецепторами, галогенами срібла або елементи з зарядовим зв’язком (Charge-Coupled Device —

CCD). На початкових етапах розпізнання візуальних об’єктів комп’ютер проходить через ряд елементарних функцій, для того, щоб потім перейти до більш складного аналогу зображення. Це відповідає сенсорним процесам і процесам елементарної обробки візуальної інформації у зоровому аналізаторі людини.

Сенсорні процеси

Світло

Програма розпізнавання об’єктів починає з обробки яскравості пікселів отриманого на площині зображення. Яскравість залежить від кількості фотонів, направлених на фото чутливий елемент з деякої точки сцени, де інтенсивність переводиться в відносні одиниці, розмах яких тим більший, чим більше бажане розширення і точність результату. Кількість світла (фотонів) залежить від багатьох факторів, таких як вид відбиваючої поверхні і інші елементи сцени, що також можуть розсіювати світло. Існує кілька видів поверхонь, більшість реальних матеріалів поєднують у собі розсіювальні і поглинаючі характеристики. Саме моделювання таких об’єктів є головною задачею комп’ютерної графіки, метод полягає в імітуванні фізичного джерела світла і подальшого багаторазового відбивання променю.

Колір

Колір у фізичному сенсі програмується комбінацією хвиль деяких частот. Чистими, одно частотними, кольорами є тільки сім, що входять у веселку. Але це не означає, що для створення кольорового зображення необхідно оперувати всіма сімома, експерименти, розпочаті ще Томасом Юнгом доводять, що для створення будь-якого кольору, принаймні такого, що може сприйматися людиною, достатньо оперувати трьома довжинами хвиль: червоний – 700 нм, зелений – 546 нм, синій – 436 нм. Правильність такого підходу підтверджує людська зорова система, що складається з трьох видів колбочок.

Перший етап обробки зображення

Перший етап обробки зображення полягає у підготовці зображення до розпізнавання, тут прибирається шум (згладжування) на зображення і розпізнаються його контурів, сегментація. Ці операції проводяться локально, тобто для окремої групи пікселів, не зважаючи на все зображення, для їх виконання немає потреби у розумінні який саме об’єкт зображено. Саме тому такі початкові операції можуть проводитися паралельно. Операція згладжування проводиться на основі обрахування значення яскравості пікселя на основі значень яскравості його елементів. Як значення яскравості береться середнє значення яскравості сусідніх пік селів, а для визначення кількості таких пік селів, що слід взяти для обрахунку існує спеціальна формула гауса. Наступною операцією є віднаходження країв, тобто ліній розділювачами для областей зі значною різницею в яскравості. Контури зазвичай відповідають важливим об’єктам на сцені. Така операція необхідна для зняття перенасиченості і перевантаження деталями картини, перетворення її у більш абстраговану, узагальнену. Контури відносяться тільки до такої, окремо взятої експозиції і тому не можуть дати визначення об’єктам, що на ній знаходяться. Але вони допомагають в цьому у ході подальшої обробки зображення. Краї, що утворюються не є точними. Деякі окремі частини, що на сцені утворюють одну лінію, не з’єднуються у цілісність на отриманому зображення. Деякі з країв утворені шумом і не несуть смислового навантаження. Це пояснює необхідність проведення попереднього прибирання шуму, бо шумові пік селі створюють додаткові пікові точки, що призводить до виникнення шумових контурів. На малюнку зображено зниження інтенсивності шумових пікових точок х2 і х3 і константність істинної пікової точки х1.

а) Попіксельна діаграма зображення до згладжування


б) Попіксельна діаграма після згладжування

Після такої обробки слід об’єднати окремі пік селі країв у власне краї. Для цього користуються допущенням, що будь-які пік селі, що знаходяться поруч і мають однакову орієнтацію складають одну лінію краю.

Так як машинне сприйняття побудоване на реалізації загальних принципів сприйняття людини, то наступною операцією стає та, що призводить до утворення конгруентного образу, адже мозок людини не сприймає навколишній світ як набір точок, а виділяє з нього деякі цілісні об’єкти. Як і мозок людини (мова іде про першоразове сприйняття деякого предмету чи явища, а не послідуюче його сприйняття, де багато залежить від попереднього досвіду і його узагальнення), машина розбиває цілісно сприйняту картину світу на групи. Розбиття проходить на основі врахування особливостей характеристик пікселів, адже можна допустити, що у межах одного об’єкта вони змінюються мало. Але таке розбиття, що базується на елементарних і низькорівневих знаннях про зображення часто може призвести до помилок і хибних результатів. Для уточнення слід використовувати високо рівневі знання про те, які саме предмети можуть зустрітися вданій схемі.

Другий етап обробки інформації, витягання трьохвимірного зображення.

Мета сприйняття і обробки візуальної інформації – взаємодія з оточуючим світом. Сцена навколишнього середовища є тривимірною, а тому для успішної взаємодії з нею машині необхідні знання не про двовимірне зображення, а про тривимірну модель. Для переводу зображення у модель необхідно завершити процес розпізнавання об’єктів, який було розпочато на елементарному рівні. Після цього, витягаючи інформацію як з даної картини, так і з деяких узагальнених відомостей про об’єкт машини, подібно до людини, може побудувати цілісний, конгруентний образ предмету.

Для початку слід завершити процедуру сегментації, розпочату ще на елементарному рівні. Також в розпізнавання образу входить визначення орієнтації і позиції образу відносно суб’єкта сприймання, визначення його форми. Це, власне і є витягненням тривимірної інформації з зображення. Орієнтація і позиція об’єкта є однією з найважливіших елементів інформації, так як дозволяє орієнтуватися у просторі. При зміні положення предмету відносно камери, незмінною лишається лише форма предмету, тобто форма грає роль у зберіганні, деякою мірою, константності упізнавання предмету при зміні його положення у тривимірному просторі. Але найбільш вагомою функцією форми є розпізнавання об’єкту з можливістю його подальшої класифікації.

Тепер постає питання, як же дістати інформацію про третій вимір з початкового зображення. Для цього у людській зоровій системі передбачено багато можливостей, які можна класифікувати за загальним принципом дії: бінокулярні і монокулярні.

Ось приклад такої класифікації за Величковським:

Ознаки глибини Бінокулярність/ монокулярність Абсолютність/ відносність Якісність/ кількісність
Бінокулярний паралакс Б. В. К.
Вергентні рухи очей (до 3 м) Б. А. К.
Акомодація хришталика (до 2 м) М. А. К.
Монокулярний параллакс (руховий) М. А./В. К.
Перекриття поверхонь, текстур М. В. Я.
Градієнти величин, густини М. А./В. К.
Знання розмірів, віддаленності М. А. К.
Висота положення у полі зору М. В. К.
Розмирість контурів, колір М. В. К.
Розподіл світла і тіні М. В. Я./К.
Розділення на фігуру і фон М. В. Я.

Тепер можна розглянути за допомогою яких ознак машина будує третій вимір. Кожна з них має деякі недоліки, а в сумі всі разом дають досить точну картину сцени.

Рух

Відеокамери дозволяють отримувати до кількох десятків кадрів за секунду і різниця між кадрами може стати вагомим джерелом інформації про третій вимір сцени, така послідовна у часі зміна у зображенні одного об’єкту називається оптичним потоком. З нього витягуються дані, за якими будується модель, такими даними можуть стати напрям вектору руху, швидкість зміни зображення, прискорення зміни зображення, тощо.

Бінокулярні стерео дані.

Якщо машина створена за подобою людини, то має отримати від свого творця і дуже важливу деталь – бінокулярний зір. Бінокулярна побудова тривимірного зображення побудована на принципі, що ми розглянули вище. Тільки діставання кількох зображень досягається не за рахунок руху, а за рахунок сприймання одночасно двох різних зображень. Різниця між ними полягає у зсуну тості одне відносно одного, а отже після співставлення двох зображень буде ідентифікована неузгодженість. Третій вимір відновлюється на основі аналізу дивергенції осей зору і неузгодженості зображень, вираховуючи відстань до об’єкта за геометричними правилами.