Смекни!
smekni.com

Обучение с подкреплением (стр. 1 из 7)

Основа этой теории по разным источникам известна как модификация поведения, теория подкрепления, оперантное обусловливание, бихевиоризм, психология поведения и т.д.; это тот раздел психологии, который принес мировую известность Б.Ф.Скиннеру, профессору Гарвардского университета.

Обучение с подкреплением — это вовсе не система наград и наказаний; современные тренеры даже не используют этих терминов. Награды и наказания приходят обычно после того, как действие совершено, часто спустя длительное время, как, например, в уголовном суде. Они могут повлиять, а могут и не повлиять на будущее поведение, но они, безусловно, не могут воздействовать на уже совершенное действие. Подкрепление — будь то “положительное”, то, к чему надо стремиться, например, улыбка или ласка, или “отрицательное” — то, чего надо избегать, подобно рывку поводка или нахмуренным бровям — происходит именно во время поведения, на которое надо воздействовать. Подкрепление изменяет поведение только тогда, когда дается в правильно выбранный момент.

Обучающие машины и программированные учебники, разработанные на основе Скиннеровской теории, были первыми попытками разбить обучение на этапы и поощрять обучающегося за правильные ответы. Эти ранние механизмы были неуклюжими, но именно они были предвестниками компьютерного обучения, которое оказалось не только высокоэффективным, благодаря совершенству выбора времени подкрепления компьютером, но и внесло в процесс обучения веселые нотки в связи с забавным характером подкрепления (фейерверки, танцующие роботы). Программы подкрепления, использующие жетоны и талоны, которые можно накопить и обменять на конфеты, сигареты или какие-то льготы, были установлены в психиатрических лечебницах и некоторых других учреждениях.

Тренировка с подкреплением не разрешает всех проблем — она не увеличит ваш счет в банке, не спасет от неудачной женитьбы, не поможет в случаях тяжелых заболеваний психики. Некоторые ситуации, например, плач ребенка, не имеет отношения к проблеме тренировки и требуют других методов разрешения. Некоторые типы поведения человека и животных имеют генетические компоненты, которые трудно или невозможно изменить тренировкой. Ряд проблем просто не стоит того, чтобы тратить время на тренировку. Но во многих случаях, когда жизнь бросает человеку вызов, ставит задачи и посылает неприятности, правильное использование подкрепления может оказаться полезным.

Что такое положительное подкрепление

Положительное подкрепление — это событие, совпадающее с каким-либо действием и ведущее к увеличению вероятности повторного совершения этого действия.

Запомните это положение. В нем заложен секрет успешного обучения.

Существуют два вида подкрепления: положительное и отрицательное. Положительное подкрепление — это нечто, желаемое субъектом: пища, ласка или похвала. Негативное подкрепление — это то, чего субъект хотел бы избежать: шлепок, нахмуривание бровей, неприятный звук (предупреждающий зуммер в машинах, который раздается, если вы забыли пристегнуть ремень безопасности, — это отрицательное подкрепление).

Поведение, которое уже встречается, вне зависимости от того, насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления.

Поведение, которое уже встречается, вне зависимости от того, насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления. Если вы зовете щенка, и он подходит к вам, а вы его ласкаете, то в дальнейшем подход щенка на зов становится все более и более надежным даже безо всякого другого обучения. Предположим, что вы хотите, чтобы кто-то позвонил вам — ваш отпрыск, родитель или любимый. Если он или она не звонит, то тогда уж ничего не поделаешь. Самое главное в обучении с подкреплением то, что вы не можете подкрепить поведение, которое не встречается. С другой стороны, если вы всегда проявляете радость, когда любимые вам звонят, то это значит, что их поведение положительно подкрепляется, вероятность частоты их звонков, очевидно, увеличится. Конечно, если вы примените отрицательное подкрепление — “Почему ты не позвонил, почему я должна тебе звонить, ты мне никогда не звонишь” и т.д., замечания, которые вызывают раздражение, — вы создаете ситуацию, при которой звонящий избегает неприятностей тем, что не звонит; фактически вы обучаете их не звонить.

Подкрепление относительно, не абсолютно. Дождь является положительным подкреплением для уток, отрицательным для кошек, довольно безразличен, по крайней мере во влажную погоду, для коров. Пища не является положительным подкреплением, если вы сыты. Улыбки и похвалы могут быть непригодными в качестве подкрепления, если субъект хочет вывести вас из. себя. В качестве подкрепления надо выбирать нечто желаемое субъектом.

Положительное подкрепление приносит пользу и при взаимоотношениях между людьми. Оно лежит в основе искусства делать подарки: точно угадать, что будет иметь подкрепляющее действие (правильный выбор является подкреплением и для делающего подарок).

Время подачи подкрепления

Запоздалое подкрепление является наибольшим недочетом начинающего дрессировщика. Собака садится, но к тому времени, когда хозяин говорит: “Хорошая собака”, собака уже снова стоит. За что, думает животное, его хвалят? За то, что оно встает. Если у вас возникают трудности в дрессировке, первый вопрос, который надо себе задать, не запаздывает ли ваше подкрепление.

Мы всегда слишком запаздываем подкрепляя друг друга. “Послушай, дорогая, вчера вечером ты выглядела замечательно”, — звучит совсем не так, как та же фраза, сказанная вовремя. Отсрочка подкрепления может даже оказать вредное воздействие (“А что, разве я сейчас не выгляжу замечательно?”). Мы свято верим, что сила слов перекроет ошибки во времени подкрепления.

Слишком раннее подкрепление тоже неэффективно. Это называется взяточничеством.

Мне кажется, что иногда и детей мы подкрепляем слишком рано, находясь под ложным впечатлением, будто мы их подбадриваем (“Молодец, хорошо, ты уже почти все сделала правильно”). Возможно, при этом мы подкрепляем попытки. Но существует разница между попыткой сделать что-то и выполнением этого. Причитания типа “я не могу” иногда отражают фактическое положение вещей, но они могут являться и признаками того, что часто подкреплялись просто попытки. Вообще, подкрепление поведения, которое еще не совершилось, — подарками, обещаниями, комплиментами или чем-нибудь в этом роде — ни капельки не подкрепляет это поведение. Если что-то и подкрепляется, так это поведение, совершающееся в данное время: вероятнее всего — выпрашивание подкрепления.

Величина подкрепления

Не давайте сразу много…

Основное правило дрессировщика заключается в том, что если вы собираетесь провести в день одно занятие, то можете рассчитывать на хорошую работу животного примерно за четверть его дневного рациона, остальное дается после окончания работы. Если же вам надо провести три или четыре занятия в день, то дневную порцию пищи надо разделить примерно на восемьдесят частей и за один сеанс давать двадцать или тридцать. Восемьдесят подкреплений, видимо, являются максимумом, способным заинтересовать субъекта в течение дня. (Может быть, поэтому слайдовая кассета содержит восемьдесят слайдов; по крайней мере, когда лектор просит демонстратора показать вторую кассету слайдов, я тяжело вздыхаю.)

Большой куш

Одним из наиболее полезных приемов пищевого или какого-либо другого подкрепления для человека и животных является получение куша. Это награда, которая во много, иногда в 10 раз больше обыкновенного подкрепления и являющаяся сюрпризом для субъекта. В рекламном агентстве, где я когда-то работала, бывали официальные вечера на Рождество, а также неофициальные праздники по поводу окончания большой работы или заполучения нового клиента. Но у председателя правления была еще привычка устраивать в год один-два абсолютно неожиданных вечера. Внезапно в середине дня он проносился по всем комнатам конторы, крича, чтоб все кончали работу. Коммутаторы выключались, появлялась процессия поставщиков провизии, музыканты, буфетчики, шампанское, копченая семга, и все это только для нас и безо всякой особенной причины. Это было неожиданным кушем для пятидесяти человек. Я думаю, что это очень способствовало поднятию духа коллектива.

Условное подкрепление

Наша жизнь изобилует условными подкреплениями. Нам нравится слышать, как звонит телефон или видеть набитый почтовый ящик, даже если половина звонков неинтересна и большая часть корреспонденции — утиль, потому что множество случаев научили нас связывать звонок или конверт с хорошим. Нам нравится рождественская музыка, и мы ненавидим запах зубного кабинета. Мы храним, окружающие нас вещи — картины, посуду, трофеи — не потому, что они красивы или полезны, а потому, что они напоминают нам о временах, когда мы были счастливы, или о людях, которых мы любили. Они представляют собой условные подкрепления.

Условные подкрепления приобретают чрезвычайную силу. Так как информация “Ты прав” сама по себе представляет Ценность, она не обязательно должна сопровождаться первичным подкреплением. Фактически использование пищи, ласки или чего-нибудь в этом роде можно практически свести к нулю, а условное подкрепление будет приносить прекрасные результаты. Я видела, как морские млекопитающие долго работали после насыщения за условные подкрепления, а лошади и собаки работают по часу и более с маленьким или безо всякого безусловного подкрепления. Люди конечно же тоже могут бесконечно работать за деньги, являющиеся ничем иным как условным подкреплением, обозначением вещей, которые на них можно купить, особенно люди, которые уже заработали гораздо больше денег, чем они когда-либо смогут действительно потратить, и, следовательно, пристрастившиеся к условному подкреплению.