Смекни!
smekni.com

Основы психологии поведения животных (стр. 5 из 7)

Поощрение или наказание. Одна из проблем научения — не только добиться нового, желательного поведения, но и избавиться от проявлений нежелательного. Главная цель наказания — устранить имеющее место поведение, а не заменить его новым. Часто, например, при воспитании детей или их обучении, возникает вопрос, что лучше: наказать за проступок или дождаться желательного поведения и поощрить ребенка. Наибольших результатов удается достичь, когда наказание сопровождает старое поведение, а награда — новое. Хотя это всего лишь общее правило, которое не может использоваться во всех случаях жизни, оно подчеркивает важный принцип: следует обращать внимание не только на само поведение — нежелательное, устраняемое при помощи наказания, и желательное, поощряемое наградой, — но и на наличие альтернативы данному типу поведения.

Частичное подкрепление. Инструментальное научение с использованием поощрения — например, приучение крысы в ящике Скиннера нажимать на рычаг ради получения пищи или похвала ребенку, когда он говорит "спасибо" и "пожалуйста", — предполагает несколько видов зависимости между поведением и поощрением. Самый обычный вид зависимости — постоянное подкрепление, при котором награда выдается за каждую правильную реакцию. Другой вариант — частичное подкрепление, предлагающее поощрение только при некоторых правильных реакциях, скажем в каждом третьем случае желаемого поведения, или в каждом десятом, или при его первом проявлении каждый час или каждый день. Воздействие частичного подкрепления важно и представляет большой интерес. При частичном подкреплении для освоения желаемого поведения требуется больше времени, но результаты оказываются гораздо более стойкими. Сохранение эффекта особенно заметно, когда поощрение прекращается; такая процедура называется "угасанием". Поведение, освоенное при частичном подкреплении, сохраняется надолго, а освоенное при постоянном подкреплении быстро прекращается.

Суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение неподкрепленное или наказуемое имеет тенденцию не повторяться или подавляться. Следовательно, концепция подкрепления играет ключевую роль в теории Скиннера.

Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления.

Режим подкрепления - правило, устанавливающее вероятность, с которой подкрепление будет происходить.

Самым простым правилом является предъявление подкрепления каждый раз, когда субъект дает желаемую реакцию. Это называется режимом непрерывного подкрепления и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию. В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. Ребенок плачет неоднократно, прежде чем добьется внимания матери. Неподкрепленные реакции встречаются до тех пор, пока одна из них не будет подкреплена.

Скиннер тщательно изучал, как режим прерывистого, или частичного, подкрепления влияет на оперантное поведение. Хотя возможны многие различные режимы подкрепления, их все можно классифицировать в соответствии с двумя основными параметрами:

1) подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыдущего подкрепления (так называемый режим временного подкрепления);

2) подкрепление может иметь место только после того, как с момента подкрепления было получено определенное или случайное количество реакций (режим пропорционального подкрепления).

Режимы подкрепления – любой из режимов, в котором субъекту предъявляется подкрепление, определяемых некоторыми пространственными, временными или последовательными аспектами реакции. В приводящемся ниже описании подразумевается, что речь идет в оперантном поведении, хотя некоторые из этих режимов использовались в классическом обусловливании (например, непрерывное подкрепление), употребление термина режим подкрепления в таком контексте редко. Притягательность режимов подкрепления для многих психологов, особенно скиннеровских бихевиористов, объясняется тем фактом, что подкрепление поведения в повседневной жизни обычно нерегулярно и неоднообразно. Поэтому были приложены значительные усилия для исследования того эффекта, который оказывает режимы представления подкрепления на создание и поддержание поведения. Следующий список включает наиболее полно изученные режимы подкрепления. Используемая здесь система классификации более или менее стандартна, хотя в специальной литературе можно встретить и другие: сначала представлены "простые" режимы, где имеется единственный тип сопряженности между реакцией и подкреплением; затем описываются "составные" режимы, где действуют два или более простых режима; в заключение приводятся "специальные" режимы, которые не подходят ни к одному из предыдущих классов.

I. Простые режимы. Все нижеперечисленные режимы, в которых имеется только одна связь между реакцией и появлением подкрепляющего стимула.

1.Непрерывное подкрепление (crf, или CRF). Довольно просто: подкрепляется каждая реакция.

2. Угасание (ехt, или EХТ). Ни одна реакция не подкрепляется.

3. Фиксированный коэффициент (FR). Класс режимов, при котором отношение между реакциями и подкреплениями фиксировано, то есть подкрепление следует за установленным числом реакции совершенна с момента предшествующего подкрепления. Таким образом, FR 10 означает, что подкрепляется каждая 10-я реакция. Обратите внимание, что, согласно этому способу употребления, CRF фактически представляет собой режим с фиксированным коэффициентом, а именно с FR =1.

4. Переменный коэффициент (VR). Класс режимов, при которых отношение между реакциями и подкреплениями варьируется некоторым случайным или полуслучайным образом, но с определенным средним значением. Таким образом, VR 10 означает, что в среднем подкрепляется каждая 10-я реакция.

5. Случайный коэффициент (RR). Вариация режима VR, при которой коэффициент определяет степень вероятности с которой будет подкрепляться любая данная реакция. При RR 10, например, вероятность того, что любая данная реакция будет подкреплена - 0.10, независимо от числа реакций, сделанных со времени предыдущего подкрепления.

6. Фиксированный интервал (FI). Режимы смежности по времени, при которых подкрепляется последняя реакции, сделанная через определенный интервал времени после предшествующего подкрепления. Обычно в протоколах используется следующая система обозначений: FI 3, что означает: фиксированный интервал = 3 минуты.

7. Переменный интервал (VI). Режимы смежности во времени, при которых последовательность поступления подкрепления "устанавливается" случайным или полуслучайным образом с определенным средним значением. Таким образом, VI 3 означает, что в среднем интервал между потенциальными подкреплениями составляет 3 минуты. Обратите внимание, что режимы VI имеют тенденцию вызывать реакции с очень регулярной скоростью, в то время как режимы FI имеют тенденцию вызывать внезапные реакции, сопровождаемые периодами слабых реакций или их отсутствия.

8. Фиксированное время (FT). Класс режимов подкрепления, при которых, как и при режимах FI, подкрепление поступает через фиксированные временные интервалы, но в отличие от режимов FI независимо от того, совершает субъект какие-либо реакции или нет.

9. Переменное время (VT). Подобно режимам FT, но варьируется время между подкреплениями.

10. Дифференциальное подкрепление низкой скорости (drl, или DRL). Класс режимов, основанных на определенной скорости реакции, которая не должна превышаться, чтобы возникло подкрепление. Таким образом, при DRL 10 (секунд) должно пройти 10 минут между реакциями, иначе никакого подкрепления не последует: реакция, совершенная слишком быстро, "возвращает часы в исходное положение" и нужно, чтобы прошли другие 10 секунд без реакции. Дифференциальное подкрепление высокой скорости (drh или DRH). В отличие от DRL, здесь скорость должна превысить некоторое заданное значение, чтобы возникло подкрепление. DRH 1 (секунда) означает что время между реакциями должно быть меньше 1 секунды.

11. Дифференциальное подкрепление заданного темпа реакций (drp, или DRP).

12. Дифференциальное подкрепление другого поведения (dro, или DRO).

II. Составные режимы. Ниже приводятся режимы, в которых два или более простых режима объединены в составную форму. Они могут быть либо «последовательными», в этом случае один компонент режима должен быть выполнен до начала действия другого (других), либо они могут быть "одновременными", в этом случае два или более режима действуют фактически одновременно.

1. Тандем (tand). Последовательный режим, при котором подкрепление зависит от последовательного завершения двух или более простых ре-шов. Таким образом, в тандеме FI 2 FR 5 компонент FI 2 должен быть выползи до того, как начнется отсчет времени реакции для FR 5. Полная последовательность выполняется без различительных стимулов для субъекта в отношении того, какой компонент действует в любой момент времени.

2. Цепной (chain). Последовательный режим, подобный тандему, за исключением того, го различительный стимул связан с каждым компонентом.