Инструментальное (оперантное) научение

С этой формой условнорефлекторного научения можно познакомиться на другом хорошо известном примере. Выработка рефлекса происходит без сочетания стимулов и без применения условного стимула. Принцип эксперимента состоит в том, что животное получает или награду (пищу), или наказание (боль) в зависимости от того, нажало оно или не нажало на рычаг. В нескольких первых пробах нажатие на рычаг осуществляется в результате спонтанной беспорядочной активности животного. При первом таком случайном нажатии животное получает пищу. Это подкрепление будет приводить к повторению удачной реакции: животное будет снова нажимать на рычаг в надежде получить пищу. Частота двигательных реакций зависит от самого животного: когда оно захочет получить корм, оно будет нажимать на рычаг. Наклон кривой, отражает частоту осуществления выработанной реакции.
Важное значение подкрепления. Инструментальный (или оперантный, по терминологии Скнннера) условный рефлекс всегда представляет собой активную двигательную реакцию, для которой подкрепление служит самым важным фактором. На эту реакцию можно влиять, изменяя частоту подкрепления.
Оперантное научение очевидным образом отличается от описанного выше опыта с выработкой классического условного рефлекса. Этот тип научения впервые в 1913 г. описал Торндайк (Thorndike); он объяснил свои результаты явлением, которое он назвал законом эффекта. Согласно этому закону, двигательная реакция усиливается положительным результатом (например, получением пищи), к которому приводит случайная активность животного. Эта теория согласуется с представлением Дарвина, что только такое поведение прочно закрепляется, которое существенно для выживания индивидуума и вида. Следует подчеркнуть, что в отличие от павловского условного рефлекса двигательная реакция в этом случае не вызывается внешним стимулом или сигналом, а вырабатывается на основе подкрепления, которое следует за определенным движением. Сложные стимулы, связанные с обстановкой, служат фоном и приобретают значение только в случае дифференцировки, когда, скажем, нажатие на рычаг подкрепляется при наличии одного стимула (например, шума машины) и не подкрепляется при другом стимуле (например, свистке).
Снова совмещение во времени. Что касается мозгового механизма инструментального научения, то и здесь, как и при павловском условном рефлексе, следует предполагать образование временной связи между двумя функциональными системами. При ориентировочной двигательной активности импульсы обратной афферентации активируют нейроны пропрноцептивного представительства в головном мозгу. За этим следует возбуждение, вызванное пищевым подкреплением. В результате в обеих центральных областях происходит специфическое повышение возбудимости. По мнению большинства исследователей, предпосылки для выработки условных реакций того и другого типа одни и те же: требуется более или менее одновременное возбуждение двух разных областей мозга.
Развитие оперантных условных рефлексов скорее всего связано с удовлетворением какой-нибудь физиологической потребности (например, голода) в процессе подкрепления. Согласно Халлу (Hull), для того чтобы поведение прочно закрепилось, в его основе должно лежать стремление удовлетворить какую-то насущную потребность. Двигательная реакция, достигающая этой цели, тем самым ослабляет побуждение. К этому вопросу мы вернемся позже.
Программированное обучение: игральные автоматы. На основе работы Скиннера оперантное научение используется во многих областях человеческой деятельности. Созданные в последнее время теории программированного обучения тоже содержат элементы этих рефлексов, поскольку обратная связь у обучающегося используется для подкрепления. Программы с подкреплением используются также при конструировании различных игральных автоматов: время от времени играющий получает награду (подкрепление), чтобы он не потерял интерес к игре, но нажатие на рычаг (или вкладывание монеты) должно быть достаточно частым, чтобы владелец автомата получал прибыль.







Материалы

Яндекс.Метрика