comportamento de escolha e reforçamento condicionado

Fantino, E. (2008). Choice, Conditioned Reinforcement, and the

Prius Effect. The Behavior Analyst, 31, 95 – 111.

Apresentadoras: Giovana Escobal e Marina MacedoOrientador: Prof. Dr. Celso Goyos

Apoio: FAPESP e CNPq.http://www.lahmiei.ufscar.br/

• 1960: Reforçamento condicionado era um tópico considerado fundamental para o entendimento de comportamento.

• Especialmente no comportamento humano, na maioria dos comportamentos em que a manutenção não podia ser atribuída ao reforçamento primário, poderia ser explicada em termos de refoçamento condicionado.

• Dois livros que influenciaram a época foram publicados:

• Hendry, D. P. (1969). Conditioned reinforcement. Homewood, IL: Dorsey Press.

• Wike, E. L. (1966). Secondary reinforcement: Selected experiments. New York: Harper & Row.

• Se um estímulo fosse pareado com um reforçador primário, esse estímulo adquiriria poder reforçador e iria sozinho ser capaz de manter o comportamento.

• Em função de muitos comportamentos não serem obviamente mantidos por reforçadores primários estabelecidos, os reforçadores condicionados parecem desempenhar um grande papel para manter comportamentos (comportamento humano particularmente).

• “Ao mesmo tempo, está claro que nosso entendimento em torno do conceito de reforçamento condicionado está incompleto”.

• Nesse artigo será realizada uma revisão sobre alguns estudos que se tornaram conhecidos e ajudaram o status corrente do reforçamento condicionado e sua relação com a escolha.

• Tese do Gollub sobre esquemas encadeados estendidos.

• Estudou a manutenção do bicar de pombos em esquemas encadeados estendidos e em esquemas tandem.

• O requerimento de cada elo deveria ser satisfeito para o pombo avançar para o elo seguinte.

• Esquemas encadeados: • Luz azul: bicar 1 vez (FR 1) para ir para luz

verde.• Luz verde: bicar 2 vezes (FR 2) para ir para luz

amarela.• Luz amarela: bicar 3 vezes (FR 3) para ir para

luz vermelha.• Luz vermelha: bicar 5 vezes (FR5) para ganhar

ração.

FR1 FR5FR3FR2

• Esquemas tandem:

• Desempenho típico de FR: pausas pós-reforço seguidas de bicar rápido e ininterrupto.

FR11

• Em qual esquema o comportamento será melhor mantido?

• Suponhamos que as luzes, possíveis SDs, foram colocadas para ajudar o pombo a estimar quantas bicadas faltavam para receber o reforço.

• Sem estímulos discriminativos o pombo trabalha bem o suficiente.

• Os estímulos têm o surpreendente efeito de tornar o pombo mais lento.

• No estudo de Gollub:

• Encadeados: FI1---FI1---FI1---FI1---FI1---(comida) (com SD).

• Tandem: FI1---FI1---FI1---FI1---FI1---(comida) • (sem SD).

• 90% respondem que nos encadeados o comportamento se mantém melhor.

• Porém, o estímulo apresentado ao longo de todo o esquema (luz branca) é o que está relacionado ao reforçador (comida).

• Os pombos param de responder nos elos iniciais de cada novo esquema dos esquemas encadeados.

• Tandem: mantem melhor o responder que no encadeado.

• Fantino (1969b) obteve resultados semelhantes com ratos.

• Fizeram um conjunto de intervenções para encorajar os ratos a responderem nos elos iniciais dos encadeados.

• Uma das inovações foi tornar os compartimentos tão pequenos que pressionar a barra seria único comportamento disponível para os ratos.

• Ao invés de pressionarem a barra, fugiram dela.

• Parece que os organismos que estão sob controle de estímulos param de responder porque os estímulos apresentados durante os elos iniciais de esquemas encadeados não são diretamente correlacionados com reforçadores (funcionam como dicas).

• Esses estímulos não só não são reforçadores condicionados, mas servem como dicas para discriminarem quando não são reforçados e como dica para não responderem.

• Fantino (1965) estudou a escolha de pombos entre esquemas de reforçamento variáveis e fixo.

Nos elos iniciais: VI iguais (fase de escolha).Completar com sucesso esses esquemas produzia entrada para os elos terminais: e.g., FR 50 ou mistos FR 1 ou FR99, cada um com a probabilidade de 0.5. Completar esses esquemas tinha como consequência a comida.

• Os dados interessantes apareceram quando responder por comida foi colocado em extinção: completar as razões levava apenas aos elos iniciais.

• Os pombos rapidamente paravam de responder na fase das razões e respondiam apenas nos elos iniciais de escolha.

• No estudo de Gollub (1958) nos esquemas encadeados havia estímulos discriminativos para o responder que falharam na função de reforçadores condicionados para manter esse responder. Efeito reverso foi demonstrado nesse estudo de Fantino (1965).

• No estudo de Fantino (1965), os elos terminais tiveram função de estímulos discriminativos para o responder e para parar de responder (quando o reforço foi retirado), além de manter uma taxa robusta de responder nos elos iniciais.

• Essa dissociação entre as funções de estímulos discriminativos e reforçadores condicionados de um estímulo são as exceções a regra de que estímulos discriminativos irão servir como reforçadores condicionados e vice versa.

• Esse estudo irá enfatizar um tema: Não podemos inferir que resultados associados com taxas de responder robustas são preferidas àquelas associadas com baixas taxas de responder.

• Os estímulos associados com elos terminais de esquemas encadeados e ao longo de todo o esquema tandem parecem ser reforçadores condicionados de boa fé, porque estão diretamente pareados com reforçadores primários.

• Uma demonstração poderosa disso pode ser vista com o estudo de Roger e Kelleher (1966).

• No estudo de Gollub e no de Fantino com ratos, os sujeitos não mantiveram o responder mesmo na condição de que se respondessem poderiam obter reforçadores a cada 5 min.

• Os pombos de Kelleher responderam em altas taxas em um esquema que fornecia no máximo um reforçador por hora. Nesse estudo, os pombos deveriam satisfazer 15 FI 4 min consecutivos para obter a comida. A cada FI 4 min completo uma luz branca se acendia e era pareada com a comida após o décimo quinto FI 4min consecutivo.

• Estímulo breve pareado que parecia ser um reforçador condicionado potencial.

• Contraste entre os estudos: mostra que o poder de estímulos breves para aumentar radicalmente o responder seria consistente com a efetividade de estímulos pareados em treino animal, incluindo procedimentos de estabelecimento de valor reforçador condicionado de fichas e treino de “click” (clicker training).

• Até esse ponto a mensagem parece ser clara:

• “ Os reforçadores condicionados são aqueles pareados diretamente com reforçadores primários. Essa mensagem é consistente com a visão prevalecente de reforçadores condicionados, chamada a hipótese de reforçadores condicionados pareados, em que se defende que o estímulo adquire seu poder de reforçador condicionado pelo simples pareamento (Pavloviano) com reforçador primário”.

• Mas os estudos a seguir mostram que essa visão não é a única possível.

• Richard Schuster: propôs uma visão funcional de reforçamento condicionado.

• Nessa visão, os efeitos de um estímulo arbitrário que seguem uma resposta dependem de conseqüências reforçadoras que recebem dicas do estímulo.

• Na maioria dos experimentos sobre reforçadores condicionados, os reforçadores condicionados potenciais são preditores de reforçadores primários, e ambas a hipótese de pareamento tradicional de reforçadores condicionados e a visão funcional fazem a mesma predição: o estímulo deve funcionar como reforçador condicionado.

Elos inicias: VI 1 min

Elos terminais: VI 30s de reforçamento com

comida.

Diferença nos elos terminais: um deles

possuía apresentação de um estímulo breve (FR

11).

Schuster (1969) conduziu uma série de estudos em que deixa de lado as predições dessas visões.

• Estímulo breve: reforçador condicionado potencial - no sentido de estar pareado e sinalizar a disponibilidade do reforçador comida.

• 2 questões interessantes aparecem:• 1) se o estímulo breve pareado for um

reforçador condicionado efetivo, ele deveria aumentar o responder seletivo no elo terminal em que o estímulo breve estivesse presente. A taxa de resposta foi maior nesse elo com o estímulo breve que no outro?

• 2) Qualquer que seja a resposta para a questão acima, a escolha foi afetada? O elo inicial que levava ao elo com o reforçador condicionado foi preferido?

• De acordo com a hipótese tradicional de reforçadores condicionados, a resposta para ambas as questões seria sim.

• A resposta empírica para a primeira questão é “sim”, aparentemente estabelecendo o estímulo breve como reforçador condicionado de boa fé.

• Mas esse efeito de reforçador condicionado não é acompanhado por uma preferência pelo lado do reforçador condicionado. Em outras palavras a resposta para a segunda questão é “não”.

• O reverso foi observado. Todos os 5 pombos preferiram o lado sem o estímulo breve.

• Os resultados de Schuster (1969) foram controversos.

• Squires (1972) estendeu o estudo de Schuster (1969) evitando o uso do FR 11 que produzia altas taxas de respostas. Usou esquemas de intervalo variável.

• Estímulo breve: VI 15s. No experimento A, o estímulo sempre era pareado com reforçador primário. No experimento B, o estímulo breve nunca foi pareado com o reforçador primário.

• Nenhuma preferência sistemática foi encontrada nos elos iniciais nos estudos. A aversividade pelos estímulos breve pareados encontrada nos estudos de Schuster (1969) não foi encontrada nesses estudos provavelmente por esses estímulos terem sido arranjados em esquemas de VI e não FR.

• As conclusões de Schuster foram confirmadas: elos terminais com apresentações de estímulos breve pareados não são preferidos em relação a elos terminais com apresentação de estímulos breve não pareados ou com elos terminais sem a apresentação de estímulos breves.

• Fantino e Romanowich (2007): revisam essa questão e mostram que estímulos com função de reforçadores condicionados na fase de resultados (elos terminais) de esquemas concorrentes com encadeamento

não parecem ser reforçadores condicionados medindo pela sua influência na escolha.

• Elos terminais (fase de resultados) que possuem esses estímulos não são mais escolhidos.

Estudos quantitativos de escolha e reforçadores condicionados.

• Lei de igualação: mostra que os organismos tendem a distribuir suas respostas de escolha

de acordo com a taxa relativa em que essas respostas são reforçadas. A distribuição de escolha tende a se igualar a distribuição de reforçadores.

• Essa lei é uma grande preditora do comportamento em uma grande quantidade de situações e vem sendo muito estudada.

• O organismo poderá emitir a resposta com maior probabilidade de reforçamento (em FR ou VR essa probabilidade maior será no esquema de razão menor e se for em VI, a maior probabilidade variará de momento a momento).

• A redução de respostas em um dos elos iniciais concorrentes pode ser atribuída a aumentos nos reforços do outro elo.

• Fantino (1960, 1969) e Herrnstein (1964) aumentaram a possibilidade de que a lei de igualação pode também descrever escolha em esquemas concorrentes com encadeamento.

• Se assim for, poderá ser estendida para descrever escolha para reforçadores condicionados.

• Esses autores alteraram as taxas de reforçadores primários na fase de resultado (elos terminais) e mediram os efeitos nas taxas de responder na fase de escolha (elos iniciais).

• Os autores mostraram que houve igualação entre as taxas relativas de respostas (elos iniciais) e as taxas relativas de reforços (elos terminais).

• A mesma lei de igualação irá servir para manter o comportamento em esquemas concorrentes simples (por reforçadores primários) e em esquemas concorrentes com encadeamento (por reforçadores condicionados). Mas seria muito bom e simples se fosse assim. Mais adiante serão apresentadas razões para se prestar atenção.

• Considere uma escolha entre duas coisas: uma barra de chocolate X uma maçã.

• Os dois reforçadores estavam atrás de coberturas trancadas, que abriam em esquemas de VI 10s.

• Você provavelmente responderia quase que exclusivamente no item de sua preferência. Mas se respondesse em ambas alternativas ganharia os dois em menos tempo (5s em média).

• Com VI 10s, provavelmente, ficaria apenas na alternativa que é mais reforçadora.

• Mas e se o tempo do VI fosse aumentado para 1hora?

• Se respondesse nas duas alternativas poderia receber cada item em média em 30 min e não em 60 min, respondendo exclusivamente em um elo.

• Quanto maior o tempo nos elos iniciais, mais indiferentes as alternativas ficam.

• Se isto for verdadeiro, tem grande implicação para a lei de igualação: a escolha não deveria ser invariável sobre variações na duração de tempo dos elos iniciais. Ou seja, não deveriam ser indiferentes.

• Experimento abaixo: importância do reforçador primário e condicionado para a escolha em esquemas concorrentes com encadeamento. Possibilidades:

1) Tempo total para reforço em ambas: 120 s. Se essa variável controla escolha, o pombo será indiferente às alternativas (.50).2) Se a taxa de reforçamento condicionado controlar, o pombo responderá no elo inicial de 30s, pois fornece acesso ao próximo elo 3x mais rápido (.75).3) Se a taxa de reforçamento primário controlar, como postulado pela lei de igualação, resultado oposto: escolha pelo elo terminal 30s que dá acesso mais rápido ao reforço primário (.75).

• Os pombos preferiram o elo inicial 90s, como postula a lei de igualação.

• A taxa foi em torno de .90, o que é inconsistente com as 3 teorias.

• Traz um ponto: que variável controla a escolha?

• O contexto temporal pode ajudar a determinar o grau de escolha.

• Quanto mais longo o tempo nos elos iniciais, menos a preferência é expressa para o item mais reforçador, ficam mais indiferentes.

• Esses resultados são chamados de efeito de elo inicial. Resultados importantes: mostram que o contexto temporal afeta a preferência por reforçadores condicionados.

• Esses resultados são preditos pela Teoria da Redução do Atraso (DRT).

• DRT: estendido para áreas como: autocontrole, memória, forrageamento, etc.

• Nos resultados de Fantino (1969), o mesmo estímulo poderia ser um reforçador condicionado poderoso em um contexto temporal, quando estava correlacionado com a redução no tempo para o reforçador,

e não ser um reforçador condicionado em outro contexto temporal, quando for correlacionado com aumento de tempo para reforçamento.

• DRT: A força de um estímulo como reforçador condicionado é melhor predito pela redução de tempo para o reforçador primário correlacionado com o estímulo, relativo a média de tempo para o reforçamento na situação de condicionamento.

• O fato de que aumentos no tempo da fase de escolha (elos iniciais) diminui a preferência expressa por itens mais reforçadores é consistente com uma literatura rica sobre autocontrole: quanto menor a duração da fase de escolha, mais impulsiva é a escolha.

• Efeito da taxa de reforçamento condicionado na escolha.

• Wyckoff (1952, 1959): a resposta de observar (um pombo pressionar um pedal) mudava esquema misto (esquemas que se alternam sem estímulos correlacionados) para esquemas múltiplos (esquemas que se alternam com estímulos correlacionados).

• É crítico enfatizar que a pressão ao pedal não tem efeito na taxa ou distribuição do reforçamento comida.

• Estudos com infra-humanos confirmam a robustez da observação: Todos observam, apesar do fato, de que a observação não produz mudanças na taxa de reforçamento primário estabelecida.

• Isto leva a uma questão: Por que a observação ocorreu?

• Estudos de James Dinsmoor fornecem apoio a hipótese da observação ser um reforçador condicionado. Estipula que a observação é mantida pela produção de um estímulo correlacionado com reforçamento positivo.

• Estímulo pareado com alta chance de recompensa, são prováveis estímulos reforçadores condicionados.

• Estímulo pareado com baixa chance de recompensa, provavelmente não funciona como reforçador condicionado.

• Boas notícias devem manter a observação. Comparado com más notícias – “Não ter notícias são boas notícias”.

• Fantino apresenta um estudo em que:• Preferência por não ter notícia (estímulo não

correlacionado com os esquemas em vigor e sem valor informativo) sobre notícias ruíns (estímulo correlacionado com extinção, com valor informativo, mas com valor reforçador condicionado negativo).

• Discussão:Estímulo informativo, correlacionado com extinção não irá funcionar como reforçador condicionado e não manterá a observação.

• Ex: Cartões com letras de um lado e números do outro. Cada carta com uma vogal de um lado possui um número ímpar do outro.

• 4 cartas são apresentadas: A, 8, X, 7. Solicito a você que escolha um número mínimo para verificar a regra: se forem vogais, então, teremos números ímpares. Quantas cartas viraria? E quais seriam?

• A maioria: Primeiro o A, depois o 7.

• Mas a regra não será negada se não encontrarem vogal, pois a regra não especifica isto.

• Somente um pequeno número de pessoas viraria o 8 (Catania, 1999).

• Questão importante: Irá 1 de 2 estímulos (o menos positivo) funcionar como reforçador?

• De acordo com DRT, apenas o estímulo associado com o esquema mais positivo representa uma redução no tempo para reforçamento.

• Quando aumenta o tempo para reforçamento apresentado por um esquema, diminui a chance de funcionar como reforçador condicionado.

• Conclusão: Reforçadores condicionados são aqueles estímulos correlacionados com uma redução no tempo para reforçamento (ou com um aumento no tempo para um evento aversivo).

• O efeito Prius

• Toyota Prius: tem um painel que marca quanto de combustível é consumido por km.

• 1) 90 milhas por hora (consome mais).• 2) 70 milhas por hora (consome menos).

• O efeito Prius contribui para 1 problema do mundo: consumo de energia.

• Esse exemplo não é apropriado em termos da discussão sobre observação, porque a mudança do estímulo produzida pelas respostas de observação de Fantino parecem ter sido influenciadas pelo comportamento de dirigir.

• Um exemplo mais apto envolveria respostas de observação que não influenciam a quilometragem por litro. Isto seria possível se Fantino fixasse o olhar sobre o painel enquanto sua mulher dirigisse, mas que não comentasse nada sobre sua forma de dirigir.

• Escolheríamos um Prius para comprar pelo painel informativo?

• Escolheríamos um resultado em que emitiríamos altas taxas de observação e por consequência receberíamos alta taxa de reforçador condicionado?

• Shahan et al. (2006): Escolha em esquemas concorrentes com encadeamento que diferiam nos esquemas de observação.

• As escolhas se igualaram às taxas de observação produzidas pelos estímulos.

• Traz uma questão: os modelos de escolha em esquemas concorrentes com encadeamento requerem um termo para taxa de reforçamento condicionado?

• Fantino defendeu que não, baseado nas pesquisas anteriores. Mas o experimento de Shahan o fez pensar.

• Delineou um procedimento. Tanto se os esquemas de observação fossem em FI ou em VI, não foram demonstrados efeitos de preferência.

• A escolha, novamente, não foi influenciada pela taxa de reforçamento condicionado.

• Conclusão• Os resultados podem parecer paradoxais, mas

bem analisados não são paradoxais e nem surpreendentes.

• Os estudos de Schuster (1969), Squires (1972) e o último de Fantino não apresentaram redução no tempo para reforçamento primário.

• O estímulo breve imposto não tem função discriminativa.

• Apenas estímulo correlacionado com redução no tempo para reforçamento primário (ou aumento no valor) são reforçadores condicionados de boa fé.

• E esses estímulos afetam a preferência.

•OBRIGADA!

comportamento de escolha e reforçamento condicionado

Documents

Transcript of comportamento de escolha e reforçamento condicionado