comportamento de escolha e reforçamento condicionado

64
Fantino, E. (2008). Choice, Conditioned Reinforcement, and the Prius Effect. The Behavior Analyst, 31, 95 – 111. Apresentadoras: Giovana Escobal e Marina Macedo Orientador: Prof. Dr. Celso Goyos Apoio: FAPESP e CNPq. http://www.lahmiei.ufscar.br/

Transcript of comportamento de escolha e reforçamento condicionado

Page 1: comportamento de escolha e reforçamento condicionado

Fantino, E. (2008). Choice, Conditioned Reinforcement, and the

Prius Effect. The Behavior Analyst, 31, 95 – 111.

Apresentadoras: Giovana Escobal e Marina MacedoOrientador: Prof. Dr. Celso Goyos

Apoio: FAPESP e CNPq.http://www.lahmiei.ufscar.br/

Page 2: comportamento de escolha e reforçamento condicionado

• 1960: Reforçamento condicionado era um tópico considerado fundamental para o entendimento de comportamento.

• Especialmente no comportamento humano, na maioria dos comportamentos em que a manutenção não podia ser atribuída ao reforçamento primário, poderia ser explicada em termos de refoçamento condicionado.

Page 3: comportamento de escolha e reforçamento condicionado

• Dois livros que influenciaram a época foram publicados:

• Hendry, D. P. (1969). Conditioned reinforcement. Homewood, IL: Dorsey Press.

• Wike, E. L. (1966). Secondary reinforcement: Selected experiments. New York: Harper & Row.

Page 4: comportamento de escolha e reforçamento condicionado

• Se um estímulo fosse pareado com um reforçador primário, esse estímulo adquiriria poder reforçador e iria sozinho ser capaz de manter o comportamento.

• Em função de muitos comportamentos não serem obviamente mantidos por reforçadores primários estabelecidos, os reforçadores condicionados parecem desempenhar um grande papel para manter comportamentos (comportamento humano particularmente).

Page 5: comportamento de escolha e reforçamento condicionado

• “Ao mesmo tempo, está claro que nosso entendimento em torno do conceito de reforçamento condicionado está incompleto”.

• Nesse artigo será realizada uma revisão sobre alguns estudos que se tornaram conhecidos e ajudaram o status corrente do reforçamento condicionado e sua relação com a escolha.

Page 6: comportamento de escolha e reforçamento condicionado

• Tese do Gollub sobre esquemas encadeados estendidos.

• Estudou a manutenção do bicar de pombos em esquemas encadeados estendidos e em esquemas tandem.

• O requerimento de cada elo deveria ser satisfeito para o pombo avançar para o elo seguinte.

Page 7: comportamento de escolha e reforçamento condicionado

• Esquemas encadeados: • Luz azul: bicar 1 vez (FR 1) para ir para luz

verde.• Luz verde: bicar 2 vezes (FR 2) para ir para luz

amarela.• Luz amarela: bicar 3 vezes (FR 3) para ir para

luz vermelha.• Luz vermelha: bicar 5 vezes (FR5) para ganhar

ração.

FR1 FR5FR3FR2

Page 8: comportamento de escolha e reforçamento condicionado

• Esquemas tandem:

• Desempenho típico de FR: pausas pós-reforço seguidas de bicar rápido e ininterrupto.

FR11

Page 9: comportamento de escolha e reforçamento condicionado

• Em qual esquema o comportamento será melhor mantido?

• Suponhamos que as luzes, possíveis SDs, foram colocadas para ajudar o pombo a estimar quantas bicadas faltavam para receber o reforço.

• Sem estímulos discriminativos o pombo trabalha bem o suficiente.

• Os estímulos têm o surpreendente efeito de tornar o pombo mais lento.

Page 10: comportamento de escolha e reforçamento condicionado

• No estudo de Gollub:

• Encadeados: FI1---FI1---FI1---FI1---FI1---(comida) (com SD).

• Tandem: FI1---FI1---FI1---FI1---FI1---(comida) • (sem SD).

Page 11: comportamento de escolha e reforçamento condicionado

• 90% respondem que nos encadeados o comportamento se mantém melhor.

• Porém, o estímulo apresentado ao longo de todo o esquema (luz branca) é o que está relacionado ao reforçador (comida).

• Os pombos param de responder nos elos iniciais de cada novo esquema dos esquemas encadeados.

Page 12: comportamento de escolha e reforçamento condicionado

• Tandem: mantem melhor o responder que no encadeado.

• Fantino (1969b) obteve resultados semelhantes com ratos.

Page 13: comportamento de escolha e reforçamento condicionado

• Fizeram um conjunto de intervenções para encorajar os ratos a responderem nos elos iniciais dos encadeados.

• Uma das inovações foi tornar os compartimentos tão pequenos que pressionar a barra seria único comportamento disponível para os ratos.

Page 14: comportamento de escolha e reforçamento condicionado

• Ao invés de pressionarem a barra, fugiram dela.

• Parece que os organismos que estão sob controle de estímulos param de responder porque os estímulos apresentados durante os elos iniciais de esquemas encadeados não são diretamente correlacionados com reforçadores (funcionam como dicas).

Page 15: comportamento de escolha e reforçamento condicionado

• Esses estímulos não só não são reforçadores condicionados, mas servem como dicas para discriminarem quando não são reforçados e como dica para não responderem.

• Fantino (1965) estudou a escolha de pombos entre esquemas de reforçamento variáveis e fixo.

Page 16: comportamento de escolha e reforçamento condicionado

Nos elos iniciais: VI iguais (fase de escolha).Completar com sucesso esses esquemas produzia entrada para os elos terminais: e.g., FR 50 ou mistos FR 1 ou FR99, cada um com a probabilidade de 0.5. Completar esses esquemas tinha como consequência a comida.

Page 17: comportamento de escolha e reforçamento condicionado

• Os dados interessantes apareceram quando responder por comida foi colocado em extinção: completar as razões levava apenas aos elos iniciais.

• Os pombos rapidamente paravam de responder na fase das razões e respondiam apenas nos elos iniciais de escolha.

Page 18: comportamento de escolha e reforçamento condicionado

• No estudo de Gollub (1958) nos esquemas encadeados havia estímulos discriminativos para o responder que falharam na função de reforçadores condicionados para manter esse responder. Efeito reverso foi demonstrado nesse estudo de Fantino (1965).

Page 19: comportamento de escolha e reforçamento condicionado

• No estudo de Fantino (1965), os elos terminais tiveram função de estímulos discriminativos para o responder e para parar de responder (quando o reforço foi retirado), além de manter uma taxa robusta de responder nos elos iniciais.

• Essa dissociação entre as funções de estímulos discriminativos e reforçadores condicionados de um estímulo são as exceções a regra de que estímulos discriminativos irão servir como reforçadores condicionados e vice versa.

Page 20: comportamento de escolha e reforçamento condicionado

• Esse estudo irá enfatizar um tema: Não podemos inferir que resultados associados com taxas de responder robustas são preferidas àquelas associadas com baixas taxas de responder.

• Os estímulos associados com elos terminais de esquemas encadeados e ao longo de todo o esquema tandem parecem ser reforçadores condicionados de boa fé, porque estão diretamente pareados com reforçadores primários.

Page 21: comportamento de escolha e reforçamento condicionado

• Uma demonstração poderosa disso pode ser vista com o estudo de Roger e Kelleher (1966).

• No estudo de Gollub e no de Fantino com ratos, os sujeitos não mantiveram o responder mesmo na condição de que se respondessem poderiam obter reforçadores a cada 5 min.

Page 22: comportamento de escolha e reforçamento condicionado

• Os pombos de Kelleher responderam em altas taxas em um esquema que fornecia no máximo um reforçador por hora. Nesse estudo, os pombos deveriam satisfazer 15 FI 4 min consecutivos para obter a comida. A cada FI 4 min completo uma luz branca se acendia e era pareada com a comida após o décimo quinto FI 4min consecutivo.

• Estímulo breve pareado que parecia ser um reforçador condicionado potencial.

Page 23: comportamento de escolha e reforçamento condicionado

• Contraste entre os estudos: mostra que o poder de estímulos breves para aumentar radicalmente o responder seria consistente com a efetividade de estímulos pareados em treino animal, incluindo procedimentos de estabelecimento de valor reforçador condicionado de fichas e treino de “click” (clicker training).

Page 24: comportamento de escolha e reforçamento condicionado

• Até esse ponto a mensagem parece ser clara:

• “ Os reforçadores condicionados são aqueles pareados diretamente com reforçadores primários. Essa mensagem é consistente com a visão prevalecente de reforçadores condicionados, chamada a hipótese de reforçadores condicionados pareados, em que se defende que o estímulo adquire seu poder de reforçador condicionado pelo simples pareamento (Pavloviano) com reforçador primário”.

Page 25: comportamento de escolha e reforçamento condicionado

• Mas os estudos a seguir mostram que essa visão não é a única possível.

• Richard Schuster: propôs uma visão funcional de reforçamento condicionado.

• Nessa visão, os efeitos de um estímulo arbitrário que seguem uma resposta dependem de conseqüências reforçadoras que recebem dicas do estímulo.

Page 26: comportamento de escolha e reforçamento condicionado

• Na maioria dos experimentos sobre reforçadores condicionados, os reforçadores condicionados potenciais são preditores de reforçadores primários, e ambas a hipótese de pareamento tradicional de reforçadores condicionados e a visão funcional fazem a mesma predição: o estímulo deve funcionar como reforçador condicionado.

Page 27: comportamento de escolha e reforçamento condicionado

Elos inicias: VI 1 min

Elos terminais: VI 30s de reforçamento com

comida.

Diferença nos elos terminais: um deles

possuía apresentação de um estímulo breve (FR

11).

Schuster (1969) conduziu uma série de estudos em que deixa de lado as predições dessas visões.

Page 28: comportamento de escolha e reforçamento condicionado

• Estímulo breve: reforçador condicionado potencial - no sentido de estar pareado e sinalizar a disponibilidade do reforçador comida.

• 2 questões interessantes aparecem:• 1) se o estímulo breve pareado for um

reforçador condicionado efetivo, ele deveria aumentar o responder seletivo no elo terminal em que o estímulo breve estivesse presente. A taxa de resposta foi maior nesse elo com o estímulo breve que no outro?

Page 29: comportamento de escolha e reforçamento condicionado

• 2) Qualquer que seja a resposta para a questão acima, a escolha foi afetada? O elo inicial que levava ao elo com o reforçador condicionado foi preferido?

• De acordo com a hipótese tradicional de reforçadores condicionados, a resposta para ambas as questões seria sim.

Page 30: comportamento de escolha e reforçamento condicionado

• A resposta empírica para a primeira questão é “sim”, aparentemente estabelecendo o estímulo breve como reforçador condicionado de boa fé.

• Mas esse efeito de reforçador condicionado não é acompanhado por uma preferência pelo lado do reforçador condicionado. Em outras palavras a resposta para a segunda questão é “não”.

Page 31: comportamento de escolha e reforçamento condicionado

• O reverso foi observado. Todos os 5 pombos preferiram o lado sem o estímulo breve.

• Os resultados de Schuster (1969) foram controversos.

• Squires (1972) estendeu o estudo de Schuster (1969) evitando o uso do FR 11 que produzia altas taxas de respostas. Usou esquemas de intervalo variável.

Page 32: comportamento de escolha e reforçamento condicionado

• Estímulo breve: VI 15s. No experimento A, o estímulo sempre era pareado com reforçador primário. No experimento B, o estímulo breve nunca foi pareado com o reforçador primário.

• Nenhuma preferência sistemática foi encontrada nos elos iniciais nos estudos. A aversividade pelos estímulos breve pareados encontrada nos estudos de Schuster (1969) não foi encontrada nesses estudos provavelmente por esses estímulos terem sido arranjados em esquemas de VI e não FR.

Page 33: comportamento de escolha e reforçamento condicionado

• As conclusões de Schuster foram confirmadas: elos terminais com apresentações de estímulos breve pareados não são preferidos em relação a elos terminais com apresentação de estímulos breve não pareados ou com elos terminais sem a apresentação de estímulos breves.

• Fantino e Romanowich (2007): revisam essa questão e mostram que estímulos com função de reforçadores condicionados na fase de resultados (elos terminais) de esquemas concorrentes com encadeamento

Page 34: comportamento de escolha e reforçamento condicionado

não parecem ser reforçadores condicionados medindo pela sua influência na escolha.

• Elos terminais (fase de resultados) que possuem esses estímulos não são mais escolhidos.

Page 35: comportamento de escolha e reforçamento condicionado

Estudos quantitativos de escolha e reforçadores condicionados.

• Lei de igualação: mostra que os organismos tendem a distribuir suas respostas de escolha

de acordo com a taxa relativa em que essas respostas são reforçadas. A distribuição de escolha tende a se igualar a distribuição de reforçadores.

Page 36: comportamento de escolha e reforçamento condicionado

• Essa lei é uma grande preditora do comportamento em uma grande quantidade de situações e vem sendo muito estudada.

• O organismo poderá emitir a resposta com maior probabilidade de reforçamento (em FR ou VR essa probabilidade maior será no esquema de razão menor e se for em VI, a maior probabilidade variará de momento a momento).

Page 37: comportamento de escolha e reforçamento condicionado

• A redução de respostas em um dos elos iniciais concorrentes pode ser atribuída a aumentos nos reforços do outro elo.

• Fantino (1960, 1969) e Herrnstein (1964) aumentaram a possibilidade de que a lei de igualação pode também descrever escolha em esquemas concorrentes com encadeamento.

• Se assim for, poderá ser estendida para descrever escolha para reforçadores condicionados.

Page 38: comportamento de escolha e reforçamento condicionado

• Esses autores alteraram as taxas de reforçadores primários na fase de resultado (elos terminais) e mediram os efeitos nas taxas de responder na fase de escolha (elos iniciais).

• Os autores mostraram que houve igualação entre as taxas relativas de respostas (elos iniciais) e as taxas relativas de reforços (elos terminais).

Page 39: comportamento de escolha e reforçamento condicionado

• A mesma lei de igualação irá servir para manter o comportamento em esquemas concorrentes simples (por reforçadores primários) e em esquemas concorrentes com encadeamento (por reforçadores condicionados). Mas seria muito bom e simples se fosse assim. Mais adiante serão apresentadas razões para se prestar atenção.

Page 40: comportamento de escolha e reforçamento condicionado

• Considere uma escolha entre duas coisas: uma barra de chocolate X uma maçã.

• Os dois reforçadores estavam atrás de coberturas trancadas, que abriam em esquemas de VI 10s.

• Você provavelmente responderia quase que exclusivamente no item de sua preferência. Mas se respondesse em ambas alternativas ganharia os dois em menos tempo (5s em média).

Page 41: comportamento de escolha e reforçamento condicionado

• Com VI 10s, provavelmente, ficaria apenas na alternativa que é mais reforçadora.

• Mas e se o tempo do VI fosse aumentado para 1hora?

• Se respondesse nas duas alternativas poderia receber cada item em média em 30 min e não em 60 min, respondendo exclusivamente em um elo.

Page 42: comportamento de escolha e reforçamento condicionado

• Quanto maior o tempo nos elos iniciais, mais indiferentes as alternativas ficam.

• Se isto for verdadeiro, tem grande implicação para a lei de igualação: a escolha não deveria ser invariável sobre variações na duração de tempo dos elos iniciais. Ou seja, não deveriam ser indiferentes.

Page 43: comportamento de escolha e reforçamento condicionado

• Experimento abaixo: importância do reforçador primário e condicionado para a escolha em esquemas concorrentes com encadeamento. Possibilidades:

1) Tempo total para reforço em ambas: 120 s. Se essa variável controla escolha, o pombo será indiferente às alternativas (.50).2) Se a taxa de reforçamento condicionado controlar, o pombo responderá no elo inicial de 30s, pois fornece acesso ao próximo elo 3x mais rápido (.75).3) Se a taxa de reforçamento primário controlar, como postulado pela lei de igualação, resultado oposto: escolha pelo elo terminal 30s que dá acesso mais rápido ao reforço primário (.75).

Page 44: comportamento de escolha e reforçamento condicionado

• Os pombos preferiram o elo inicial 90s, como postula a lei de igualação.

• A taxa foi em torno de .90, o que é inconsistente com as 3 teorias.

• Traz um ponto: que variável controla a escolha?

Page 45: comportamento de escolha e reforçamento condicionado

• O contexto temporal pode ajudar a determinar o grau de escolha.

• Quanto mais longo o tempo nos elos iniciais, menos a preferência é expressa para o item mais reforçador, ficam mais indiferentes.

• Esses resultados são chamados de efeito de elo inicial. Resultados importantes: mostram que o contexto temporal afeta a preferência por reforçadores condicionados.

Page 46: comportamento de escolha e reforçamento condicionado

• Esses resultados são preditos pela Teoria da Redução do Atraso (DRT).

• DRT: estendido para áreas como: autocontrole, memória, forrageamento, etc.

• Nos resultados de Fantino (1969), o mesmo estímulo poderia ser um reforçador condicionado poderoso em um contexto temporal, quando estava correlacionado com a redução no tempo para o reforçador,

Page 47: comportamento de escolha e reforçamento condicionado

e não ser um reforçador condicionado em outro contexto temporal, quando for correlacionado com aumento de tempo para reforçamento.

• DRT: A força de um estímulo como reforçador condicionado é melhor predito pela redução de tempo para o reforçador primário correlacionado com o estímulo, relativo a média de tempo para o reforçamento na situação de condicionamento.

Page 48: comportamento de escolha e reforçamento condicionado

• O fato de que aumentos no tempo da fase de escolha (elos iniciais) diminui a preferência expressa por itens mais reforçadores é consistente com uma literatura rica sobre autocontrole: quanto menor a duração da fase de escolha, mais impulsiva é a escolha.

Page 49: comportamento de escolha e reforçamento condicionado

• Efeito da taxa de reforçamento condicionado na escolha.

• Wyckoff (1952, 1959): a resposta de observar (um pombo pressionar um pedal) mudava esquema misto (esquemas que se alternam sem estímulos correlacionados) para esquemas múltiplos (esquemas que se alternam com estímulos correlacionados).

Page 50: comportamento de escolha e reforçamento condicionado

• É crítico enfatizar que a pressão ao pedal não tem efeito na taxa ou distribuição do reforçamento comida.

• Estudos com infra-humanos confirmam a robustez da observação: Todos observam, apesar do fato, de que a observação não produz mudanças na taxa de reforçamento primário estabelecida.

• Isto leva a uma questão: Por que a observação ocorreu?

Page 51: comportamento de escolha e reforçamento condicionado

• Estudos de James Dinsmoor fornecem apoio a hipótese da observação ser um reforçador condicionado. Estipula que a observação é mantida pela produção de um estímulo correlacionado com reforçamento positivo.

• Estímulo pareado com alta chance de recompensa, são prováveis estímulos reforçadores condicionados.

Page 52: comportamento de escolha e reforçamento condicionado

• Estímulo pareado com baixa chance de recompensa, provavelmente não funciona como reforçador condicionado.

• Boas notícias devem manter a observação. Comparado com más notícias – “Não ter notícias são boas notícias”.

Page 53: comportamento de escolha e reforçamento condicionado

• Fantino apresenta um estudo em que:• Preferência por não ter notícia (estímulo não

correlacionado com os esquemas em vigor e sem valor informativo) sobre notícias ruíns (estímulo correlacionado com extinção, com valor informativo, mas com valor reforçador condicionado negativo).

• Discussão:Estímulo informativo, correlacionado com extinção não irá funcionar como reforçador condicionado e não manterá a observação.

Page 54: comportamento de escolha e reforçamento condicionado

• Ex: Cartões com letras de um lado e números do outro. Cada carta com uma vogal de um lado possui um número ímpar do outro.

• 4 cartas são apresentadas: A, 8, X, 7. Solicito a você que escolha um número mínimo para verificar a regra: se forem vogais, então, teremos números ímpares. Quantas cartas viraria? E quais seriam?

• A maioria: Primeiro o A, depois o 7.

Page 55: comportamento de escolha e reforçamento condicionado

• Mas a regra não será negada se não encontrarem vogal, pois a regra não especifica isto.

• Somente um pequeno número de pessoas viraria o 8 (Catania, 1999).

• Questão importante: Irá 1 de 2 estímulos (o menos positivo) funcionar como reforçador?

• De acordo com DRT, apenas o estímulo associado com o esquema mais positivo representa uma redução no tempo para reforçamento.

Page 56: comportamento de escolha e reforçamento condicionado

• Quando aumenta o tempo para reforçamento apresentado por um esquema, diminui a chance de funcionar como reforçador condicionado.

• Conclusão: Reforçadores condicionados são aqueles estímulos correlacionados com uma redução no tempo para reforçamento (ou com um aumento no tempo para um evento aversivo).

Page 57: comportamento de escolha e reforçamento condicionado

• O efeito Prius

• Toyota Prius: tem um painel que marca quanto de combustível é consumido por km.

• 1) 90 milhas por hora (consome mais).• 2) 70 milhas por hora (consome menos).

• O efeito Prius contribui para 1 problema do mundo: consumo de energia.

Page 58: comportamento de escolha e reforçamento condicionado

• Esse exemplo não é apropriado em termos da discussão sobre observação, porque a mudança do estímulo produzida pelas respostas de observação de Fantino parecem ter sido influenciadas pelo comportamento de dirigir.

• Um exemplo mais apto envolveria respostas de observação que não influenciam a quilometragem por litro. Isto seria possível se Fantino fixasse o olhar sobre o painel enquanto sua mulher dirigisse, mas que não comentasse nada sobre sua forma de dirigir.

Page 59: comportamento de escolha e reforçamento condicionado

• Escolheríamos um Prius para comprar pelo painel informativo?

• Escolheríamos um resultado em que emitiríamos altas taxas de observação e por consequência receberíamos alta taxa de reforçador condicionado?

• Shahan et al. (2006): Escolha em esquemas concorrentes com encadeamento que diferiam nos esquemas de observação.

Page 60: comportamento de escolha e reforçamento condicionado

• As escolhas se igualaram às taxas de observação produzidas pelos estímulos.

• Traz uma questão: os modelos de escolha em esquemas concorrentes com encadeamento requerem um termo para taxa de reforçamento condicionado?

• Fantino defendeu que não, baseado nas pesquisas anteriores. Mas o experimento de Shahan o fez pensar.

Page 61: comportamento de escolha e reforçamento condicionado

• Delineou um procedimento. Tanto se os esquemas de observação fossem em FI ou em VI, não foram demonstrados efeitos de preferência.

• A escolha, novamente, não foi influenciada pela taxa de reforçamento condicionado.

Page 62: comportamento de escolha e reforçamento condicionado

• Conclusão• Os resultados podem parecer paradoxais, mas

bem analisados não são paradoxais e nem surpreendentes.

• Os estudos de Schuster (1969), Squires (1972) e o último de Fantino não apresentaram redução no tempo para reforçamento primário.

Page 63: comportamento de escolha e reforçamento condicionado

• O estímulo breve imposto não tem função discriminativa.

• Apenas estímulo correlacionado com redução no tempo para reforçamento primário (ou aumento no valor) são reforçadores condicionados de boa fé.

• E esses estímulos afetam a preferência.

Page 64: comportamento de escolha e reforçamento condicionado

•OBRIGADA!