Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas...

179
Emprego do m ´ etodo “Peaks-over-Threshold” na estimac ¸ ˜ ao de risco; uma exposic ¸ ˜ ao abragente, detalhada mas simples A thorough yet simple exposition of the Peaks-over-threshold method and its employment for risk estimation. Vladimir Belitsky Francisco Martins Moreira Instituto de Matem´ atica e Estat´ ıstica Universidade de S˜ ao Paulo ABSTRACT We introduce the statistical procedure called Peaks-over-threshold method at an intermediate level of comprehensiveness that provides the understanding of principal method’s features and warns about the principal possible fallacies and misinterpretations in the method implementation.

Transcript of Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas...

Page 1: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Emprego do metodo“Peaks-over-Threshold” na estimacao de

risco; uma exposicao abragente,detalhada mas simples

A thorough yet simple exposition of thePeaks-over-threshold method and its

employment for risk estimation.

Vladimir BelitskyFrancisco Martins Moreira

Instituto de Matematica e EstatısticaUniversidade de Sao Paulo

ABSTRACT

We introduce the statistical procedure called Peaks-over-threshold method atan intermediate level of comprehensiveness that provides the understandingof principal method’s features and warns about the principal possible fallaciesand misinterpretations in the method implementation.

Page 2: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Conteudo

1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 O problema para o qual o metodo POT foi desenvolvido. . . . . . . . . . 2

2.1 O formato generico: problema de estimacao de caudade uma distribuicao probabilıstica com base na sua amostra . 2

2.2 Um caso particular mas muito frequente: o problema daestimacao de risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.3 Sobre as particularidades do problema que exigemelaboracao de metodos especıficos para sua solucao . . . . . . . . . . 7

3 O que e metodo POT, o que pretendemos expor sobre elee porque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 O primeiro pilar do embasamento teorico do metodo POT:a famılia de distribuicoes de Pareto generalizadas . . . . . . . . . . . . . . . . . 174.1 Distribuicoes padrao de Pareto generalizadas . . . . . . . . . . . . . . . . 174.2 Distribuicoes de Pareto generalizadas (GPD’s) . . . . . . . . . . . . . . 234.3 Caudas finitas e infinitas e sua relacao com a exposicao . . . . . 264.4 Influencia dos paramteros de uma GPD no seu formato

e suas consequencias na estimacao de risco por GPD’s . . . . . . . 335 O segundo pilar do embasamento teorico do metodo POT:

a Teoria de Valores Extremos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.1 Um exemplo motivador: o problema de reserva renovavel . . . . 405.2 O problema da distribuicao assintotica de extremos . . . . . . . . . 435.3 Mais exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.4 A solucao do problema de distribuicao assintotica

de extremos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.5 Uso da Teoria de Valores Extremos para solucao do prob-

lema de reserva renovavel formulado na Sub-secao 5.1 . . . . . . . 65

Page 3: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

6 A ideia do metodo POT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.2 Resultado de Pickands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.3 Como o Resultado de Pickands implica

a ideia do metodo POT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706.4 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.5 Sobre a relacao entre GPD’s e as Distribuicoes

de Valores Extremos (EVD’s) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807 Procedimentos estatısticos empregados para

execucao da ideia do metodo POT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.1 Uma estrategia de execucao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.2 O primeiro passo da estrategia: como encontrar o valor

otimo do limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877.3 A segunda parte da estrategia: como construir a GPD

a qual se aderem os excessos acima do limiar otimo . . . . . . . 967.4 A ultima parte da estrategia: da GPD que aproxima os

excessos a funcao que aproxima a cauda . . . . . . . . . . . . . . . . . . 997.5 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1007.6 Justificativas ate agora nao fornecidas . . . . . . . . . . . . . . . . . . . . 103

8 Exemplo de aplicacao do metodo POT . . . . . . . . . . . . . . . . . . . . . . . . 1098.1 Aplicacao do metodo POT para amostras geradas das

funcoes cujas caudas sao do tipo de Pareto . . . . . . . . . . . . . . . 1098.2 Aplicacao do metodo POT para amostra gerada da funcao

cuja cauda e mais fina que a exponencial . . . . . . . . . . . . . . . . . 1298.3 Aplicacao do metodo POT a uma amostra de dados reais . 142

9 Comentarios finais gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15510 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16011 Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17212 Bibliografia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

Page 4: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

1 Introducao

O metodo denominado Peaks Over Threshold (abreviado por POT em todoo texto) e um metodo estatıstico que surgiu na area de hidrologia nos anos’80, e que hoje se constitui em uma das principais ferramentas estatısticas em-pregadas na estimativa da probabilidade de eventos raros e, em particular, naestimativa de risco de mercado, risco de credito e risco operacional. No futurosua importancia promete ser ainda maior, dado seu potencial de servir, junta-mente com o metodo de copulas, para a realizacao de analises de integracaode riscos.

O presente trabalho procura apresentar o metodo POT em um nıvel queseja compreensıvel aos leitores graduados em ciencias exatas. Devido a issoo trabalho e repleto de exemplos destinados a ilustracao de fenomenos rela-cionados com o metodo. Ha tambem uma atencao especial em desvendarerros e equıvocos comuns na aplicacao e nos comentarios a respeito do metodoPOT, que apareceram desde o choque de popularizacao do metodo ocorridoem meados dos anos 90 (Ebrechts, Kluppelberg, Mikosch (1997), Thomas eReiss (1998), Coles (2001), sem falar nos inumeros congressos sobre o tema eda avalanche de artigos de divulgacao).

O conteudo, o teor e a forma do nosso trabalho fazem dele uma ponte entreos textos rigorosamente matematicos e os usuarios que pretendem aplicar ometodo POT mas que nao necessitam, pelo menos de inıcio, de uma justifi-cariva rigorosa de suas bases matematicas.

A apresentacao e acompanhada por uma serie de programas computa-cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem ser usados para resolver problemas praticos, comotambem podem ser uteis aqueles leitores que gostam de “sentir” a pratica dateoria que estudam.

Possıveis futuros melhoramentos deste texto estarao disponıveis no web-sitedo primeiro autor. Entre em http://www.ime.usp.br/˜ belitsky/, prossigaa “Publication List” e encontre o tıtulo do presente texto. Neste ıtem estaraoo texto e suas versoes posteriores.

1

Page 5: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

2 O problema para o qual o metodo POT foi desen-volvido

Repetindo o que ja foi dito na Introducao, o presente trabalho descreve eanalisa um metodo especıfico – denominado peaks over threshold, abreviadopor POT – que foi desenvolvido para a solucao de um problema especıfico.A presente secao deste trabalho destina-se a formulacao deste problema. NaSub-secao 2.1 essa formulacao e feita no formato mais generico possıvel, for-mato em que o problema e chamado de problema de estimacao da cauda deuma ditribuicao probabilıstica com base na sua amostra, ou, abreviadamente,problema de estimacao da cauda. Acontece porem, que a generalidade desteformato dificulta a exposicao da motivacao da construcao de certas partes dometodo POT. Por isto nossa exposicao sera frequentemente focada em um casoparticular do problema de estimacao da cauda chamado problema de estimacaode risco. Ele esta formulado na Sub-secao 2.2, e nossa escolha por este casoparticular foi incentivada, em grande parte, pela sua abundante referencia naarea de economia e financas. Por fim, na ultima sub-secao da presente secao,destacaremos as propriedades do problema de estimacao da cauda que exigemmetodos especıficos para sua solucao. Isto servira de ponte para a proximasecao, onde comecaremos a apresentar o metodo POT.

2.1 O formato generico: o problema de estimacao da cauda deuma ditribuicao probabilıstica com base na sua amostra

Abaixo em (P1) formularemos o que se chama problema de estimacao da caudade uma ditribuicao probabilıstica com base na sua amostra, ou, sucintamente,problema de estimacao da cauda. E este o problema para o qual foi construıdoo metodo POT. Concordamos que a formulacao em (P1) pode parecer abstratademais, contudo explicaremos melhor estes aspectos abstratos na proxima sub-secao, onde eles serao concretizados.

(P1) A partir de uma amostra aleatoria x1, . . . , xn de uma desconhecidafuncao de distribuicao F (·), reconstruir aproximadamente a cauda destadistribuicao a direita da abcissa u, sendo que a escolha do valor de u estadelegada a quem resolve o problema. As exigencias genericas na escolhadeste valor sao: que ele permita boa precisao na aproximacao e que sejaadequado para a aplicacao desta aproximacao.

2

Page 6: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

u F¯¹(p)

F(u)p

Figura 1: Esta figura ilustra o termo “cauda de funcao de distribuicao F (·) a direita

de u”, que e a parte do grafico de F (·) a direita do ponto (u, F (u)). A figura tambem

ajuda a entender porque a questao colocada no ıtem (D) da situacao (A)-(D) descrita

na Sub-secao 2.2, e um caso paricular do probelam de estimacao de cauda. Por ultimo,

a figura ajuda interpretar o valor F−1(p) como uma medida de risco no ambito da

situacao (A)-(D): quando F−1(p) e positivo, entao a regiao hachurada a direita de

F−1(p) corresponde aos valores negativos do retorno maiores por modulo que F −1(p).

Lembramos que o termo cauda de F (·) a direita de u corresponde a partedo grafico da funcao F (·) onde as abcissas sao maiores que u (veja Figura 1).

Notamos que o intuito da exigencia “ser adequado para aplicacao” seraesclarecido no exemplo da Sub-secao 2.2.

2.2 Um caso particular mas muito frequente: o problema daestimatcao de risco

Em (A)-(D) abaixo formularemos a situacao a qual nos referiremos no decorrerdo nosso trabalho pelo nome problema da estimacao de risco. Logo em seguidajustificaremos o nome dado a esta situacao, explicaremos porque ela e um

3

Page 7: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

caso particular do problema de estimacao da cauda, e tambem as razoes defocarmos frequentemente neste caso particular ao apresentar o funcionamentodo metodo POT.

(A) Ha um investimento (como, por exemplo, uma acao de uma empresa)cujos retornos diarios podem ser vistos como variaveis aleatorias inde-pendentes e identicamente distribuidas. Para facilitar a exposicao, des-ignaremos simbolicamente por F (·) a funcao da distribuicao do retornodiario com sinal menos em qualquer dia; em outras palavras, F (·) designaa funcao de distribuicao da variavel aleatoria

retorno diario com sinal menos =

= − log o valor do investimento num diao valor do investimento no dia anterior

,

o que significa que

F (x) = IP (retorno diario com sinal menos ≤ x) , ∀x ∈ R.

Dois comentarios sao imediatamente necessarios para que o presente ıtemseja corretamente compreendido.

Comentario 1. Em primeiro lugar esclarecemos que o pressuposto deindependencia dos retornos diarios nao se verifica na pratica, mas ecomumente admitido em estudos – e, em particular, no nosso, – poissempre permite facilitar as contas e muito frequentemente forneceresultados proximos aos que seriam derivados caso a verdadeiradependencia fosse conhecida e levada em conta.

Comentario 2. O segundo esclarecimento e sobre a razao de consid-erarmos retornos com sinal negativo. Acontece que no problema deestimacao do risco de um investimento nos interessaremos pela es-timacao de grandes perdas do investimento, isto e, pela distribuicaodos valores negativos, grandes em modulo, do retorno deste inves-timento. Portanto, se F (·) e a funcao de distribuicao do retorno,entao estudaremos a forma da sua cauda esquerda. Contudo ometodo POT, cuja abordagem para solucao do problema queremosexibir, foi formalizado para estudar caudas direitas de distribuicoes.Para conciliar o problema em questao com o formalismo matematicodo metodo que fornece sua solucao, consideraremos a funcao dedistribuicao do retorno diario com sinal negativo: desta maneira a

4

Page 8: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

cauda direita de F (·) coresponde aos retornos negativos grandes emmodulo.

(B) Um investidor conhece os fatos descritos em (A) (isto e, conhece queos retornos diarios sao independentes e identicamente distribuıdos) masdesconhece a forma da funcao de distribuicao F (·).

(C) O investidor possui os valores de retornos diarios observados dias ante-riores. Para facilitar nossa exposicao designaremos simbolicamente porn o numero de dias monitorados e por x1, . . . , xn as observacoes dosretornos com sinal negativo observados nestes dias.

(D) O investidor deseja estimar os valores de F −1(p) para valores de p perten-centes a um intervalo proximo a 1. Digamos, para um exemplo concreto,que este intervalo seja [0, 9; 0, 995].

A primeira coisa que gostarıamos que o leitor fixasse em sua mente sobrea situacao (A)-(D), e que o problema formulado nela e um caso particular doproblema de estimacao da cauda. Este fato segue diretamente da observacaode que o ponto (F−1(p), p), p ∈ [0, 9; 0, 995], cujas posicoes e preciso encontrarpara responder a pergunta colocada no ıtem (D), faz parte da cauda de F (·) adireita de 0, 9 (veja Figura 1). Apesar da situacao (A)-(D) apresentar um casoparticular do problema de estimacao da cauda, certos argumentos relacionadosao metodo POT serao exibidos como se o metodo fosse aplicado para resolvero problema desta situacao. As desvantagens deste desvio de atencao do casogenerico – que e o problema da estimacao da cauda – para caso particular – quee o problema formulado na situacao (A)-(D) – sao mınimas, e compensadas,de sobra, por vantagens. As tres principais vantagens estao descritas abaixo.

A primeira vantagem e que na situacao (A)-(D) o problema esta formuladoem termos palpaveis como “investimento”, “retorno”, etc., o que facilita acompreensaop.

A segunda vantagem vem do fato de que a estimacao da cauda tem ob-jetivo bem especificado no ambito da situacao (A)-(D). Recordamos que esteobjetivo e o de encontrar as abcissas x tais que F (x) = p para valores es-pecıficos de p.1 Isto permite analisar a eficiencia do metodo POT e exibir

1O leitor pode perguntar:“ que outro objetivo poderia ser”? Tais existem. Por exemplo,o objetivo poderia ser a estimacao da esperanca matematica de excessos acima do limiar u.Esta esperanca e conhecida como “conditional value at risk”. Ela e usada para estimar riscos,porem, nao sera discutida no nosso trabalho. Se o objetivo fosse este, entao a importancia

5

Page 9: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

suas vantagens perante outros metodos que venham a ser usados para resolvero problema. Esta vantagem foi aproveitada na Sub-secao 2.3, que mostra osaspectos nos quais o metodo POT funcionaria melhor que dois outros metodosde abordagem do problema de estimacao da cauda. Podemos agora mesmoaproveitar esta vantagem para esclarecer o intuito da exigencia: “adequacaoda escolha do limiar u a aplicacao”, formulado em (P1). No ambito da situacao(A)-(D) esta “adequacao” significa que deve ser tomado cuidado para que useja menor que F−1(0, 9), uma vez que a questao (D) inquire sobre valores deF−1(p) para p maiores que 0, 9.

Por ultimo, a terceira vantagem esta no fato de que a situacao (A)-(D)surge frequentemente na pratica e possui aplicacoes importantes. Isto ocorreporque quando F (·) e a funcao de distribuicao do retorno com sinal “−” deum investimento, como discutido em (A)-(D), os valores de F −1(p) para pproximos ao 1 servem para medir o risco do investimento. Na verdade estesvalores sao perfeitos para comparar dois investmentos do ponto de vista deo quanto um e mais arriscado que outro. Ou, em outras palavras, ha umargumento rigoroso que justifica que F−1(·) e uma boa medida relativa dorisco. Nos ultimos anos, ela esta sendo usada tambem como uma medidaabsoluta de risco. Por exemplo, os recentes acordos da Basileia obrigam osbancos a usar F−1(p), para p entre 0, 9 e 0, 995, no calculo de suas reservasfinanceiras, o que evitaria a falencia no decorrer de eventos de perdas rarasmas muito severas. Neste caso alias, F (·) corresponderia a distribuicao deperdas, e nao a de retornos, como no caso da situacao (A)-(D), mas isto naoaltera essencialmente a aplicacao do metodo POT para a situacao do calculo dereservas financeiras comparada com a aplicacao deste metodo para a situacao(A)-(D).

Falta entao so explicarmos como e porque na situacao (A)-(D) o risco doinvestimento pode ser expresso por F−1(p). Para tal, observe primeiramenteque devido ao postulado (A) da situacao (A)-(D), F −1(p) e o limiar acima doqual o valor do retorno diario com sinal “−” nao ultrapassara com confiancap (a palavra “confianca” e sinonimo de “probabilidade” e e muito popular nalingua coloquial, motivo de ser usada aqui). A Figura 1 ilustra esta afirmacaocom uma clareza que dispensa maiores explicacoes. Observe tambem, quedevido a definicao de retorno, temos que um investimento de, digamos R$100,

deveria ser dada a precisao da estimativa da esperanca como um todo, e nao a precisao daestimativa de cada ponto especıfico da cauda de F (·).

6

Page 10: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

sera igual a R$100e−x no dia seguinte2 caso o valor do retorno com sinal “−”neste dia seja x. Quando x esta proximo de 0 – o que occore quase semprepara investimentos financeiros de horizonte de um dia – podemos aproximare−x por 1 − x. Com isto a expressao do valor do investimento no dia seguintetorna-se R$100(1−x). Finalmente, observe que no caso de F −1(p) ser positivo,os valores acima de F−1(p) correspondem aos valores negativos do retorno, ouseja, as perdas. Juntando entao as tres observacoes do presente paragrafo como pressuposto de que F−1(p) e positivo para p ≥ 0.9, chegamos a seguinteinterpretacao para F−1(p) no ambito da situacao (A)-(D): “com confianca po investimento nao perdera num dia mais que 100 · F −1(p)% do seu valor”. Eobvio que a mesma frase pode ser formulada da seguinte forma: “o risco doinvestimento perder mais que 100 · F−1(p)% do seu valordurante um dia e de1 − p”. E isto, por fim, revela o significado de F−1(p) em termos de risco deinvestimento, como descrito em (A)-(D).

Fecharemos esta sub-secao com o lembrete de que a situacao (A)-(D) serao problema da estimacao do risco no decorrer do nosso trabalho.

2.3 Sobre as particularidades do problema que exigem elab-oracao de metodos especıficos para sua solucao

Como tinhamos afirmando diversas vezes ate agora, o metodo POT e umaabordagem especıfica elaborada para resolver o problema de estimacao dacauda. Na presente sub-secao indicaremos ao leitor quais sao as particulari-dades do problema que demandam por uma abordagem abordagem especıfica.Para isto, faremos o seguinte: tomaremos um caso particular da funcao F (·),geraremos dela uma amostra x1, . . . , xn, e estimaremos a cauda de F (·) a par-tir desta amostra. A estimativa sera realizada por dois metodos. Estes saosimples e funcionam bem em muitas situacoes reais. Provavelmente por issoseriam os primeiros candidados naturais empregados na abordagem do prob-lema de estimacao da cauda. Mostraremos as deficiencias das solucoes obtidaspor estes metodos e revelaremos as razoes. Isto indicara aos leitores as partic-ularidades intrınsicas do problema de estimacao da cauda que dificultam suasolucao.

Designaremos por K(·) a funcao de distribuicao construıda da seguintemaneira:

2Assumimos aqui que taxa de juros livre de risco e 0.

7

Page 11: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

1.28

0.91

(a)

0

1

(b)

0

1

(c)

1.28

0.91

(d)

Figura 2: A funcao de distribuicao K(·) e a ilustracao de sua construcao. O proced-

imento que gera esta funcao esta apresentado no comeco da Sub-secao 2.3.

(1) Tomamos a funcao da distribuicao Normal Padrao e descartamos a partedo seu grafico que fica a direita do ponto (1.28, 0.9) (veja Figura 2(a)).

(2) Tomamos a funcao da forma (veja Figura 2(b))

G(x) = 1 − (1 + x)−1, definida para x ≥ 0, (1)

multiplicamos esta por 0.1 (Figura 2(c)), e substituımos a parte descar-tada da distribuicao normal (Figura 2(d)).

Tomemos agora esta funcao de distribuicao K(·) para a construcao de umaamostra aleatoria de tamanho n = 200. Denotaremos os valores da amostra

8

Page 12: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

simbolicamente por x1, . . . , xn; os verdadeiros valores sao apresentados pelafuncao de distribuicao amostral, construıda com base neles, que esta na Figu-ra 3(a).

Vamos agora resolver o problema da estimacao do risco (isto e, o problemadescrito em (A)-(D) da sub-secao anterior) para a amostra gerada. Claro quedurante a solucao nao levaremos em conta a verdadeira K(·). Mas depois deter obtido a solucao voltaremos a expressao de K(·) e analisaremos a precisaoda solucao obtida.

Recorde que o problema da estimacao do risco e o de estimar K−1(p)para valores de p no intervalo [0, 9; 0, 995]. Nossa primeira solucao tenta entaoestimar os valores desconhecidos de K−1(p) por K−1(p), onde K(·) e a funcaode distribuicao amostral construıda com base na amostra x1, . . . , x200 (a funcaoK(·) esta nos dois desenhos em cima da Figura 3). Vejamos a qualidade danossa resposta para, por exemplo, p = 0.95. Para tal, e precisa lembrar ofato3 de que, ja que o tamanho de nossa amostra e 200, entao K(·) faz umsalto de altura 1

200 em cada ponto da amostra. Portanto, K(·) alcanca aaltura 0.95 no 190-esimo ponto da amostra, contando do menor para o maior.Tambem, K(·) possui “patamar” de altura 0, 95 entre este ponto e o proximo.No caso da nossa amostra, o 190-esimo valor e 3.87 enquanto que o 191-ovalor e 7.8. Isto significa que K−1(0.95) pode ser entendido como qualquervalor entre 3.87 e 7.8, ou, em outras palavras, se formos nos basear na K−1(·)para estimar K−1(·), entao so poderemos alegar que este valor pertence aointervalo [3.87, 7.8]. Esta precisao e ruim para aplicacoes praticas (sobre asquais nao versaremos aqui). Note tambem que o comprimento do intervalo deestimacao de K−1(p) cresce com o aumento de p, pois quanto mais proximosos pontos da amostra estiverem do valor maximo da amostra, mas afastadosentre si estes valores serao. Em outras palavras, a precisao de estimativa deK−1(p) por K−1(p) piora conforme p se aproxima ao 1.

A discussao apresentada no paragrafo acima exemplifica as limitacoes dafuncao de distribuicao amostral na estimativa da cauda de uma desconhecidafuncao de distribuicao a partir de sua amostra. A inadequacao vem, comomostrado, da perda de precisao. Esta por sua vez, e consequencia da seguintepropriedade, tıpica para o problema de estimacao da cauda:

3Todos os fatos, usados nos argumentos deste paragrafo, decorrem das propriedades defuncoes de distribuicao amostral.

9

Page 13: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0

0

0 a b 10

0.95

?3.3

0.95

Figura 3: Os dois desenhos acima exibem K(·), a funcao de distribuicao amostral

construıda com base nos 200 pontos retirados da funcao de distribuicao K(·). A

funcao K(·) e exibida ate o 192-o ponto da amostra. Os dois desenhos abaixo expoem

o 0.95-quantil de K(·) (o desenho a direita), e a estimacao deste quantil com uso de

K(·). O desenho a esquerda mostra que o 0.95-quantil pode ser qualquer abcissa do

patamar de K(·) na altura 0.95. Este patamar encontra-se entre o 190-esimo e o 191-o

ponto da amostra, cujos valores, no caso amostra gerada, sao a = 3.87 e b = 7.8.

10

Page 14: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Propriedade 1: Se F (·) for uma funcao de distribuicao, cuja cauda direitanunca toca o nıvel 1, e se x1, . . . , xn for uma amostra retirada destafuncao onde x(1), . . . , x(n) designa essa mesma amostra ordenada – domenor para maior – , entao tipicamente a distancia entre x(k) e x(k−1)

aumenta conforme k aproxima-se a n.

A segunda solucao do problema formulado acima (isto e, do problema daestimacao do risco com a amostra x1, . . . , x200 gerada da funcao K(·)), quepretendemos apresentar e analisar, e consequencia da seguinte abordagem:entre todas as funcoes de distribuicao normal, encontre aquela que melhoradere a amostra x1, . . . , x200, e use sua cauda como aproximacao da cauda deK(·). Os criterios de aderencia sao varios. Usaremos um dos mais simples.Segundo este, entre as funcoes de distribuicao normal a que melhor se aderea uma dada amostra e aquela cuja media e desvio padrao coincidem com amedia e o desvio padrao da amostra. Os valores destas para a amostra doproblema aboradado sao µ = 0.7 e σ = 5.69. Designaremos por Φ0.7, 5.69(·) acorrespondente funcao da distribuicao normal. Ela esta desenhada na Figura 4.Conforme nossa programacao, devemos tomar Φ−1

0.7, 5.69(p) como a estimativa

de K−1(p) para os valores de p do problema da estimacao do risco. A Figura 4mostra uma grande discrepancia entre os valores verdadeiros e suas estimativasquando p esta no intervalo [0, 9; 0, 995]. E facil entender o que nos enganou.Acontece que a maioria dos pontos da amostra veio da parte ”normal” deK(·) e nos fez acreditar que toda a funcao K(·) fosse muito parecida com adistribuicao normal.4 Porem, os poucos pontos da amostra que originaramda cauda direita de K(·) sao tıpicos para cauda de uma distribuicao que ediferente da cauda da distribuicao normal. Estes pontos contribuiram paraa variancia amostral ter um valor relativamente grande comparado com acontribuicao que haveria caso os pontos viessem da cauda normal. Tudo issoresultou na construcao de uma funcao-aproximador que nao se ajustou bemao miolo da distribuicao K(·) (a parte de K(·) a esquerda do ponto de solda0.9), nem a sua cauda (a parte de K(·) a direita de 0.9). Apresentaremos arazao deste “fracasso” de forma generica, para que possamos nos referir a estano futuro:

4O teste estatıstico, que poderia ser utilizado aqui para a identificacao da “normalidade”de K(·) a partir da sua amostra, nao sera discutido.

11

Page 15: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 10

1

0 10

1

Figura 4: O desenho a esquerda apresenta a funcao de distribuicao amostral k(·)construıda com base em amsotra de 200 valores retirada da funcao de distribuicao

K(·). Recorde que K(·) coincide com uma distribuicao normal ate o ponto 1.28.

Esta funcao de distribuicao normal esta apresentada junto com K(·). No desenho

a direita, desenhamos K(·) e a funcao da distribuicao normal cuja media e devio

padrao coincidem com a media e o desvio padrao de K(·). O desenho mostra que

esta distribuicao normal e a funcao K(·) sao bastante distintas. Em particular, a

discrepancia e grande tambem na cauda direita, o que ilustra o fato que a construcao

de aproximador de cauda nao pode contar com todos os pontos de amostra.

12

Page 16: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Propriedade 2: A cauda de uma funcao de distribuicao F (·) a direita de umaabsissa u pode ser parecida com parte de uma funcao, que nada tem a vercom as outras partes de F (·). Porem, o valor de u pode ser tao grandeque havera pouquıssimos pontos da amostra de F (·) que “vieram” desua cauda a direita de u. Conclui-se entao que outros pontos da amostranao poderiam ter uma forte influencia na inferencia sobre a forma destacauda.

13

Page 17: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

3 O que e metodo POT, o que pretendemos exporsobre ele e porque

Foi ressaltado em outras passagens que o metodo chamado POT – recorde:“POT” e a abreviacao de ”Peaks Over Threshold--, o objeto de nossa ex-posicao, e uma abordagem especıfica ao problema da estimacao de cauda. Esteproblema foi formulado em (P1) na secao anterior, que tambem encarregou-sede explicar as dificudades intrınsecas ao problema que exigem a aplicacao demetodos especıficos para sua solucao. O metodo POT e um deles.

As proximas secoes apresentam e analisam o metodo. Infelizmente naofoi possıvel encontrarmos uma maneira sucinta e eficaz de construcao e jus-tificacao do metodo POT. (Talvez a inexistencia de tal caminho seja a razaoprincipal da imensidade de equıvocos nas suas aplicacocoes). Em particular nonosso trabalho ha construcoes matematicas complicadas, que fomos obrigadosa apresentar para falarmos do metodo em si. Para que o leitor nao se percanos argumentos descritos nas proximas secoes, decidimos antecipa-los por umaapresentacao sucinta do metodo POT e da estrutura dos nossos futuros argu-mentos que justificam-o detalhadamente. Esta apresentacao e o conteudo dapresente secao.

Com o termo “metodo POT” estaremos nos referindo ao procedimento queexecuta as duas tarefas descritas abaixo, onde a unica informacao disponıvelna execucao das tarefas e a amostra x1, . . . , xn, que proveio de uma funcao dedistribuicao F (·) desconhecida.

(a) Escolher um valor uopt, denominado limiar otimo, a direita do qual sera es-timada a cauda da desconhecida funcao F (·). A escolha de uopt e guiadapor algumas propriedades de F (·) “extraıdas” com base em sua amostra,e tambem por consideracoes a respeito da eficiencia dos metodos es-tatısticos empregados no passo (b).

(b) Construir uma aproximacao para a cauda de F (·) a direita de uopt, usandouma das seguintes funcoes:

para todos α > 0, 1 − 1

(1 + x)α, definida no semi-eixo x ≥ 0, (2)

1 − e−x, definida no semi-eixo x ≥ 0, (3)

para todos γ > 0, 1 − (1 − x)γ , definida no intervalo x ∈ [0, 1].(4)

Na construcao do aproximador e permitido esticar/esprimir a funcao

14

Page 18: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

escolhida nas direcoes vertical e horizontal, e desloca-la por qualquervetor no plano euclidiano R2.

Note que o procedimento (a)-(b) foi modelado para lidar com as dificul-dades intrınsicas ao problema da estimacao de cauda. De fato, no passo (a), ometodo preocupa-se com a identificacao do comeco da cauda, e no passo (b),ele leva o problema de estimacao ao campo de estatıstica parametrica, umavez que para executa-lo e preciso estimar os valores numericos dos parametros:

α ou γ, que indica qual das funcoes da famılia (2-3-4) sera usada (concor-damos que α = 0 ou γ = 0 aponta para a funcao (3));

as constantes de reescala ao longo dos eixos vertical e horizontal;

as coordenadas do vetor de deslocamento.

Aquele leitor que nao se preocupar com a justificativa do porque o pro-cedimento resulta em uma funcao-estimador de cauda, pode acompanhar aSecao 7, que apresenta uma das possıveis estrategias de execucao de (a)-(b),e a Secao 8, que apresenta exemplos da aplicacao desta estrategia.

Porem, nosso texto se preocupa tambem com aqueles leitores que gostariamde entender

(i) porque o procedimento (a)-(b) e capaz de construir bom aproximador paracauda de uma funcao F (·) a partir de sua amostra;

(ii) se o procedimento pode ser aplicado a qualquer F (·).

Estas questoes tem sua razao de existir – daı nossa preocupacao –, pois osaproximadores tem como base um conjunto de funcoes muito simples: saoramos horizontais de hiperboles (as funcoes (2)), a funcao de distribuicao ex-ponencial (a funcao (3)), e os ramos de parabolas (as funcoes (4)).

A justificativa do porque as funcoes (2-3-4) sao capazes de gerar aproxi-madores de caudas e o que denominaremos por ideia do metodo POT, e quesera apresentada na Secao 6. A ideia decorre de um resultado provado porPickands ([6]), que revela a relacao entre duas famılias de funcoes de dis-tribuicao: a chamada Distribuicoes de Valores Extremos e a chamada de Dis-tribuicoes de Pareto generalizadas. O Teorema de Pickands esclarece que aque-las funcoes de distribuicao, cujas caudas podem ser satisfatoriamente aproxi-madas pelas distribuicoes de Pareto generalizadas, sao precisamente as funcoes

15

Page 19: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

que se encontram nos domınios de atracao das Distribuicoes de Valores Ex-tremos. Este teorema soluciona entao as duas duvidas principais que surgiramacima:

(i) o teorema justifica o procedimento (a)-(b), pois as funcoes (2-3-4), quefiguram nele, sao as funcoes-geradoras das distribuicoes de Pareto gen-eralizadas;5

(2) o teorema carateriza as funcoes cujas caudas podem ser aproximadas pelometodo POT.

Dada a importancia do Teorems de Pickands, optamos por apresenta-lo, porem,sem a demostracao. Para tal, precisavamos introduzir as distribuicoes dePareto generalizadas a apresentar o conceito de domınio de atracao de umadistribuicao de valores extremos. A primeira destas tarefas sera realizadana Secao 4, e a segunda na Secao 5. Notamos que a Secao 5 e uma sus-cinta exposicao da Teoria de Valores extremos, pois a explicacao do conceitode domınio de atracao de uma distribuicao de valores extremos requer a in-troducao de muitos outros conceitos e resultados basicos desta teoria. Depoisdas Secoes “introdutorias” 4 e 5 vira a Secao 6 que explicara a ideia do metodoPOT. Depois desta, voltaremos a nossa atencao para a execucao da ideia dometodo, isto e, do procedimento (a)-(b). Esta ideia pode ser feita de diver-sas maneiras. Uma delas, e a mais usada na atualidade, sera detalhadamenteapresentada e discutida na Secao 7. O funcionamento desta abordagem emcasos reais esta exibida na Secao 8. A discussao sobre o metodo POT seraconcluıda na Secao 9, que e formada de avisos sobre “os equıvocos que vocepoderia cometer ao explicar e/ou usar o metodo POT”, que nao foram men-cionados e desvendados nas secoes ateriores a esta. Depois desta secao, hasecao de exercıcios – util no caso em que o texto for usado como materialdidatico –, depois temos entao o Apendice, que contem os programas de com-putacionais usados no tratamento de dados reais (apresentados na Secao 8).Finalmente apresenta-se a secao com as referencias – onde so nos preocupamoscom as principais, uma vez que as demais podem ser encontradas nas secoesbibliograficas das referencias mencionadas.

5Isso significa que cada distribuicao de Pareto generalizada e igual a f( x−ba

) para alguma > 0, b ∈ R e f do conjunto (2-3-4); esta igualdade vale somente naqueles pontos onde osvalores da distribuicao sao diferentes de 0 e 1.

16

Page 20: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

4 O primeiro pilar do embasamento teorico do metodoPOT: a famılia de distribuicoes de Pareto gener-

alizadas

Conforme afirmamos acima, a ideia do metodo POT surge da relacao entrea famılia de funcoes, chamadas distribuicoes de Pareto generalizadas, e asfuncoes que se encontram no domınio de atracao das distribuicoes de valoresextremos. A presente secao destina-se a definicao das distribuicoes de Paretogeneralizadas.

Chama-se distribuicao de Pareto generalizada (GPD6 devido a seu equiva-lente em Ingles “Generalized Pareto Distribution”) a funcao que tem uma dasformas (10), (11), (12) apresentadas em seguida. As funcoes das formas (10)e (11) foram estudadas por Pareto – daı o termo “distribuicoes de Pareto” nonome dado a elas. Ja a forma (12) pode ser vista como uma generalizacao dasformas (10) e (11) – daı o acrescimo do termo “generalizadas”.

Antecipando a definicao de uma GPD, notamos que a expressao destafuncao possui tres parametros, que serao denotados por ξ, β e s. No nossoponto de vista a influencia desses parametros no formato da GPD e maissimples de ser entendida quando a construcao das GPDs e realizada em duasetapas: uma na qual controi-se GPDs com β = 1 e s = 0 – tais GPDs saochamadas GPDs padrao; outra onde mostra-se como as GPDs padrao podemser transformadas para se obter todas as outras possıveis GPDs. Este caminhofoi adotado na nossa apresentacao. A primeira etapa sera realizada na Sub-secao 4.1 e a segunda etapa na Sub-secao 4.2.

4.1 Distribuicoes Padrao de Pareto generalizadas

As funcoes chamadas distribuicoes padrao de Pareto generalizadas7 (abrevi-adas por GPDs padrao no texto) distinguem-se uma da outra pelos diferentesvalores de um unico parametro, que sera designado por ξ, e que pode assumirqualquer valor real. A GPD padrao com valor ξ > 0 tem a seguinte forma(veja Figura 5):

Gξ(x) =

{0, para x < 0,

1 − (1 + ξx)−1/ξ , para x ≥ 0.

(esta formulavale quando ξ > 0

)(5)

6Observe que abreviaremos “distribuicao de Pareto generalizada” por GPD, enquantoque “distribuicoes de Pareto generalizadas” serao abreviadas por GPD’s.

7Standard generalized Pareto distributions em Ingles.

17

Page 21: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

A GPD padrao com valor ξ = 0 tem a seguinte forma8 (veja Figura 5):

G0(x) =

{0, para x < 0,1 − e−x, para x ≥ 0.

(esta funcaocorresponde a ξ = 0

)(6)

A GPD padrao com valor ξ < 0 tem a seguinte forma (veja Figura 5):

Gξ(x) =

0, para x < 0,

1 − (1 + ξx)−1/ξ, para x ∈ [0,− 1ξ ],

1, para x > − 1ξ .

esta formulavale quandoξ < 0

(7)

Quanto as funcoes de densidade das GPD’s padrao, destacamos que elasocuparao papel secundario em nossas futuras exposicoes. Apesar disso, de-cidimos destinar uma pequena parte do trabalho as funcoes de densidade. Naformula (8) temos suas expressoes analıticas e nas Figuras 6 e 7 suas formasgeometricas:

fξ(x) = (a funcao de densidade de Gξ(·)) =dGξ(x)

dx=

=

(1 + ξx)−1−1/ξ para x ≥ 0, e 0 para outros x, quando ξ > 0e−x para x ≥ 0, e 0 para outros x, quando ξ = 0

(1 + ξx)−1−1/ξ para x ∈ [0,−1/ξ], e 0 para outros x, quando ξ < 0

(8)

Comentario 3. Cada GPD padrao e “parente” de uma hiperbole, uma parabola,ou uma funcao exponencial.

Caso ξ > 0, o grafico da GPD padrao Gξ(·) no semi-eixo [0;+∞) e apenaso ramo direito da hiperbole 1/(x1/ξ) que foi refletido, deslocado e re-escaladopara que a hiperbole passasse pelo ponto (0, 0) e se aproximasse do nıvel 1quando x → ∞. Para aqueles interessados em entender como a reflexao, odeslocamento e a re-escala sao “codificados” na expressao de Gξ(·), recomen-damos a leitura do Fato 1 da proxima sub-secao (notamos que Exercıcio 2aborda este assunto).

8Nos comentarios 3 e 4 ha uma discussao detalhada a respeito desse caso especial, umavez que aqui a expressao da distribuicao, G0, nao contem explicitamente o parametro ξ.

18

Page 22: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 0.5 1 2 4

1

xi=−4

xi=−2xi=−1

xi=−1/2 xi=−1/4xi=0

xi=1

xi=2

xi=3

Figura 5: O formato da GPD padrao com diversos valores do parametro ξ (veja o

Comentario 3).

19

Page 23: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 1 2 3 4 50

1

xi=0

xi=1

xi=3

Figura 6: Funcoes de densidade de GPD’s padrao com ξ ≥ 0.

20

Page 24: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 0.5 1 1.5 2 4 50

xi=−4

xi=−2

xi=−1

xi=−2/3 xi=−1/2 xi=−1/4

Figura 7: Funcoes de densidade de GPDs padrao com ξ < 0.

21

Page 25: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

No caso ξ = 0, a correspondente GPD padrao e exatamente a funcao dedistribuicao exponencial de parametro 1. Lembramos ao leitor a nomenclaturacomumente usada para distribuicoes exponenciais: A funcao que vale 0 parax < 0, e vale 1 − e−λx para x ≥ 0, denomina-se “distribuicao exponencialde parametro λ”. Quando λ = 1, esta funcao chama-se simplesmente “dis-tribuicao exponencial” – termo que usaremos. Apesar disso alguns autorespreferem usar o nome “distribuicao exponencial padrao” quando λ = 1.

O caso ξ < 0 e mais “complexo” que os casos ξ > 0 e ξ = 0, uma vez quea forma de Gξ(·) e radicalmente transformada em consequencia da passagemdo valor de ξ de 0 a −∞. A Figura 5 ilustra o caso −1 < ξ < 0, onde a funcaoGξ(·) comporta-se no intervalo [0,−1/ξ] como funcao-potencia de x, isto e,como xa para a > 0. Ainda neste caso, Gξ(·) aproxima-se suavemente do nıvel1, o que significa que sua derivada vale 0 no ponto onde ela toca o nıvel 1.Esta propriedade da derivada esta ilustrada na Figura 7. No caso ξ = −1, acorrespondente GPD padrao cresce linearmente entre as abcissas 0 e 1, ali aGPD padrao apresenta “quebra” no ponto onde toca o nıvel 1 (veja Figura 5).Finalmente, no caso ξ < −1, a GPD padrao se comporta como uma hiperboleno intervalo [0;−1/ξ] (ou seja, como xa para a < 0). Neste caso tambem ha“quebra” do grafico da funcao no ponto em que o grafico toca o nıvel 1 (vejaFigura 5).

Observemos ainda que no caso ξ < 0 a funcao de densidade pode apresentarcinco padroes diferentes, apresentados na Figura 7.

Comentario 4. Depois do Comentario 3 esclarecer que a GPD padrao correpon-dente ao valor 0 para o parametro ξ e simplesmente a distribuicao exponencial,qualquer leitor faria a seguinte pergunta: “Por que a distribuicao exponencialfoi atribuido valor 0 para o parametro ξ? Ora, nao ha “0” ou “ξ” na formuladesta funcao de distribuicao!” O presente comentario responde esta pergunta.

Acontece que foi necessario colocar a funcao de distribuicao exponencialno mesmo “saco” onde ficam as funcoes do tipo (5) e (7). A razao destanecessidade e o fato de tanto estas funcoes quando a da distribuicao expo-nencial servirem – do ponto de vista do metodo POT – para a aproximacaode caudas (este fato sera formalizado e discutido em detalhes na Secao 6).Pela mesma razao, era desejavel indexar todas as funcoes deste “saco”. Aindexacao das funcoes do tipo (5) e (7) e natural: o ındice de qualquer umadestas funcoes e seu proprio valor do parametro ξ. Com isto o valor 0 parao parametro ξ torna-se livre (simplesmente porque nao podemos ter ξ = 0 naexpressao 1 − (1 + ξx)−1/ξ das formulas (5) e (7)). Este valor livre foi entao

22

Page 26: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

atribuıdo ao novo membro do “saco”, isto e, a distribuicao exponencial. Noteque esta atribuicao e puramente semantica, pois, de fato, nao ha ξ na formulada distribuicao exponencial. Em palavras simples, a “atribuicao semantica”se traduz no seguinte acordo: se eu lhe pedir a GPD padrao correspondente,por exemplo, a ξ = 2, sua resposta sera: “1 − (1 + 2x)−1/2”, enquanto que seeu lhe pedir a GPD padrao correspondente a ξ = 0, sua resposta sera: “e afuncao de distribuicao exponencial, ou seja, 1 − e−x”.

O leitor, que concordou com a logica dos argumentos do paragrafo ante-rior, pode agora argumentar: “Sao, na verdade, tres valores de ξ que nao sao“aproveitados” para a indexacao das funcoes do tipo (5) e (7); estes sao 0, ∞ e−∞. Entao ha razao para que seja 0 e nao ∞ ou −∞ o ındice atribuıdo a dis-tribuicao exponencial?”Sim, existe. Esta razao e o fato da funcao exponencialser o limite das funcoes 1 − (1 + ξx)−1/ξ conforme ξ → 0 (veja Exercıcio 6).

4.2 Distribuicoes de Pareto generalizadas

Como foi dito, o metodo POT constroi aproximacoes para a cauda de certasdistribuicoes. Ate aqui a impressao e de que essas aproximacoes sao realizadaspelas GPDs padrao, mas isso e incorreto. E da famılia das distribuicoes dePareto generalizadas (GPDs), e nao da famılia de GPDs padrao, que o metodoPOT realmente precisa. As GPDs serao construıdas nesta sub-secao a partirdas GPDs padrao e, para que a essencia desta construcao fique bem clara,comecaremos com dois fatos bem conhecidos.

Fato 1. Seja f(x), x ∈ R, uma funcao arbitraria qualquer, d e c duas constantesquaisquer, sendo que c > 0. Construiremos uma nova funcao g(·) via g(x) =f(

x−dc

), x ∈ R.

O objetivo do presente comentario e apresentar o seguinte fato: o grafico dafuncao g(·) pode ser obtido do grafico da funcao f(·) via as duas transformacoes(veja na Figura 8 estas transformacoes para o caso particular quando f(x) =ex):

(1) esticar c vezes o grafico de f(·) ao longo do eixo x;

(2) deslocar por d unidades a direita o grafico obtido no ıtem anterior.

Que (1)-(2) de fato transformam f(·) em g(·) pode ser justificado da seguintemaneira: Escolha um ponto (x, y) no grafico de f(·) e pergunte: qual deveser xnovo para que g(xnovo) = y? Suponha, para facilitar a conta, que f(·) euma funcao um-a-um. Entao vale que: g(xnovo) = y ⇔ f

(xnovo−d

c

)= y ⇔

23

Page 27: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

x xnovo

3

3

3~ ~

f(x)

f(x/2)

f((x−3)/2)

Figura 8: Esta figura ilustra o conteudo do Fato 1 para o caso particular em que

f(x) = ex e as constantes c e d valem 2 e 3, respectivamente. O grafico de f(x/2) e

obtido do grafico de f(x) esticando este 2 (duas) vezes na direcao horizontal. Por sua

vez o grafico de f(

x−32

)e obtido do grafico de f(x/2) pelo deslocamento horizontal

de 3 (tres) unidades.

f(

xnovo−dc

)= f(x) ⇔ xnovo = c · x + d. A ultima igualdade diz entao que

xnovo e obtido quando x e multiplicado por c e acrescenta-se d ao resultadoda multiplicacao. Isto justifica que (1)-(2) transformam f(·) em g(·) (vejaFigura 8).

Fato 2. Seja X uma variavel aleatoria arbitraria. Para duas constantes ar-bitrarios d e c > 0, defina uma nova variavel aleatoria Y = cX + d. Designepor FX(·) e FY (·) as funcoes de distribuicao de X e de Y , respectivamente.

24

Page 28: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Segue das construcoes e definicoes do paragrafo acima que

FY (x) = IP [Y ≤ x] = IP [cX + d ≤ x] = IP[X ≤ x−d

c

]=

= FX

(x−d

c

), ∀x ∈ R.

(9)

A relacao (9) juntamente com o Fato 1 sustenta que se a funcao de dis-tribuicao de uma variavel aleatoria X for transformada via os passos (1)-(2)do Fato 1, o resultado sera uma nova funcao de distribuicao. Ainda mais, sedesignarmos por Y a variavel aleatoria distribuida conforme esta nova funcaode distribuicao, Y e X se relacionam via Y = cX + d. Fim do Fato 2

Agora passaremos a decrever a famılia de distribuicoes de Pareto general-izadas, (abreviadas por GPD’s). Neste caso a distincao entre as GPD’s e feitapor tres parametros, ξ, β e s, sendo que ξ e s podem assumir qualquer valorreal e β apenas valores reais positivos. A GPD com ξ > 0 tem a forma:

Gξ,β,s(x) =

{1 −

(1 + ξ x−s

β

)−1/ξ, para x ≥ s,

0, para x < s,

(esta valequando ξ > 0

)(10)

enquanto que a GPD com ξ = 0 e dada por:

G0,β,s(x) =

{1 − e

−x−sβ , para x ≥ s,

0, para x < s,

(estacorresponde a ξ = 0

)(11)

finalmente a GPD que corresponde a ξ < 0:

Gξ,β,s(x) =

0, para x < s,

1 − (1 + ξ x−sβ )−1/ξ , para x ∈ [s, s − β

ξ ],

1, para x > s − βξ ,

esta formulavale quandoξ < 0

(12)A transformacao descrita nos passos (1)-(2) do Fato 1 deixa claro que

qualquer GPD com parametros ξ, β e s e obtida da GPD padrao de mesmovalor ξ, com c = β e d = s, ou, especificamente falando, o grafico da GPDcom parametros ξ, β e s e o grafico da GPD padrao com parametro ξ aposeste ser esticado β vezes ao longo do eixo x e deslocado na direcao horizontalpor s unidades. Este fato justifica os nomes atribuıdos aos parametros βe s: o parametro β chama-se parametro de escala, enquanto o parametro se o parametro de deslocamento ou de locacao. O parametro ξ leva o nome

25

Page 29: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

ındice de cauda ou parametro de forma.9 Este ultimo talvez nao seja o nomemais adequado, pois pode insinuar que a forma da distribuicao Gξ,β,s dependesomente de ξ. De fato este nome tem origem na relacao entre as GPD’s e asdistribuicoes de valores extremos, relacao que sera discutida na Sub-secao 6.5,onde o nome parametro de forma sera justificado.

A relacao entre a GPD com parametros ξ, β e s e a GPD padrao de mesmoparametro ξ pode ser vista, com a ajuda do conteudo do Fato 2, em termosda relacao entre as variaveis aleatorias correspondentes a estas distribuicoes:considerando Y uma variavel aleatoria com distribuicao Gξ,β,s(·) e X umavariavel aleatoria com distribuicao Gξ(·), entao X e Y sao tais que Y = βX+s.Esta relacao pode ser util a quem costuma pensar na funcao de distribuicao emtermos da variavel aleatoria que possui tal distribuicao. A relacao obtida dizque se tomarmos X distribuıda conforme uma GPD padrao com parametroξ, multiplicarmos esta por β e acrescentarmos s, entao a variavel aleatoriaresultante tera distribuicao GPD com parametros ξ, β e s.

4.3 Caudas finitas e infinitas e sua relacao com a exposicao

Na maior parte da exposicao a seguir, sobre o funcionamento do metodo POTpara solucao do problema de estimacao de cauda de uma distribuicao F (·),assumiremos que a cauda da distribuicao desconhecida, F (·), seja infinita.Este pressuposto e suas consequencias serao cuidadosamente analisados napresente sub-secao.

O supreendente surgimento da discussao de finitude/infinitude de caudassecao destinada a construcao de GPD’s tem duas justificativas: em primeirolugar as GPD’s servirao como exemplos ilustrativos para a explicacao dosconceitos “cauda finita” e “cauda infinita”; em segundo lugar, esta discussaojustificara porque as GPD’s com cauda infinita terao maior atencao que as decauda finita em nossa apresentacao.

Comecaremos nossos exposicao com o esclarecimento dos conceitos “caudafinita” e “cauda infinita” de uma distribuicao.

A palavra “cauda” possui duas interpretacoes. A primeira e aquela expli-cada na Secao 2: a cauda de F (·) a direita de u e a parte do seu grafico adireita da abcissa u. Se aceitarmos esta interpretacao, entao a cauda de qual-quer funcao de distribuicao so pode ser infinita, visto que o grafico de umafuncao de distribuicao nunca “termina”. A outra interpretacao considera que

9Shape parameter em Ingles.

26

Page 30: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

a cauda de F (·) a direita de u e formada pelos pontos do seu grafico a direitada abcissa u que nao pertencem a reta horizontal y = 1. E esta interpretacaoque deve ter-se em mente quando dissermos “cauda finita” ou “cauda infinita”.Vejamos dois exemplos.

Observe a funcao Gξ(·) com ξ = −1/4 apresentada na Figura 5. Ela “toca”o nıvel 1 no ponto x = 4 e, apos isso, e sempre igual a 1. Neste caso diz-seque a funcao de distribuicao tem cauda direita finita. Usaremos o termo maiscurto cauda finita, pois em todo o trabalho analisaremos somente caudas adireita. Para facilitar expressoes formais, introduziremos o sımbolo xF , quedesigna o fim da cauda da distribuicao F (·), ou seja, a abscissa do ponto emque F (·) toca o nıvel 1. Por exemplo, na Figura 5, temos que xGξ

= −1/ξpara ξ < 0.

Considere agora a funcao da distribuicao exponencial apresentada na Figura 5.Ela nunca toca o nıvel 1 (simplesmente porque nao existe x ≥ 0 tal que1−e−x = 1). Neste caso a funcao de distribuicao possui cauda direita infinita.Usaremos o termo simplificado cauda infinita devido as razoes ja explicadasacima. A fim de aproveitar as mesmas formulas tanto para funcoes de caudafinita quanto para as de cauda infinita, assumiremos que xF e igual ∞ quandoF (·) possui cauda infinita. Fim do comentario.

Comentario 5. A cauda direita de uma funcao de distribuicao tem relacao como fato dos valores da variavel aleatoria, que possui esta distribuicao, seremlimitados ou nao: se F (·) possuir cauda direita finita, entao a variavel aleatoriaX, distribuıda conforme F (·), sera limitada por cima e o limite superior seraigual a xF , ou seja, IP [X ≤ xF ] = 1; ja se F (·) possuir cauda direita infinita,entao a variavel aleatoria X, distribuıda conforme F (·), nao sera limitada porcima, o que significa que nao existe um numero finito M tal que IP [X ≤ M ] =1.

Como dissemos no comeco desta subsecao, assumiremos o seguinte pressu-posto

Pressuposto 1: A cauda de F (·) e infinita.

Na presente sub-secao explicaremos as razoes da aceitacao deste pressuposto,alem de revelaremos e discutirmos os aspectos relacionadas a esta aceitacao,importantes para quem deseja usar o metodo POT na pratica.

Da aceitacao do Pressuposto 1 surgem diversas duvidas, das quais as tresseguintes sao, ao nosso ver, as principais – elas serao cuidadosamente respon-didas no restante da presente sub-secao. As tres duvidas sao:

27

Page 31: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(a) Na pratica e preciso aceitar cegamente o tipo de cauda de F (·) antes deaproximar esta cauda pelo POT, ou existem procedimentos que indicam se acauda e finita ou infinita?(b) Quais sao as vantagens obtidas quando se assume o Pressuposto 1? Hatambem desvantagens? Se sim, no que isto prejudica o leitor?(c) Porque escolhemos trabalhar com a caso de cauda infinita e nao com ocaso cauda finita?

A resposta a pergunta (a) e a mais facil. Se temos uma amostra de umafuncao de distribuicao F (·) desconhecida, entao podemos inferir, a partir deuma amostra sua, se a cauda de F (·) e finita ou infinita. Esta tarefa e dele-gada a atual Teoria de Valores Extremos, que fornece diversos procedimentosestatısticos que fazem esta inferencia. Observamos que alguns destes procedi-mentos fazem parte do proprio metodo POT, isto e, ha execucoes do metodoque fornecem a aproximacao da cauda de F (·) juntamente com “sua” opiniaosobre finitude/infinitude; ha tambem outros procedimentos nao relacionadosao POT. Esta observacao pode ser util para quem for buscar na literatura pro-cedimentos de inferencia para o tipo de cauda. Os livros [3], [7] e [1] sao fontesricas para quem deseja conhecer e aplicar estes procedimentos. O Exercıcio 5fornece algumas ideias que servem de base para a construcao de procedimentosque inferem sobre o tipo de cauda de uma funcao de distribuicao desconhecida,a partir de sua amostra.

Quanto a questao levantada em (b), uma de suas respostas diz respeitoao paragrafo acima. Quando o Pressuposto 1 e assumido, varias paginasrelativas aos procedimentos estatısticos mencionados naquele paragrafo saoevitadas. Um outro motivo para nossa aceitacao vem da existencia de pe-quenas diferencas na execucao do metodo POT dependendo de F (·) possuircauda finita ou infinita. As diferencas sao pequenas, mas a inclusao de am-bos os casos seria desgastante e repetitiva. Por isto optamos por um so caso,preferindo nos concentrar naquele onde F (·) possui cauda infinita, o que naotraz grandes prejuızos aos que precisarem do metodo POT para aproximarcauda de distribuicoes com caudas finitas. As principais ideias do metodoPOT sao as mesmas tanto no caso de F (·) possuir cauda finita quanto no casode F (·) possuir cauda infinita. As diferencas, como ja havıamos avisado, estaosomente nos procedimentos estatısticos empregados na execucao do metodo.

A ultima razao a ser considerada em (b), decorre do fato do metodo POTnao usar GPD’s com o parametro ξ negativo para aproximar a cauda de F (·)quando esta possui cauda infinita. Isto ficara claro na formulacao do Resul-

28

Page 32: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

tado de Pickands e na deducao da ideia do metodo a partir deste resultado(veja o Comentario 19 da Sub-secao 6.5). Este fato nos permite concentrar aatencao da futura exposicao nas GPDs de parametro ξ nao-negativo, ou, emoutras palavras, nas GPD’s definidas por (5) e (6), ou, ainda, nas GPD’s comcaudas infinitas. Dessa forma, o volume da nossa apresentacao e reduzido. Astres razoes apresentadas acima respondem a questao (b), mas nao podemosencerrar tranquilamente a discussao, pois a ultima das razoes leva geralmentea seguinte

falsa impressao: a cauda da funcao-aproximadora e sempre infinita quandoa cauda de funcao F (·), a ser aproximada, e infinita, e e sempre finitaquando a cauda de F (·) e finita.

Vejamos o porque dessa falsa impressao.A primeira falacia esta na palavra “sempre”, que insinua que a afirmacao

vale para qualquer metodo de solucao do problema de aproximacao de cauda.Gostarıamos de advertir que nao pode-se fazer esta generalizacao. Estamosdiscutindo um metodo especıfico, o metodo POT. Este tem suas particulari-dades. Outros metodos tem as suas.

Contudo o erro mais grave esta na afirmacao que relaciona o tipo da caudada GPD usada para estimar a cauda de uma F (·) desconhecida e o tipo dacauda da propria F (·). Ao falar desta relacao e necessario distinguir duassituacoes. A primeira e aquela onde nao se sabe nada a priori sobre a cauda deF (·) e nao se faz nenhum pressuposto a seu respeito. Neste caso e a amostra deF (·) que vai indicar – via algum procedimento estatıstico – que tipo de caudaF (·) possui. E claro que a amostra pode ser “atıpica” e/ou o procedimentopode falhar. Caso em que podem ocorrer inconsistencias: a cauda infinitade F (·) pode ser aproximada por uma funcao de cauda finita e vice-versa.Entretanto, a “falsa impressao” agora discutida refere-se nao a esta situacao;mas sim aquela onde sabemos o tipo de cauda de F (·) e“informamos” esta aometodo POT10. Qual seria entao o tipo da cauda da funcao-aproximadora dacauda de F (·) escolhida pelo metodo, dado que ele possui a informacao sobreo tipo da cauda de F (·)? A “falsa impressao” responde equivocadamente estapergunta. A resposta correta seria:11

Quem determina o tipo da cauda da funcao-aproximadora fornecidapelo metodo POT e a teoria que justifica o metodo. De acordo com

10Insistiremos neste caso motivados pela aceitacao do Pressuposto 111O Comentario 19 dara o embasamento teorico a esta resposta.

29

Page 33: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

esta teoria, se a cauda de F (·) for infinita entao a cauda da funcao-aproximador sera sempre infinita. Ja se a cauda de F (·) for finita, entaoa funcao-aproximador sera uma GPD com cauda finita, ou a funcaoexponencial, isto e , a GPD do formato (11); no segundo caso, a caudada funcao-aproximador e infinita (pois a cauda da funcao de distribucaoexponencial e infinita).

Comentario 6. Nosso leitor pode estranhar o fato de uma funcao de cauda in-finita ser uma boa aproximacao para a cauda finita de uma outra funcao. Aquitemos entao um exemplo que mostra esta possibilidade. Volte sua atencao aFigura 5. Observe como sao proximas as GPDs G−1/4(·) e G0(·) no intervalo[0, 4]. Isto deve convencer-lhe de que as GPDs G−1/100(·) e G0(·) serao aindamais proximas no intervalo [0, 100]. No ponto x = 100 a funcao G−1/100(·)toca o nıvel 1, enquanto que o valor de G0(·) neste ponto e e−100. Isto sig-nifica que em qualquer ponto a direita de x = 100 as duas funcoes nao sedistanciam por mais de e−100. Portanto, G0(·) pode ser um bom aproximadorpara G−1/100(·), apesar da cauda da funcao-aproximador ser infinita enquantoque a da funcao aproximada e finita. Fim do comentario.

Finalmente responderemos a pergunta (c). Observe a importancia destapergunta: os argumentos acima indicam que para tornar a exposicao mais con-cisa poderıamos concentrar nossa atencao nas funcoes de cauda finita ou nasfuncoes de cauda infinita. Por que optamos pelas segundas? A “preferencia”pelas caudas infinitas deve-se a combinacao de dois fatores: o primeiro e quea maioria dos nossos leitores potenciais usarao o metodo POT na estimacaode caudas de distribuicoes de perdas de retornos de investimentos financeiros,ou de perdas decorrentes de sinistros de seguradora, ou de perdas causadaspor falhas operacionais de um banco ou uma industria; o segundo fato residena crenca comum de que tais distribuicoes possuem cauda infinita. Isto entaoresponde a pergunta (c), mas com um teor de insatisfacao: porque o segundofato foi colocado como “crenca”? Discutiremos agora.

Considere a variavel aleatoria “retorno (digamos, diario, para tıtulo deexposicao) com sinal negativo de um investimento”. Observe que para que

retorno diario com sinal negativo = − logpreco de hoje

preco de ontem(13)

seja ilimitado por cima, o “ preco de hoje”deve assumir um valor arbitrari-amente pequeno em relacao ao “preco de ontem”. Se isto ocorre, de acordo

30

Page 34: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

com o Comentario 5, a cauda direita de F (·) deve ser infinita. Acontece quea ilimitacao alegada acima discorda com a realidade devido ao seguinte fato:o “preco de hoje” de uma acao nunca sera menor que 1 centavo dividido pelaquantidade de todas as acoes da empresa, enquanto que o “preco de ontem”nunca pode ser maior que a quantidade de todo o dinheiro do mundo. Por-tanto, rigorosamente falando, a variavel aleatoria “retorno diario com sinalmenos” esta limitada por cima por um valor xF e a funcao da distribuicaodesta variavel aleatoria salta para 1 no ponto xF . Vale entao crer que a caudade F (·) deve ser infinita? A resposta a esta pergunta vira dos argumentosabaixo.

E fato, como vimos acima, que para a nossa F (·) existe xF onde F (xF ) =1. Apesar disso, na literatura sao relatadas diversas analises com base nasamostras de retornos de diversos ativos financeiros, e praticamente todas essasanalises concordam que tais amostras vieram de uma distribuicao com caudainfinita. Esta discrepancia entre os resultados empıricos e o fato que xF < ∞ocorre porque o ponto xF , onde a verdadeira distribuicao de retornos toca aonıvel 1, e tao distante, e a probabilidade de observar valores perto deste pontoe tao insignificante, que tais valores, de suma importancia na escolha de umacauda finita, simplesmente nao aparecem em nenhuma amostra real. Pergunta-se entao: Vale a pena desconsiderar as caudas finitas quando o objeto de analisesao amostras de retornos de ativos financeiros? Apenas as caudas infinitasmodelam a cauda da distribuicao de tais retornos? Infelizmente nao ha umaresposta final a esta questao, apropriada a todos os casos. Para justificar estaafirmacao acompanhe o exemplo abaixo.

Seja Gfin(·) a funcao-aproximador da cauda no caso de impormos quea cauda deva ser finita, e seja Ginf (·) a funcao-aproximador da cauda nocaso de assumirmos que a cauda seja infinita; que fique claro: trata-se dasaproximacoes fornecidos pelo metodo POT a partir da mesma amostra do,digamos, retorno diario de um ativo financeiro. Assim Gfin(·) e Ginf (·) serelacionam como as GPD’s G−1/100(·) e G0(·) descritas no Comentario 6: haum ponto xF onde Gfin(·) toca no nıvel 1; a partir de xF , a funcao Gfin(·)assume valor 1, enquanto que a funcao Ginf (·) nunca toca em 1. No entanto,as funcoes Gfin(·) e Ginf (·) sao muitıssimo proximas uma a outra para todosos valores de x.

Suponhamos agora que a finalidade da estimacao da cauda da distribuicaodo retorno do investimento seja o calculo do risco via o conceito de VaRp.Esclarecemos que VaRp e a notacao para F−1(p), o p-quantil da verdadeira

31

Page 35: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

distribuicao do retorno com sinal “−”. Uma vez que esta a distribuicao F (·) edesconhecida, o valor do p-quantil sera estimado por G−1

fin(p) ou por G−1inf (p),

dependendo de qual das duas funcoes tenha sido usada para estimar a caudade F (·). Agora, o fato importante para que possamos comparar G−1

fin(p) com

G−1inf (p), e que o mercado real se interessa por VaRp para valores de p proximos

a 1, mas nao para valores maiores que 0.999. Na maioria dos casos reais queacompanhamos ocorre que xF e muito maior que 0.999. Portanto G−1

fin(p) e

G−1inf (p) diferem-se por muito pouco, e VaRp pode ser estimado por qualquer

um deles. Neste caso, escolha usar G−1inf (p), onde a preferencia pela GPD com

cauda infinita esta explicada no paragrafo acima.Suponhamos agora agora que a finalidade da estimacao da cauda da dis-

tribuicao do retorno do investimento seja o calculo do risco via o conceito deC − VaRp. Esclarecemos que C − VaRp e a notacao para a media do retornocom sinal “−” dado que este ultrapassou F−1(p). Uma vez que o calculo demedia envolve F (·), que e desconhecida, entao C − VaRp sera calculado comGfin(·) ou Ginf (·) no lugar de F (·), dependendo de qual delas tenha sido usadapara estimar a cauda de F (·). Acontece que o valor da media condicional cal-culado por Gfin(·) pode ser bastante diferente do valor calculado por Ginf (·),pois a primeira possui cauda finita e a segunda infinita. Logo, se voce for esti-mar o C − VaRp do retorno de um ativo financeiro, e melhor forcar o metodoPOT a estimar a cauda por uma GPD com cauda finita.

Devido aos argumentos acima, e devido ao fato de que a estimativa maisusada de risco de investimentos e VaRp, concluımos que e razoavel trabal-har com a “crenca” de que retorno diario e uma variavel aleatoria ilimitada,ou seja, que a funcao da distribuicao do retorno diario possui cauda direitainfinita.

Ja se formos falar de F (·) como a distribuicao de perdas de uma segu-radora devido a ocorrencia de sinistros, ou de perdas de um banco devido aocorrencias de falhas operacionais, seremos tambem obrigados a assumir queteoricamente a perda e limitada pelo volume de todo o dinheiro disponıvel nomundo. Porem, este limite e tao imenso que na pratica a cauda de F (·) secomporta como se fosse ilimitada. E justifica-se este pressuposto pelo mesmoargumento utilizado acima para o caso de retornos.

32

Page 36: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

4.4 Influencia dos parametros de uma GPD no seu formato esuas consequencias na estimacao de risco por GPDs

O assunto a ser dicutido na presente sub-secao e fundamental para aquelesque usarao o metodo POT na resolucao do problema de estimacao de risco (oproblema formulado na Sub-secao 2.2). Tais usuarios empregarao o metodoPOT para aproximar a cauda de uma funcao F (·) desconhecida, e depois,usarao a funcao-aproximador para estimar F −1(p), onde o valor de p e algoproximo de 1, fixado de antemao. Se designarmos por T (·) a funcao de dis-tribuicao fornecida pelo metodo POT, entao T −1(p) sera a resposta obtidapor estes usuarios. Acontece que – sobre isto ja avisamos inumeras vezes,mas ainda nao mostramos de fato, pois e o assunto das proximas secoes, –a cauda de T (·) sera construıda a partir da GPD Gξ,β,s(·), cujos parametros

ξ, β e s serao estimados pelo POT com base na amostra de F (·). E claroque a imperfeicao da amostra e a imperfeicao de procedimentos de estimacaocausam discrepancias entre estimadores e parametros estimados. Por causadestas discrepancias torna-se importante a solucao do seguinte problema:

(P2) como uma mudanca nos valores de ξ, β e s afeta os valores de G−1ξ,β,s(p)

quando p ’e proximo de 1 ?

Este problema e a semente que originou a presente sub-secao, onde estudare-mos as propriedades das GPD’s que permitarao aos usuarios do metodo POTresponder a pergunta (P2).

Iniciaremos com a apresentacao de um fato que facilitara a argumentacaoe permitira a interpretacao da resposta em termos de riscos de investimentos.

Fato 3. Imagine dois investimentos financeiros hipoteticos com horizonte de,digamos, um dia num mercado com taxa de juros livre de risco igual a 0.Chamaremos os investimentos de “A” e “B”, e designaremos pelas variaveisaleatorias A e B, respectivamente, seus retornos diarios com sinal “−”. Con-sidere FA(·) e FB(·) as funcoes de distribuicao das variaveis aleatorias A e B.Designaremos por x0 a maior abscissa no qual FA(·) e FB(·) coincidem. Nessas

33

Page 37: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 x

y0

FB(x)FA(x)

1 FAFB

0 VaRpA VaRpB

y0

p1 FA

FB

Figura 9: Ao olhar nesta figura, o leitor consegue provar que as afirmacoes (a), (b),

(c) e (d) do Fato 3 sao equivalentes. Nesta figura, F−1A (p) representa VaRp(A), e

F−1B (p) representa VaRp(B).

condicoes as afirmacoes (a), (b), (c), (d) sao equivalentes (veja Figura 9):

(a) F−1A (p) ≤ F−1

B (p) quando ambos sao maiores que x0 ≥ 0;(b) o grafico de FA(·) fica a esquerda do grafico de FB(·)

no semi-plano {(x, y) ∈ R2 : x > x0}(c) o grafico de FA(·) fica acima do grafico de FB(·) para toda abscissa maior

que x0 ≥ 0;(d) o investimento A e menos arriscado que B para grandes valores

de perdas, especificamente para perdas com retorno negativo,maiores em modulo que x0 ≥ 0.

(14)Quanto a demonstracao da alegada equivalencia, notamos que (a) ⇔ (b)

segue imediatamente da definicao de F−1(p); que (b) ⇔ (c) e um fato genericocuja derivacao baseia-se no bom senso (veja Exercıcio 7), e finalmente, que(a) ⇔ (d) e a consequencia da Sub-secao 2.2, onde explicamos que caso

(a) F (·) seja a funcao de distribuicao do retorno com sinal “-”de um investimento; e

(b) F−1(p) seja um valor positivo,(15)

entao F−1(p) pode ser interpretado como sendo o risco ao nıvel p do investi-mento. Lembramos que e exigido pelo ıtem (b) de (15) que F −1(p) seja um

34

Page 38: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 x0

FB(x0)FA(x0)

1FA

FB

0 x0

FB(x0)=FA(x0)

1 FAFB

Figura 10: As funcoes de distribuicao FA(·) e FB(·) apresentadas na Figura (a) sat-

isfazem FA(x) ≥ FB(x) para todo x ∈ R, e as apresentadas na Figura (b) satisfazem

FA(x) ≥ FB(x) para todo x ≥ x0. Em ambos os casos as funcoes sao iguas a 0 para

todo x ≤ 0; isto foi assumido somente para facilitar a apresentacao.

valor positivo, pois isto permite interpretar F −1(p) como perda.

Agora as propriedades das GPD’s que esclarecerem a questao levantadaem (P2). A primeira delas e:

se ξ1 ≤ ξ2, entao G−1ξ1,β,s(p) ≤ G−1

ξ2,β,s(p) para todo p ∈ [0, 1],

para quaisquer β e s.(16)

Para demonstrar a propriedade (16), consideraremos primeiramente o casoparticular onde β = 1 e s = 0. Ja sabemos que a GPD Gξ,1,0(·) e identica aGPD padrao Gξ(·), logo, na verdade temos que comparar GPD’s padrao comdiversos valores de ξ. Na Figura 5 e nıtido que quanto menor o valor de ξ mais“alto” e o grafico da GPD padrao Gξ(·) no eixo12 x (os Exercıcios 8 e 9 ajudamo leitor provar este fato rigorosamente). Devido as equivalencias (14), o fatovisto na Figura 5 garante a validade da relacao (16) quando β = 1 e s = 0. Nocaso generico, a demonstracao da relacao (16) seria a seguinte: Sejam ξ1 < ξ2

e sejam β e s quaisquer. Ja sabemos que Gξ1(·) fica acima de Gξ2(·), entao,se esticarmos ambas as funcoes β vezes ao longo do eixo x e as deslocarmos

12Aqui fomos bastante coloquiais: o correto seria dizer que e mais “alto”para x > 0 e quee identico para x ≤ 0.

35

Page 39: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

por s unidades a direita, a que ficava acima continuara acima. Tambem e donosso conhecimento que o esticamento por β e deslocamento por s faz com queGξ1(·) torne-se Gξ1,β,s(·), e que Gξ2(·) torne-se Gξ2,β,s(·). Portanto Gξ1,β,s(·)fica acima de Gξ2,β,s(·) em todo o eixo x, o que e suficiente para que, devidoa equivalencia (14), a relacao (16) seja valida para quaisquer β, s e ξ1 < ξ2.Encerraremos o presente paragrafo com a interpretacao da propriedade (16)via o conceito de risco: se os valores dos parametros de escala e de locacaopermanecerem fixos, entao o risco cresce com o aumento do valor do parametrodo ındice de cauda.

A segunda das propriedades e:

se β1 ≤ β2, entao G−1ξ,β1,s(p) ≤ G−1

ξ,β2,s(p) para todo p ∈ [0, 1],

para quaisquer ξ e s.(17)

Notamos que a demonstracao dessa propriedade baseia-se nas equivalencias(14) e no papel dos parametros β e s na construcao da GPD Gξ,β,s(·), a partirda GPD padrao Gξ(·) (formulada no Fato 1). O Exercıcio 10 da maiores detal-hes do caminho que leva ao de estabelecimento da relacao (17). A Figura 11(a)ilustra a propriedade (17) para o caso particular em que ξ = 1 e s = 0. In-terpretando a relacao (17) via o conceito de risco, podemos afirmar que: seos valores dos parametros do ındice de cauda e de locacao estiverem fixados,entao o risco cresce com o aumento do valor do parametro de escala.

A terceira propriedade:

se s1 ≤ s2, entao G−1ξ,β,s1

(p) ≤ G−1ξ,β,s2

(p) para todo p ∈ [0, 1],

para quaisquer , ξ e β.(18)

Assim como acontece para a propriedade (17), a demonstracao da presentepropriedade segue facilmente das equivalencias (14) e do papel dos parametrosβ e s na construcao da GPD Gξ,β,s(·), a partir da GPD padrao Gξ(·) (conformeexplicado na Sub-secao 4.2). A Figura 11(b) ilustra a propriedade (18) parao caso em que ξ = 0 e β = 1. Por fim, a interpretacao da relacao (18) via oconceito de risco: se os valores dos parametros de ındice de cauda e de escalanao sao alterados, o aumento do valor do parametro de locacao implica noaumento do risco.

Ha algo em comum entre as tres propriedades apresentadas ate agora. Emtodas elas variamos apenas um dos parametros da GPD e vimos como essa

36

Page 40: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(a)

0

1

−4

1

s=−4s=−2

s=0s=2

s=4

(b)

Figura 11: A parte (a) mostra a relacao entre os graficos da GPD G0,β,0(·) com

diversos valores de β. A parte (b) mostra a relacao entre os graficos da GPD G0,1,s(·)com diversos valores de s.

variacao afeta os valores de seus quantis.13 E quando se varia dois ou tresparametros de uma so vez? O que acontece? Vejamos.

Analisaremos a situacao particular do caso onde s = 0 e onde ξ e β po-dem variar. Sejam as GPDs G0,2,0(·) e GPD G1,1,0(·). Afirmamos que osgraficos destas se relacionam como na Figura 12. De fato, nosso estudo dasderivadas destas GPD’s atesta que g0,2,0(0) = 1/2 e g1,1,0(0) = 1 (aqui g sig-nifica a derivada de G). Isto garante que a funcao G0,2,0(·) “sai”do ponto (0, 0)mais “devegar”que a funcao G1,1,0(·), e que portanto, G0,2,0(·) esta abaixo deG1,1,0(·) para x positivos proximos de 0. Porem, a medida que x aumenta, adistancia entre a GPD G0,2,0(·) e o nıvel y = 1 diminui como e−x/2, enquantoque a distancia entre GPD G1,1,0(·) e o nıvel y = 1 diminui como 1/(1+x). Efato que para valores de x suficientemente grandes ocorre que e−x/2 < 1/(1+x),daı a conclusao: G0,2,0(x) estara acima de G1,1,0(x) para valores de x maioresque um certo x0. E isto que esta esquematicamente ilustrado na Figura 12.(A figura ainda mostra que ha um so ponto de interceccao entre G0,2,0(·) eG1,1,0(·); este fato pode se provado rigorosamente, mas nao assumiremos estatarefa.)

O caso discutido detalhadamente na paragrafo acima, assim como os ca-sos (16), (17) e (18) discutidos anteriormente, sao casos particulares da pro-

13Lembre-se que G−1(p) se chama p-quantil da distribuicao G.

37

Page 41: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 x0~2.51 10

y0~0.72

1

Figura 12: O desenho esquematico da posicao relativa dos graficos das GPD’s

G0,2,0(·) e G1,1,0(·); a GPD G0,1,0(·) (mais acima) esta apresentada como a “re-

ferencia” de posicionamento: sabemos que G0,2,0(·) e G1,1,0(·) ficam abaixo dela,

e sabemos que G0,2,0(·) e a funcao de referencia esticada duas vezes. Temos que

x0 ≈ 2.51285 e y0 = G0,2,0(x0) = G1,1,0(x0) ≈ 0.71509.

priedade generica formulada abaixo. A discussao destes casos da a nocao decomo esta propriedade seria demonstrada; isto e importante pois nao incluımosno nosso texto tal demonstracao.

Afirmacao. Sejam ξ1, β1, s1 e ξ2, β2, s2 quaisquer triplas de valores reais sat-isfazendo β1 > 0 e β2 > 0.(a) Suponha que ξ1 < ξ2. Entao existe x0 > 0 tal que G−1

ξ1,β1,s1(p) ≤

G−1ξ2,β2,s2

(p) desde que ambos valores sejam maiores que x0; o valor de x0

depende de ξ1, β1, s1, ξ2, β2, s2.(b) Suponha que ξ1 = ξ2 e designe ambos por ξ. Suponha que β1 < β2.Entao existe x0 > 0 tal que G−1

ξ,β1,s1(p) ≤ G−1

ξ,β2,s2(p) desde que ambos

valores sejam maiores que x0; o valor de x0 depende de ξ, β1, β2, s1, s2.

38

Page 42: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(c) Suponha que ξ1 = ξ2 e designe ambos por ξ. Suponha que β1 = β2 edesigne ambos por β. Suponha que s1 < s2. Entao existe x0 > 0 tal queG−1

ξ,β,s1(p) ≤ G−1

ξ,β,s2(p) desde que ambos valores sejam maiores que x0; o

valor de x0 depende de ξ, β, s1, s2.

O ıtem (a) da Afirmacao acima diz que entre os tres parametros ξ, β, s daGPD Gξ,β,s(·), o ındice de cauda ξ e aquele que determina a grandeza dosvalores de G−1

ξ,β,s(p) quando p esta suficientemente proximo de 1. Usando aequivalencia (a) ⇔ (d) de (14), podemos chegar a seguinte

Interpretacao em termos de risco: Se as perdas de duas atividades “A” e “B”forem distribuıdas conforme as GPD’s Gξ1 ,β1,s1(·) e Gξ2,β2,s2(·), entaosempre existe um limiar x0 tal que se formos considerar somente asperdas acima de x0, a atividade correspondente ao maior valor de ξ emais ariscada que a outra.

Ja usando as equivalencias (a) ⇔ (b) e (a) ⇔ (b) de (14), chegamos a seguinte

Interpretacao do ıtem (a) da Afirmacao em termos da posicao relativa das GPDs:Se considerarmos duas GPDs, sempre ha um valor x0 tal que a caudaa direita de x0 da GPD com o maior valor do parametro ξ encontra-seabaixo da cauda a direita de x0 da GPD com menor valor de ξ.

A ultima interpretacao deu origem ao seguinte jargao: Entre duas GPD’saquela que tem maior valor do parametro ξ diz-se possuir cauda mais pesadaou mais grossa, e aquela com menor valor de ξ diz-se possuir cauda mais leveou mais fina. Mais ainda, a cauda da GPD com ξ = 0 chama-se leve ou fina,a cauda de GPD com ξ > 0 chama-se pesada ou grossa. Esta duplo sentido douso das palavras pesada/grossa e leve/fina faz com que certos pesquisadoreschamem de cauda exponencial a cauda da GPD com ξ = 0, e chamem de caudapolinomial a cauda de GPD com ξ > 0. Para completar nosso “dicionario”,so falta acrescentar que as caudas das GPD’s com ξ < 0 chamam-se caudasfinitas.

Os argumentos da presente sub-secao deixam claro que este jargao e apenasuma gıria que expressa o papel “dominante” do parametro de forma ξ. Maisainda, a equivalencia das duas interpetacoes dadas acima, permite ao nossoleitor traduzir a gıria em termos relacionados ao risco. Por exemplo, a frase:“A cauda das perdas do investimento A e mais leve que a do investimento”siginifica “O investimento A e menos arriscado que B, sendo que talvez, trate-se da comparacao de riscos de grandes perdas”.

39

Page 43: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

5 O segundo pilar do embasamento teorico do metodoPOT: a Teoria de Valores Extremos

Conforme ja havıamos dito, a ideia do metodo POT surge da relacao entrea famılia das distribuicoes generalizadas de Pareto e as funcoes que se en-contram no domınio de atracao das distribuicoes de valores extremos. Nasecao anterior introduzimos as distribuicoes generalizadas de Pareto. Na pre-sente secao explicaremos o significado do termo “encontrar-se no domınio deatracao de distribuicoes de valores extremos”, explicacao que tornou-se ex-tensa. Comecaremos com a introducao do problema chamado a distribuicaoassintotica de extremos, depois apresentaremos sua solucao – e nela que surgemas funcoes chamadas distribuicoes de valores extremos –, e so depois dissopoderemos explicar o que significa “uma funcao de distribuicao pertencer aodomınio de atracao das distribuicoes de valores extremos”. Na verdade apresente secao pode ser vista como uma sucinta exposicao da Teoria classicade Valores Extremos, uma vez que descreve as distribuicoes assintoticas deextremos e suas propriedades (para maiores detalhes a respeito, veja [4]).

5.1 Um exemplo motivador: o problema da reserva renovavel

Resolvemos antecipar nossa exposicao da Teoria de Valores Extremos pela de-scricao de uma situacao real, pela formulacao do problema pratico que surgenesta. Mostraremos que este problema, chamado de problema da reservarenovavel, e um caso particular do problema generico da distribuicao assintoticade extremos, assunto central da presente secao.

Imagine uma agencia de um banco brasileiro localizada no Japao. Os prin-cipais correntistas desta agencia sao os trabalhadores temporarios brasileiros.Enquanto no Japao, eles depositam parte de seus salarios mensalmente numapoupanca desta agencia e, ao voltar ao Brasil, resgatam toda a poupanca acu-mulada. Tais depositos e saques (resgates) nao sao as unicas movimentacoesda agencia, mas, para tıtulo de simplificacao, podemos imaginar que sejam.

Considere o resultado do fluxo diario da agencia (chamado tambem “saldo”):o valor de todos os depositos de um dia menos o valor de todos os saques domesmo dia. Caso este resultado seja positivo, isto e, caso sobre dinheiro emcaixa no final de dia, entao esta sobra e oferecida como emprestimo as em-presas niponicas (o que e natural, pois emprestimos tem altos juros – e assimque bancos vivem e sobrevivem). O problema surge entao quando este re-sultado e negativo. Isto significa que faltou dinheiro ao banco para honrar

40

Page 44: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

sua obrigacao de cobrir um ou mais resgates. E claro que que tal situacaonao precisa ocorrer somente no fim do dia, mas suporemos que caso venhaalguem resgatar uma poupanca maior que a quantidade de dinheiro disponıvelem caixa no momento, sera solicitado a essa pessoa que espere ate o fim doexpediente. Temos um problema. O que fazer se faltou dinheiro no caixano fim de dia? Aqui toda a historia contada ao leitor revela seu sentido.Se a agencia estivesse no Brasil, seu gerente mandaria buscar da matriz odinheiro faltante. Mas a agencia, da qual versamos, esta longe de sua ma-triz. Portanto o dinheiro faltante tem de ser tomado como emprestimo dosbancos niponicos, o que implica em alto“custo” para este dinheiro, visto queemprestimo implica juros. Sendo assim, esta nossa agencia adota a seguinteestrategia bastante natural: manter uma reserva de onde sera compensado odinheiro faltante. Isto resolve parcialmente o problema, pois a recomposicaoda reserva, caso esta seja parcialmente ou totalmente usada, pode ser feitaem 24 horas – prazo suficiente para receber os malotes da matriz do Brasil.A estrategia acima descrita ameniza o problema de falta de dinheiro, poremnao o resolve completamente, pois pode ocorrer que a quantidade de dinheiroreservado tambem seja insuficiente. A probabilidade deste evento diminui comaumento da reserva, mas um aumento exegerado tambem e indesejavel, poisdeixa muito dinheiro parado. Temos entao o problema de otimizacao do valorda reserva. Este problema de otimizacao esta vinculado ao seguinte problema,que e objeto da nossa futura discussao:

(P3) Seja M o volume da reserva. Seja k um horizonte de k dias futuros(que corresponde,digamos, a um ano). Qual e a probabilidade de queem nenhum dos k dias futuros o saldo do fluxo diario fique abaixo de−M?

A situacao acima descrita pode ser apresentada de outra forma, de modoa destacar e formalizar as caracterısticas que sao importantes para a com-preensao da relacao do problema (P3) com o problema generico da distribuicaoassintotica de extremos (a ser formulado na sub-secao seguinte).

(A) Ha um fluxo de caixa (de uma instituicao, como, por exemplo, umaagencia de um banco), cujos saldos diarios podem ser considerados comovariaveis aleatorias independentes e identicamente distribuıdas. Des-ignaremos por F (·) a funcao de distribuicao do saldo diario de tal fluxocom sinal negativo14.

14Pela natureza da problema (P3) o que nos interessa sao os valores negativos dos saldos

41

Page 45: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(B) Os fatos descritos em (A) sao conhecidos (os saldos diarios sao inde-pendentes e identicamente distribuıdos), mas nao se conhece a forma dafuncao F (·).

(C) Possui-se os valores dos saldos dos fluxos diarios observados no passado.Para sermos mais concretos neste aspecto, assumiremos que foram mon-itorados m dias passados e designaremos por x1, . . . , xm os saldos diarioscom sinal menos observados nestes dias.

(D) Fixa-se um horizonte futuro de k dias e um limiar positivo M com oobjetivo de estimar a probabilidade de que nenhum saldo dos fluxosdiarios nos proximos k dias fique abaixo de −M .

A descricao (A-D) deixa claro que a formalizacao matematica do problema(P3) e:

(P4) Para um dado numero natural k e o numero real positivo M estimar

IP [max{X1, . . . , Xk} ≤ M ] (19)

onde X1, X2, . . . , Xk sao variaveis aleatorias independentes, cada umacom distribuicao F (·), que e desconhecida. A unica informacao disponıvelsobre F (·) e uma amostra x1, . . . , xm de m observacoes originadas poresta distribuicao. (Cuidado: xi da amostra nao significa a realizacao deXi da sequencia; xi e o valor observado no i-esimo dia passado, enquantoque Xi e o valor que ocorrera no i-esimo dia futuro – nos desculpamospela confusao criada por estas notacoes.)

Nos referiremos ao (P4) como o problema de reserva renovavel. Ao comparar(P4) com o problema (P5) formulado na seguinte sub-secao, chamado de prob-lema da distribuicao assintotica de extremos, voce, nosso leitor, se convencerade que o primeiro problema e um caso particular do segundo problema. Asolucao do problema (P5) sera apresentada a partir da proxima sub-secao.Solucao que sera empregada na ultima sub-secao , onde o problema da reservarenovavel e resolvido.

Gostarıamos de notar que a situacao acima descrita e verdadeira. Fomossolicitados para soluciona-la. Formalizamos esta com o problema matematico

diarios, mas a tecnica a ser utilizada para a resolucao deste problema foi desenvolvida paraanalisar valores positivos. Para adequar o problema a tecnica, consideraremos o saldo diariocom sinal negativo.

42

Page 46: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(P4) mas, enquanto trabalhavamos no ajuste do problema com base nos dadosdisponibilizados pelo banco, o Governo editou medida que facilitou a remessade dinheiro ao Brasil por brasileiros residentes no exterior. Nisto o problemaperdeu sua importancia.

5.2 O problema da distribuicao assintotica de extremos

Seja X uma variavel aleatoria qualquer e seja F (·) sua funcao de distribuicao.Seja X1, X2, . . . uma sequencia infinita de variaveis aleatorias , todas elas inde-pendentes entre si, onde cada possui a mesma distribuicao que X. Considereo seguinte problema:

(P5) Encontrar duas sequencias numericas {cn} e {dn} tais que a sequenciade variaveis aleatorias

c−1n [max(X1, . . . , Xn) − dn] , n = 1, 2, . . . (20)

convirja em distribuicao para alguma variavel aleatoria nao degenerada.

Este e o problema da distribuicao assintotica de extremos.

Antes de analisar o problema, explicaremos os significados de “convergirem distribuicao” e “variavel aleatoria degenerada”.

Sejam V e V1, V2, . . . variaveis aleatorias quaisquer. Diz-se que a sequencia{Vn, n ≥ 1} converge em distribuicao a variavel aleatoria V se FVn(·), a funcaode distribuicao da variavel aleatoria Vn, converge conforme n → ∞ a FV (·),a funcao de distribuicao da variavel aleatoria V , em cada ponto x ∈ R ondeFV (x) e contınua. Esta ultima restricao, que limita a convergenica somenteaos pontos de continuidade da funcao-limite, pode parecer estranha a primeiravista, contudo ela nao e uma restricao, mas sim um alıvio. Sem ela muitasconvergencias uteis seriam “desclassificadas”, um aspecto que nao discutiremosno nosso presente trabalho.

Muitas perguntas sobre o conceito de convergencia em distribuicao serao es-clarecidas se voce leitor, recordar o Teorema Central do Limite. Lembraremoseste teorema para um caso especıfico. Suponha que as variaveis aleatoriasX1, X2, . . . representem os resultados dos lancamentos de uma moeda honestade forma tal que Xi assuma o valor 1 caso o i-esimo lancamento seja “cara”,e assuma 0 caso seja “coroa”. E obvio, a partir desta construcao, que estasvariaveis aleatorias sao independentes e identicamente ditribuıdas e que, por-tanto, se definirmos Sn = X1 + · · ·+ Xn, as condicoes do Teorema Central do

43

Page 47: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Limite serao validadas, e o teorema nos garantira que

Sn − IE [Sn]√Var [Sn]

converge em distribuicao a variavel aleatoria Z, (21)

onde Z denota variavel aleatoria Normal Padrao. Lembrando o significado de“convergir em distribuicao” e lembrando que o valor de funcao de distribuicaoem qualquer x significa a probabilidade da sua variavel aleatoria asusmir val-ores menores que x, concluımos que o teorema alega que

IP

{Sn − IE [Sn]√

Var [Sn]≤ x

}→ IP {Z ≤ x} , (22)

para qualquer que seja x, pois, como se sabe, a funcao de distribuicao davariavel aleatoria Normal Padrao e contınua em todo x. Segue-se da relacao(22) que se n for fixo e suficientemente grande, poderemos aproximar a prob-abilidade do lado esquerdo desta relacao pela probabilidade do lado dire-ito. Esta aproximacao e o exemplo da principal aplicacao pratica do Teo-rema Central do Limite: ele nos permite aproximar a probabilidade, queenvolve variaveis aleatorias complicadas, pela probabilidade que envolve avariavel aleatoria Normal Padrao. De fato, suponha que queremos estimara probabilidade de que em n = 100 lancamentos havera no maximo 45 caras:IP {S100 ≤ 45}. A estimativa pode ser feita entao usando o Teorema Centraldo Limite e o fato de os valores de IE [Sn] e de Var [Sn] serem iguais a n/2 ea n/4, respectivamente, via a relacao:

IP {S100 ≤ 45} = IP

{S100 − IE [S100]√

Var [S100]≤ 45 − IE [S100]√

Var [S100]

}

= IP

{S100 − IE [S100]√

Var [S100]≤ 45 − 50

5

}(23)

≈ IP {Z ≤ −1} = 0, 15866

onde na ultima passagem usamos a tabela de valores da funcao de distribuicaoda variavel aleatoria Normal Padrao.

Nos argumentos do paragrafo acima chamamos a atencao do leitor aofato da convergencia em distribuicao, quando vale, ser uma propriedade utilpara estimar probablilidades que envolvam variaveis aleatorias complicadas,como, por exemplo, a variavel aleatoria S100 analisada acima. Note a respeito

44

Page 48: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

deste exemplo que de antemao sabemos que esta variavel aleatoria possui dis-tribuicao binomial (de parametros 100 e 1/2), e que portanto, o calculo deIP {S100 ≤ 45} poderia ter sido feito a partir desta distribuicao, sem a necessi-dade da ajuda do Teorema Central do Limite. E claro que se complicassemosum pouco o problema, lancando um dado em vez de uma moeda, onde asfaces dos lancamentos obtidos seriam as variaveis aleatorias X1, X2, . . ., entaoo calculo direto de IP {S100 ≤ 45} seria impossıvel, enquanto que o TeoremaCentral do Limite continuaria valido, fornecendo uma boa aproximacao paraesta probabilidade.

Devemos avisar os leitores de que na Teoria de Probabilidades existemdiversos tipos de convergencia, cada um deles com suas aplicacoes: umasequencia de variaveis aleatorias pode convergir a uma variavel aleatoria emprobabilidade, pode convergir quase certamente, e pode convergir ainda deoutras formas, em particular pode convergir em distribuicao – conceito que foiexplicado acima e que, dentre todos os demais tipos de convergencia, sera ounico relevante em nossa exposicao a seguir.

Voltando a definicao de convergencia em distribuicao, e totalmente naturalque o leitor tenha se estranhando com fato de a definicao deste conceito exigira convergencia somente nos pontos de continuidade da funcao de distribuicaolimite. Realmente nao e obvio que os pontos de discontinuidade possam ser“omitidos”. Felizmente, as funcoes de distribuicao limite, que podem surgirna solucao do problema da distribuicao assintotica de extremos, sao todascontınuas. Isto nos permite ocultar a discussao das razoes que levaram a esteestranho previlegio dado aos pontos de descontinuidade.

Por fim, apresentaremos o conceito de ditribuicao degenerada e expli-caremos porque esta foi rejeitada no enunciado do problema da distribuicaoassintotica de extremos. Lembramos ao leitor que uma variavel aleatoria sechama degenerada se ela e uma constante, isto e, se ela assume um unico valorcom probabilidade total igual a 1 – daı o termo “degenerada”. Uma funcaode distribuicao e dita degenerada se sua variavel aleatoria correspondente fordegenerada. Todas as funcoes de distribuicao degeneradas tem a mesma cara:sao funcoes-escada que possuem um unico salto de tamanho 1 (um). De fato,se uma variavel aleatoria degenerada e igual a uma constante c, entao suafuncao de distribuicao vale 0 a esquerda de c e assume o valor 1 em c e adireta de c.

As funcoes de distribuicao degeneradas sao geralmente inuteis quando as-sumem o papel da funcao-limite em resultados assintoticos como aquele que

45

Page 49: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

queremos deduzir para distribuicao de extremos. Exibiremos esta inutilidadecom aquelas variaveis aleatorias para as quais exibimos o Teorema Central doLimite. E sabido que caso o denominador na expressao (21) do teorema fossesubstituido por n,15 terıamos que:

Sn−IE[Sn]n converge em distribuicao

a variavel aleatoria degenerada igual a 0.(24)

Tentaremos usar este resultado para calcular aproximadamente a probabili-dade IP {S100 ≤ 45}. Designando por F≡0(·) a funcao de distribuicao degen-erada concentrada em 0, teremos, repetindo os calculos de (23):

IP {S100 ≤ 45} = IP

{S100 − IE [S100]

100≤ 45 − IE [S100]

100

}

= IP

{S100 − IE [S100]

100≤ 45 − 50

100

}(25)

≈ F≡0(−0, 05) = 0

E facil ver que se pusessemos 55 em vez de 45, terıamos resposta 1, e que,em geral, para qualquer que fosse o valor no lugar de 45, a resposta sempreseria ou 0 ou 1. Concorde tal aproximacao e totalmente inutil, o que nosleva a admitir que nao e interessante procurar constantes de deslocamentoe renormalizacao (como as dn e cn do problema da distribuicao assintoticae extremos) que facam a distribuicao limite ser degenerada. Na verdade, sealguem estiver procurando por tais contantes, a resposta esta dada: escolhendoum crescimento absurdamente rapido das constantes de normalizacao e semprepossıvel obrigar as variaveis aleatorias (20) convergirem em distribuicao parauma distribuicao degenerada.

Voltaremos do desvio dedicado a explicacao de conceitos “convergenciaem distribuicao” e “variavel aleatoria degenerada” para a via principal, istoe, voltaremos ao enunciado (P5) do problema da distribuicao assintotica deextremos. Uma vez agora munidos com a compreensao dos conceitos desta-cados acima, podemos entao enxergar o lado pratico do problema: caso adistribuicao assintotica seja descoberta, esta pode servir para o calculo aprox-imado de probabilidades do tipo IP [max(X1, . . . , Xn) ≤ x]. Esta aproximacao

15Observe que no Teorem Central de Limite este denominador e da ordem de√

n, poisVar[Sn] = nVar[X1] devido ao fato que X1, X2, . . . sao variaveis aleatorias independentes eidenticamente distribuıdas. A substituicao de

√n por n diminui a variancia de forma tal que

o limite so pode ser uma variavel aleatoria degenerada.

46

Page 50: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

seria baseada nas mesmas ideias que fizeram a distribuicao normal servir paraa aproximacao de IP [S100 ≤ 45], partindo do Teorema Central do Limite (vejatexto acima). Esta aproximacao sera exibida e discutida em detalhes na Sub-secao 5.5. Notamos para nossos leitores que alem da utilidade pratica, o prob-lema (P5) apresenta interesse do ponto de vista do desenvolvimento teorico daTeoria de Probabilidade; sobre o que o leitor pode se informar melhor no livro[4].

0 5 10 15 20 25 30 35 40 45 50 55 600

0.25

0.5

0 5 10 15 20 25 30 35 40 45 50 55 600

0.25

0.5

0 5 10 15 20 25 30 35 40 45 50 55 600

0.25

0.5

Figura 13: Figuras que ilustram a propriedade (26). As figuras (a), (b),

(c) apresentam densidades das distribuicoes das variaveis aleatorias max{X1},max{X1, . . . , X50} e max{X1, . . . , X500}, esbocadas pelos histogramas das amostras

correspondentes a estas variaveis. As amostras foram obtidas pelo computador, e a

distribuicao de cada X deste exemplo e lognormal.

O paragrafo acima respondeu – dentro das limitacoes de um texto didatico– do porque se interessar pelo problema (P5). Ha ainda outra pergunta tao

47

Page 51: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

natural e basica como esta: “por que na expressao (20) deste problema aquantia max(X1, . . . , Xn) e acompanhada pelas constantes cn e dn?”. Istosera esclarecido agora, e para tal consideremos o exemplo em que cada Xi

possui distribuicao Lognormal. Isto siginifica que cada Xi e distribuida comoeZ , onde Z e variavel aleatoria normal padrao. Observe que e muito facilsimular um valor desta variavel aleatoria Lognormal: basta simular um valorz da variavel aleatoria Normal Padrao Z e calcular eZ . Observe tambemque se formos simular um valor para cada uma das 50 variaveis aleatoriasX1, . . . , X50 e escolhermos o maximo destes 50 valores, entao este maximopode ser visto como uma realizacao da variavel aleatoria max{X1, . . . , X50}.Usamos este fato para simular 10.000.000 realizacoes independentes da variavelaleatoria max{X1, . . . , X50} e construir o histograma das realizacoes destavariavel aleatoria com base nestes 10.000.000 valores. Este histograma e ap-resentado na Figura 13(b). Devido aos argumentos da Teoria de Estatıstica,este histograma pode ser visto como uma aproximacao da funcao de densidadeda distribuicao da variavel aleatoria max{X1, . . . , X50}. Pedimos entao quevoce aceite esse argumento, e que tambem aceite os histogramas apresenta-dos em Figura 13(a) e Figura 13(c) como esbocos das densidades das variaveisaleatorias max{X1} e max{X1, . . . , X500}, respectivamente. A primeira destase igual a propria X1, e assim seu histograma tem como base a amostra original.O histograma da segunda foi construıdo da mesma maneira que o historgamade max{X1, . . . , X50}. Observe agora que na sequencia (a)-(b)-(c) da Figura 13os histogramas deslocam-se a direita e ficam cada vez mais dispersos. Isto ilus-tra um fenomento generico tıpico para distribuicoes concentradas no semi-eixodos valores positivos e com cauda direita infinita – assim como e a distribuicaolognormal; este fenomeno e:

a funcao de densidade da distribuicao de max{X1, . . . , Xn}desloca-se a direita e fica mais dispersa a medida que n cresce.

(26)

Portanto, e logico perguntar sobre a possibilidade de empurrar cada densidade“de volta” a esquerda e a de contraı-la de maneira que o formato delas convirja,com o crescimento de n, a densidade de uma distribuicao probabilıstica. Naoe logico? Sim, e e justamente essa a pergunta que o problema de distribuicaoassintotica de extremos (P5) faz! De fato: a constante dn em (20) empurra adistribuicao da variavel aleatoria max{X1, . . . , Xn} a esquerda (caso dn > 0),enquanto que a constante cn a contrai cn vezes (que sao estes os “efeitos” dasconstantes dn e cn segue-se da explicacao do Comentario 2). A unica diferencaem relacao a nossa exibicao e que o problema (P5) lanca suas questoes sobre

48

Page 52: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

a convergencia de distribuicoes, e nao sobre as densidades – o que e maiscooreto do ponto de vista do rigor matematico. Pronto! Explicamos as razoesdo surgimento das constantes dn e cn em (20) na formulacao do problema dadistribuicao assintotica de extremos. So nos falta acrescentar, que, para algu-mas distribuicoes de X’s, nao se faz necessario deslocamento e/ou contracaopara que a sequencia de max{X1, . . . , Xn} convirja em distribuicao. Nestescasos e suficiente tomar dn = 0 e cn = 1.

5.3 Mais exemplos

Apesar dos nossos esforcos em simplificar a apresentacao da solucao do prob-lema de distribuicao assintotica de extremos, nao foi possıvel deixa-la na formaconcisa por nos desejada: e de sua natureza. Precisamente esssa caracterısticanos levou a antecipar a resposta do problema lancado na subsecao anteriorpor uma serie de exemplos que expoem as sutilezas do problema e preparamo leitor para uma melhor compreencao da solucao final.

Exemplo 1. Considere um dado, enumerado de 1 a 6 nas suas faces, onde os pe-sos das faces sao diferentes. Ponhamos o peso ε na face 6 (pense no ε como umvalor muito pequeno – isso te ajudara a se acustumar com a fato geral de que o“mandante” no comportamento de max{X1, . . . , Xn} e a distribuicao dos val-ores grandes dos X’s) e distribuamos o restante do peso uniformemente pelasoutras 5 faces. Lancaremos entao este dado sem parar. Seja Xi o resultado doi-esimo lancamento, tal que X1, X2, . . . sao variaveis aleatorias independentese identicamente distribuıdas de acordo com a distribuicao:

IP [Xi = 1] = · · · = IP [Xi = 5] = (1 − ε)/5, e IP [Xi = 6] = ε. (27)

Para esta sequncia de X’s analisaremos abaixo o comportamento da sequenciac−1n [max{X1, . . . , Xn} − dn] , n = 1, 2, . . ., (isto e, a sequencia (20) do prob-

lema (P5) para diversos valores de {cn} e {dn}.Caso (a). Neste caso, tomaremos cn = 1 e dn = 0 para todo n. Com estaescolha a sequencia de variaveis aleatorias (20) do problema (P5) torna-semax{X1, . . . , Xn}, n = 1, 2, . . .. Vejamos o seu comportamento quando ncresce. Para tanto, observe o seguinte fato: se formos lancar o dado semparar, cedo ou tarde conseguiremos a face 6, independentemente de sua pe-quena probabilidade de ocorrencia. Este fato nao contradiz a nossa intuicao,e, na verdade, pode ser demonstrado rigorosamente (o que nao faremos neste

49

Page 53: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

trabalho). Em termos matematicos isso significa que

para cada realizacao x1, x2, . . . de lancamentos X1, X2, . . . , existe umnumero finito N tal que max{X1, X2, . . . , Xn} = 6 para todos n ≥ N.

(28)Devido a isso max{X1, . . . , Xn} converge em distribuicao a variavel aleatoriadegenerada que e a constante 6, quando n → ∞.

Caso (b). Vejamos agora a convergencia em distribuicao de (20) para as es-colhas cn = 2 + 1

n e dn = 1 + 1n , n ∈ N. Seguindo os passos dados no caso (a),

conclui-se que

para cada realizacao x1, x2, . . . de lancamentos X1, X2, . . ., existe um numerofinito N tal que c−1

n [max{X1, X2, . . . , Xn} − dn] =[6 −

(1 + 1

n

)]/(2+ 1

n)para todo n ≥ N .

Ja que[6 −

(1 + 1

n

)]/(2 + 1

n) → 2.5 conforme n → ∞, entao ha, neste caso,convergencia em distribuicao a uma variavel aleatoria degenerada, que e aconstante 2.5.

Caso (c). Facamos agora dn = 0 para todo n, e tomemos a sequencia {cn}da seguinte forma: −1, 1

2 ,−13 , 1

4 ,−15 , 1

6 , . . .. Uma abordagem semelhante aoscasos anteriores mostra facilmente que

para cada realizacao x1, x2, . . . de lancamentos X1, X2, . . ., existe um numerofinito N tal que c−1

n [max{X1, X2, . . . , Xn} − dn] = 6(−1)nn para todon ≥ N .

A sequencia 6(−1)nn oscila entre +6n e −6n,e, portanto, nao converge. Con-sequentemente, a variavel aleatoria (−1)nnmax{X1, . . . , Xn} nao converge emdistribuicao.

Caso (d). Tomemos agora cn = 1n2 e dn = 0 para cada n ∈ N. Ainda nao

precisamos de nada mais refinado de que os argumentos exibidos nos Casos(a), (b) e (c) para atestarmos que

para cada realizacao x1, x2, . . . de lancamentos X1, X2, . . ., existe um numerofinito N tal que c−1

n [max{X1, X2, . . . , Xn} − dn] = 6n2 para todo n ≥ N .

E claro que n2 cresce ilimitamente quando n → ∞, o que faz com que nopresente caso as variaveis aleatorias n2 max{X1, . . . , Xn} nao convirjam emdistribuicao.

50

Page 54: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Comentario 7. Afirmamos que as variaveis aleatorias n2 max{X1, . . . , Xn} con-sideradas no Caso (d) assumem o valor 6n2 a partir de n suficientementegrande. Quando este fato e combinado com o fato de que 6n2 converge para+∞, e naural a duvida: “Como que os valores convergem mas as variaveisaleatorias que assumem estes valores nao?” A razao por tras disso e que “+∞”nao e um numero. Rigorosamente falando, uma sequencia numerica e conver-gente quando ela converge para um numero. Portanto o nome correto parasequencias do tipo {n2, n = 1, 2, . . .} e “sequencias nao convergentes”. Con-tudo esta “divergencia” tem um carater muito regular: seus membros crescemilimitadamente, caso em que os matematicos concordaram usar o termo “asequencia converge para +∞”. Apesar disso esse nao e um termo adequadopara as variaveis aleatorias , dado que nao existe variavel aleatoria que as-suma o “valor” +∞. Nao existe porque nao foi definida. E nao foi definidaporque se fosse, criaria problemas na Teoria de Probabilidades: muitos teo-remas desta teoria teriam de receber o acrescimo “salvo a variavel aleatoria+∞”. Isso explica porque as variaveis aleatorias do caso (d) levam o nome de“nao convergentes”.

−1 0

1

−1 0

1

−1 0

1

Figura 14: Ilustracao do Exemplo 2, Caso (a). As figuras apresentam as funcoes de

distribuicao da variavel aleatoria c−1n (max{X1, . . . , Xn} − dn) onde X ’s sao indepen-

dentes e cada um deles tem distribuicao uniforme em [0, 1], e onde dn = 1 e cn = 1n;

os graficos, da esquerda para a direita, correspondem aos valores 1, 4 e 50 de n. A

linha tracejada e o grafico da distribuicao limite.

Exemplo 2. Neste exemplo a sequencia de variaveis aleatorias independentesX1, X2, . . . sao tais que cada uma tem distribuicao uniforme no intervalo [0; 1],ou seja, a funcao de distribuicao F (·) e neste caso

F (x) = x se x ∈ [0, 1], = 0 se x < 0, = 1 se x > 1. (29)

51

Page 55: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 1 1.5

1

0 1 1.5

1

0 1 1.5

1

Figura 15: Ilustracao do Exemplo 2, Caso (b). As figuras apresentam as funcoes de

distribuicao da variavel aleatoria c−1n (max{X1, . . . , Xn} − dn) onde X ’s sao indepen-

dentes e cada um deles tem distribuicao uniforme em [0, 1], e onde dn = 0 e cn = 1;

os graficos, da esquerda para a direita, correspondem aos valores 1, 4 e 10 de n. A

funcao da distribuicao limite e a da variavel aleatoria degenerada igual ao constante

1.

Caso (a). Defina aqui dn = 1 e cn = 1n para todo n ∈ N. Para esta escolha

temos que para qualquer que seja numero real x, ocorre que

IP[c−1n (max{X1, . . . , Xn} − dn) ≤ x

]= IP

[max{X1, . . . , Xn} ≤ 1 +

x

n

]

= IP[X1 ≤ 1 +

x

n

]× · · · × IP

[Xn ≤ 1 +

x

n

]={F(1 +

x

n

)}n

=

(1 + x

n

)n, se x ≤ 0 e n > x,

1n, se x ≥ 0,0n, se x ≤ 0 e n ≤ x,

n→∞−→{

ex, se x ≤ 0,1, se x ≥ 0.

e toda essa conta significa que no presente caso as distribuicoes das variaveisaleatorias (20) convergem para a distribuicao: ex para x ≤ 0 e 1 para x > 0.Esta convergencia foi ilustrada na Figura 14.

Comentario 8. A unica dificuldade matematica que pode incomodar oleitor ao se debrucar nos calculos acima esta relacionada a ultima pas-sagem. Para facilitar a leitura da mesma, notamos que ali usamos oseguinte fato (cuja demostracao pode ser encontrada em qualquer livro-texto de Calculo):

limn→∞

(1 +

x

n

)n= ex para qualquer x ∈ R. (30)

Ha na verdade um resultado mais forte que (8) e que sera usado no

52

Page 56: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

decorrer dos nossos futuros argumentos; este e

limn→∞

(1 +

x

n+ ∆(n)

)n= ex para qualquer x ∈ R, onde (31)

∆(n) e uma funcao arbitraria que decresce a zero mais rapido

que1

ncomo, por exemplo,

1

n2, ou

1

n1+1/2, ou

1

n log(n).

Caso (b). Os procedimentos seguidos no Caso (a) podem ser repetidos paraconcluirmos que se cn = 1

n , como naquele caso, agora com dn = 1 + 1n , entao

a funcao de distribuicao limite se apresenta como

ex+1, se x ≤ −1,1, se x ≥ −1.

Caso (c). Facamos dn = 0 e cn = 1 para todo n ∈ N. Para esta escolha temosque

IP[c−1n (max{X1, . . . , Xn} − dn) ≤ x

]= IP [max{X1, . . . , Xn} ≤ x]

= IP [X1 ≤ x] × · · · × IP [Xn ≤ x] = (F (x))n

=

xn, se x ∈ [0, 1],1n, se x ≥ 0,0n, se x ≤ 0,

n→∞−→{

0, se x < 1,1, se x ≥ 1.

A conta feita acima significa que no presente caso as distribuicoes das variaveisaleatorias (20) convergem para a distribuicao da variavel aleatoria degeneradaigual a constante 1.

Caso (d). Vejamos agora o que acontece quando cn = 1 e dn = −n. O primeiropasso da conta e obvio:

IP [(max{X1, . . . , Xn} + n) ≤ x] = IP [X1 ≤ x−n]×· · ·×IP [Xn ≤ x−n]. (32)

Observe agora que para qualquer que seja x o valor de x − n sera negativopara todos os n maiores que x. Portanto cada IP do lado direito da igual-dade e 0 para todos valores de n suficientemente grandes. Isto significa quemax{X1, . . . , Xn} + n nao converge em distribuicao. E e facil explicar estanao convergencia: levando-se em conta que valores de cada X estao concen-trados no intervalo [0, 1], a variavel aleatoria max{X1, . . . , Xn} + n assumira

53

Page 57: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

seus valores no intervalo [n, n + 1] e, portanto, conforme n → ∞ esta variavelaleatoria “escapa” para +∞ assim como aconteceu no Caso (d) do exemplo 1.Consequentemente, assim como naquele caso, aqui tambem a convergencia emdistribuicao esta descartada.

Exemplo 3. Consideraremos aqui a sequencia de variaveis aleatorias indepen-dentes X1, X2, . . . e identicamente distribuıdas de acordo com a distribuicaoexponencial de parametro 1, ou seja,

IP [Xi ≤ x] = F (x) =

{0, para x < 0,1 − exp{−x}, para x ≥ 0,

(33)

e consideraremos o comportamento da sequencia das variaveis aleatorias (20)para quatro escolhas diferentes do par {cn}, {dn}. No caso (a) estas sequenciassao tais que (20) converge em distribuicao a uma variavel aleatoria cuja funcaode distribuicao e exp{−e−x}, x ∈ R; no caso em (b) a funcao de distribuicao

da variavel aleatoria limite sera exp{−e−x+23 }, x ∈ R; no caso (c), a variavel

aleatoria limite e uma variavel aleatoria degenrada; e no caso (d), as variaveisaleatorias nao convergem.

Caso (a). Mostraremos aqui que quando cn = 1 e dn = ln(n) para n ∈N, a sequencia (20), composta de variaveis aleatorias exponenciais, convergeem distribuicao a distribuicao exp{−e−x}, x ∈ R. Isto decorre das seguintesrelacoes:

IP [max{X1, . . . , Xn} − ln(n) ≤ x] = IP [max{X1, . . . , Xn} ≤ x + ln(n)]= (1 − exp{−x − ln(n)})n (quando n e suficientente grande)

=(1 − e−x

n

)n= e−e−x

, para todo x ∈ R.

(34)Acima, na passagem da primeira para segunda linha, usamos a independenciaentre as variaveis da sequencia e o fato de que para qualquer que seja x, aexpressao x + ln(n) fica positiva para n e suficientemente grande, e portanto,para tal n e valido que IP [Xi ≤ x + ln(n)] = 1 − exp{−x− ln(n)}. Na ultimapassagem usamos o fato de que (1 − a

n)n → e−a para todo a ∈ R conformen → ∞; este fato foi mencionado no Comentario 8.

Caso (b). Raciocinando como no Caso (a) acima, e facil deduzir que se cn = 3e dn = ln(n) + 2 para n ∈ N, a sequencia (20) converge em distribuicao para

a distribuicao exp{−e−(x+23 )}, x ∈ R.

54

Page 58: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Caso (c). Neste caso, escolhemos cn = n log(n) e dn = 0 para n ∈ N. Nascondicoes mencionadas

IP[c−1n (max{X1, . . . , Xn} − dn) ≤ x

]= IP [max{X1, . . . , Xn} ≤ n log(n)x]

= IP [X1 ≤ n log(n)x] × · · · × IP [Xn ≤ n log(n)x]

=

{0, x ≤ 0,(1 − exp{−n log(n)x})n , x > 0,

=

{0, x ≤ 0,(1 − n−nx)

n, x > 0.

(35)

Usando os resultados da conta acima e o fato de que

(1 − 1

nnx

)n

→ 1 para todo x > 0, conforme n → ∞ (36)

(veja sua demonstracao no Exercıcio 23), podemos deduzir que

IP[(n log(n))−1 max{X1, . . . , Xn} ≤ x

]→{

0, se x < 0,1, se x > 0.

(37)

Recorde agora que

F≡0(x) =

{0, se x < 0,1, se x ≥ 0.

e a funcao de distribuicao da variavel aleatoria degenerada que assume valor0 com probabilidade 1. Entao a formula (37) assegura que as funcoes de dis-tribuicao das variaveis aleatorias (n log(n))−1 max{X1, . . . , Xn} convergem aF≡0(·) em todo x, exceto em x = 0. Mas ja que este ponto de excessao e oponto de descontinuidade de F≡0(·), entao, devido a definicao da convergenciaem distribuicao, podemos alegar que as variaveis aleatorias convergem emdistribuicao a variavel aleatoria degenerada concentrada no ponto 0. Em out-ras palavras, no presente caso, as variaveis aleatorias (20) convergem em dis-tribuicao a uma variavel aleatoria degenerada.

Caso (d). Neste caso, tomaremos cn = 1 e dn = 0 para cada n ∈ N. Com estaescolha, tem-se:

IP[c−1n (max{X1, . . . , Xn} − dn) ≤ x

]= IP [max{X1, . . . , Xn} ≤ x]

= IP [X1 ≤ x] × · · · × IP [Xn ≤ x] =

{0, x < 0,(1 − exp{−x})n , x ≥ 0.

(38)

Agora note que para qualquer que seja x ≥ 0, e expressao 1 − exp{−x} emenor que 1. Portanto (1 − exp{−x})n → 0 conforme n → ∞ para todo

55

Page 59: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

x ≥ 0. Este fato em conjunto com o resultado da conta (38) mostra queIP [max{X1, . . . , Xn} ≤ x] → 0 conforme n → ∞ para cada x ∈ R, caso cn = 1e dn = 0. Isto significa que para esta escolha de {cn} e {dn}, as variaveisaleatorias (20) nao convergem em distribuicao. (Ja que se convergissem, entaoa distribuicao limite so poderia ser a funcao que e 0 em todo x ∈ R, mastal funcao nao e uma funcao de distribuicao pois ela nao atende o quesitolimx→∞ F (x) = 1.)

Outros exemplos podem ser encontrados nos livros citados na secao Referencias.Nossos exemplos foram dados para ilustrar a solucao do problema de dis-tribuicao assintotica de extremos. Esta solucao, que aparecera na proximasub-secao, mostrara que todas as funcoes de distribuicao sao separadas emclasses – chamadas de domınios de atracao de EVD’s – sendo que o criterio daseparacao e o formato da distribuicao da variavel aleatoria limite da sequencia(20). Os exemplos 1, 2 e 3 analisam funcoes de distribuicao pertencentesa algumas destas classes. Para quem quiser ver exemplos de outras classes,sugerimos a leitura da Secao 3.3 de [3].

5.4 A solucao do problema de distribuicao assintotica de ex-tremos

O problema de distribuicao asintotica de extremos e estudado desde ’30 doseculo XX e recebeu resposta completa em uma sequencia de trabalhos mate-maticos (a nota historia a respeito esta no livro [4]). Esta solucao e o conteudode ıtens (I)-(IV) apresentados nesta sub-secao. Nossa divisao da resposta emıtens nao e um padrao e foi feita de maneira que, ao nosso ver, facilita acompreensao.

(I) Nem toda distribuicao F (·) admite sequencias numericas {cn} e {dn} taisque a sequencia das variaveis aleatorias (20) convirja em distribuicaopara uma variavel aleatoria que seja nao degenerada. Em outras palavras,existem distribuicoes F (·) tal que para quaisquer que sejam as sequencias{cn} e {dn} as distribuicoes das variavel aleatoria (20) nem sequer con-vergem, ou, se convergem, tem como limite a funcao de distribuicao deuma variavel aleatoria degenerada.

Esclarecimento: Exemplo 1 apresenta uma de tais situacoes. Naverdade ela nao e um caso isolado. Assim ocorrera com qualquer

56

Page 60: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

−10 −5 0 5 100

0.2

0.4

0.6

0.8

1

Frechet

Weibull

Gumbel

Figura 16: A distribuicao de Frechet com α = 1, a distribuicao de Weibull com

α = 1, e a distribuicao de Gumbel.

funcao F (·) que nao satisfaca as condicoes a serem apresentadas noıtem (IV).

(II) Se para F (·) existir uma escolha de sequencias numericas cn e dn onde asequencia de variaveis aleatorias (20) convirja para uma distribuicao naodegenerada, estas sequencias numericas podem ser escolhidas de maneiraque (20) tenha como limite· uma funcao da famılia chamada distribuicoes de Frechet ;· uma funcao da famılia chamada distribuicoes de Weibull;· ou uma funcao chamada distribuicao de Gumbel.Eis as formas destas funcoes e suas famılias (veja seus graficos na Figura 16):

a famılia de Frechet constitui-se das distribuicoes Φα(·) com α > 0, onde:

Φα(x) =

{0, se x ≤ 0,exp{−x−α}, se x > 0;

a famılia de Weibull constitui-se das distribuicoes Ψα(·) com α > 0,onde:

Ψα(x) =

{exp{−[(−x)α]}, se x ≤ 0,1, se x > 0;

57

Page 61: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

a distribuicao de Gumbel e definida por:

Λ(x) = exp{−e−x}, para todo x ∈ R.

Esclarecimento: Lembre-se dos Exemplos 2 e 3. Recorde que natentativa (c) de cada um deles tivemos o azar de escolher {cn} e{dn} de maneira que as variaveis aleatorias (20) convergiam parauma variavel aleatoria degenrada, enquanto que nas tentativas (d)estas variaveis aleatorias sequer convergiam. Porem, na tentativa(a)– dos Exemplos 2 e 3 – conseguimos encontrar {cn} e {dn} paraas quais havia convergencia para uma funcao de distribuicao naodegenerada. Esta funcao e Weibull com α = 1 no Exemplo 2 ee Gumbel no Exemplo 3. Dessa forma os ıtens (a), (c) e (d) decada um destes exemplos ilustram o conteudo da afirmacao (II).Resta entao apenas uma duvida: como os resultados dos ıtens (b)enquadram-se nesta afirmacao? Eles se enquadram na afirmacaodo proximo ıtem.

Daqui adiante usaremos o termo famılia de distribuicoes de valores ex-tremos para nos referir a uniao que contem a famılia de Frechet, a famıliade Weibull e a distribuicao de Gumbel. Qualquer membro desta uniao serachamado de distribuicao de valores extremos, EVD (do Ingles extreme valuedistribution).Nossa nomeclatura nao e tradicional . Sobre isso veja a Notasobre nomeclatura abaixo.

(III) Suponhamos que uma funcao de distribuicao F (·) e duas sequenciasnumericas {cn} e {dn} sao tais que a sequencia das variaveis aleatorias(20) convergem para uma EVD H(·) (que pode ser, devido a nossasimbolizacao, uma distribuicao Gumbel, uma distribuicao da famıliaFrechet, ou uma distribuicao da famılia Weibull). Sejam agora {c′n}e {d′n} duas outras sequencias numericas quaisquer. Nessas condicoespode ocorrer uma e somente uma das duas seguintes alternativas:

ou (c′n)−1 [max{X1, . . . , Xn} − d′n] converge para uma variavel aleatoriacuja distribuicao e H( x−b

a ), x ∈ R, para a ∈ R, a 6= 0 e b ∈ R (cujosvalores dependem das sequencias {c′n} e {d′n});

ou (c′n)−1 [max{X1, . . . , Xn} − d′n] converge para uma distribuicao de-generada ou nem sequer converge.

58

Page 62: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Para que este resultado importante seja adequadamente compreendido,ressaltamos a relacao entre a funcao H( x−b

a ) e a funcao H(x), x ∈ R: aprimeira e obtida da segunda por re-escala e translacao ao longo do eixodas abcissas. Portanto o resultado acima formulado pode ser interpre-tado da seguinte maneira:

Dada uma distribuicao F (·) o limite (20), quando existe e nao euma variavel aleatoria degenerada, tem a forma H( x−b

a ), x ∈ R,onde H(·) e uma EVD que e especıfica para a F (·) dada; ou, emoutras palavras, e impossıvel que para dois pares de sequenciasnumericas {cn}, {dn} e {c′n}, {d′n} ocorra que

c−1n [max{X1, . . . , Xn} − dn] convirja a distribuicao nao degener-

ada H(·), e(c′n)−1 [max{X1, . . . , Xn} − d′n] convirja a distribuicao nao degen-

erada K(·),sem que H(·) e K(·) estejam relacionadas via K(x) = H( x−b

a ) paratodo x ∈ R.

Esclarecimento: A propriedade afirmada neste ıtem esta i-lustrada nos Casos (a) e (b) dos Exemplos 2 e 3. No Caso(a) do Exemplo 2 a funcao de distribuicao limite e Weibull deparametro α = 1, isto e Ψ1(x), x ∈ R, enquanto que no Caso(b) a funcao de distribuicao limite e Ψ1(x+1), x ∈ R. O mesmo“efeito” e observado no Exemplo 3: no Caso (a) a funcao dedistribuicao limite e Gumbel: Λ(x), x ∈ R, enquanto que noCaso (b) a funcao de distribuicao limite e Λ

(x+23

), x ∈ R.

A propriedade discutida acima diz que cada funcao de distribuicao F (·) e“fiel” a somente uma EVD. Podemos analisar esta relacao sob outra perspec-tiva: cada EVD possui um conjunto de funcoes de distribuicao relacionado aela. Este conjunto e o domınio de atracao da EVD. Em termos precisos. Diz-se que uma funcao de distribuicao F (·) esta no domınio de atracao de umaEVD H(·) se existem sequencias {cn} e {dn} tais que as variaveis aleatorias(20) convergem para H(·). O conceito “domınio de atracao de uma EVD”sera utilizado na formulacao do ıtem (IV) e, o que e mais importante, naformulacao do teorema que da origem ao metodo POT (veja Sub-secao 6.2).

Nota sobre nomenclatura. Nossa nomenclatura e diferente da classica (usadaem todos os livros citados na secao Referencias). A nomenclatura classica danome standard extreme value distribution a qualquer funcao Φα(·), Ψα(·) ou

59

Page 63: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Λ(·), definidas no ıtem (II) acima. Ja as extreme value distributions sao asfuncoes

Φα(x−ba ), x ∈ R, para α > 0, a > 0, b ∈ R;

Ψα(x−ba ), x ∈ R, para α > 0, a > 0, b ∈ R;

Λ(x−ba ), x ∈ R, para a > 0, b ∈ R.

(39)

Nos demos o nome extreme value distributions para as funcoes Φα(·), Ψα(·)ou Λ(·), e chamaremos qualquer uma das funcoes em (39) de extreme valuedistribution com parametro de escala a e parametro de locacao b. Notamosque estes nomes para a e b sao tradicionais e sao justificados pelo conteudo doFato 1 da Sub-secao 4.2. Ja o nome tradicional para α e parametro de forma(shape parameter).

Nossa mudanca na nomenclatura tem dois objetivos. O primeiro e deencurtar a notacao: de fato, “EVD” nos parece mais economico de que “EVDpadrao”, e ainda admite o plural “EVD’s” mais bonito de que “EVD’s padrao”.Segundo, queremos dar maior clareza a frase: “Cada distribuicao de valoresextremos possui seu domınio de atracao.” Esta nao esta muito certa coma nomenclatura classica, pois se H(·) for qualquer standard EVD, entao seudomınio de atracao coincide com a da funcao H( x−b

a ), x ∈ R, para quaisquera e b; tal coincidencia foi afirmada agora pouco no ıtem (III). A frase corretacompatıvel com a nomenclatura classica seria: ““Cada distribuicao standardde valores extremos possui seu domınio de atracao.” Mas ha muita gente queprefere usar a primeira frase ao inves da segunda. Entao adaptamos nossanomenclatura a liguagem mais comum.

Nossa outra discordancia com a nomenclatura classica esta no que chamamosde domınio de atracao , que e referido como maximum domain of attraction.

(IV) E o comportamento da cauda direita16 de uma distribuicao F (·) quedetermina se esta estara no domınio de atracao de uma EVD e, se sim,qual a forma desta EVD.

· Uma funcao de distribuicao F (·) esta no domınio de atracao da EVD deFrechet com parametro α se e somente se F (·) tem cauda direita infinitae, para valores suficientemente grandes de x, ocorre que

F (x) ( que e a notacao para 1 − F (x)) = x−αL(x), (40)

16A definicao de “cauda” e dos conceitos relacionados a serem usados em seguida foramdefinidos na Sub-secao 4.3.

60

Page 64: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

onde L(·) e uma funcao de variacao lenta – termo que sera definidomais adiante: logo depois do Comentario 9. Caso F (·) satisfaca estacondicao, a escolha das constantes dn = 0 e cn = F←(1 − n−1) garantea convergencia das variaveis aleatorias em (20) a distribuicao de Frechetcom parametro α, onde F←(·) e a “funcao inversa” de F (·), definida pelaformula

F←(t) = inf{x ∈ R : F (x) ≥ t}, t ∈ (0; 1),

que permite contornar o problema da determinacao do valor inverso nospontos de descontinuidade de F (·).17

· Uma funcao de distribuicao F (·) esta no domınio de atracao da EVDde Weibull de parametro α se e somente se F (·) tem cauda direita finitae para valores suficientemente grandes de x ocorre que

F (xF − x−1) = x−αL(x), (41)

onde xF e a abcissa do fim da cauda direita, ou seja, o menor valoronde F (·) assume 1, e onde L(·) e uma funcao de variacao lenta. SeF (·) satisfizer esta condicao, entao a escolha das constantes dn = xF ecn = xF − F←(1 − n−1) garante a convergencia das variaveis aleatoriasem (20) a distribuicao de Weibull com parametro α.

Esclarecimento. Note que x em (41) e uma variavel auxiliar. Noteque quando esta tende ao ∞, entao o ponto xF − x−1 tende aoponto xF , o fim da cauda de F (·). Portanto, a variavel x “ajuda”na descricao do comportamento de F (·) quando seu argumento seaproxima a esquerda ao fim de sua cauda. O fato da condicao (41)ter sido colocada em termos de “valores grandes de x” nao significa,portanto, que esta condicao considera o comportamento de F (·)para valores grandes de seu argumento; isto nao faria sentido poisF (·) possui cauda finita que acaba no ponto xF . Mais ainda: estavariavel auxiliar x permite aproveitar funcao de variacao lenta noinfinito para expressar o comportamento de funcao que tem cauda

17Nao faremos uso muito da funcao F←(·) em nossos futuros agrumentos, pois na maioriados casos F (·) sera contınua or sera assumida ser contınua.

61

Page 65: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

finita. Se abdicassemos o uso de x, a condicao (41) teria o seguinteformato:

F (y) =

(1

xF − y

)−α

L

(1

xF − y

), conforme y ↑ xF .

· A EVD de Gumbel contem no seu domınio de atracao tanto funcoescom caudas finitas quanto funcoes com caudas infinitas (no segundocaso, xF e entendido com ∞ nos argumentos a seguir). Uma funcao dedistribuicao F (·) esta neste domınio se e somente se existe z < xF talque F (·) admita a seguinte representacao:

F (x) = h(x) exp

{−∫ x

z

g(t)

a(t)dt

}, para x ∈ (z, xF ), (42)

onde as funcoes h(·) e g(·) sao tais que g(x) converge a 1 e h(x) convergea uma constante positiva conforme x se aproxima de xF , enquanto que afuncao a(·) e diferenciavel e sua derivada a′(·) satisfaz limx↑xF

a′(x) = 0.Mais ainda, caso F (·) satisfaca esta condicao, entao a escolha dn =F←(1−n−1) e cn = a(dn) garante a convergencia das variaveis aleatorias(20) a distribuicao de Gumbel.

A representacao (42) nao e unica, pois as funcoes h(·), g(·) e a(·) naoforam especificadas de forma muito rıgida. Isto faz com que pos-samos, por exemplo, modificar um pouco a funcao g(·) e compensaresta modificacao com a mudanca de h(·), de sorte que a expressao(42) preserve todos os seus valores. A compreensao detalhada daformula (42) e, por enquanto, desnecessaria. Entretanto sera im-portante na Sub-scao 8.2 onde discutiremos a execucao do metodoPOT para funcoes do domınio de atracao da EVD Gumbel .

O conteudo do ıtem (IV) supreende: ele resolve plenamente o problema(P5) da distribuicao assintotica de extremos (para as funcoes de distribuicaoF (·) para as quais a resolucao e possıvel em princıpio, conforme especificadonos itens (I)-(III)). Gostarıamos de indicar aos leitores a razao de tal resolucaoexistir. Para tanto, lembramos ao leitor a parte de conta que esta presenteem todos os exemplos da Sub-secao 5.3, nos quais conseguimos achar a funcaode distribuicao limite nao degenerada. Esta parte da conta baseia-se no pres-suposto principal do problema (P5) de que as variaveis aleatorias X1, X2, . . .

62

Page 66: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

sao independentes e identicamente distribuıdas de acordo com uma variavelaleatoria X, que tem F (·) como funcao de distribuicao. Eis a parte da contaa qual nos referimos:

IP[c−1n (max{X1, . . . , Xn} − dn) ≤ x

]=

= (IP [X ≤ cnx + dn])n = (F (cnx + dn))n .(43)

O resultado da relacao acima mostra que se F (cnx+dn) e 0 ou e 1 para todosvalores de n suficientemente grandes, entao IP

[c−1n (max{X1, . . . , Xn} − dn) ≤ x

]

convergira para 0 ou para 1, respectivamente. Mas se o limite da convergenciafor 0 ou 1 para cada x, entao as variaveis aleatorias c−1

n (max{X1, . . . , Xn} − dn)nao convergem ou convergem para uma variavel aleatoria degenerada. Por-tanto, se quisermos descobrir em que condicoes a convergencia dessas variaveisaleatorias para uma distribuicao nao degenerada se da, devemos nos perguntar:

Como pode se comportar F (cnx + dn), sem que este seja 0 ou 1,para que (F (cnx + dn))n convirja a um valor diferente de 0 e de 1?

(44)

E obvio que tal convergencia so sera possıvel caso F (cnx + dn) tenda a 1conforme n → ∞. Mas isto so e possıvel caso cnx + dn tenda ao ponto xF

(que e o ponto onde F toca no nıvel 1 se F tem cauda finita, ou e +∞ seF tem cauda infinita). Esta conclusao explica porque o valor do limite de(F (cnx + dn))n depende apenas do comportamento da cauda direita de F .

A pergunta (44) pode ser respondida com maior precisao se empregarmoso resultado citado no Comentario 8: a converencia desejada pela pergunta sosera possıvel se para alguma funcao t(·) ocorre que

F (cnx + dn) = 1 +t(x)

n+ ∆(n), (45)

e, este for o caso, entao o limite sera et(x). A resposta explica porque todas asfuncoes EVD tem o formato “exp de alguma expressao” (se voce ainda nao sedeu conta desta propriedade, volte as definicoes das EVD’s dadas no ıtem (II)acima): de fato, se H(·) e uma EVD, entao, devido a propria definicao dasEVD’s, H(x) deve ser o limite quando n → ∞ de (F (cnx+dn))n para algumafuncao de distribuicao F (·), mas, conforme alegamos agora pouco, este limiteso pode ser ou 0 ou 1 ou et(x), logo, H(x) = et(x) para a funcao t(x) dada em(45). Acontece que a classificacao de todas as t(·)′′s que podem surgir em (45)nao e uma tarefa simples. Sua solucao pode ser encontrada em livros sobre a

63

Page 67: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Teoria dos Valores Extremos, particularmente em [4]. Esta solucao e o mioloda demostracao do principal teorema da Teoria classica dos Valores Extremos,que da resposta ao problema (P5) da distribuicao assintotica de extremos.

A relacao (45), revelada no paragrafo anterior como a condicao necessariapara convergencia de (F (cnx + dn))n, diz que tal convergencia ocorrera casoF (cnx + dn) seja, a grosso modo, 1 + t(x)/n mais uma correcao cujo formatoexato nao tem importancia, desde que decaia a 0 mais rapido que 1/n quandon → ∞. As funcoes que satisfazem esta condicao podem ser descritas como

F (x) (o que e a notacao para 1 − F (x)) == (parte essencial) × (parte no essencial),

conforme x aproxima-se a xF ,(46)

onde a parte essencial e o que determina a contribuicao 1 + t(x)/n, e em par-ticular determina o formato da funcao t(·), enquanto que a parte nao essenciale a “sujeira” que pode ser “escondia e esquecida” debaixo do “tapete” ∆(n).E por isso que a resposta (I)-(IV) ao problema (P5) da distribuicao assintoticade extremos descreve as funcoes de distribuicao F (·), para as quais o prob-lema nao tem solucao trivial, nas formas (40), (41) e (42): sao as maneirasmatematicas de descrever as partes essencial e nao esencial da decomposicao(46).

Comentario 9. Deve ser notado que a “parte nao essencial” da decomposicao(46) nao pode ser totalmente desprezada: ela de fato nao inluencia a forma dafuncao limite do problema da distribuicao assintotica de extremos, mas entrana definicao dos valores das sequencias {cn} e {dn} envolvidas neste problema– o fato que fica claro se voce voltar as definicoes destas sequencias dadas noıtem (IV) da solucao do problema. Fim do comentario.

Para completar nossa exposicao, falta apenas explicar o conceito de funcao devariacao lenta. Conforme explicamos acima, variacao lenta e a condicao queuma funcao deve satisfazer para desempenhar o papel da “parte nao essencial”da decomposicao (46). Daremos a definicao: qualquer funcao L(x), x > 0, sechama de variacao lenta18 se ela satisfizer a seguinte condicao

limx→∞

L(tx)

L(x)= 1 para todo t > 1 (47)

18O correto seria o nome variacao lenta no infinito, mas ja que usamos somente funcoesdeste tipo de variacao lenta, entao abdicamos do “no infinito” no nome.

64

Page 68: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

O nome “variacao lenta” e justificado pela interpretacao da propriedade (47).Eis esta: fixe um t > 1; fixe uma sequencia crescente de valores x1, x2, . . .,e seja esta tal que seus valores sao equiespacados (o que nao e obrigatoriopara a validade da propriedade (47), mas que ajuda na compreencao); entao,conforme o ındice i cresce, o par de valores xi e txi desloca-se a direita ea distancia entre os pontos do par cresce (pois esta distancia e txi − xi =xi(t − 1)); uma funcao L(·) sera de variacao lenta caso a razao entre os seusvalores nos pontos de cada par convirja para 1. E facil ver que a funcao

x2

1 + x2(48)

e uma funcao de variacao lenta. Porem, para que uma funcao goze destapropriedade, nao e necessario que ela seja assintoticamente constante, como eo caso em (48). Por exemplo, a funcao

log(1 + x) (49)

possui variacao lenta, apesar de nao ser assintoticamente constante, uma vezque nao ha constante C tal que

limx→∞

log(1 + x)

C= 1

Porem, a propriedade (47) e valida para esta funcao.

5.5 Uso da Teoria de Valores extremos para solucao do prob-lema de reseva renovavel formulado na Sub-secao 5.1

Nesta sub-secao voltaremos ao problema (P4) formulado na sub-secao 5.1 eapresentaremos sua solucao, baseada nos resultados (I)-(IV).

Recorde o problema e recorde que F (·) designava nele a distribuicao dovalor do saldo diario com sinal “−”. Para que os resultados (I)-(IV) se-jam aplicaveis ao problema (P4) e preciso que a funcao de distribuicao F (·)pertenca ao domınio de atracao de uma das EVD’s; este e o primeiro passo.Se isto ocorre ou nao pode ser verificado por metodos estatısticos aplicadosa amostra x1, . . . , xm. A descricao destes metodos e feita em [3] e [7], ondetambem ha uma indicacao sobre o tipo de EVD’s em cujo domınio de atracaoencontra-se F (·). Neste trabalho abdicaremos da aplicacao destes metodospor falta de espaco e por nao termos atribuindo valores numericos a amostra

65

Page 69: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

x1, . . . , xm. Assumiremos entao, sem verificacao, que F (·) do problema (P4)esta no domınio de atracao de uma das distribuicoes de Frechet Φα(·). Noteque o valor exato do parametro α e desconhecido, isto e, admitiremos quenesta etapa da solucao nao sabemos precisar exatamente a funcao Φα(·), masapenas que ela e da famılia de Frechet.

O pressuposto que F (·) esta no domınio de atracao da EVD Φα(·) implica,devido ao conteudo de (I)-(IV), que existem duas sequencias numericas {cn}e {dn} tais que

a distribuicao de c−1n [max{X1, . . . , Xn} − dn]

converge a Φα(·) quando n → ∞,(50)

onde X1, X2, . . . sao variaveis aleatorias independentes e cada uma e dis-tribuıda conforme F (·). Assumindo o seguinte

Pressuposto 2: O valor de k do problema (P4) e suficientmente grande,

podemos deduzir da relacao asintotica (50) que

c−1k [max{X1, . . . , Xk} − dk]

tem aproximadamente a distribuicao Φα(·), (51)

ou, equivalentemente, que19

max{X1, . . . , Xk}tem aproximadamente a distribuicao Φα

(c−1k (x − dk)

), x ∈ R.

(52)

Recorde que possuımos a amostra x1, . . . , xm que corresponde as real-izacoes de F (·). Vamos tomar esta amostra e dividı-la em blocos com kobservacoes em cada bloco.20 Procuraremos o valor maximo em cada bloco.Este procedimento garante que os valores maximos obtidos sao realizacoesindependentes da variavel aleatoria max{X1, . . . , Xk}. Portanto, devido arelacao (52), o conjunto destes valores e forma uma amostra da distribuicaoΦα

(c−1k (x − dk)

), x ∈ R. Este fato permite empregar procedimentos de Es-

tatıstica Parametrica para deduzir, com base na amostra, estimativas para osvalores de ck, dk e α desta distribuicao. No nosso trabalho nao abordaremos

19Eis a conta que mostra que deriva (52) de (51): ”F (x), x ∈ R, e a funcao de distribuicaode a(X − b)” ⇔ IP [a(X − b) ≤ x] = F (x),∀x ⇔ IP [X ≤ x/a + b] = F (x),∀x ⇔IP [X ≤ y] = F (a(y − b)), ∀y.

20E importante que o tamanho de bloco seja equal ao valor k do problema (P4).

66

Page 70: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

estes procedimentos. O leitor pode encontra-los em [3] e [7]. Estes proced-imentos, juntamente com a construcao da amostra de maximos por blocos,formam o Metodo de maximas por blocos ou Metodo de maximas anuais.

Segue-se entao de (52) que

IP [max{X1, . . . , Xk} ≤ M ] ≈ Φα

(c−1k (M − dk)

),

onde ck, dk e α sao as estimativas de ck, dk e α obtidasda amostra x1, . . . , xm pelo Metodo de Maximos por blocos.

(53)

Esta e a solucao do problema (P4) obtida com o auxılio do resultado (I)-(IV).21

Comentario 10. A principal vantagem do emprego dos resultados (I)-(IV) naabordagem do problema (P4) e a nova perspectiva que ele nos traz: o problematorna-se um problema de inferencia parametrica. Conforme a formulacao (53),o nosso problema recai na inferencia dos tres parametros: ck, dk e α. Quemconhece a Teoria Estatıstica sabe avaliar o quanto essa contribuicao e valiosa.Para quem nao conhece a Teoria, apresentamos abaixo como seria a solucao”direta”, isto e, a solucao nao parametrica, que nao faz uso de nenhuma teoriaespecıfica. A solucao direta usaria a amostra x1, . . . , xm para construir afuncao de distribuicao amostral F (·). Depois, assumindo que esta e uma boaaproximacao para F (·), e usando a identidade IP [max{X1, . . . , Xk} ≤ x] =IP [X1 ≤ x] × · · · × IP [Xk ≤ x], o resultado seria:

IP [max{X1, . . . , Xn} ≤ M ] ≈(F (M)

)k(54)

Agora, segundo os argumentos da Sub-secao 2.3, deve-se esperar uma signi-ficativa descordancia entre os valores de F (M) e de F (M) quando M e muitogrande. Esta descordancia aumenta quando ambos os valores sao elevados apotencia k. Consequentemente, espera-se que a aproximacao ”≈”em (54) sejamuito ruim, a desvantagem da solucao ”direta” do problema (19).

E claro que a vantagem da solucao (53) nao veio “de graca”. Para chegar-mos a ela foi preciso assumir o Pressuposto 2, que permitiu substituir a relacao(50) de convergencia pela relacao (51) de “aproximadamente igual”. Nota-mos aqui que e muito difıcil confirmar este pressuposto com base na amostrax1, . . . , xm. O problema e que a grandeza de k, que permite substituir (50) por(51), depende do comportamento da cauda direita da funcao de distribuicaodas variaveis aleatorias X’s.

21A EVD de Frechet Φα apareceu na solucao (53) devido ao nosso pressuposto sobre F (·).E claro que dependendo de caso, esta EVD pode ser de Weibull ou de Gumbel.

67

Page 71: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

6 A ideia do metodo POT

Ja foi assinalado diversas vezes que a base teorica do metodo POT e umarelacao entre a famılia de distribuicoes de Pareto generalizadas e as funcoesque se encotram no domınio de atracao das distribuicoes de valores extremos,relacao esta que se deve ao resultado atribuıdo a Pickands, que apareceu pelaprimeira vez em [6], 1972, mas que tambem pode ser encontrado facilmenteem publicacoes mais recentes, uma vez que ele e citado em praticamente todoslivros que falam da Teoria de Valores Extremos e suas aplicacoes; por exemplo,no livro [3] ele aparece como o ıtem (b) do Teorema 3.4.13 da pagina 165. Napresente secao formularemos este resultado e a partir dela deduziremos a ideiado metodo POT.

6.1 Preliminares

A presente sub-secao serve de apoio aos argumentos das sub-secoes seguintes.Aqui lembraremos duas notacoes e introduziremos um novo conceito.

As notacoes a serem lembradas sao: Gξ,β,s(·), que denota a GPD cujadefinicao esta na Sub-secao 4.2, e xF , que denota o “fim” da cauda direitada distribuicao F (·) quando esta possui cauda finita (xF < +∞). Quando acauda de F (·) e infinita, xF e igual a +∞. Notamos que xF foi apresentadona Sub-secao 4.3.

Passaremos agora a introducao da funcao de distribuicao de excessos, umnovo conceito necessario a formucao do Resultado de Pickands. Faremos estaintroducao de modo breve, ja indicando que informacoes adicionais sobre suaconstrucao podem ser obtidas na Sub-secao 6.3, onde ela e essencial para acompreensao dos argumentos ali descritos. Suponha que e dada uma funcaode distribuicao F (·), onde X e a variavel aleatoria que possui esta distribuicao.Suponha tambem que e dado um valor u, com u < xF . A desigualdade u < xF

e necessaria para garantir que o evento {X > u} ocorra com uma probabilidadenao nula, o que por sua vez garante a existencia da funcao de distribuicao davariavel aleatoria (X−u) dado que ocorreu o evento {X > u}. Esta funcao dedistribuicao22 sera designada por Fu(·) no nosso texto. Sua definicao formal edada pela formula (55) abaixo:

Fu(x) := IP [X − u ≤ x∣∣X > u], x ∈ R,

(valida somente quando u < xF ).(55)

22O correto seria dizer “funcao de distribuicao condicional” assinalando com isto que trata-se da distribuicao da variavel aleatoria (X − u) condicionada ao evento {X > u}.

68

Page 72: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

A funcao Fu(·) e denominada funcao de distribuicao de excessos da distribuicaoF (·) acima de limiar u, nome motivado pelo fato de a diferenca (X − u) serusualmente chamada de excesso da variavel aleatoria X acima do limiar u,quando X ultrapassa u. Acrescentamos ainda, para completar a nomenclatura,que o valor da variavel aleatoria X que excede u chama-se excedente de Xacima de u.

6.2 Resultado de Pickands

O Resultado de Pickands diz que, dada uma funcao de distribuicao satisfazendocertas condicoes, para cada funcao de distribuicao de seus excessos, Fu(·), podeser encontrada uma GPD que a aproxima, e que a imprecisao da aproximacaotende a 0 conforme u cresce. A formulacao exata e dada abaixo.

Teorema (Pickands [6]). Suponha que uma funcao de distribuicao F (·) es-teja no domınio de atracao de uma das EVD’s (as EVD’s, isto e, asDistribuicoes de Valores Extremos, estao descritas no ıtem II da Sub-secao 5.4). Recorde que cada EVD possui um valor para o parametrochamado α. Use este valor de α da EVD, em cujo domınio de atracaoencontra-se F (·), para definir ξ de acordo com a seguinte regra:

ξ =

α−1, se F (·) estiver no domınio de atracao de Frechet Φα(·);−α−1, se F (·) estiver no domınio de atracao de Weibull Ψα(·);

0, se F (·) estiver no domınio de atracao de Gumbel Λ(·).(56)

O teorema afirma entao que nas condicoes estabelecidas existe umafuncao positiva β(·) (cujo formato depende do formato de F (·)) tal que

limu↑xF

sup0<x<xF−u

∣∣Fu(x) − Gξ,β(u),0(x)∣∣ = 0. (57)

A recıpoca do resultado acima nao ser usada em nossos futuros argumen-tos, mas visando a completude da exposicao do Resultado de Pickandsadiantaremos que ela e valida se (57) for verificado para alguma funcaoF (·), algum ξ, e alguma funcao positiva β(·), entao F (·) encontra-seno domınio de atracao daquela EVD cujo valor do parametro α estarelacionado ao valor ξ via (56).

69

Page 73: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Comentario 11. O caso em que F (·) possui cauda infinita merece atencaoespecial no nosso trabalho. Por isso e interessante que o leitor tenha em maosa versao da formula (57) para este caso. Eis esta:

limu↑+∞

sup0<x<∞

∣∣Fu(x) − Gξ,β(u),0(x)∣∣ = 0 (58)

Comentario 12. No Resultado de Pickands ve-se sup0<x<∞ e nao sup−∞<x<+∞

pela simples razao de que

Fu(x) − Gξ,β(u),0(x) = 0, para todo x ∈ (−∞, 0], (59)

o que por sua vez decorre do fato das funcoes Gξ,β(u),0(·) e Fu(·) assumiremo valor 0 para qualquer x ≤ 0. No primeiro caso pela propria definicao dasGPD’s; no segundo pela construcao feita (esta construcao sera ainda analisadaem detalhes no comeco da Sub-secao 6.3). Portanto, para medirmos o quantouma esta afastada da outra, e suficiente considerar a diferenca entre as duasfuncoes para x > 0 – o que foi feito no Resultado de Pickands.

Comentario 13. Quanto a substituicao de ∞ na formula (58) por xF − u naformula (57), e um fato analisado no Exercıcio 24, que explica que (57) aindae valido quando xF − u e substituıdo por ∞.

Comentario 14. Prenda a atencao na expressao sup0<x<∞ |Fu(x)−Gξ,β(u),0(x)|.Ela corresponde a maior distancia vertical entre as duas funcoes. Dessa formafica facil perceber que o Resultado de Pickands alega que o erro da aproximacaode Fu(x) por Gξ,β(u),0(x) diminui uniformemente em x ∈ (0,∞) a medida queu cresce. Esta uniformidade e um dos pontos fortes do Resultado de Pickands,que pode ser traduzida em:

para qualquer ε > 0 pode ser encontrado u tal que∣∣Fu(x) − Gξ,β(u),0(x)∣∣ < ε, para todo x ∈ (0,∞).

(60)

6.3 Como o Resultado de Pickands implica a ideia do metodoPOT

A ponte que leva do Resultado de Pickands a ideia do metodo POT e a relacaoentre a cauda direita de uma funcao de distribuicao e a distribuicao de seus ex-cessos, isto e, a relacao entre a cauda direita de uma F (·) e Fu(·). Comecaremos

70

Page 74: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

u

F(u)1

(a)

0

1

(b)

0

1

(c)

0

1

(d)

Figura 17: Sendo lida no sentido (a)-(d), a presente figura ilustra o procedimento

que transforma a cauda a direita de u de uma funcao de distribuicao F (·) na funcao

de distribuicao de excessos de F (·) acima de u. Tal procedimento esta formulado nos

ıtens (a)-(c) da Interpretacao da relacao entre F (·) e Fu(·) no texto. A linha contınua

da figura (a) apresenta uma funcao de distribuicao F (·), e indica que sua cauda a

direita de u comeca do ponto (u, F (u)). Se esta cauda for transladada pelo vetor

(−u,−F (u)), o resultado e o grafico apresentado na figura (b). Quando este grafico

e multiplicado pelo fator 11−F (u) ele estica-se e sua cauda aproxima o nıvel 1; isto e

ilustrado na figura (c). Para que o grafico da figura (c) corresponda a uma legıtima

funcao de distribuicao e preciso acrescentar o semi-eixo a esquerda da origem; que da

como resultado a figura (d). Esta e a funcao da distribuicao de excessos de F (·) acima

de u, denotada por Fu(·). Sendo lida no sentido (d)-(a) esta mesma figura ilustra o

procedimento que transforma Fu(·) na cauda a direita de u de F (·). Tal procedimento

esta formulado nos ıtens (a∗)-(c∗) da Ideia do metodo POT. A linha pontilhada

na figura (d) apresenta a funcao Gξ,β(u),0(·), aquela que o Resultado de Pickands

fornece para aproximar Fu(·). As linhas pontilhadas em (c)-(b)-(a) apresentam a

transformacao de Fu(·) resultante da aplicacao do procedimento (a∗)-(c∗). A figura

(a) ilustra a essencia da Ideia do metodo POT: a transformacao (a∗)-(c∗) torna a

funcao Gξ,β(u),0(·) um aproximador da cauda de F (·) a direita de u.

71

Page 75: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

com a derivacao da formula que apresenta esta relacao da maneira mais ade-quada para a deducao da Ideia do metodo POT. Partimos da definicao (55)de Fu(·) e usamos a formula de probabilidade condicional para deduzir que

Fu(x) = IP [X − u ≤ x∣∣X > u] =

IP [X − u ≤ x , X > u]

IP [X > u]

=

{0, se x < 0IP [u<X≤u+x]

IP [X>u] , se x ≥ 0=

{0, para x < 0F (x+u)−F (u)

1−F (u) , para x ≥ 0

Juntando a primeira e a ultima partes desta conta concluımos a formula de-sejada:

Fu(x) =

{0, para x < 0F (x+u)−F (u)

1−F (u) , para x ≥ 0(61)

Esta formula nos da a seguinte

Interpretacao da relacao entre F (·) e Fu(·) nos termos da transformacao que levaF (·) em Fu(·). A cauda de F (·) a direita de u transforma-se em Fu(·), adistribuicao de excessos de F (·) acima de u, via o seguinte procedimento:

(a) transportar para a esquerda a cauda de F (·) a direita de u de maneira queo ponto (u, F (u)) coincida com (0, 0) (o acrescimo “+u” em F (x+u) naformula (61) transporta F (·) a esquerda por u unidades, enquanto queo termo “−F (u)” transporta F (·) para baixo por F (u) unidades. Destemodo F (·+u)−F (u) corresponde ao resultado do transporte formuladono presente ıtem);

(b) esticar a cauda transportada pelo fator 11−F (u) ao longo do eixo vertical

(quem faz isto na formula (61) e o fator 11−F (u) ; note que este fator e

maior que 1, razao pela qual usamos a palavra “esticar”);

(c) acrescentar o semi-eixo (−∞; 0] a cauda transportada e esticada (istoe necessario para que o resultado de toda a transformacao seja umafuncao definida para todo x, e que entao possa ser chamada de funcaode distribuicao).

A vizualizacao dos passos (a)-(c) desta Interpretacao esta na Figura 17.Agora, tendo a Interpretacao em mente e a Figura 17 na frente de seus

olhos, faca o seguinte: Escolha uma funcao de distribuicao F (·) com cauda

72

Page 76: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

direita infinita23 que esteja no domınio de atracao de uma das EVDs (paraque possamos aplicar a ela o Resultado de Pickands). Imagine que a F (·)escolhida seja aquela apresentada esquematicamente pela Figura 17-(a). Tomeum valor positivo u e construa Fu(·), a funcao de distribuicao de excessos deF (·) acima do limiar u. Tome a funcao Fu(·) da Figura 17-(d) como sendoa representacao de Fu(·). Nessa situacao o Resultado de Pickands fornecerauma GPD Gξ,β(u),0(·) que aproxima Fu(·). A linha pontilhada na Figura 17-(d)ilustra esta GPD. Aplique agora a Fu(·) e a Gξ,β(u),0(·) a transformacao inversadaquela descrita em (a)-(c) acima. Com isso Fu(·) se transformara na cauda deF (·) a direita de u, equanto que Gξ,β(u),0(·) trasformar-se-a em alguma outrafuncao. A linha pontilhada da Figura 17-(a) apresenta esquematicamente estafuncao. Tanto a figura, quanto nossa intuicao, sugerem que esta funcao deveobrigatoriamente estar proxima da cauda de F (·), visto que Gξ,β(u),0(·) eraproxima de Fu(·). Esta proximidade de fato ocorre; e pode ser formalizadae demonstrada: a funcao pontilhada aproxima a cauda de F (·) a direita deu uniformemente no intervalo (u,∞), e a “fresta” entre as duas e igual a“fresta” entre Fu(·) e Gξ,β(u),0(·) multiplicada pelo fator 1−F (u) (Exercıcio 26formaliza tudo isso). Assim o resultado da transformacao de Gξ,β(u),0(·) e umaaproximacao da cauda de F (·) a direita de u. Pronto! Voce deduziu

Idea do metodo POT: Uma estimativa da cauda24 de uma funcao de dis-tribuicao F (·) a direita de u pode ser feita da seguinte maneira:umavez construıda Fu(·), a funcao de distribuicao de excessos de F (·) acimade u, encontre a distribuicao de Pareto generalizada corespondente aFu(·) conforme prescreve o Resultado de Pickands (a funcao denotadapor Gξ,β(u),0(·) na formulacao deste resultado), e transforme esta funcaoseguindo o procedimento (a∗)-(d∗)25 descrito abaixo:

(a∗) eliminar a parte de Gξ,β(u),0(·) a esquerda de 0;

(b∗) comprimir pelo fator 1 − F (u) a parte de Gξ,β(u),0(·) a direita de0;

23Para cauda finita a demonstracao se baseia nas mesmas ideais, portanto nao serarepetida.

24Observe, que dizemos “uma estimativa” e nao “a estimativa” querendo enfatizar comisto que o metodo POT e um dos metodos capazes aproximar caudas de distribuicoes prob-abilısticas.

25O procedimento (a∗)-(d∗) e a transformacao “inversa” da transformacao (a)-(c), queapareceu no nosso argumento heurıstico precedente a Ideia. Na realidade, (a∗)-(c∗) e oinverso para (a)-(c). O papel do ıtem (d∗) foi explicado no comentario em parenteses na suaformulacao.

73

Page 77: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

u

F(u)

Figura 18: O desenho esquematico do grafico da funcao G∗ξ,β(u),0(·), a que, de acordo com aIdeia do metodo POT, e uma aproximacao para a cauda da funcao F (·) nas abcissas a direitade u . Esta funcao e o resultado da transformacao (a∗)-(d∗) aplicada a funcao Gξ,β(u),0(·),que e, por sua vez, o aproximador de Fu(·) fornecido pelo Resulatdo de Pickands. A formulapara a funcao G∗ξ,β(u),0(·) e dada em (62). Observe que somente a parte de G∗ξ,β(u),0(·) adireita de u e “aproveitada” para aproximar a cauda. Ja a esquerda de u, esta funcao assumevalor 0. A parte “nao aproveitada” foi acrescentada para nos referirmos a G∗ξ,β(u),0(·) comofuncao de distribuicao – uma comodidade, nada mais que isto.

(c∗) transportar a parte comprimida de maneira tal que o ponto (0, 0)coincida com o ponto (u, F (u));

(d∗) acrescentar o semi-eixo (−∞;u) (passo necessario para que pos-samos nos referir ao resultado como uma funcao de distribuicao);

a parte da funcao resultante a direita de u sera entao uma aproximacaoda cauda de F (·) a direita de u.

A distancia entre a cauda de F (·) a direita de u e seu aproximadorassim construido e igual a distancia entre Fu(·) e Gξ,β(u),0(·) multiplicadapelo fator (1 − F (u)). (Para entender melhor esta afirmacao, veja oComentario 17 e o Exercıcio 26.)

A condicao suficiente para que esta ideia funcione e que F (·) esteja nodomınio de atracao de uma das distribuicoes de valores extremos.

74

Page 78: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Abaixo temos a formula que expressa o formato da funcao Gξ,β(u),0(·)apos a transformacao (a∗)-(d∗). Para facilitar a referencia usamos a notacaoG∗ξ,β(u),0(·). A formula:

G∗ξ,β(u),0(x) =

{0, quando x < u,F (u) +

[1 − F (u)

]Gξ,β(u),0(x − u), quando x ≥ u.

(62)

Notamos, que e possıvel aproveitar a notacao Gξ,β,s(·) introduzida naSub-secao 4.2, onde definimos funcoes de Pareto generalizadas, e substituirGξ,β(u),0(x − u) por seu equivalente, Gξ,β(u),u(x), na formula (62). Esta sub-stituicao da uma forma alternativa de expressar G∗ξ,β(u),0(·):

G∗ξ,β(u),0(x) =

{0, quando x < u,F (u) +

[1 − F (u)

]Gξ,β(u),u(x), quando x ≥ u,

(63)

contudo ela nao acrescenta nada a compreensao da expressao (62).Notamos tambem que a parte da funcao G∗ξ,β(u),0(·) a esquerda de u nao

“participa” na aproximacao da cauda de F (·) a direita de u. Esta partefoi acrescentada de maneira arbitraria. A existencia de outras opcoes traz,as vezes, confucoes. A mais comum e mais grave destas e discutida no Co-mentario 15.

6.4 Comentarios

Comentario 15. Volte a Figura (18) que apresenta a “cara” da funcao G∗ξ,β(u),0(·)e observe que somente sua parte a direita de u e importante, no sentido emque ela e a resposta do metodo POT ao problema de estimacao da cauda.Ja a parte a esquerda de u e totalmente irrelevante no que se refere a esseproblema; ela foi definida como sendo 0 para que a funcao G∗ξ,β(u),0(·) comoum todo possa ser chamada de funcao de distribuicao. Notamos que a ap-resentacao de G∗ξ,β(u),0(·) como funcao de distribuicao e uma convencao quefacilita linguagem de apresentacao, e que nao traz nenhuma outra vantagemalem desta.

O argumento do paragrafo anterior indica que G∗ξ,β(u),0(·) poderia ter outroformato a esquerda de u. Entre as inumeras possibilidades da escolha desteformato ha uma que e muito usada na literatura contemporanea. O presentecomentario e sobre esta.

Tome arbitrariamente uma funcao de distribuicao F (·) que pertenca aodomınio de atracao de uma EVD – a condicao que permite a aplicacao da

75

Page 79: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Ideia do metodo POT –, tal que ela possua cauda direita infinita – a tıtulo desimplificacao. Tome tambem um valor arbitrario u e siga a ideia do metodoPOT para construir a aproximacao da cauda de F (·) a direita de u. O metodofornecera os valores de ξ e de β(u). Suponha que voce conheca o valor de F (u)(na pratica voce tera que estima-lo – a Sub-secao 7.4 explica como). Nessascondicoes voce possui todos os valores para usar a formula (63) e construir afuncao G∗ξ,β(u),0(·) que aproxima da cauda a direita de u de F (·).

Tome agora os valores de ξ, β(u), u e F (u) e use-os para construir umanova funcao. Esta sera chamada de Πξ,β,ν(·), e e dada pela seguinte formula(a Figura 19 apresenta esquematicamente esta funcao)

Πξ,β,ν(x) =

{1 −

(1 + ξ x−u−ν

β

)−1/ξ, para x ≥ u + ν,

0, caso contrario,(64)

onde

β = β(u) (1 − F (u))ξ , ν =β(u)

ξ

{(1 − F (u))ξ − 1

}. (65)

Pode ser verificado por meio de uma conta simples – esta e a tarefa doExercıcio 27 – que

Πξ,β,ν(·) e G∗ξ,β(u),0(·) coincidem nos valores x ∈ [u,+∞). (66)

Para que esta coincidencia seja corretamente entendida, explicitamos queΠξ,β,ν(·) e G∗ξ,β(u),0(·) derivam da mesma funcao, que apenas foi expressadade maneiras diferentes. A unica diferenca entre as duas e que Π aproveita aparte desta funcao no intervalo [u + ν, ∞), enquanto que G∗ so no intervalo[u, ∞). Nos conjuntos complementares a estes intervalos Π e G∗ assumem ovalor 0.

A coincidencia entre Π e G∗ para valores de x maiores que u implica queusuarios do metodo POT podem apresentar o aproximador para a cauda adireita de u tanto pela expressao de Π quanto pela expressao de G∗. Estaduplicidade gera, infelizmente, um erro de interpretacao que nao e raro. Paraexemplificar o erro, digamos que voce e eu recebemos a mesma amostra deuma funcao de distribuicao F (·) desconhecida, e que optamos pelo mesmocaminho de execucao do metodo POT para estimar a cauda de F (·) a direitade u, sendo que nossas u’s coincidem e nossas F (u)’s tambem (recorde, para

76

Page 80: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

u

F(u)

Figura 19: O grafico da funcao de distribuicao Πξ,β,ν(·) construıda pelas formulas

(64)-(65) com os valores dos parametros ξ, β(u), u, F (u) usados na construcao da

funcao G∗

ξ,β(u),0(·) da Figura 18. Conforme explicado no Comentario 15, os graficos

de G∗

ξ,β(u),0(·) e de Πξ,β,ν(·) coincidem nos valores de x a direita de u. Sugerimos

que o leitor sobreponha os dois graficos e verifique que suas partes a direita do ponto

(u, F (u)) realmente coincidem. Notamos, para que o leitor possa ter a nocao da escala,

que na construcao de G∗

ξ,β(u),0(·) da Figura 18 e de Πξ,β,ν(·) da presente figura usamos

os seguintes valores numericos dos parametros ξ, β(u), u e F (u): 1.0, 0.1, 1.281, 0.9.

77

Page 81: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

produzir um aproximador da cauda precisamos de F (u)). Suponhamos quevoce tenha escolhido reportar seu resultado usando Π (alias, a vantagem doformato de Π, que pode ter determinado sua escolha, e que Π e uma GPD).Entao voce publicou seu resultado assim:

– A cauda de F (·) a direita de u e aproximadamente uma GPD com oparametro de forma ξ, parametro de escala β e parametro de locacao u + ν.

Ja se a minha escolha for apresentar o aproximador no formato de G∗,entao, de acordo com a explicacao dada acima, meu valor do parametro deforma coincide com seu, mas meu valor da parametro de escala difere do seu,e meu valor do parametro de locacao tambem difere do seu. Entao eu digo naminha publicacao:

– Meu estudo confirmou o valor do parametro de forma da aproximacaode cauda de F (·) a direita de u obtida nos estudos anteriores (e cito voce).

E nao falo nada sobre as discrepancias entre os outros parametros.

Parece incrıvel, mas ja vimos diversos casos com pesquisadores reais eserios nos papeis de “voce” e “eu” do exemplo acima. E claro que o desen-tendimento entre voce e eu seria eliminado se cada um especificasse o formatoda expressao de seu aproximador de cauda. Esta e a principal mensagem dopresente comentario.

Comentario 16. Abordaremos agora a funcao β(·) usada para determinar oparametro de escala da GPD do Resultado de Pickands.

Esta funcao β(·) provavelmente morre de inveja do parametro ξ: “Por queξ foi determinado no enunciado do Resultado de Pickands, enquanto que sobremim nao se fala nada?!”

A razao principal e que a funcao β(·) depende do todo o comportamento deF (·), e nao somente do valor do parametro α daquela EVD em cujo domıniode atracao encontra-se F (·). A estrutura desta dependencia pode ser vista naanalise da demonstracao do Resultado de Pickands. Assim a nossa opcao pornao incluir essa demonstracao no nosso texto impossibilitou a apresentacaoda construcao da funcao β(·). Porem esta omissao nao afeta em muito nossadiscussao do metodo POT. De fato, para que o metodo pudesse aproveitar aregra da construcao de β(·) ele teria que conhecer o comportamento da caudade F (·). Mas esta funcao e desconhecida para o metodo, e sua cauda so serarevelada, ainda que aproximadamente, depois do metodo ter estimado a funcaoβ(·). Surge entao um cırculo vicioso. Devido a isso decidimos omitir a teoriaque revela como β(·) depende de F (·). So nos falta indicar ao leitor que osexemplos apresentados na Secao 8 ilustrarao esta dependencia.

78

Page 82: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Comentario 17. O limite superior do tamanho da “fresta” entre Fu(·) e Gξ,β(u),0(·),que e a quantia

ε(u) := sup−∞<x<∞

∣∣Fu(x) − Gξ,β(u),0(x)∣∣ (67)

chamada de distancia entre as duas funcoes,26 nao sera discutida no nossotexto. Em parte porque seu valor depende de β(u), cujo comportamento estafora do escopo do texto.

Comentario 18. Ao perceber os esforcos dos autores para deduzir a Ideia dometodo POT do Resultado de Pickands no presente texto, o leitor poderiase perguntar: “Nao seria mais facil se o Senhor Pickands tivesse formulandoseu resultado diretamente em termos da aproximacao da cauda em vez daaproximacao da funcao de excessos de F (·)?”

Para se convencer que o Sr. Pickands fez coisa certa, faca voce o seguinte.Volte a Figura 17-(d), apague a linha tracejada que representa a funcao Gξ,β(u),0(·),e ponha no lugar desta a funcao y = 0, quer dizer a funcao que coincide como eixo horizontal. Agora, aplique a sua funcao o procedimento (a∗)-(d∗) daIdeia do metodo POT. O resultado sera a funcao escada composta de doispatamares horizontais: um no nıvel 0 e que extende-se de u a esquerda; outrono nıvel F (u) e que extende-se de u a direita. Qual e a distancia entre osegundo patamar e a cauda de F (·) a direita de u? E 1 − F (u), obvio. Agoraadicione a este o fato de que F (u) tende a 1 conforme u cresce. Entao voceconclui que suas funcoes-escada aproximam-se a cauda de F (·) a direita de uconforme u crece. Formalmente:

Teorema (de autoria dos autores e leitores do presente texto).

limu→∞

supu<x<∞

∣∣F (x) − Eu(x)∣∣ = 0,

onde

Eu(x) =

{0, se x < u,F (u), se x ≥ u.

Parabens pelo teorema, em particular se este e seu primeiro teorema. Mas vocedeve ter sentido que a aproximacao por ele fornecida e pouco util. Como entao“proibir” estimadores inuteis do tipo da funcao Eu(·)? Uma das maneiras e

26A rigor, o nome para ε(u) e a distancia em norma sup, assinalando com isto que ε(u) eo limite superior de

∣∣Fu(x) − Gξ,β(u),0(x)∣∣ para qualquer x.

79

Page 83: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

considerar aceitavel tal estimador cujo ancestral seja tambem um bom aprox-imador para a funcao de excessos, Fu(·). Aquı chamamos por “ancestral”de estimador a funcao que se transforma neste estimador via o procedimento(a∗)-(d∗). Para se convencer que a sugerida maneira funciona, observe que oancestral de Eu(·), a funcao y = 0, nao serve para aproximar Fu(·).

O argumento apresentado acima explica a razao que levou Sr. Pickands ater formulado seu resultado em termos da aproximacao da funcao de excessos.So a tıtulo de curiosidade acrescentamos que o metodo POT foi desenvolvidomuito depois.

6.5 Sobre a relacao entre GPD’s e as Distribuicoes de ValoresExtremos (EVD’s)

Existe uma relacao intrınseca entre as EVD’s (as Distribuicoes de Valores Ex-tremos) e as GPD’s (as Distribuicoes de Pareto Generalizadas). O Resultadode Pickands, a base do metodo discutido neste texto, e uma consequenciadesta relacao, ou, depedendo do ponto de vista, e uma parte dela. A descricaocompleta desta relacao nao coube no nosso texto, mas de qualquer forma nossentimos obrigados a avisar o leitor sobre a sua existencia, e exibir duas dasdiversas formas nas quais ela se manifesta. Uma delas ja foi exibida: a formula(56) do Resultado de Pickands. Esta expoe o seguinte lado da relacao entreEVD’s e GPD’s:

a cada EVD corresponde um conjunto de GPD’s; a correspondenciase da da seguinte forma: cada EVD possui “seu” domınio de atracao;considere entao aquelas GPD’s para as quais o metodo POT podeconstruir um aproximador para a cauda das funcoes deste domınio;este e o conjunto correspondente. O valor do parametro ξ das GPD’sdeste conjunto esta rigidamente relacionado com o valor doparametro α da EVD correspondente; esta relacao foi determinadapela formula (56).

(68)O fato (68) tem uma consequencia muito importante na execucao da ideia dometodo POT; esta consequencia e o assunto do Comentario 19 abaixo.

A segunda forma da manifestacao da relacao entre EVD’s e GPD’s e a

80

Page 84: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

seguinte:

todas as EVD’s e todas as GPD’s estao numa relacao um-a-umdeterminada pela seguinte formula:

a funcao de distribuicao de EVD == exp

{− a funcao de sobrevivencia de GPD

},

valida em um sub-conjunto do conjunto onde as EVD’s estao definidas.(69)

Este fato sera exibido no do Comentario 20 devido a aus ligacao com a repre-sentacao padronizada das EVD’s, que gostarıamos de apresentar aos leitores,ja que esta aparece com frequencia na literatura. Nao usaremos o fato acimanos argumentos do nosso texto.

Ao leitor, que queira entender a relacao entre EVD’s e GPD’s em um nıvelmais profundo, sugerimos que comece com a leitura da Secao 3.4 de [3].

Comentario 19. Os proximos fatos foram mencionados e empregados na dis-cussao da Sub-secao 4.3, e ainda serao frequentemente usados em nossos fu-turos argumentos:

1) se a cauda de F (·) e infinita, entao a GPD, construıda pelo Resultadode Pickands para aproximar a funcao de excessos, Fu(·), tambem teracauda infinita;

2) se a cauda de F (·) e finita, entao a GPD construıda pelo Resultado dePickands para aproximar a funcao de excessos, Fu(·), tera ou cauda finitaou a cauda da distribuicao exponencial.

Mostrar como estes fatos provem da formula (56) e da caraterizacao dosdomınios de atracao das EVD’s. Note que o comentario expande o conteudodos fatos, indicando precisamente como o valor do parametro de forma ξ dafuncao aproximador depende da cauda de F (·).

Se a cauda de F (·) e infinita, de acordo com o ıtem (IV) da Sub-secao 5.4,F (·) esta no domınio de atracao de uma Frechet Φα(·) com α > 0, ou nodomınio de atracao de Gumbel Λ(·). No primeiro caso, a GPD que aproximaFu(·) no Resultado de Pickands seu parametro ξ = α−1, com α > 0. Isto edeterminado pela formula (56). No segundo caso, tem-se ξ = 0. Em ambos oscasos a GPD aproximadora possui cauda infinita.

Por outro lado, se a cauda de F (·) for finita, o mesmo ıtem (IV) da Sub-secao 5.4 diz que F (·) esta no domınio de atracao de uma Weibull Ψα(·) comα > 0, ou de uma Gumbel Λ(·). Se estiver no domınio de atracao de uma

81

Page 85: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Weibull, entao, de acordo com a formula (56), a GPD Gξ,β(u),0 dada peloResultado de Pickands possui ξ = −α−1, com α > 0. Tal GPD possui caudafinita. Para o caso de estar no domınio de atracao de uma Gumbel, ξ = 0. TalGPD possui cauda infinita, a da distribuicao exponencial. Entao se a caudade F (·) for finita, a GPD aproximador tem cauda finita ou exponencial.

Comentario 20. O conteudo do presente comentario pode ser ignorado numaprimeira leitura. Ele visa somente exibir uma forma comum de apresentar asEVD’s e chamar a atencao para uma profunda relacao entre EVD’s e GPD’s.

Volte a Sub-secao 5.4 e observe a famılia de distribuicoes de valores ex-tremos (EVD’s) ali apresentada. Recorde que esta constitui-se da famıliadas distribuicoes de Frechet, da famılia da distribuicoes de Weibull, e da dis-tribuicao de Gumbel. Observe que a famılia de Frechet e indexada por umparametro que pode assumir qualquer valor positivo, e que a famılia de Weibulltambem e indexada por um parametro que igualmente pode assumir qualquervalor positivo. Logo se ve que na “indexacao” das EVD’s os valores positivossao duplamente utilizados, enquanto que os valores nao positivos sao ignora-dos. Isso sugere que deva existir uma maneira de indexar todas as EVD’s porum parametro que corre de −∞ a +∞. Para tal fim e suficiente reescrever afamılia de Weibull de modo que seu ındice corra nos valores negativos, postularque a distribuicao de Gumbel corresponde ao valor 0 do ındice, e deixar o queındice assuma os valores positivos para a famılia de Frechet. Esta ideia e ex-ecutada abaixo. A vantagem do resultado e puramente estetica. A diferencae que as EVD’s sao apresentadas de maneira que dependam de apenas umparametro, chamado aqui de a, que pode assumir qualquer valor real:

ao valor 0 do parametro a corresponde a funcao

exp{−e−x} definida para todo x ∈ R,

que e a funcao de distribuicao de Gumbel;

a qualquer valor positivo do parametro a corresponde a funcao

0, se x ≤ 0,exp{−x−a}, se x > 0, ,

que e a funcao de distribuicao de Frechet com parametro a;

a qualquer valor negativo do parametro a corresponde a funcao

exp{−[(−x)−a]}, se x ≤ 0,1, se x > 0,

82

Page 86: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

que e a funcao de distribuicao de Weibull com parametro −a.

Acima, para cada famılia de distribuicoes, usamos sua formula. Aı entaosurge uma nova pergunta: “Ha como apresentar todos os tres casos numamesma formula?” Por uma so nao, mas por duas – grande economia – sim.Tal apresentacao leva os nomes de Jenkinson e de von Mises. Aqui esta:

Hξ(x) =

{exp

{− (1 + ξx)−1/ξ

}, se ξ 6= 0,

exp {− exp(−x)} , se ξ = 0(70)

sendo que esta expressao vale para

x > −ξ−1 quando ξ > 0,x < −ξ−1 quando ξ < 0,x ∈ R quando ξ = 0,

(71)

e sendo que para x fora do conjunto determinado acima a funcao Hξ(·) deve sercompletada por valor 0 ou 1 da maneira que garanta que o resultado seja umafuncao de distribuicao. A funcao Hξ(·) e a Distribuicao padrao generalizada deValores Extremos (standard generalized Extreme Value Distribution em Ingles).Quando ξ > 0 ela corresponde a distribuicao de Frechet com parametro α =1/ξ; quando ξ < 0 ela corresponde a distribuicao de Weibull com parametroα = −1/ξ; quando ξ = 0 ela corresponde a distribuicao de Gumbel. Note ouso da palavra “corresponde”. Com esta queremos indicar que Hξ(·) nao seraidentica a uma distribuicao de Frechet, de Weibull ou de Gumbel. Ela sera umadessas funcoes depois de reescalada e deslocada. Os valores das constantes dereescala e deslocamento podem ser facilmente calculadas a partir da expressaode Hξ(·), usando as ideias apresentadas nos Fatos 1 e 2 da Sub-secao 4.2.

Ha diversas razoes e consequencias do fato de Hξ(·) ser uma EVD reescal-ada e deslocada. Uma dos lados positivos disso e que a expressao de Hξ(·)revela claramente a relacao (69). De fato, da definicao (70) de Hξ(·) e dasdefinicoes (5), (6), (7) das GPD’s padrao segue que

Hξ(x) =

exp{−(1 − Gξ(x)

)}, para x > −ξ−1 quando ξ > 0,

exp{−(1 − Gξ(x)

)}, para x ∈ [0,−ξ−1] quando ξ < 0,

exp{−(1 − G0(x)

)}, para x > 0 quando ξ = 0,

(72)o que e a expressao matematicamente rigorosa da relacao (69). Esta relacao esua expressao (72) sao dadas para indicar que ha uma ligacao ıntima entre as

83

Page 87: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

EVD’s e as GPD’s. Infelizmente o nıvel de detalhamento do nosso texto naonos permite investigar esta ligacao.

A relacao (72) fez com que o parametro ξ das GPD’s fosse chamado drparametro de forma. A razao e que, por um lado, o parametro ξ das GPDesta relacionado com ξ de Hξ(·) via (72), e, por outro lado, o nome naturalpara ξ de Hξ(·) seria parametro de forma, ja que este determina a forma daEVD que Hξ(·) adquire.

84

Page 88: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

7 Procedimentos de inferencia estatıstica emprega-dos para execucao da ideia do metodo POT

Iniciaremos esta secao com uma sugestao. Sugerimos ao leitor que recorde oenunciado do problema de estimacao de cauda, e tambem que releia a ideiado metodo POT tendo em mente este enunciado (lembramos: o problemafoi formulado na Sub-secao 2.1, e a ideia na Sub-secao 6.3). Seguindo estecaminho lhe sera dada uma clara percepcao de que a ideia do metodo POTpor si so nao resolve o problema da estimacao de cauda. De fato, a ideia e quedado um valor u, a cauda a direita de u de uma funcao F (·), desconhecida,pode ser aproximada pela funcao G∗ξ,β(u),0(·), determinada pelos parametros

u, ξ, β(u) e F (u) via a formula (62). Porem a ideia nada diz sobre comoobter u e como estimar ξ, β(u) e F (u) no caso em que a unica informacaodisponıvel sobre F (·) e uma amostra por ela originada. A execucao desta ideia,isto e, a determinacao dos valores de u, ξ, β(u) e de F (u) pode ser feita emdiversas maneiras. Uma delas, a mais popular na atualidade, sera apresentadae discutida na presente secao. Caminhos alternativos podem ser encontradosnos livros [1], [5] e [7].

7.1 Uma estrategia da execucao

Apresentaremos uma estrategia encarregada de encontrar os valores dos para-metros u, ξ, β(u) e F (u) envolvidos na expressao (62), para que esta por suavez determine G∗ξ,β(u),0(·), a funcao que aproxima a cauda de uma funcao de

distribuicao F (·) a direita de u. Lembramos que a unica informacao sobreF (·), que recebemos e que passaremos para a estrategia, e uma amostra devalores x1, . . . , xn gerados por F (·). Lembramos ainda que o fato da funcaoG∗ξ,β(u),0(·), a ser determinada, aproximar a cauda de F (·) e garantido pelaideia do metodo POT. Alias, para que esta ideia seja aplicavel, aceitaremos o

Pressuposto 3: a funcao de distribuicao F (·), da qual conhecemos apenas umaamostra, esta no domınio de atracao das EVD’s.

Vale notar que este pressuposto pode ser testado por metodos estatısticos, quenao serao discutidos no presente texto, mas que podem ser obtidos nos livroscitados na Secao Referancias.

A estrategia mencionada sera apresentada em tres ıtens para facilitar afutura discussao da mesma. A estrategia:

85

Page 89: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(A) Encontrar o menor possıvel do limiar u onde os excessos da amostraacima de u possam ser bem aproximados por uma GPD com s = 0 (istoe, uma GPD com o parametro de locacao igual a 0). Este valor chamar-se-a o valor otimo do limiar u, ou, o limiar otimo, e sera denotado poruopt.

(B) Entre todas as GPD’s satisfazendo s = 0, escolher aquela que melhorse adere aos excessos da amostra acima do limiar uopt. Para facilitar aexposicao, introduziremos as seguintes notacao:

N(uopt), que denota o numero de excedentes de x1, . . . , xn acima de uopt,(73)

ey1, y2, . . . , yN(uopt), (74)

que representa o conjunto ordenado de excessos, gerados por estes exce-dentes.

Designaremos por ξ e β os valores dos parametros ξ e β(uopt) da GPDescolhida.

(C) Construir G∗ξ,β,0

(·), via a formula (62), a partir da funcao Gξ,β,0(·), usando

ξ e β determinados pelo ıtem anterior e tomando

F (uopt) =n − N(uopt)

n. (75)

A implementacao desta estrategia – que nao e um ato simples –, sera apre-sentada nas sub-secoes a seguir. A apresentacao explicara e justificara partedos procedimentos da estrategia. Contudo, a justificativa completa so serapossıvel com o auxılio dos argumentos da ultima sub-secao da presente secao.Ali os argumentos sao chatinhos, valiosos somente para os mais formais. Poresse motivo foram deixados para o final.

Comentario 21. Em primeiro lugar, notamos que o fato de termos determinadoa amostra (74) como conjunto ordenado atende somente a parte estetica denossa apresentacao. Esta ordenacao significa que: y1 e igual a diferenca entreo menor excedente acima de uopt da amostra e o proprio uopt; y2 e igual aosegundo menor excedente da amostra acima de uopt menos o proprio uopt, eassim por diante.

86

Page 90: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Em segundo lugar, notamos que ξ e β podem nao coincidir com ξ e β(uopt).O ponto aqui e que ξ e β(uopt) sao os parametros da GPD Gξ,β(uopt),0(·) quefigura no Resultado de Pickands. Nao ha como saber seus valores reais, uma vezque eles dependem de F (·), que e desconhecida no ambito do problema tratado.Nossa estrategia, no seu passo (B), tentara estimar estes “verdadeiros” ξ eβ(uopt). As estimativas podem nao coincidir com ξ e β(uopt), e por isso devemser denotadas por sımbolos diferentes de ξ e β(uopt). Os sımbolos escolhidosforam ξ e β, seguindo a tradicao da Teoria Estatıstica. Note que seria mais

preciso usar β(uopt) em vez de β, mas preferimos a segunda notacao por sermais economica.

Por fim, notamos que ξ e β serao chamados de estimativas dos parametrosξ e β(uopt), que frequentemente serao referidos como verdadeiros.

7.2 O primeiro passo da estrategia: como encontrar o valorotimo do limiar

Nesta sub-secao apresentaremos um dos metodos mais utilizados para executaro ıtem (A) da estrategia tracada na sub-secao anterior.

O metodo que pretendemos expor baseia-se em uma propriedade de GPD’s.Para que possamos formula-la precisamos introduzir o conceito de funcao damedia de excessos, o que faremos no paragrafo a seguir.

Seja X uma variavel aleatoria qualquer. A funcao e(·) definida da seguintemaneira

e(u) := IE[X − u

∣∣X > u], u < ( o valor maximo de X), (76)

chama-se funcao da media de excessos de X, ou,27 funcao da media de excessosda funcao F (·), se esta ultima e a funcao de distribuicao de X.

Comentario 22. Aqui derivaremos a expressao para e(·) necessaria para ademostracao do Fato a seguir. Portanto este comentario pode ser omitido poraqueles leitores interessados somente no conteudo do Fato.

A notacao IE[X − u

∣∣X > u]significa, conforme a nomenclatura da Teoria

de Probabilidades, a esperanca matematica da variavel aleatoria (X−u) condi-cionada a ocorrencia do evento {X > u}, ou ainda, em linguagem matematica

IE[X − u

∣∣X > u]

=

∫ ∞

−∞xdFu(x), (77)

27Poderıamos chamar IE[X − u

∣∣X > u]

de valor esperado dos excessos de X acima de

u, dado que X ultrapassou u – nome complicado, que nao usaremos adiante.

87

Page 91: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

onde Fu(·) designa a funcao da distribuicao condicional de (X − u) dado queocorreu {X > u}. Vimos que esta funcao possui a forma: Fu(x) = IP

[X−u ≤

x∣∣X > u

]. Onde o leitor deve exclamar: “Mas esta expressao ja apareceu no

texto na formula (55)!” E isso mesmo. A funcao Fu(·) e nossa velha conhecida,que foi denominada funcao de distribuicao de excessos de F (·) acima de u. Ateobtivemos sua expressao em termos da funcao F (·). Isso pode ser revisto em(61), uma relacao que nos presenteia com o seguinte fato: se F (·) possuirfuncao de densidade f(·), entao Fu(·) tambem tem sua funcao de densidade,que e dada pela seguinte formula:

fu(x) =

{0, se x < 0,f(x+u)1−F (u) , se x ≥ 0.

(78)

Juntando (77) e (79), chegamos a formula

e(u) =

∫ ∞

0

xf(x + u)

1 − F (u)dx, (79)

o que e o objetivo do presente comentario. Fim do comentario.

Voltaremos agora a nossa atencao para o caso em que F (·) e uma GPD coms = 0. Neste caso a funcao de densidade de F (·) possui uma expressao analıticaque pode ser facilmente calculada (via a derivacao da expressao da GPD (10),(11) ou (12)). Usando entao a formula (79) derivada no Comentario 22, pode-mos deduzir a expressao para a funcao da media de excessos de uma GPD; eiso resultado (sua demostracao foi “delegada” ao Exercıcio 34):

Fato: Se o parametro de forma, ξ, de GPD Gξ,β,0(·) satsifaz a condicao

ξ < 1 (80)

entao a funcao da media de excessos dessa GPD e dada por:

e(u) =β + ξu

1 − ξ(81)

para u ∈{

(0,+∞), quando 0 ≤ ξ,(0,−β/ξ), quando 0 > ξ,

(82)

e(u) =β

1 − ξ− u, (83)

para u ≤ 0. (84)

88

Page 92: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Antes de prosseguirmos com os nossos argumentos, que se apoiam no Fatoacima, precisamos dar a atencao adequada as suposicoes ξ < 1 e s = 0. Im-pusemos s = 0 porque apenas as GPD’s com s = 0 aparecem no Resultado dePickands, e, consequentemente, so tais GPD’s nos interessarao. A discussaodo porque da limitacao ξ < 1 do pressuposto (81) e no que isto implica e maisextensa, e sera feita no Comentario 26. Para que nao precisemos interrompernossos argumentos com a discussao da limitacao ξ < 1, vamos considerar so-mente funcoes Gξ,β,0(·) cujo parametro ξ e menor que 1. Mais ainda, para naorepetirmos os argumentos, referentes aos casos 0 ≤ ξ e 0 > ξ, vamos considerarapenas funcoes Gξ,β,0(·) cujo parametro ξ nao e menor que 0 (lembramos quea condicao ξ ≥ 0 ocorre se e somente se a cauda de Gξ,β,0(·) e infinita, e quea Sub-secao 4.3 explicou o motivo do nosso interesse por essas GPD’s).

Destacaremos agora como Propriedade a parte do Fato que e o ponto departida para a construcao do procedimento que determina uopt:

Propriedade: A parte correspondente as abcissas positivas da funcao da mediade excessos, e(u), u > 0, de uma GPD Gξ,β,0(·) satisfazendo a condicaoξ < 1, e uma funcao linear em u com tangente igual a

ξ

1 − ξ. (85)

Estamos proximos da construcao do nosso procedimento estatıstico. Agorae o momento de pensar em como poderıamos estimar a funcao e(·) se nao temosem maos a funcao de distribuicao F (·) de uma variavel aleatoria X, e se nose dado somente uma amostra x1, . . . , xn de realizacoes de X. Nossa sugestaoe que o aproximador seja a funcao e(·) construıda via a seguinte regra:

e(u) =

∑sobre todos os xi’s maiores que u (xi − u)

quantidade de xi’s que sao maiores que u, (86)

para u satisfazendo min{x1, . . . , xn} ≤ u < max{x1, . . . , xn}. (87)

Esta funcao sera chamada funcao da media amostral de excessos da amostrax1, . . . , xn. Tal nome vem do fato de e(u) ser a estimativa mais tradicionalpara e(u) = IE[X − u

∣∣X > u] dentre aquelas estimativas construıdas combase em uma amostra de X. De fato, o numerador em (86), que e a soma deexcessos da amostra acima de u, estima a soma de todos os excessos de X acimade u, enquanto que o denominador de (86) estima o peso de cada excedente

89

Page 93: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

da amostra acima de u sob a condicao de ocrrencia do evento {X > u}.Maiores detalhes a respeito da justificativa do porque e(·) estimar e(·) podemser encontradas em qualquer bom livro de estatıstica.

Comentario 23. Aqui gostarıamos de comentar sobre os limites impostos por(87) aos valores de u para as quais e(u) foi definida.

Os limites acima referidos surgem devido ao fato de que e(u) so nos inter-essa para u dentro destes limites. Especificamente falando, a informacao queextrairemos de e(·) esta totalmente contida no intervalo entre o valor mınimoe o valor maximo da amostra.

A princıpio, os valores de e(·) poderiam ser definidos fora do intervaloacima referido. Estes valores devem estar de acordo com a interpretacao dee(u) como a media de excessos acima de u. Apresentamos estes valores abaixo,mas de pronto alertamos que eles nao serao usados:

e(u) =1

n

n∑

i=1

(xi − u) =1

n

n∑

i=1

xi − u, para u < min{x1, . . . , xn}, (88)

e(u) = 0, para u ≥ max{x1, . . . , xn}. (89)

Fim do comentario.

A Propriedade em combinacao com o fato de que e(·) aproxima e(·), justifi-cam o procedimento formulado abaixo. Avisamos, porem, que esta justificacaonao e um argumento imediato e simples no caso do ıtem (i). A extensao desteargumento nos fez adia-lo para a ultima sub-secao da presente secao. Ja nocaso dos ıtens (ii) e (iii), eles seguem facilmente da expressao (85).

Procedimento para identificacao do limiar otimo uopt.(i) A partir de uma dada amostra x1, . . . , xn de uma funcao de dis-tribuicao F (·), construa e(·), a funcao da media amostral de excessosda amostra, via a formula (86). Indo da direita a esquerda ao longo dografico de e(·), procure o primeiro trecho do grafico que nao seja muitoirregular e que apresente comportamento aproximadamente linear. De-clare uopt como sendo o valor otimo do limiar, a abscissa do extremoesquerdo deste trecho.

(ii) Ainda mais, o conhecimento previo do verdadeiro parametro ξ obriga

a procura por um trecho linear horizontal, caso ξ = 0,

a procura por um trecho linear crecente, caso ξ > 0,

90

Page 94: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

a procurar por um trecho linear decrescente, caso ξ < 0.

(iii) A recıpoca de (ii) vale, especificamente falando, a tangente do trecholinear indica o sinal do verdadeiro ξ:

se houver confianca de que o trecho linear identificado e horizontal,entao pode-se concluir que ξ = 0,

se houver confianca de que o trecho linear identificado e crecente, entaopode-se concluir que ξ > 0,

se houver confianca de que o trecho linear identificado e decrescente,entao pode-se concluir que ξ < 0; neste caso, porem, e importanteconferir se e(·) indica que e(·) toca o eixo das abcissas, pois senao,a exigencia (82) poderia nao ser satisfeita, o que implicaria na im-possibilidade de ξ ser menor que 0.

Comentario 24. O ultimo ıtem da parte (iii) merece uma atencao redobrada.Ele insinua que a funcao e(·) pode apresentar padrao de funcao decrescentenum caso incompatıvel com ξ < 0. A que valor de ξ aponta tal comporta-mento? Isso sera respondido na Sub-secao 8.2. Fim docomentario.

Infelizmente a execucao do Procedimento descrito acima nao dispoe de nen-hum metodo quantitativo. Em particular, a “lineridade” nao pode ser formal-izada ou quantificada, e e geralmente identificada com base “no olhometro”,o que faz com que a eficiencia do procedimento dependa da experiencia dousuario. Algumas dicas serao dadas nos Aspectos abaixo. Para os interessadosem adquirir um pouco de experiencia nesse ramo, indicamos os exemplos daSecao 8.

Aspectos importantes da execusao mais tradicional do Procedimento.

Antes de enumerarmos os aspectos vamos insistir em um aviso. Resolvero Exercıcio 35 facilitara a compreensao da exposicao abaixo. Aos topicos.

(1). Comecar a construcao de e(·) do ponto u = 0 ou do ponto min{x1, . . . , xn}?E uma pergunta que surge naturalmente, pois a Propriedade considera u > 0,enquanto que e(·) foi construıdo a partir de min{x1, . . . , xn}.

91

Page 95: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Figura 20: A funcao da media amostral, e(·), de uma amostra retirada GPD

G0.7,1,0(·). Notamos que a teoria garante que e(·), a funcao da media de excessos

desta GPD, e uma funcao linear. Isto porem nao garante a linearidade da funcao e(·),como mostra a presente figura. A razao disso e que e(·) depende da amostra, que

pode nao representar perfeitamente a GPD. A figura ilustra tambem a irregularidade

de e(·) que aumenta conforme se move da esquerda a direita. Este efeito e causado

pelo aumento da esparsidade entre pontos da amostra da GPD. Notamos ainda que se

formos executar aquı o Procedimento para identificacao uopt, concluiremos entao que

uopt = 0, o que e coerente com a realidade, pois, conforme dito acima, a funcao e(·)e linear a partir da abcissa 0.

Esta funcao tem formato de “serra” explicado no item 3 dos Aspectos de execusao.

Por certo, os dentes da serra sao formados por trechos verticais e trechos inclinados

−45◦. Isso nao se observa na presente figura devida a diferenca das escalas nos eixos.

92

Page 96: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Respondemos: o correto e comecar a partir do min{x1, . . . , xn}.Porem, se voce sabe que a cauda a ser aproximada nao comeca antes de

um valor V , entao construa e(·) a partir de V . Geralmente as pessoas definemV = 0, expressando com isto que a cauda, que eles querem aproximar, fica adireita de zero. O uso de 0 como inıcio de e(·) contribui ainda mais para aexistencia da pergunta acima.

Ha casos nos quais todos os valores de amostra sao positivos. E muitocomum comecar a construcao de e(·) a partir de 0 nestes casos. Quando isto efeito, a parte de e(·) entre 0 e min{x1, . . . , xn} nao se usa para a execucao doProcedimento para identificacao de uopt. Isto e coerente com o conteudo do Co-mentario 23, que afirmou que os valores de e(·) a esquerda de min{x1, . . . , xn}nao ajudam na captacao do comportamento linear da funcao e(·).

Por fim, devemos confessar que a pergunta acima decorre, em parte, pornossa culpa, pois nao especificamos com a devida clareza como e(·) se relacionacom GPD’s. De fato, se e(·) fosse uma GPD, entao a Propriedade se aplicaria aela, e, consequentemente, seu domınio de definicao seria u > 0. Caso contrario,nao haveria empecılios em considerar e(·) no domınio entre o mınimo e omaximo da amostra. O que vale e o segundo caso; o domınio correto e ointervalo definido pelo valor mınimo e valor maximo da amostra. Mas existeuma relacao entre e(·), construıda dessa forma, e as GPD’s. Esta relacao estanas entrelinhas do Procedimento. Porem, para uma explicacao detalhada, oleitor tera de esperar ate a ultima sub-secao.

(2) Sobre o calculo de e(u) quando u coincide com um dos pontos de amostra.Aqui enfatizamos um dos aspectos embutidos na formula (86). Se u coin-

cidir com um dos pontos de amostra, este ponto nao e contabilizado nem nonumerador nem no denominador da formula (86) que calcula e(u). A exclusaodeste ponto e consequencia do condicionamento {X > u} na definicao de e(·).Se fosse {X ≥ u}, entao o ponto da amostra na posicao u estaria incluso.E possıvel argumentar que a substituicao de {X > u} por {X ≥ u} alteradetalhes de todo o procedimento, mas nao pode alterar as conclusoes que eleproduz. Esta argumentacao nao e sera abordada.

(3) Sobre as maneiras de se expressar visualmente e(·).Para evitar possıveis desentendimentos e cofussoes, usaremos a notacao

x(1) - o menor valor da amostra x1, . . . , xn;

x(2) - o segundo menor valor, · · · , x(n) - o maior valor da amostra.(90)

Veja agora a formula (86) e observe que o numero de vezes que “u” aparece

93

Page 97: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

no numerador e igual ao valor do denominador. Isto nos ajuda a derivar aseguinte expressao alternativa para a funcao da media amostral de excessos:

e(u) =

(1

n − k

n∑

i=k+1

x(i)

)− u, para u ∈ [x(k), x(k+1)), (91)

para qualquer k de 1 a n − 1. Esta expressao prova a seguinte

propriedade-(a): entre quaisquer dois pontos consecutivos da amostra, a funcaoe(·) e linear com tangente igual a −1.

Agora, se voce prorrogar esta funcao linear ate a abcissa x(k+1), voce vera queseu valor em x(k+1) e menor que e(x(k+1)) (o Exercıcio 37 lhe ajudara provareste fato). Isto implica a

propriedade-(b): a funcao e(·) e descontınua em cada ponto da amostra, ap-resentando um pulo para cima nestes pontos.

Ao desenhar o grafico de e(·) e custume preencher os pulos por intervalosverticais. Esta barbaridade e as propriedades-(a,b) fazem com que o grafico dee(·) apareca frequentemente no formato de “dentes de serra”.

Segue-se do nosso argumento do paragrafo anterior que os dentes da “serra”de uma funcao e(·) sao feitos de segmentos verticais e de segmentos de in-clinacao −45◦. Nem sempre voce encontrara na literatura graficos com seg-mentos de inclinacao −45◦. Isto ocorre quando a escala vertical e a escalahorizontal sao diferentes.

Existem ainda pessoas que alegam – e concordamos com esta alegacao – queos segmentos inclinados dos dentes da “serra” de uma funcao e(·) sao poucorepresentativos. Vejamos o argumento. Cada segmento de e(·) entre cada parade observacoes x(k) e x(k+1) surge devido a ausencia de outras observacoesentre estas duas. Mas isto nao significa que a variavel aleatoria X - aquelacujas realizacoes compoem a amostra – nao possa assumir valores entre x(k)

e x(k+1). Logo, nada obriga que e(·), a funcao de media de excessos de X,seja uma funcao linear entre x(k) e x(k+1). O argumento agora apresentadonao so desqualifica a capacidade de informacao dos trechos lineares de e(·)em indicar o comportamento de e(·), como tambem indica que a informacaoconfiavel sobre e(·) esta contida somente nos valores de e(·) avaliados nospontos da amostra. Dessa forma os seguidores deste argumento apresentam afuncao e(·) somente pelos pontos

(x(1), e(x(1)

)), · · · ,

(x(n), e(x(n)

)), (92)

94

Page 98: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

e, as vezes, ligam os pontos consecutivos desta apresentacao por intervalos.Nesta ultima forma de apresentacao o grafico de e(·) nao possui trechos ver-ticais, o que o faz se apresentar fora do padrao dos “dentes-de-serra”, comodiscutido acima.

(4) Sobre a coincidencia de uopt com um dos pontos de amostra.Se os argumentos do ıtem (3) acima convenceram voce de que os trechos

da funcao e(·) entre pontos da amostra nao sao representativos, no sentidode nao conseguirem revelar o verdadeiro comportamento da funcao e(·) entretais pontos, entao voce vai executar o Procedimento para a identificacao dolimiar otimo da seguinte maneira: analise a linearidade de e(·) nao por todos ostrechos, mas apenas por aqueles que comecam (e terminam) em um dos pontosda amostra. Voce nao e o unico, todo mundo faz isso. Em consequencia, uopt

sempre coincide com um dos pontos de amostra.

(5) sobre a inclusao do uopt no conjunto de excessos usados para construiraproximador Gξ,β(uopt),0(·).

O ıtem acima explicou porque uopt sempre coincide com um dos pontos daamostra x1, . . . , xn, o que frequentemente induz a seguinte duvida: o pontoque coincide com uopt deve ou nao deve ser usado na construcao do conjuntode excessos (74)? Gostarıamos de explicitar que a resposta e “nao” devidoao formalismo: “para que um valor x seja excedente acima de um valor u enecessario que x seja estritamente maior que u”. Assim o ponto de amostraque coincidiu com uopt nao e um excedente acima de uopt, e, logo, nao geraexcesso. Porem, todo formalismo tem por tras de si uma razao pratica. OExercıcio 40 convida o leitor a descobrir esta razao.

(6) sobre aspectos praticos da identificacao da linearidade da funcao e(·).A analise da linearidade da funcao e(·) e uma tarefa complexa devido a

intrınseca irregularidade do grafico desta funcao. Esta irregularidade e cau-sada – claro – pelo fato da funcao ser construıda com base numa amostra. Oque nao pode ser esquecido e que o objetivo da analise e identificar a regiaoda linearidade de funcao e(·), para a qual a funcao e(·) serve como uma aprox-imacao. Isto nos permite excluir da analise as regioes onde e(·) seja muitoirregular e a amostra muito esparsa. Uma tal regiao e, tipicamente, a caudada funcao e(·). Foi precisamente a incapacidade da cauda de e(·) ser um bomaproximador para cauda de e(·) que fez com que o Procedimento fosse procu-rar pela linearidade de e(·) num so trecho, que geralmente e um intervalo que“acaba” antes do comeco da irregular e indesejavel cauda de e(·).

95

Page 99: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(7). Nao foi justificado, nem sequer no nıvel heurıstico, a instrucao do Pro-cedimento que nos “manda” procurar pelo trecho “mais a esquerda” do graficode e(·) e atribuir a uopt o extremo esquerdo deste trecho. Tudo isso serajustificado na Sub-secao 7.6.

7.3 A segunda parte da estrategia: como construir a GPD aqual se aderem os excessos acima do limiar otimo

Nesta sub-secao apresentaremos um dos possıveis procedimentos de execucaodo passo (B) da estrategia tracada na Sub-secao 7.1. Lembramos que o passoanterior a (B) determinou o valor otimo do limiar, uopt, de sorte que os excessosda amostra x1, . . . , xn acima de uopt podem ser vistos como se fossem geradospor uma GPD com s = 0. A tarefa do ıtem (B) e encontrar esta GPD.Lembramos as notacoes ja introduzidas que serao aproveitadas agora: N(uopt)denota o numero dos excessos, e

y1, y2, . . . , yN(uopt). (93)

denota os excessos ordenados.O passo a ser executado pelo ıtem (B) e um problema de estatıstica para-

metrica, pois trata-se de determinar a funcao de uma dada famılia parametrica– no caso, as GPD’s com s = 0 – que melhor se enquadra a uma dadaamostra – a amostra (93) no caso. Cada membro da famılia e identificadopor meio de dois parametros, ξ e β, e o problema em questao e o de “apontar”os parametros daquela funcao que se julga ser a mais provavel geradora daamostra. Esse julgamento pode ser feito com base em diversos criterios. Ap-resentaremos o procedimento que se baseia no princıpio de maxima verossim-ilhanca (no Comentario 27 ha uma breve introducao desse princıpio).

A solucao da tarefa do ıtem (B) dada pelo princıpio de maxima verossimil-hanca e: com base na amostra (93) construa a funcao ` (observe que em todasas formas da funcao ` apresentadas abaixo, y1, . . . , yN(uopt) sao numeros, en-quanto que ξ e β sao variaveis)

`(ξ, β) = −N(uopt) log β −(

1

ξ+ 1

)N(uopt)∑

i=1

log

(1 +

ξ

βyi

), (94)

definida no domınio ξ > 0, β > 0,

caso voce saiba que o valor do parametro ξ da GPD, que melhor se adere a a

96

Page 100: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

mostra (93), e maior que 0;

`(ξ, β) = −N(uopt) log β −(

1

ξ+ 1

)N(uopt)∑

i=1

log

(1 +

ξ

βyi

), (95)

definida no domınio ξ < 0, β > 0,

caso voce saiba que o valor do parametro ξ da GPD, que melhor se adere a amostra (93), e menor que 0;

`(β) = −N(uopt) log β − 1

β

N(uopt)∑

i=1

yi, (96)

definida no domınio β > 0,

caso voce saiba que o valor do parametro ξ da GPD, que melhor se adere a amostra (93), e igual ao 0.

A proxima etapa e entao encontrar o ponto (ξ, β) (ou, β, no caso (96))onde a funcao ` assume seu maximo. Nessas condicoes Gξ,β,0(·) (ou, G0,β,0(·),no caso (96)) e a funcao que melhor se adere a amostra (93) de acordo com oprincıpio de maxima verossimilhanca.

Comentario 25. A descricao acima cria uma confusao que e tıpica para osprocedimentos de estimacao de parametros. A confusao esta nas notacoes.Nosso objetivo e esclarece-las.

Ate agora ξ e β(u) significavam dois valores que sao os valores dos parametrosde forma e de escala na GPD Gξ,β(u),0(·). Por outro lado, na descricao dometodo de maxima verossimilhanca, ξ e β sao variaveis livres. Para distinguirentre uma interpretacao e outra, seria necessario introduzir uma notacao dis-tinta. Nao faremos isto. O contexto sera suficiente para indicar ao leitor a in-terpretacao adequada. Ainda onde houver possibilidade de confusao, referire-mos aos valores ξ e β(u) como verdadeiros valores, ou verdadeiros parametros.Fim do comentario.

Naturalmente, voce gostaria de possuir um criterio para a escolha corretada funcao dentre as tres opcoes (94), (95) e (96). Conforme indicado no textoabaixo de cada opcao, esta escolha e regida pelo “verdadeiro” valor de ξ, istoe, o valor de ξ daquela GPD que melhor adere a amostra (93). Sabemosque o verdadeiro ξ depende do domınio de atracao no qual se encontra F (·),enquanto que este domınio depende do comportamento da cauda de F (·) (este

97

Page 101: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

fato esta formulado no Resultado de Pickands). E justamente aı que residea dificuldade em conhecer ξ, pois no ambito do problema da estimacao decauda, a funcao F (·) figura como desconhecida. Voce tambem pode aplicardiversos metodos estatısticos a amostra de F (·) para adivinhar o domınio deatracao, e, consequentemente, inferir sobre o valor de ξ. Voce pode, de outraforma, usar metodos estatısticos que adivinham ξ, ou somente o sinal de ξ.Um tal metodo baseia-se na expressao (85) da tangente da funcao da media deexcessos. Mas nem este metodo, nem nenhum outro, serao discutidos no nossotexto. O leitor pode encontra-los nos livros citados na secao Referencias.

Ainda falando sobre a escolha entre (94), (95) e (96), gostarıamos de notarque em nossos exemplos de aplicacao, exibidos na Secao 8, escolheremos umadelas sem nos preocupar com o embasamento da escolha, e teremos sorte nosentido de que os resultados indicarao se a escolha for inadequada. Esta “auto-checagem” dos resultados nao e uma regra, e so ocorre se amostra representabem a funcao da qual originou, se o valor otimo uopt foi bem definido, e sea otimizacao numerica – a ferramenta para calcular ξ e β discutida abaixo –funcionou bem.

Depois de termos discutido nos dois paragrafos acima sobre a escolha entre(94), (95) e (96), vamos agora voltar nossa atencao a determinacao dos pontosdo valor maximo destas funcoes. Uma formula fechada para tal ponto so existepara a funcao (96); que e:

β =

∑N(u)i=1 yi

N(u)(97)

(Exercıcio 31 ajuda derivar e analisar esta expressao).Para as funcoes (94) e (95) nao existe formula fechada para ξ e β. Por isto,

na pratica empregam-se metodos numericos de procura de maximos de funcoes– o que faremos na Secao 8. Nao pretendemos discutir aqui o funcionamentode metodos numericos de otimizacao (ou seja, de procura de maximos). Sofaremos duas observacoes importantes a respeito deles. A primeira e que deveser respeitado o domınio da definicao da funcao otimizada. Portanto, naoesqueca informar o metodo empregado sobre domınio; estes domınios foramdefinidos nas segundas linhas das formulas (94), (95), (96). A segunda ob-servacao e que os metodos de otimizacao numerica funcionam melhor quandoos argumentos da funcao, cujo maximo esta sendo procurado, sao restritos aum domınio limitado. Por isso e desejavel estabelecer limites finitos superi-ores e inferiores para ξ e β. Um e generico: β > 0. Outros limites podem serobtidos com base em consideracoes especıficas. Por exemplo, para dados de

98

Page 102: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

perdas de investimentos em bolsas de valores, pode-se supor que ξ < 4, umavez que esta desigualdade e obedecida por todos os casos praticos estudadosate agora.

E bom destacar que o metodo de maxima verossimilhanca nao e o unicoaplicavel a estimativa dos parametros ξ e β. Outros metodos, assim como acomparacao entre eles, sao bem apresentados em Reiss e Thomas ([7]).

7.4 A ultima parte da estrategia: da GPD que aproxima osexcessos a funcao que aproxima a cauda

Aqui comentaremos o ıtem (C) da estrategia (A)-(C) de execucao da ideiado metodo POT. Lembramos que este passo recebe dos passos anteriores daestrategia o valor designado uopt, chamado o valor otimo do limiar, e a funcaoGξ,β,0(·). Sua tarefa e construir um aproximador para a cauda de F (·) a direita

de uopt. Conforme definido na propria formulacao do ıtem (C), o aproximadore a funcao G∗

ξ,β,0(·), dada pela formula (62). O porque desta funcao servir

como um bom estimador foi explicado na Sub-secao 6.3; ali a explicacao ecompleta e dispensa comentarios. Um outro formato, diferente daquele vistoem (62) e apresentado no Comentario 15.

Observando a formula (62) ve-se que dentre os elementos envolvidos nela,so F (uopt) nao havia sido determinado pelos ıtens anteriores ao ıtem (C). Esteıtem atribui a F (uopt) o valor (n−N(uopt))/n (veja (75)); com isto a execucaoda parte pratica e concluıda. Assim a unica explicacao que devemos ao leitore sobre o porque desta atribuicao.

Eis a explicacao: ja que F (·) e uma funcao desconhecida no ambito do prob-lema de estimacao de cauda, entao estimamos F (uopt) por F (uopt) (recorde,F (·) designa a funcao de distribuicao amostral construıda com base na amostraretirada de F (·)). Pela construcao da funcao de distribuicao amostral, tem-seque

F (uopt) =numero dos pontos de amostra que nao excedem uopt

numero total dos pontos de amostra,

logo, F (uopt) = (n−N(uopt))/n. Tudo isso e precisamente o que nos motivoua colocar (n − N(uopt))/n no lugar de F (uopt) em (62).

A explicacao acima desperta uma indignacao imediata em de qualquerleitor que tenha acreditado nos nossos argumentos anteriores: “Mas vocesproprios alegaram que F (·) nao pode ser bem aproximada por F (·) na sua

99

Page 103: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

cauda – esta afirmacao apareceu na Sub-secao 2.3 onde foi usada para moti-var a construcao e emprego do metodo POT! Logo, a estimativa de F (uopt),F (uopt), nao e boa.” Em nossa defesa podemos apresentar tres argumentos.Primeiramente, para que nosso metodo construa uma boa estimativa da caudade F (·) a direita de uopt, e preciso alguma estimativa inicial para F (uopt). Emsegundo lugar, uopt e o limiar a partir do qual “comeca” a cauda de F (·);isto permite crer que F (·) e F (·) ainda sao proximas ate o ponto uopt. Emterceiro lugar, em geral a aproximacao entre as funcoes F (·) e F (·) melhoranos pontos da amostra de F (·). Ja que uopt coincide com um dos pontos daamostra (conforme indicado em (4) da Sub-secao 7.2), entao acreditamos queF (u) seja uma boa estimativa para F (u).

7.5 Comentarios

Comentario 26: Explicaremos agora o porque da limitacao ξ < 1 na formula(81) e as implicacoes disto na execucao da parte pratica do metodo POT.

Nossa explicacao usa fortemente o seguinte fato do Calculo Diferencial eIntegral: para qualquer que seja numero positivo v,

∫ ∞

v

y

(1 + ξy)1+1/ξdy =

{um valor finito, caso 0 < ξ < 1,+∞, caso ξ ≥ 1.

(98)

Tome agora uma GPD arbitraria com ξ > 0, β = 1 e s = 0. A es-colha β = 1 e s = 0 tem como objetivo simplificar e exposicao (O leitor veraque os argumentos nao mudariam se tomassemos outros valores para estesparametros.) A escolha ξ > 0 tem o objetivo de concentrar a atencao no casomais importante para nosso trabalho (lembramos que os casos ξ > 0 e ξ = 0correspondem as GPD’s com caudas infinitas, que nos interessam mais que asGPD’s com caudas finitas pelas razoes explicadas na subsecao 4.3). Os outrosdois casos, ξ = 0 e ξ < 0 podem ser tratados pelo proprio leitor. As ideias saoas mesmas da discussao abaixo, onde o caso ξ > 0 e solucionado. Seja entaoGξ(·) a notacao para a GPD escolhida. Recorde que sua expressao e dada por(5). Ao diferenciar esta expressao obtemos sua funcao de densidade:

fξ(x) =dGξ(x)

dx=

{1

(1+ξx)1+1/ξ , para x ≥ 0

0, para x < 0.(99)

Seja agora Y a variavel aleatoria distribuıda conforme Gξ(·). Entao, para

100

Page 104: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

qualquer v positivo tem-se:

IE[Y − v

∣∣ Y > v]

=1

Gξ(v)

∫ ∞

0yfξ(y + v)dy. (100)

Conforme (99) esta esperanca condicional e igual ∞ quando ξ ≥ 1. E por istoque ha a limitacao “ξ < 1” na formula (81). Em outras palavras, a esperancacondicional IE

[Y − v

∣∣Y > v]

simplesmente nao existe quando ξ ≥ 1.A explicacao acima implica que o metodo de procura pelo limiar uopt, que

esta sendo apresentado na presente sub-secao, nao pode ser aplicado quandoξ ≥ 1. Existem metodos alternativos aplicaveis ao caso ξ ≥ 1. Confessamosque raramente estes casos aparecem em estudos de dados reais. A razao disso eque se uma funcao distribuicao F (·) permitir a aproximacao de sua cauda poruma GPD com ξ ≥ 1, entao a variavel aleatoria distribuida conforme F (·) teramedia infinita. Acredita-se porem que as variaveis aleatorias que representamperdas em casos reais tem medias finitas. Nao sabemos dizer se esta crencae alimentada pelo desejo de poder utilizar metodos que so funcionam quandoξ < 1 ou se de fato ha razoes solidas por tras desta crenca.

Um leitor atento pode observar o seguinte: “No caso ξ ≥ 1, apesar dafuncao e(v) = IE

[Y − v

∣∣ Y > v]

ser igual ao infinito para todo v ≥ 0, suaestimativa e(v), dada por (86), sera sempre finita. Isto ocorre devido ao fatoda amostra y1, . . . , ym, que gera e(v), conter um numero finito de elementos.Entao, se formos executar o Procedimento para identificacao do limiar otimouopt analisaremos a funcao e(·), que assume valores finitos tanto para o casoξ < 1 quanto para o caso ξ > 1. No primeiro caso o procedimento e legıtimo,no segundo nao. Como entao saber em qual dos dois casos nos encontramos?”A resposta e a seguinte: No caso ξ < 1, a funcao e(v) cresce com o aumentode v, mas este crescimento nao e muito rapido, pois a funcao e(v) crescede forma linear com aumento de v. Ja no caso ξ ≥ 1, a funcao e(v) deveapresentar um crescimento mais rapido que linear. E claro que o grafico dee(·) muda de amostra para amostra, mas de maneira geral podemos afirmarque no caso ξ ≥ 1 este grafico deve “subir” como se fosse enrolado numa funcaoexponencial, enquanto que no caso ξ < 1 ele deve subir como se fosse enroladonuma funcao linear.

Comentario 27. Para comodidade do leitor, apresentaremos um esboco da ideiado princıpio de maxima verossimilhanca empregado acima. Consideraremossomente o caso ξ > 0. Os outros casos seguem diretamente por analogia.

101

Page 105: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Comecaremos notando que ao derivar a funcao de distribuicao Gξ,β,0(·)obtem-se facilmente a forma da sua funcao de densidade:

fξ,β(x) =

{ξβ

(1 + ξ x

β

)−(1+1/ξ), para x > 0,

0, para x < 0,(101)

(note que escrevemos fξ,β em vez de fξ,β,0 para economizar espaco). Portanto,se Y1, . . . , Ym forem variaveis aleatorias independentes e cada uma distribuıdaconforme Gξ,β,0(·), entao a funcao de densidade da distribuicao deste vetor e28

fξ,β(x1)fξ,β(x2) · · · fξ,β(xm), (x1, x2, . . . , xm) ∈ Rm. (102)

O metodo de maxima verossimilhanca considera a amostra y1, . . . , ym comouma realizacao deste vetor, e postula que ξ e β serao aqueles valores dosparametros ξ e β para os quais a obtencao desta realizacao e a mais provavel.Ja que a probabilidade de se obter y1, . . . , ym e igual ao valor da funcao (102)no ponto (x1, . . . , xm) = (y1, . . . , ym) vezes o volume de uma pequena bola emtorno deste ponto, entao ξ e β serao aqueles valores para os quais a funcao(102) assume seu maximo global no ponto (y1, . . . , ym). Para obter ξ e βe preciso substituir (y1, . . . , ym) no lugar das variaveis (x1, . . . , xm) em (102),considerar o resultado como uma funcao de variaveis ξ e β e procurar os valoresde ξ e β para os quais esta funcao assume seu valor maximo.

Notamos ainda que na procura por ξ e β geralmente faz-se uso do seguintefato: os extremos da funcao (das variaveis ξ e β)

L(ξ, β) := fξ,β(y1)fξ,β(y2) · · · fξ,β(ym)

coincidem com os extremos da funcao

`(ξ, β) := log(L(ξ, β)

).

Isto e verdade devido ao fato de log(x) ser uma funcao monotona crescente.Entretanto tratar a funcao ` e muito mais comodo, uma vez que a aplicacaode log a funcao L transforma o produto fξ,β(y1) · · · fξ,β(ym) na somatoria

log fξ,β(y1) + · · · + log fξ,β(ym). E por isso que em nossa aplicacao da Sub-secao 7.3 surgiu a funcao `. Acrescentamos ainda que esta e a funcao delog-verossimilhanca

28Em nossa aplicacao do princıpio de maxima verossimilhanca, m = N(uopt).

102

Page 106: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

7.6 Justificativas ate agora nao fornecidas

A estrategia (A)-(C) baseia-se em um conjunto de pressupostos e de pro-priedades de uma parte que foi “escondida” de leitores. Agimos assim parao seu proprio bem, pois dessa forma nossa apresentacao fluiu tranquilamente.Agora chegou o momento da revelacao de segredos.

A principal componente da base da estrategia e o seguinte

Pressuposto 4. Existe um limiar U satisfazendo

min{x1, . . . , xn} ≤ U < max{x1, . . . , xn}, (103)

tal que para qualquer u ≥ U a cauda de F (·) a direita de u e tao proximade sua funcao-aproximador, G∗ξ,β(u),0(·), que os pontos da amostra de

F (·) que ultrapassam u podem ser considerados como se fossem umaamostra gerada por G∗ξ,β(u),0(·).

Nota ao Pressuposto. Na dupla desigualdade (103), so a parte “U < max{x1, . . . , xn}”e um forte pressuposto; isto sera esclarecido no texto logo abaixo. Aparte “min{x1, . . . , xn} ≤ U foi assumida para inibir a procura por Ua esquerda de toda a amostra. O ponto e: em tese nao ha nada queproiba U ser menor que min{x1, . . . , xn}, mas na maioria dos casos reaisisto nao acontece porque as amostras sempre “pegam” parte do miolode funcao de distribuicao, que, conforme nosso entender, comporta-sediferentemente da cauda. E claro que excecoes podem ocorrer nessatese. Por exemplo, a desconhecida funcao de distribuicao que gerou aamostra poderia ser uma pura GPD, digamos G1,1,0(·). A amostra pode-ria ser algo do tipo 1, 3, 9. Mas ja que a funcao neste exemplo hipoteticoe uma GPD, entao o valor de U neste caso seria 0. Logo U seria menorque o mınimo da amsotra.

“Ue?!” - exclamaria surpreso qualquer leitor atento: “O Pressuposto 4 naosegue do Pressuposto 3 via a afirmacao do Resultado de Pickands?” Nao. OPressuposto 3 e Resultado de Pickands implicam que a cauda de F (·) a direitade u e a funcao G∗ξ,β(u),0(·) aproximam-se quando u → ∞. Ja o Pressuposto 4

postula a existencia de um valor U que nao excede a amostra29, e tal que paraqualquer u ≥ U a aproximacao e perfeita.

29Isso devido a exigencia “U < max{x1, . . . , xn}” no Pressuposto 4.

103

Page 107: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

A quem pedir justificativas solidas e rigorosas para a aceitacao do Pressu-posto 4 a resposta sera honesta: nao ha. Podemos somente apresentar algunsfatores a favor desta aceitacao.

Um fator que incentiva a aceitacao do Pressuposto 4. A grosso modo, o Pres-suposto 4 diz que a partir de um determinado valor U a cauda de F (·) epraticamente uma GPD reescalada e deslocada. Recusar o pressuposto impli-caria em admitir que a cauda de F (·) e uma GPD destorcida por uma funcaoL de variacao lenta (supomos aqui que F (·) esta no domınio de atracao de umaEVD de Frechet e usamos o resultado (40) que afirma que a cauda de F (·)tem esta forma). No entanto voce nao sabe nada sobre L, pois a informacaode que esta possui variacao lenta nao diz nada a respeito da sua forma exata.Isso lhe obriga a usar metodos de estatıstica nao parametrica para adivinhar– nem que seja aproximadamente – a verdadeira forma da cauda. Aconteceque a estatıstica nao parametrica funciona bem com amostras grandes, quenao e o presente caso, pois, conforme ja dissemos, a quantidade de pontos daamostra procedentes da cauda e pequeno. Este problema e eliminado peloPressuposto 4, pois ele leva o problema da estimacao de cauda para o campode estatıstica parametrica: o problema da estimacao torna-se, basicamente, oproblema da estimativa dos parametros da funcao G∗ξ,β(u),0(·).Um outro fator que incentiva a aceitacao do Pressuposto 4. A recusa do Pres-suposto 4 leva por agua abaixo toda a estrategia (A)-(C) tracada na Sub-secao 7.1. Tente inventar outra, no seu lugar, que produza algum estimadorpara a cauda. Voce vera que para que esta funcione e inevitavel assumiralguns pressupostos. Este fato as vezes leva algumas pessoas a sugerir quea melhor opcao para executar a ideia do metodo POT e seguir a demon-stracao do Resultado de Pickands – uma sugestao lıcita decorrente do fato queeste resultado e a base da ideia do metodo, e que ele nao exige pressupos-tos adicionais, uma vez que foi derivado rigorosamente. Eis entao a sugestao:“Deixemos por um instante a questao de procura dos valores de u e de F (u)e imaginemos que eles sao conhecidos. Ficamos entao com o problema daestimacao de ξ e β(u). Lembremos que estes apareceram no Resultado dePickands, e que portanto, a demostracao deste deve conter a construcao de ξe β(u). Porque entao nao usar esta construcao para montar uma estrategiade estimacao destes parametros?” Eis a resposta: “Se a parte pratica dometodo resolvesse aproveitar das construcoes da demostracao do Resultadode Pickands para a estimativa dos parametros ξ e β(u), entao seria difıcil en-contrar a saıda para o seguinte Cırculo vicioso: por um lado as construcoes

104

Page 108: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

fornecem ξ e β(·) so depois de serem informadas sobre o comportamento dacauda30 de F (·), por outro lado o comportamento da cauda de F (·) so serarevelado por seu aproximador, G∗ξ,β(u),0(·) depois que os parametros ξ e β(u)forem estimados.”

Entao dada a dificuldade apresentada, assumiremos o Pressuposto 4. Issosignifica (devido a interpretacao do pressuposto dada no paragrafo imediata-mente depois de sua formulacao) que podemos aproximar a cauda de F (·) adireita de u, para qualquer u ≥ U , por G∗ξ,β(u),0(·). Qual seria entao o mel-hor valor de u? O Resultado de Pickands responde esta pergunta: “Quantomaior u, melhor e a precisao da aproximacao.” Isto motivaria a tendenciade aumentar u na construcao da solucao do problema de estimacao de cauda.O empecılio porem, mora no fato de que este problema nos fornece apenasuma amostra de valores retiradas de F (·). Tendo em mente que os valores daamostra que excedem u serao aqueles que determinam o formato de G∗ξ,β(u),0(·),chega-se a conclusao de que o aumento excessivo do limiar diminuiria a pre-cisao da estimativa. De fato o aumento de u resulta na diminuicao do numerode pontos da amostra x1, . . . , xn que ultrapassam u, e, consequentemente, napiora da precisao das estimativas dos parametros da funcao G∗ξ,β(u),0(·) obti-das com base nestes pontos. Daı a necessidade de estabelecer um criterio parao valor otimo de u. Na estrategia (A)-(C) tal valor foi denotado de uopt edefinido no ıtem (A). O que esta nas entrelinhas daquela definicao e o seguintecriterio:

Pressuposto 5. O limiar otimo, uopt, isto e, o valor a direita do qual a caudade F (·) sera aproximada pela estrategia (A)-(C), e a estimativa de U(do Pressuposto 4), isto e, a estimativa do menor valor que nao excedea amostra, a direta do qual a cauda de F (·) e sua funcao aproximadorG∗ξ,β(u),0(·) sao praticamente identicas.

Este criterio foi chamado de “pressuposto” por nao haver justificativas rig-orosas para tal escolha de uopt a nao ser o bom senso.

Reescreveremos agora o Pressuposto 4 da maneira mais comoda para aaplicacao do procedimento estatıstico que estabelecera o valor de uopt (observe

30Para entender porque ξ depende do comportamento da cauda de F (·), recorde que ξdepende do parametro α via relacao (56), e que α corresponde a EVD em cujo domınio deatracao encontra-se F (·). Relembre tambem que este domınio e determinado pelo compor-tamento da cauda de F (·) – sobre isto versa o ıtem (IV) da Sub-secao 5.4. Ja para entenderporque β(·) depende do comportamento da cauda de F (·) e so reler o Comentario 16.

105

Page 109: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

que o Pressuposto 5 nos obriga a estimar U , logo a tambem empregar ummetodo estatıstico).

Pressuposto 4 reformulado. Existe um limiar U satisfazendo

min{x1, . . . , xn} ≤ U < max{x1, . . . , xn},tal que para qualquer u ≥ U a funcao de distribuicao de excessos acimade u, Fu(·), e tao proxima de sua funcao-aproximador Gξ,β(u),0(·) que osexcessos dos pontos da amostra x1, . . . , xn que ultrapassam u podem serconsiderados como se fossem uma amostra gerada por Gξ,β(u),0(·).

O problema agora se reduz em estimar o valor de U com base na amostrax1, . . . , xn retirada de F (·). Recordamos que o estimador a ser calculado edenotado por uopt e chama-se limiar otimo ou valor otimo do limiar. A nossasolucao para este problema baseia-se no Fato apresentado na Sub-secao 7.2.Combinando o Pressuposto 4-reformulado com a Propriedade decorrente desteFato, deduzimos que a funcao da media de excessos de Fu(·) e linear para todou ≥ U . Esta cnclusao e o fato da funcao da media amostral de excessos servircomo aproximacao para a funcao de media de excessos nos sugere o seguinte

Procedimento-de-tres-etapas para identificacao do limiar otimo uopt.Para cada u entre min{x1, . . . , xn} e max{x1, . . . , xn} execute o seguinteprocedimento (a)-(b):

(a) Extrair da amostra x1, . . . , xn os valores que sao estritamente maioresque u, e formar a nova amostra de seus excessos acima de u. Para acontinuidade da exposicao, introduzimos as notacoes: N(u), que denotaa quantidade de excedentes da amostra acima de u, e

y(u)1 , . . . , y

(u)N(u)

(104)

o conjunto ordenado dos excessos. (O super-ındice “(u)” junto a caday e necessario para indicar que a amostra (104) muda de acordo com u.Ja a ordenacao da amostra (104) e o que facilitara nossa argumentacaoabaixo.)

(b) Construir a funcao eu(v), v ≥ 0, seguindo a formula:

eu(v) =

∑sobre todos os y

(u)i ’s maiores que v

(y

(u)i − v

)

quantidade de y(u)i ’s que sao maiores que v

, (105)

para 0 ≤ v ≤ max{x1, . . . , xm} − u,

106

Page 110: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

e testar se esta funcao e linear em v.

(c) Definir uopt como o menor valor de u para o qual o teste do ıtem (b)obteve resposta positiva.

O Procedimento acima foi chamado de de-tres-etapas com o objetivo de dsit-inguı-lo do Procedimento da Sub-secao 7.2. A diferenca entre os nomes enfatizaa diferenca essencial entre estes dois procedimentos: o que foi definido a poucovem de u a u; para cada u ele constroi e analisa sua funcao da media amostralde excessos, e determina uopt como o menor valor de u para o qual sua funcaose julga apresentar crescimento linear. Ja o Procedimento da Sub-secao 7.2constroi uma unica funcao da media amostral de excessos e determina uopt

como a menor abcissa a direita da qual esta funcao apresenta crescimento lin-ear. Bem, entre os dois, o Procedimento de-tres-etapas e que foi embasado peloargumento que precede sua formulacao. Entao a nossa obrigacao e mostrarque o Procedimento de-tres-etapas e o Procedimento da Sub-secao 7.2 produzemo mesmo uopt. A demonstracao esta contida no paragrafo abaixo.

Para facilitar nossos argumentos, assumiremos que x1, . . . , xn designa aamostra ordenada e sem repeticoes, ou seja, temos x1 < x2 < · · · < xn−1 <xn. Recorde que as amostras (104) tambem sao ordenadas por definicao, eque nao apresentam repeticoes, dado que elas provem da amostra x1, . . . , xn.Compararemos agora a funcao e(·) e as funcoes eu(·). O que pode obscurecerum pouco a compreencao de nossos argumentos e que u designa a variavellivre da funcao e(·) e designa um parametro com valor fixo no caso de eu(·);a variavel livre desta ultima funcao foi denotada por v. Com o objetivo deeliminar a confusao, designaremos por t a variavel livre em ambos os casos.Dessa forma a expressao para e(·) torna -se (usamos a expressao (91) de e(·) esubstituımos nela x(i) por xi, o que e legıtimo ja que assumimos que a amostrax1, . . . , xn e ordenada):

e(t) =

{1

n − k

n∑

i=k+1

xi

}− t, para t ∈ [xk, xk+1), e k = 1, . . . , n − 1. (106)

Agora tomaremos u = x1 e aplicaremos a expressao (105) o argumento quetınhamos aplicando para derivar (91) de (86). O resultado sera:

ex1(t) =

{1

n − k

n∑

i=k+1

(xi − x1)

}− t =

{1

n − k

n∑

i=k+1

xi

}− x1 − t, (107)

para t ∈ [xk − x1, xk+1 − x1), e k = 2, . . . , n − 1.

107

Page 111: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Comparando (106) com (107) e facil perceber que o grafico de e(·) a direitade x1 e congruente ao grafico de ex1(·) a direita de 0. A demostracao destaconclusao aplica-se tambem ao caso em que u e igual ao qualquer ponto daamostra x1, . . . , xn. Portanto tem-se que:

o grafico de e(·) a direita de qualquer ponto xi da amostrax1, . . . , xn e congruente ao grafico de exi(·) a direita de 0

(108)

Isto prova que uopt determinado pelo Procedimento-de-tres-etapas coincide comuopt determinado pelo Procedimento apresentado na Sub-secao 7.2.

108

Page 112: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

8 Exemplos de aplicacao do metodo POT

Nesta secao exibiremos o funcionamento do metodo POT para diversos con-juntos de dados. Um desses conjuntos – aquele tratado na Sub-secao 8.3– provem de um caso real. O tratamento deste conjunto pelo metodo POTfornece uma resposta nao muito precisa, o que ocorre frequentemente nos casosreias. Este fato precisa ser explicado. Para que possamos expor e discutir suasrazoes, analizaremos o funcionamento do metodo POT em conjuntos de dadosartificiais, criados a partir de funcoes de distribuicao adequadamente escolhi-das. As analises destes conjuntos formam Sub-secoes 8.1 e 8.2, que antecipam,por razoes didaticas, a Sub-secao 8.3, que trata o caso real.

8.1 Aplicacao do metodo POT para amostras geradas das funcoescuja cauda e do tipo de Pareto

Nesta e na proxima sub-secoes adotaremos o seguinte caminho: construiremosuma funcao de distribuicao F (·) e a partir dela geraremos uma amostra. De-pois processaremos esta amostra pelo metodo POT, produzindo com isto umaaproximacao da cauda direita de F (·), e, por fim, compararemos esta aprox-imacao com a verdadeira cauda direita de F (·). Este e um programa bastanteobvio para testar a eficiencia do metodo e analizar as razoes que possam levaro metodo a cometer erros, ou, para nao ofendermos o talvez inocente metodo,as razoes que nos levem a utiliza-lo de maneira incorreta.

Para que possamos construir uma funcao-teste F (·), que sirva bem aoobjetivo de testar o metodo POT, e bom lembrar que

O resultado do metodo POT, obtido apos o metodo atuar numa amostra deuma funcao de distribuicao F (·), nos fornece uma aproximacao paraa cauda direita desta F (·) por uma funcao de distribuicao de Paretogeneralizada apropriadamente re-escalada e deslocada; a forma destafuncao e dada em (62).

e que

O metodo POT funciona quando a amostra foi originada por uma funcao dedistribuicao pertencente a algum de tres grupos especıficos. O primeirodesses grupos e chamado de domınio de atracao das distribuicoes deFrechet. As funcoes deste grupo possuem cauda direita infinita e, para

109

Page 113: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

valores de x suficientemente grandes, sua “cara” e

F (x) (que e a notacao para 1 − F (x)) = x−αL(x), (109)

para algum α > 0,

onde L(·) e alguma funcao de variacao lenta. O segundo grupo e chamadode domınio de atracao das distribuicoes de Weibull. As funcoes destegrupo possuem cauda direita finita, e para os valores suficientementeproximos ao fim da cauda, xF , a “cara” dos elementos deste grupo e

F (xF − x−1) = x−αL(x), x ↑ ∞, para algum α > 0, (110)

onde L(·) e alguma funcao de variacao lenta (na formula acima x euma variavel auxiliar: conforme esta cresce ao ∞, o argumento de Faproxima-se de xF ). O terceiro e ultimo grupo e chamado domınio deatracao da distribuicao de Gumbel. Este grupo contem tanto funcoescom caudas finitas quanto com caudas infinitas. As funcoes deste gruposao caraterizadas pelo seguinte comportamento caudal:

F (x) = h(x) exp

{−∫ x

z

g(t)

a(t)dt

}, para x ∈ (z, xF ), (111)

onde as funcoes envolvidas nesta expressao devem satisfazer as condicoesdescritas apos a formua (42) da sub-secao 5.4.

(O conteudo do ultimo lembrete e uma sucinta reproducao da exposicao doıtem (IV) da Sub-secao 5.4.)

Entao, qual dentre as tres condicoes , (109), (110) e (111), atendera afuncao-teste que construiremos? A condicao (111) parece ser bastante com-plicada. Vamos nos deixar levar por esta impressao e descartar esta condicao– mas so no ambito da presente sub-secao, pois entender o funcionamento dometodo POT para as funcoes satisfazendo esta condicao e muito importante;isto sera provado na proxima sub-secao. Assim, pela via errada da recusainjustificada da condicao (111), nos restou escolher entre (109) e (110). Fi-caremos com a primeira delas, uma vez que esta aplica-se as funcoes com caudainfinita (lembre-se, na Sub-secao 4.3 explicamos o motivo do nosso interessemaior pelas funcoes com cauda infinita).

110

Page 114: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

8.1.1 Construcao de funcoes-teste

Como prometido, vamos construir uma funcao que satisfaca a condicao (109).Esta sera denominada por F comp+ruido(·); um nome que pode parecer estranho,que indica que ela e composta de duas funcoes distintas e que ha um ruıdo quedistorce estas funcoes. Antes de comecarmos com a descricao da construcao,vale lembrar que pretendemos “criar” F comp+ruido(·) com o objetivo de usa-la para construir uma amostra que sera fornecida ao metodo POT; do qualpediremos sua estimativa da cauda, que sera comparada com a verdadeiracauda de F comp+ruido(·). Agora lembre-se de que o metodo POT aproxima acauda a direita de um limiar que ele proprio determina com base no seguintecriterio: a distribuicao dos excessos dos pontos da amostra que excederam estelimiar deve ser parecida com uma distribuicao de Pareto generalizada (GPD -foi a abreviacao). Foi justamente isso que nos motivou a compor F comp+ruido(·)de duas partes: ela e parecida com a distribuicao Normal Padrao ate o pontos = 1.281, e daı adiante e semelhante a uma GPD re-escalada e deslocada.Note que dissemos “parecida/semelhante” e nao “igual”, pois tanto a GPDquanto uma parte da distribuicao Normal sao “distorcidas” por um ruıdo(este ruıdo corresponde a funcao de variacao lenta). Tudo isso garante queos excessos da amostra acima dos limiares maiores que s = 1.281 sao quaseque da distribuicao de Pareto generalizada (por causa da presenca do ruıdo,tais excessos nao sao exatamente os de uma GPD). Isto nos permite testara sensibilidade do metodo POT na presenca de um ruıdo. E bom ressaltarque com a ausencia do ruıdo, o ponto 1.281 e o melhor valor para o limiar apartir do qual o metodo POT aproximaria a cauda. Nosso desejo e saber se ometodo adivinha este valor, e se o ruıdo atrapalhara muito esta adivinhacao.

Chamamos a atencao do leitor que para julgar a influencia do ruıdo nofuncionamento do metodo POT – a investigacao que pretendemos fazer – enecessario executar os mesmos testes na funcao sem ruıdo. E este o trajeto. Afuncao denotada por F comp(·), que aparecera abaixo, e a funcao F comp+ruido(·)sem a presenca do ruıdo.

Passaremos agora a descricao matematica da construcao das funcoes dedistribuicao F comp+ruido(·) e F comp(·). Os leitores que entenderam a descricaoinformal da estrutura destas funcoes, dada acima, podem omitir esta partematematica.

No primeiro passo tomamos a funcao de distribuicao normal padrao

Φ(x) =1√2π

∫ x

−∞e−y2

2 dy, x ∈ R, (112)

111

Page 115: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

e eliminamos sua cauda a partir do ponto com abcissa 1.281. Recordamos que

Φ(1, 281) ≡(√

2π)−1

∫ 1,281

−∞e−y2/2dy = 0, 9. (113)

Portanto, a cauda eliminda era a parte do grafico a direita do ponto (1.281; 0.9).No segundo passo usamos a parte “nao chata” da funcao de distribuicao

de Pareto “pura”

F pura(x) =

0, para x < s,

1 −[1 + ξ(x−s)

β

]− 1ξ

, para x ≥ s,(114)

com os valores dos parametros ξ = 0.7, β = 1.0, s = 1.281,

para repor a cauda eliminada no primeiro passo. Para isto a funcao F pura(·)foi contraıda 1 − 0.9 = 0.1 vezes, e sua parte a direita de 1.281 levantada por0.9. Tudo isto nos deu:

F comp(x) =

Φ(x), para x ≤ s,

(1 − d)

(1 −

[1 +

ξ(x − s)

β

]− 1ξ

)+ d, para x ≥ s,

(115)

onde a ξ atribuımos o valor 0.7;

onde a β atribuımos o valor 1.0;

onde a s atribuımos o valor 1.281;

onde a d atribuımos o valor 0.9.

O terceiro passo da construcao consiste em distorcer o grafico de F comp(·) adireita da abcissa 1.0. Notamos que o “comeco da distorcao”, ou seja, o ponto1.0, e menor que s = 1.281, o que faz com que a distorcao aja tambem no ponto(1.281, 0.9), que e o ponto de solda de partes de Φ(·) e de F pura(·). Isto devedificultar o processo de estabelicimento do limiar otimo pelo metodo POT.A distorcao e dada pelo seguinte procedimento. Primeiramente, definimos afuncao de sobrevivencia correspondente a F comp(·):

F comp(x) := 1 − F comp(x), x ∈ R. (116)

Depois tomamos a funcao

L(x) :=

{1, quando x < 1,log(x + 1.71), quando x ≥ 1.

(117)

112

Page 116: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(Note que L(1) = log(1+1.71) ≈ log(e) = 1, o que garante que L(·) e contınuano ponto x = 1. Esta continuidade e o que determina a suavidade da funcaoF comp+ruido(·) no ponto x = 1. Sem esta suavidade, porem, todos os argumen-tos e procedimentos funcionariam sem que precisassem ser alterados. ) Aposisso, definimos uma nova funcao de sobrevivencia

F comp+ruido(x) := F comp(x) × L(x), x ∈ R. (118)

Nossa funcao L(·) foi escolhida de maneira a garantir que esta funcao de so-brevivencia atenda as tres condicoes seguintes:

F comp+ruido(·) e nao decrescente,limx→∞ F comp+ruido(x) = 0,limx→−∞ F comp+ruido(x) = 1.

Estas condicoes garantem que quando definimos a funcao F comp+ruido(·) pelaequacao

F comp+ruido(x) := 1 − F comp+ruido(x), x ∈ R, (119)

ela seja uma legıtima funcao de distribuicao. Para a completude da apre-sentacao escreveremos sua expressao exata:

F comp+ruido(x) =

Φ(x), x ≤ 1,1 − log(x + 1.71) × {1 − Φ(x)} , x ∈ (1, s),1 − log(x + 1.71)×

×{

1 − (1 − d)

(1 −

[1 +

ξ(x − s)

β

]− 1ξ

)− d

}, x ≥ s,

onde a ξ atribuımos o valor 0.7;

onde a β atribuımos o valor 1.0;

onde a s atribuımos o valor 1.281;

onde a d atribuımos o valor 0.9. (120)

Ufa! Terminamos a construcao das tao desejadas funcoes de distribuicaoF comp+ruido(·) e F comp(·). Agora o programa e: usar estas funcoes de dis-tribuicoes para gerar amostras; aplicar as amostras o metodo POT com o ob-jetivo de estimar as caudas das respectivas funcoes de distribuicao e, analizar aeficiencia do metodo, compararando os resultados do ponto de vista de suscep-tibilidade destes a presenca do ruıdo. Mas antes de prosseguirmos na execucao

113

Page 117: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

deste programa e bom lembrar, com base no comeco da presente sub-secao, quequeremos construir funcoes de distribuicao que satisfacam a condicao (109).Como se prova que F comp+ruido(·) e F comp(·) de fato a satisfazem? Faremosisto para F comp(·) e deixamos outro caso para o leitor. Temos entao, que parax maiores que s,

F comp(x) = 1 − F comp(x)

= 1 −{

(1 − d)

(1 −

[1 +

ξ(x − s)

β

]− 1ξ

)+ d

}

= (1 − d)

(1 −

[1 +

ξ(x − s)

β

]− 1ξ

)

= x− 1

ξ ×(1 − d)

(1 −

[1 +

ξ(x − s)

β

]− 1ξ

)

x− 1

ξ

.

Portanto F comp(x) satisfaz (109) com α = 1/ξ e L(x) igual ao fator que

multiplica x− 1

ξ na ultima linha da conta acima (deixamos para leitor a provade que este fator de multiplicacao e uma funcao de variacao lenta).

8.1.2 Geracao de amostras

A geracao de uma amostra baseia-se em um fato conhecido que diz que seF (·) e uma funcao de distribuicao qualquer, e R e uma variavel aleatoriauniformamente distribuıda no intervalo [0, 1], entao F −1(R) – o resultado daaplicacao da funcao inversa a F (·) a R – e uma variavel aleatoria cuja funcao dedistribuicao e a propria F (·). Portanto, para gerar uma amostra de n pontos deuma dada F (·), basta produzir n realizacoes r1, . . . , rn da distribuicao uniformeem [0, 1] e entao aplicar F−1(·) a cada uma das realizacoes. Feito isso, oconjunto de valores F−1(r1), F

−1(r2), . . . , F−1(rn) corresponde a uma amostra

aleatoria gerada pela distribuicao F (·).No processo de geracao de amostra descrito acima ha um passo delicado,

o de como encontrar F−1(r) dados r e F (·). O empecilho e a ausencia deuma expressao analıtica simples para a inversa das funcoes F comp+ruido(·) eF comp(·). Este fato nos obrigou a calcular F−1(ri) como solucao da equacaoF (x) − ri = 0, por intermedio de um metodo numerico apropriado. O codigo

114

Page 118: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

−3

1

−3

1

−3

1

Figura 21: Esta figura apresenta a funcao de distribuicao amostral correspondente a

amostra de n = 500 pontos, gerada pela funcao F comp+ruido(·) definida em (120). Na

figura da esquerda esta funcao e apresentada por sua funcao de distribuicao amostral.

E a funcao escada que sobe um degrau de altura 1/n em cada valor da amostra. Na

figura da direita as posicoes dos espelhos desta funcao-escada estao marcadas com

pontos; a projecao de cada ponto no eixo das abcissas e o valor do correspondente

ponto da amostra.

−3 0

1

−3 0

1

Figura 22: Esta figura apresenta a funcao de distribuicao amostral correspondente

a amostra de tamanho n = 500, gerada da funcao F comp(·), definida em (115). Veja

a descricao da Figura 21 para a explicacao da construcao desta funcao.

do programa que realiza este metodo e apresentado na Sub-secao 11.1, que oleitor pode encontrar no Apendice 11.

O metodo descrito acima foi utilizado para gerar duas amostras de cadauma das funcoes de distribuicoes F comp+ruido(·) e F comp(·); uma amostra den = 500 pontos e outra de n = 2000 pontos. Elas sao apresentadas nasFiguras 21 e 22.

115

Page 119: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

E interessante notar que a amostra da funcao F comp+ruido(·) e mais esticadaa direita que a de F comp(·), uma observacao natural, que se deve a presencada funcao de variacao lenta, L(·), na construcao de F comp+ruido(·) e ao fatode L(·) ser crescente e maior que 1. Com a multiplicacao por L(·) a caudadireita de F comp+ruido(·) ficou acima da de F comp(·). Isto fez com que a caudadireita de F comp+ruido(·) e mais grossa que a de F comp(·), o fato evidenciadopor amostras obtidas.

8.1.3 Aplicacao do metodo POT

A aplicacao do metodo POT comeca, conforme a construcao do mesmo apre-sentada na Sub-secao 7.1, com o estabelecimento do limiar otimo – a quantiadenotada por uopt. Para tal e preciso construir a funcao da media amostralde excessos e analisar seu grafico, buscando identificar a menor abcissa onde,dela adiante, o grafico seja similar ao de uma reta com tangente nao-negativa.Na Sub-secao 11.3 do Apendice apresentamos o cogido que produz a funcao damedia amostral de excessos. Os graficos desta funcao, relativos as amostras den = 500 e n = 2000 pontos originados da funcao F comp+ruido(·) de (120), estaona Figura 23. Ja para as originadas da funcao F comp(·) de (115), os graficosestao na Figura 24.

0.0 0.5 1.0 1.5 2.0 2.5 3.02

4

6

8

10

0.0 0.5 1.0 1.5 2.0 2.5 3.02

4

6

8

10

Figura 23: A funcao da media amostral de excessos correspondente as amostras

originadas da funcao F comp+ruido(·) definida em (120). Esquerda: a amostra de n =

500 pontos; direita: a amostra de n = 2000 pontos. Certamente o domınio da funcao

estende-se a maior obsrevacao da amostra, mas nos nao apresentamos toda a funcao

pelas razoes mencionadas no texto.

116

Page 120: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0.0 0.5 1.0 1.5 2.0 2.5 3.01234567

0.0 0.5 1.0 1.5 2.0 2.5 3.0

2

3

4

5

6

7

Figura 24: A funcao da media amostral de excessos correspondente as amostras

originadas da funcao F comp(·) definida em (115). Esquerda: a amostra de n = 500

pontos; direita: a amostra de n = 2000 pontos.

A identificacao da regiao onde a funcao da media amostral de excessose aproximadamente linear envolve mais arte de que ciencia, no sentido deque cada caso e um caso. Para cada regra generica que definirmos semprehavera um milhao de excessoes. Uma das principais dificuldades desta tarefareside no fato de a funcao da media amostral de excessos se parecer com umaserra, cujos dentes crescem conforme o grafico se move a direita. Para lidaradequadamente com este fenomeno e preciso lembrar que a funcao da mediade excessos de uma funcao de distribuicao (e nao a funcao da media amostralde excessos) deve ser linear caso a cauda desta distribuicao seja Pareto –isto e uma fato rigorosamente provado –, ou aproximadamente linear, caso acauda seja Pareto com um ruıdo fraco (que pode ser enquadrado numa funcaode variacao lenta) – isto e uma crenca. Ja a funcao da media amostral deexcessos e uma aproximacao da funcao da media de excessos, pois a funcao damedia amostral de excessos provem de uma amostra. O ponto aqui e entaoque a linearidade, que tentamos identificar, refere-se a funcao da media deexcessos, que e desconhecida, e da qual so temos uma aproximacao, a funcaoda media amostral de excessos. Este aspecto faz com que a regiao de “dentesgrandes” seja excluıda da analise da linearidade, uma vez que o tamanho dedentes corresponde ao espacamento dos pontos da amostra, e onde os pontosda amostra sao esparcos, a aproximacao da funcao de media de excessos pelafuncao da media amostra de excessos e pobre. Com isto em mente na analisedos graficos da Figura 23, decidimos num primeiro momento que no caso da

117

Page 121: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

amostra de n = 500 pontos, retirada da funcao F comp+ruido(·), a linearidade“comeca” na abcissa 1, enquanto que no caso da amostra de n = 2000 pontos,este “comeco” se da em 1.3. Consequentemente, assumiremos que o limiarotimo, uopt, e 1 para a amostra de n = 500 pontos e e 1.3 para a amostra den = 2000 pontos.

A determinacao do limiar otimo em todos os quatro casos foi facilitada pelofato da funcao da media amostral de excessos apresentar uma concavidade noseu comeco. Esta concavidade e bem nıtida e ainda ocorre na regiao onde ospontos da amostra sao densos. Isto permite concluir que a funcao da mediade excessos e concova nesta regiao, e, portanto, nela nao pode se encontrar olimiar otimo.

Existem ainda diversas regras folcloricas que auxiliariam na determinacaodo limiar otimo em casos reais, mas que nao utilizamos aqui. Uma delas e queuma funcao de distribuicao de uma fonte real de aleatoriedade teria o comecoda sua cauda no ponto que separa os 10%-15% maiores valores da amostrados demais valores. Cre-se que a esquerda e a direita deste ponto a funcao dedistribuicao tenha comportamentos distintos. Alias, para nao ir contra estacrenca, construımos as funcoes F comp+ruido(·) e F comp(·) no formato acordadocom ela:(i) o valor 1.281 foi escolhido para garantir que a direita dele haja aproxi-madamente 10% do todo o volume de cada distribuicao;(ii) ambas as distribuicoes foram concebidas de modo que a esquerda de 1.281elas sejam quase normais, e a direita de 1.281 elas sejam quase Pareto.

A mesma crenca acima referida faz com que em casos reais de aplicacao dometodo POT os valores muito proximos dos maiores pontos de amostra sejamdescartados como candidatos a limiar otimo. E por isto que para tais valoresnao e costume se analisar o comportamento da funcao da media amostral deexcessos. Foi por esta razao que nos quatro casos considerados aqui os graficosdesta funcao foram cortados no ponto 3.0 (veja Figuras 23 e 24), apesar dafuncao continuar ate o ponto maximo de cada amostra.

Uma outra crenca diz que para que o metodo POT adivinhe bem a caudade uma distribuicao e necessario que haja no mınimo 400 pontos da amostra adireita do limiar otimo. E claro que este quesito nem sempre pode ser atendido,devido ao tamanho da amostra, mas esta crenca e uma outra razao para o cortedos graficos da funcao da media amostral de excessos antes do seu fim (comoexplicado no fim do paragrafo anterior). Tambem, pagando o tributo a esta

118

Page 122: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

crenca, os estatısticos custumam reportar o numero de excedentes31 a direitado limiar otimo usado na execucao do metodo POT. Tambem fizemos isto nasTabelas 1-4 desta sub-secao e nas tabelas semelhantes das outras sub-secoes.

Uma vez determindao o valor do limiar otimo, o proximo passo do metodoPOT e calcular estimativas dos parametros ξ e β da GPD Gξ,β,0(·), que melhoraproxima os excessos da amostra acima do limiar otimo. Recordamos, parafacilitar a “leitura” das formulas a seguir, que uopt denota o valor do limiarotimo, e que ξ e β denotam, respectivamente, as estimativas dos parametros ξe β, sejam elas boas ou ruins. Relembramos ainda que no ambito do presentetrabalho estas estimativas sao as fornecidas pelo metodo da maxima verossim-ilhanca. Conforme explicado na Sub-secao 7.3, este metodo atribui a ξ e β osvalores que maximizam uma expressao construıda com base na expressao daGPD. Esta construcao e um ponto delicado, visto que existem tres expressoespara as GPDs: (10), (11) e (12). Qual delas deve ser usada? No presente casodescartamos o uso de (12), ja que esta corresponde as GPDs com cauda finita.Usar tais GPD’s para aproximar as caudas de nossas funcoes F comp+ruido(·)e F comp(·) nao e adequado, conforme explicado no Comentario 19. A caudasdessas funcoes de distribuicao sao infinitas por construcao e, lembrando bemestes passos, suas caudas foram construıdas da GPD do tipo (10) com o valorξ = 0.7. Seguindo os argumentos apresentados no Comentario 19, a GPDque melhor aproxima os excessos da amostra retiradas destas funcoes deveser do tipo (10), isto se o metodo POT funcionar corretamente, o que, porsua vez, depende do quao bem a amostra fornecida ao metodo representa afuncao da distribuicao cuja cauda o metodo tenta aproximar. Entao, para oscasos tratados nesta sub-secao, a pergunta esta resolvida: usaremos as GPD’sda forma (10) na construcao da expressao cujo ponto de maximo nos dara asestimativas ξ e β. Eis a expressao

`(ξ, β) = −N(uopt) log β −(

1

ξ+ 1

)N(uopt)∑

i=1

log

(1 +

ξ

βyi

), (121)

onde: uopt e o valor do limiar otimo,

N(uopt) e o numero dos pontos da amostra que excedem uopt,

β > 0 devido sua interpretacao,

ξ > 0 pois a expressao foi construıda da (10).

31Recorde, um valor de amostra se chama excedente acima de um valor u, caso ele eextritamente maior que u.

119

Page 123: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Nesse momento fica claro que, para o caso discutido na presente sub-secao,a questao da construcao da funcao de log-verossimilhanca (quer dizer, dafuncao `) foi resolvida gracas ao conhecimento das funcoes de distribuicao,cujas caudas sao aproximadas pelo metodo POT. E nos casos reais, em queeste conhecimento previo nao existe, como agimos? Por certo, em tais casose necessario antecipar a construcao da funcao de log-verossimilhanca por umteste que indique se a funcao aproximador da cauda deve ter cauda finita,cauda infinita do tipo (10) (chamada tambem de cauda polinomial ou caudapesada) ou ainda cauda infinita do tipo (11) (chamada tambem de cauda ex-ponencial ou cauda leve). Estes testes nao serao discutidos no nosso trabalho.

Infelizmente nao ha uma solucao analıtica para as coordenadas (ξ, β), oponto onde a funcao (121) assume o valor maximo. Comumente, isto levaao calculo aproximado de ξ e β via metodos de otimizacao numerica. Estemetodo de otimizacao a ser utilizado na procura dos pontos de maximo daequacao acima fica a criterio do leitor, que pode ter preferencia por algummetodo especıfico. No presente caso empregamos um metodo implementadoem scilab 3.0. (o codigo do programa esta na Sub-secao 11.4 apresentada noApendice). Este metodo tem melhor desempenho quando faz uso das derivadasparciais da expressao a ser maximizada. No nosso caso estas derivadas sao:

∂`(ξ, β)/∂ξ =1

ξ2

N(uopt)∑

i=1

log

(1 +

ξ

βyi

)−(

1 +1

ξ

)N(uopt)∑

i=1

yi

β + ξyi, (122)

∂`(ξ, β)/∂β =−N(uopt)

β−(

1 +1

ξ

)N(uopt)∑

i=1

−βyi

ξ(β + ξyi). (123)

Notamos que pelo comando optim(cost,’b’,[l1;l2],[u1;u2],x0) e feita achamada ao metodo; a componente cost carrega a expressao a ser maximizadajuntamente com suas derivadas parciais, a segunda componente, ’b’, significaque a busca pelo ponto de maximo se dara numa caixa onde as duas variaveissao limitadas inferiormente por [l1;l2], e superiormente por [u1;u2]. Oslimites inferiores “passam” ao metodo de otimizacao a informacao sobre asrestricoes ξ > 0 e β > 0 mencionadas em (121). Devido ao redondamentoda apresentacao de valores no computador, estes limites sao valores positivosmuito pequenos, da ordem de 1E−10. Ja os limites superiores foram definidoscom um pouco mais de liberdade; escolhemos u1 = u2 = 10. Finalmente, x0fornece o ponto de partida para a busca do ponto de maximo. O nosso interesse

120

Page 124: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

esta na variavel da saıda da funcao optim, que corresponde ao ponto onde aexpressao assume seu valor maximo. Esta variavel nos devolve os valores de ξe β.

A partir de uma amostra de 500 pontos da funcao F comp+ruido(·) de (120)o codigo acima produz ξ = 1.118 e β = 0.931.

Vale a pena lembrar ao leitor a que se referem as estimativas calculadas.Estas sao estimativas dos valores dos parametros ξ e β(uopt) da GPD, que eapontada pelo Resultado de Pickands como a funcao-aproximador da funcaoda distribuicao dos excessos de F (·) acima de uopt; aqui F (·) denota a funcaode distribuicao desconhecida, da qual provem a amostra – aquela amostra quefoi usada para determinar o valor de uopt e encontrar as estimativas ξ e β dosverdadeiros ξ e β(uopt). Este lembrete sugere que seria interessante comparara funcao da distribuicao amostral dos excessos acima de uopt dos valores daamostras com a funcao-aproximador da verdadeira funcao de distribuicao deexcessos acima de uopt – aquela funcao que seria desconhecida por nos desdeque a funcao F (·) fosse desconhecida. Esta comparacao pode ser feita a partirda apresentacao da Figura 25. A figura apresenta a aproximacao acima referidapara diversos valores do limiar u, um dos quais e uopt.

A discussao do paragrafo anterior tem como um de seus objetivos despertaro leitor para que se lembre que a funcao GPD Gξ,β,0(·) por si so ainda nao e aaproximacao da cauda produzida pelo metodo POT. Essa aproximacao e dadapor G∗

ξ,β,0(·), obtida da GPD Gξ,β,0(·) via o procedimento descrito no ıtem (C)

da nossa estrategia de execucao do metodo POT (veja a Sub-secao 7.1).

8.1.4 Analise de resultados

O que esperavamos do metodo POT? Em primeiro lugar esperavamos queao receber uma amostra gerada da funcao F comp(·), definida em (115), ometodo calculasse o limiar otimo como sendo 1.281. Como vimos, a parteda funcao a direita de 1.281 foi feita da distribuicao GPD, e, portanto, osexcessos da funcao acima de qualquer valor maior que 1.281 tem distribuicaoGPD. Esta propriedade deveria ser “descoberta” pelo metodo POT (devidosua construcao), e fazer com que o metodo assumisse como limiar otimo oponto 1.281. Recordamos que o valor do limiar otimo u foi de

121

Page 125: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 30

1

(a)

0 60

1

(b)

0 30

1

(c)

0 60

1

(d)

0 30

1

(e)

0 60

1

(f)

Figura 25: Graficos das funcoes de distribuicao amostrais correspondentes as

amostras de excessos acima de limar u para diversos valores de u (0.6, 1 e 1.2 de cima

para baixo na primeira coluna, e 0.8, 1.3 e 1.6 de cima para baixo na segunda col-

una). Os excessos sao relativos a amostra retirada da funcao de distribuicao F comp(·);e expressao desta funcao esta em (115). A primeira coluna corresponde a amostra

de 500 pontos, e a segunda a de 2000 pontos. A primeira amostra esta apresentada

na Figura 22. Junto a cada distribuicao de excessos esta apresentada – pela linha

potilhada – a GPD escolhida pelo metodo POT para aproximar estes excessos. Os

valores dos parametros das GPD’s apresentadas estao nas Tabelas 1 e 3.122

Page 126: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2

ξ 0.923 0.998 1.137 1.180 1.297 1.118 1.151 1.202

β 0.529 0.540 0.493 0.573 0.571 0.931 0.991 1.004

excedentes 167 144 128 107 94 77 70 65

limiar 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2

ξ 1.260 1.284 1.167 0.892 0.932 0.843 0.859 0.945

β 1.026 1.110 1.491 2.548 2.459 2.991 2.991 2.650

excedentes 60 55 49 42 41 38 37 37

p F−1(p) F−10.5 (p) F−1

0.6 (p) F−10.7 (p) F−1

0.8 (p) F−10.9 (p) F−1

1 (p)

0.9 1.42 1.672 1.616 1.530 1.507 1.458 1.517

0.95 3.01 3.236 3.171 3.047 3.017 2.916 3.098

0.995 27.01 27.670 31.106 38.417 41.255 49.251 38.658

p F−11.1 (p) F−1

1.2 (p) F−11.3 (p) F−1

1.4 (p) F−11.5 (p) F−1

1.6 (p) F−11.7 (p)

0.9 1.507 1.509 1.510 1.399 – – –

0.95 3.058 3.000 2.940 2.915 3.025 3.281 3.246

0.995 40.239 42.409 45.162 46.400 41.418 34.149 34.901

p F−11.8 (p) F−1

1.9 (p)

0.9 – –

0.95 3.302 3.294

0.995 33.473 33.687

Tabela 1: A primeira tabela contem as estimativas dos parametros produzidos pelo

metodo POT da amostra de 500 pontos da funcao F comp+ruido(·) de (120). A segunda

tabela apresenta os valores de quantis da funcao F comp+ruido(·) (primeira coluna da

tabela, onde(F comp+ruido

)−1

(p) e denotado por F−1(p) para a economia de espaco) e

as estimativas fornecidas pelas aproximacoes da cauda de F comp+ruido(·), produzidas

pelo metodo POT; Fu significa a funcao-aproximador construıda com o valor do limiar

u – na verdade Fu(·) e a notacao alternativa para G∗

ξ,β(u),0(·), que e preferencial por

ser muito mais curta.

As entradas tracejadas significam que a respectiva F−1u (p) nao faz sentido. ESpeci-

ficaremos isto no exemplo de F1.5(0.9). Recorde que devido nossa estrategia da ex-

ecucao do metodo POT, que a funcao-aproximador G∗

ξ,β(u),0(·) vale zero ate a abcissa

u, e da um salto de altura F (u) no ponto u (isto esta exibido na Figura 18). Isto

significa que p-quantis com p abaixo de F (u) nao tem significado para esta funcao-

estimador (volte a Figura 18 e veja que qualquer linha horizontal na altura entre 0

e F (u) nao cruza o grafico desta funcao). Entao, F1.5(0.9) nao faz sentido, ja que

F (u) > p quando u = 1.5 e p = 0.9. Agora, esta ultima desigualdade pode ser de-

duzida da formula da funcao F (·) (que e no caso F comp+ruido(·), de (120)). Alias,

F−1(0.9) = 1.42 – a informacao contida na segunda coluna da segunda tabela –

comprova que F (1.5) > 0.9.

123

Page 127: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2

ξ 0.858 0.957 1.029 1.115 1.082 1.065 1.098 1.004

β 0.578 0.545 0.555 0.570 0.719 0.858 0.910 1.200

excedentes 646 576 503 437 369 321 291 254

limiar 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.

ξ 0.914 0.918 0.934 0.990 1.012 0.958 0.985 1.029

β 1.534 1.620 1.661 1.582 1.618 1.888 1.893 1.850

excedentes 226 212 201 194 184 170 163 157

p F−1(p) F−10.5 (p) F−1

0.6 (p) F−10.7 (p) F−1

0.8 (p) F−10.9 (p) F−1

1 (p)

0.9 1.42 1.669 1.598 1.555 1.511 1.525 1.528

0.95 3.01 3.166 3.075 3.008 2.937 2.967 2.986

0.995 27.01 23.931 27.633 30.651 34.858 33.292 32.661

p F−11.1 (p) F−1

1.2 (p) F−11.3 (p) F−1

1.4 (p) F−11.5 (p) F−1

1.6 (p) F−11.7 (p)

0.9 1.522 1.524 1.498 1.496 – – –

0.95 2.951 3.053 3.158 3.153 3.135 3.082 3.064

0.995 33.905 30.816 28.667 28.766 29.072 30.157 30.588

p F−11.8 (p) F−1

1.9 (p)

0.9 – –

0.95 3.105 3.088

0.995 29.597 30.048

Tabela 2: O mesmo que da Tabela 1, agora para o caso da amostra de tamanho

2000.

124

Page 128: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2

ξ 0.582 0.680 0.736 0.723 0.846 0.778 0.796 0.834

β 0.565 0.503 0.515 0.599 0.529 0.707 0.753 0.781

excedentes 133 120 102 85 77 62 55 49

limiar 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2

ξ 0.792 0.875 0.867 1.000 1.272 1.262 0.960 1.031

β 0.955 0.862 0.952 0.785 0.54 0.674 1.332 1.256

excedentes 42 40 36 35 34 29 23 22

p F−1(p) F−10.5 (p) F−1

0.6 (p) F−10.7 (p) F−1

0.8 (p) F−10.9 (p) F−1

1 (p)

0.9 1.281 1.245 1.202 1.182 1.187 1.175 1.165

0.95 2.174 2.099 2.011 1.970 1.979 1.895 1.935

0.995 11.484 9.351 10.161 10.729 10.594 11.651 11.174

p F−11.1 (p) F−1

1.2 (p) F−11.3 (p) F−1

1.4 (p) F−11.5 (p) F−1

1.6 (p) F−11.7 (p)

0.9 1.174 1.200 – – – – –

0.95 1.926 1.905 1.913 1.901 1.908 1.914 1.905

0.995 11.242 11.474 11.371 11.579 11.515 11.819 13.151

p F−11.8 (p) F−1

1.9 (p)

0.9 – –

0.95 1.910 1.900

0.995 13.054 12.205

Tabela 3: O mesmo que da Tabela 1, para o caso da amostra de tamanho 500, gerada

pela funcao de distribuicao F comp(·), definida em (115).

125

Page 129: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2

ξ 0.486 0.539 0.594 0.680 0.738 0.780 0.846 0.725

β 0.625 0.603 0.586 0.547 0.555 0.586 0.595 0.817

excedentes 651 578 511 454 391 335 292 242

limiar 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2

ξ 0.629 0.702 0.542 0.501 0.477 0.422 0.348 0.339

β 1.033 0.976 1.348 1.497 1.610 1.822 2.133 2.204

excedentes 209 195 167 153 142 130 118 112

p F−1(p) F−10.5 (p) F−1

0.6 (p) F−10.7 (p) F−1

0.8 (p) F−10.9 (p) F−1

1 (p)

0.9 1.281 1.497 1.464 1.436 1.400 1.381 1.372

0.95 2.174 2.413 2.363 2.314 2.247 2.206 2.179

0.995 11.484 9.025 9.468 9.941 10.787 11.432 11.899

p F−11.1 (p) F−1

1.2 (p) F−11.3 (p) F−1

1.4 (p) F−11.5 (p) F−1

1.6 (p) F−11.7 (p)

0.9 1.365 1.367 – – – – –

0.95 2.139 2.212 2.269 2.232 2.297 2.309 2.314

0.995 12.643 11.433 10.786 11.205 10.464 10.347 10.293

p F−11.8 (p) F−1

1.9 (p)

0.9 – –

0.95 2.305 2.263

0.995 10.235 10.246

Tabela 4: O mesmo que da Tabela 1, para o caso da amostra de tamanho 2000,

gerada pela funcao de distribuicao F comp(·), definida em (115).

126

Page 130: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

1.0 para a amostra de n = 500 pontos da funcao F comp+ruido(·),1.3 para amsotra de n = 2000 pontos da funcao F comp+ruido(·),1.5 para amsotra de n = 500 pontos da funcao F comp(·),1.3 para amsotra de n = 2000 pontos da funcao F comp(·).

A tabela acima confirma que o limiar otimo produzido pelo metodo fi-cou bem proximo ao valor 1.281. Proximidade que melhora com aumento dotamanho de amostra – fato tambem esperado.

Ja falando sobre o mesmo assunto mas para o caso da funcao F comp+ruido(·),deve-se lembrar que esta recebeu um ruıdo que “passou” pelo ponto de solda1.281. Por isto nao sabemos o valor exato do limiar otimo, que o metodo POTdevia descobrir se tudo funcionasse perfeitamente. So podemos alegar que estedeve estar perto de 1.281, o que esta de acordo com os resultados do metodoapresentados na tabela acima.

O que mais esperavamos do metodo POT? Bem, esperavamos tambem queele acertasse o verdadeiro valor do parametro ξ; que e 0.7 tanto para a funcaoF comp+ruido(·) quanto para F comp(·). O acerto depende de muito fatores, entreos quais esta a escolha correta do limiar otimo. Conforme explicado na Secao 7,os valores do limiar menores que o otimo levam o metodo a utilizar pontosamostrais atıpicos para a cauda, enquanto que os valores maiores que o otimocausam a diminuicao da quantidade dos pontos da amostra com base nos quaiso metodo calcula suas estimativas. Esta influencia da escolha do valor dolimiar otimo nos fez executar o metodo para diversos valores do limiar, mesmopara aqueles que nao seriam identificados como otimos pelo proprio metodo.Os resultados estao apresentados nas Tabelas 1-4. As tabelas mostram umarelativa estabilidade da estimativa do parametro ξ. Como e de se esperar,pelas razoes expostas acima, a estimativa e ruim quando o limiar fica bemabaixo do valor 1.281. Nota-se ainda que nas Tabelas 1 e 2 as estimativas ξdo verdadeiro ξ fica bem acima de 0.7 para todos os valores do limiar u. Isto econsequencia da presenca da funcao L(·) na definicao da funcao F comp+ruido(·).Conforme notado no fim da Sub-secao 8.1.2, a presenca de L(·) fez com que acauda direita da funcao F comp+ruido(·) ficasse mais “pesada” que a da funcaoF comp(·), o que foi captado pelo metodo POT, que, como se ve nas Tabelas 1-4, produziu uma estimativa para o parametro ξ menor no caso de F comp(·) queno caso F comp+ruido(·). Afirmamos que o metodo captou a diferenca de pesoda cauda, pois, conforme as explicacoes da Sub-secao 4.4, e o parametro ξ quecorresponde ao peso da cauda estimada. Esta afirmacao, porem, contradiz a

127

Page 131: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

teoria, que alega que o parametro de cauda, ξ, deve ter o mesmo valor emambas as funcoes pois a diferenca entre elas se da por uma funcao de variacaolenta. A charada e facilmente resolvida. Em primeiro lugar, a teoria estatotalmente correta, pois, conforme x cresce, a funcao (1 + ξ(1 − s)/β)−1/ξ

converge a 0 muito mais rapido que a funcao L(x) = log(x + 1.71) divergepara ∞. Por isto, para valores grandes de x, a primeira delas nao da valoresmuito diferentes que os valores dela multiplicados por L(x). Esta “pequena”diferenca nao deve ser capturada pelo metodo POT na aproximacao de cauda,e, portanto, o resultado da aproximacao nao deve depender da presenca dafuncao L(·). So que esta indiferenca so torna ser obvia para o metodo quando xe muito grande. Porem, tipicamente, amostras possuem pouquıssimos pontosnesta regiao onde “tanto faz se ha funcao de variacao lenta ou nao”. Nossocaso nao e excessao a regra: os pontos da amostra estao na regiao onde afuncao L(·) engordou bastante a funcao (1 + ξ(1 − s)/β)−1/ξ . Isto enganou ometodo POT, que imaginou que ξ fosse maior do que na verdade e. Esta e aexplicacao para a superestimacao de ξ apresentada nas Tabelas 1 e 2.

Bem, em que outro aspecto podemos analisar a eficiencia do metodo POT?Os que ja foram discutidos insinuam a analise da estabilidade da estimativa deβ o que infelizmente e totalmente incorreto. O Resulatdo de Pickands, aqueleque e a base das bases do metodo POT, nao afirma que β deve se estabilizarconforme u cresce. Veja a formula (57) da Sub-secao 6.2. Observe que nelaaparece β(u), o que significa que β depende de u, confirmando o que dissemosacima. E claro que para algumas funcoes F (·) pode acontecer que β independade u mas, de modo geral, nao se pode afirmar esta independencia. Agora quevoce, nosso leitor, foi avisado que nao se pode esperar que β, a estimativa de β,seja indepenente do limiar u, esta autorizado a espiar as linhas das Tabelas 1-4, que apresentam as estimativas de β para diversos valores do limiar u. Porque elas foram apresentadas? Talvez para exemplificar que β de fato naoindepende de u.

Ate agora discutimos as estimativas dos parametros da funcao-aproximadorda cauda produzida pelo metodo POT. Descobrimos que as estimativas diferem,porem nao muito, dos valores verdadeiros. Agora chegou a vez de analisarcomo esta imperfeicao nas estimativas afeta a aproximacao da cauda como umtodo. Tal analise poderia ser feita de diversas maneiras. A que apresentare-mos aqui baseia-se no criterio de utilidade do ponto de vista do objetivo finaldo problema de estimacao de cauda. Como ja destacado, este, na maioria doscasos, e a estimativa dos quantis F−1(p) da verdadeira, mas desconhecida,

128

Page 132: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

funcao de distribuicao F (·), pelos quantis F−1(p) calculados da aproximacaoF (·) da cauda de F (·). Portanto, para julgar a precisao da aproximacao decauda pelo metodo POT, comparamos os valores de F −1(p) com os de F−1

u (p),onde Fu(·) designa a estimativa da cauda de F (·) calculada pelo metodo para ovalor u do limiar otimo. Os resultados desta comparacao estao nas Tabelas 1-4. A comparacao nos leva a concluir que o metodo funcionou bem nos quatrocasos considerados na presnete secao.

8.2 Aplicacao do metodo POT para amostra gerada da funcaocuja cauda e mais fina que a exponencial

O exemplo e sua discussao que compoem a presente sub-secao sao de extremaimportancia para o compreencao do metodo POT. A grosso modo o exem-plo e sobre o caso em que o metodo funciona de forma errada, enquanto quea discussao intenciona convencer o leitor que nao ha nada de errado nestefuncionamento. Insistiremos para que o leitor acompanhe nossos argumen-tos, devido a certeza de que no seu final o leitor concordara conosco sobre aimportancia desta sub-secao. Em particular usaremos seu conteudo essencial-mente no Comentario 35 da Secao 9.

O exemplo prometido ao leitor e sobre a aproximacao pelo metodo POTda cauda de uma funcao de distribuicao cuja cauda e mais fina que a caudada distribuicao exponencial. Para tıtulo de exemplo poderıamos tomar qual-quer funcao atendendo este quesito, ha uma infinidade de tais funcoes. Masescolhemos a bela e bem conhecida funcao da distribuicao Normal Padrao –palmas a ela:

Φ(x) =1√2π

∫ x

−∞exp

−y2

2 dy, x ∈ R. (124)

Primeiramente explicaremos porque sua cauda direita e mais fina que a caudadireita da distribuicao exponencial. Bem, a cauda da exponencial aproxima-se ao nıvel 1 como e−x, conforme x → ∞.32 Ja a da distribuicao normalaproxima-se ao nıvel 1 como e−x2/2/(x

√2π), o que decorre do seguinte resul-

tado: para x suficientemente grande tem-se que

1√2π

e−12x2

{1

x− 1

x3

}≤ 1 − Φ(x) ≤ 1√

e−12x2

x, (125)

32Isso quer dizer que a distancia entre a funcao da distribuicao exponencial, 1 − e−x, e alinia horizontal y = 1 e igual a e−x.

129

Page 133: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

uma relacao que aparece em diversas situacoes, daı o nosso convite para queo leitor a prove no no Exercıcio 45.

No que se segue iremos repetir com a funcao da distribuicao normal omesmo procedimento proferido na sub-secao anterior com as funcoes F comp+ruido(·)e F comp(·): vamos criar uma amostra de Φ(·) e depois processar esta amostrapelo metodo POT, produzindo com isto uma aproximacao da cauda direita deΦ(·), e, por fim, comparar esta aproximacao com a verdadeira cauda direita.Este e o programa. Seus resultados surpreenderao – aguarde.

Comecamos com a geracao de uma amostra. O codigo do programa, queempregamos para tal fim esta apresentado na Sub-secao 11.2 do Apendice 11.A amostra obtida esta exibida na Figura 26.

−3 0 3

1

−3 0 3

1

Figura 26: Esta figura exibe a funcao da distribuicao amostral correspondente a

amostra composta de 500 pontos gerados da distribuicao Normal Padrao. A funcao

esta apresentada em formato de funcao-escada e por pontos.

O segundo passo consiste em estabelecer o limiar otimo, uopt, com basena analise da funcao da media amostral de excessos. Aqui esta a primeirasurpresa a nossa espera. O que ela tem de supreendente esta descrito noparagrafo abaixo.

Recorde das explicacoes da Sub-secao 7.2 que uopt foi definido como amenor abcissa a esquerda da qual a funcao da media amostral de excessose aproximadamente linear. A construcao desta funcao foi explicada na Sub-secao 7.2. Para nossa amostra ela adquire o formato apresentado na Figura 27.Observando a figura nota-se que a funcao da media amostral de excessos ap-resenta padrao decrescente. Portanto, se pudessemos deduzir, com base deanalise da figura que a funcao e linear a partir de um limiar qualquer, entaoserıamos obrigados a concluir que o parametro ξ da funcao-aproximador da

130

Page 134: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.5

1.0

1.5

2.0

Figura 27: A funcao da media amostral dos excessos, e(·), correspondente a amostragerada da funcao de distribuicao Normal Padrao. A amostra esta na Figura 26.

131

Page 135: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

cauda deve ser negativo (esta conclusao vem do Fato e da Propriedade for-mulados na Sub-secao 7.2). A negatividade de ξ significaria que a caudada funcao-aproximador e finita, uma conclusao que estaria em conflito com aafirmacao (1) do Comentario 19, que alega que a cauda da funcao-aproximadorsera infinita quando a cauda da funcao aproximada for infinita - que e o casoda funcao de distribuicao Normal. Esta e a surpresa a qual nos referimos noparagrafo anterior.

O argumento do paragrafo acima indica que talvez nao possamos empregara funcao da media amostral de excessos para estabelecer uopt via o proced-imento definido na Sub-secao 7.2. Esta incerteza nos leva a prosseguir daseguinte maneira: vamos atribuir ao limiar diversos valores, e para cada valor,calcular as estimativas dos parametros ξ e β da GPD que aproxima, do pontode vista do metodo POT, os excessos da amostra acima do limiar.

Para o calculo das estimativas, usaremos o mesmo procedimento que foiempregado no exemplo anterior (veja Sub-secao 8.1.3). Os resultados estao naTabela 5.

Observando a Tabela 5 percebe-se que o metodo POT produz valores de ξmuito proximos ao zero. Para entender e interpretar este fenomeno e precisolembrar que (ξ, β) sao as coordenadas do ponto, determinado por um metodonumerico de otimizacao, no qual a funcao (94) assume seu maximo. Tambem epreciso lembrar que a busca por este ponto e realizada num retangulo por nospre-estabelecido. Aqui adotamos o valor 1E − 10 como sendo o menor valorpossıvel para a busca de ξ. Lembramos que este limite foi imposto devidoao fato da funcao maximizada mudar sua cara dependendo do verdadeiro ξser positivo, zero, ou negativo (esta mudanca foi explicada na Sub-secao 7.3).Usamos a expressao (94) para a funcao maximizada, por acreditar que ξ devaser positivo. Mas pelo que os resultados apresentados na Tabela 5 indicam,esta crenca e errada, pois a proximidade de ξ a zero sugere que o verdadeirovalor do paramentro ξ da funcao-aproximador deve ser negativo ou igual aozero.

Temos entao que a aplicacao do metodo POT para amostra, gerada dadistribuicao Normal Padrao, desencadeou as seguintes duvidas:

Primeira duvida: por que e que a funcao da media amostral de excessos edecrescente.

Segunda duvida: por que e que a funcao-aproximador da cauda se recusa aadmitir valores positivos para seu parametro ξ.

132

Page 136: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar 0.5 0.55 0.6 0.65 0.7 0.75 0.8

ξ 1E-10 1E-08 1E-10 1E-10 2E-08 1E-10 7E-10

β 0.629 0.601 0.506 0.561 0.545 0.498 0.532

excedentes 159 153 145 138 130 120 111

limiar 0.85 0.9 0.95 1 1.05 1.1 1.15

ξ 1E-10 8E-10 9E-09 1E-09 3E-09 1E-10 9E-10

β 0.501 0.611 0.506 0.515 0.663 0.405 0.497

excedentes 107 99 89 77 74 66 59

limiar 1.2 1.25 1.3 1.35 1.4 1.45 1.5

ξ 1E-07 1E-10 1E-10 2E-10 1E-10 1E-10 2E-09

β 0.514 0.500 0.415 0.443 0.459 0.421 0.383

excedentes 52 48 45 44 38 37 36

limiar 1.55 1.6 1.65 1.7 1.75 1.8 1.85

ξ 3E-06 1E-10 1E-09 6E-10 4E-10 1E-10 3E-09

β 0.394 0.349 0.321 0.336 0.316 0.316 0.277

excedentes 32 30 28 26 24 21 17

limiar 1.9 1.95 2

ξ 1E-09 1E-09 1E-10

β 0.289 0.346 0.296

excedentes 15 12 10

Tabela 5: Os valores das estimativas dos parametros ξ e β da GPD que aproxima

os excessos acima do limiar para diversos valores deste. As estimativas, ξ e β, foram

produzidas com base numa amostra de 500 pontos gerada pela distribuicao Normal

Padrao. A amostra esta apresentada na Figura 26.

133

Page 137: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

As duvidas acima levantadas tem explicacao completa na parte teorica daconstrucao do metodo POT. Comecaremos com analise da Segunda duvida.Volte a formula (56) do Resultado de Pickands (Sub-secao 6.2). Perceba queξ esta unicamente determinado pelo domınio de atracao no qual se encontra afuncao de distribuicao cuja cauda esta sendo aproximada. Entao o caminho dasolucao da duvida e determinar a EVD em cujo domınio de atracao encontra-sea funcao de distribuicao Normal. Aqui afirmamos que a funcao de distribuicaoNormal Padrao esta no domınio de atracao de Gumbel. Uma das maneiras deprovar esta afirmacao e demonstrar que 1−Φ(x) admite a representacao (42).Para tanto e necessario encontrar as expressoes das funcoes h(·), g(·) e a(·),referentes a expansao (42) da funcao de sobrevivencia de Φ(·), e verificar queestas satisfazem as condicoes listadas no texto depois da formula (42). Comoesta verificacao e um tanto tecnica e enfadonha, preferimos omitı-la no nossotexto. Um tratamento detalhado pode ser encontrado em [3].

Sabendo que a distribuicao Normal Padrao esta no domınio de atracao deGumbel, a formula (56) do Resultado de Pickands nos diz que o parametro ξda GPD que aproxima sua cauda deve ser igual a 0. Isto explica porque asestimativas de ξ que encontramos – aquelas denotadas por ξ e apresentadasna Tabela 5 –, sao todas proximas de 0. A explicacao e: o valor de ξ deve ser0, ja que o verdadeiro ξ e zero, mas quando procuramos por ξ a nossa procurafoi restrita ao intervalo [1E − 10, 4.0]; naturalmente obtivemos ξ como o valordo intervalo mais proximo de 0.

A explicacao da Segunda duvida dada acima indica que houve um erro nanossa execucao do metodo POT para a aproximacao de cauda da distribuicaoNormal a partir de sua amostra. O erro esta na determinacao de ξ e β pelometodo da maxima verossimilhanca. A funcao de log-verossimilhanca, `(ξ, β)nao podia ser (94), uma vez que esta so serve quando sabe-se apriori que overdadeiro ξ e positivo. No nosso caso o verdadeiro ξ e zero, o que nos obriga ausar a funcao de log-verossimilhanca definida por (96). A maximizacao destafuncao fornece β; nao precisamos de ξ pois sabemos de antemao que seu valore 0. Refizemos as contas e observamos que os valores de β coincidiram, ate aterceira casa depois da vırgula, com os respectivos valores de β determinadospela “via errada”. Esta coincidencia tem explicacao heurıstica: a funcao (96)esta muitıssimo proxima da funcao (94) com valor de ξ na faixa de 1E − 10.Portanto o valor β, para o qual (96) assume seu valor de maximo, deve estarproximo da segunda coordenada do ponto (ξ, β) no qual a funcao (94) assumeseu ponto maximo. Esta explicacao poderia ser aceita como rigorosa se o

134

Page 138: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

metodo de maximizacao fizesse a procura pelo ponto maximo (ξ, β) em duasetapas: primeiro, buscar ξ com β fixo, depois buscar β com ξ fixo. E claro quenao e assim que funciona a otimizacao de uma funcao de duas variaveis. Porisso ficamos somente com a explicacao heurıstica da coincidencia dos valoresde β encontrados pelas vias certa e errada.

Agora passaremos aos argumentos cujo objetivo e esclarecer a Primeiraduvida formulada acima.

Em primeiro lugar, vamos aproveitar a nossa recem descoberta de que afuncao aproximador da cauda da distribuicao Normal Padrao e a GPD comξ = 0, quer dizer, a funcao de distribuicao exponencial. Convidamos o leitora voltar a formula (81) da Sub-secao 7.2 e substituir ξ por 0 na mesma. Istocomprova que a funcao da media de excessos da distribuicao exponencial e umareta horizontal. Aparentemente isto implica que a funcao da media amostral deexcessos de qualquer amostra retirada da distribuicao Normal Padrao deve seraproximadamente uma reta horizontal. Mas isto nao foi observado na caso danossa amostra! Muito pelo contrario, conforme a Figura 27 exibe, nossa funcaoda media amostral de excessos e uma funcao decrescente. Isto reforca aindamais a Primeira duvida. Qual e a explicacao? Ela esta no paragrafo depoisdo proximo comentario, que ira expor um fato necessario para a explicacaoprometida.

Comentario 28. Recorde que a funcao de distribuicao Normal Padrao admitea expansao em formato (42). Recorde que as funcoes a(·), g(·) e h(·) partici-pantes nesta expansao atendem as exigencias bastante genericas. Isto implicano que ha diversas escolhas para estas funcoes. Em uma delas a funcao a(·) edada pela seguinte formula:33

a(x) =

∫ ∞

x

Φ(t)

Φ(x)dt, x < ∞, (126)

(e outras duas sao construidas de acordo com a escolha de a(·) acima, paraque toda a expressao (42) de Φ(·)). A vantagem desta escolha e que a funcaoa(·) assim construıda tem relacao direta com a funcao da media de excessosda funcao de distribuicao Normal Padrao. Isto significa que

a(u) = IE[Z − u

∣∣Z > u], u < ∞,

onde a variavel aleatoria Z tem distribuicao Normal Padrao Φ(127)

33Na formula (126) e em todos os outros lugares do texto, Φ(·) = 1 − Φ(·).

135

Page 139: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(veja a demostracao na pagina 143 de [3]). Aproveitando a formula da dis-tribuicao Normal Padrao, e possıvel provar que a funcao a(·) definida em (127)e monotona, decresce a 0 e e convexa (para u > 0).

O comentario acima expos uma propriedade nao trivial de Φ(·). Destairemos aproveitar somente aquela sua consequencia que alega que a funcao demedia de excessos da distribuicao Normal Padrao e monotona, decresce a 0 ee convexa. Isto implica que a funcao da media amostral de amostra, retiradadesta distribuicao, deve repetir este comportamento. E isso que observamos naFigura27. Assim esta explicada a Primeira duvida: A funcao da media amostralde excessos, e(·), apresentada na Figura 27 “acompanha” o comportamento dafuncao da media de excessos da distribuicao Normal, o que e natural e legıtimo,pois a amostra que determinou e(·) veio desta distribuicao. Em particular e(·)e decrescente porque a funcao da media de excessos da distribuicao Normal edecrescente.

A explicacao dada acima reforca, de passagem, um fato que pode ter sidopercebido por nosso leitor ha muito tempo. O fato de que o metodo POTaproxima a cauda da distribuicao Normal usando a distribuicao exponencial,apesar da cauda da Normal ser muito, muito mais fina que a da exponencial.O primeiro comentario a esse respeito e que o metodo faz isto porque ele sopode construir aproximadores de cauda usando funcoes GPD’s, entre as quaisnao se encontra a distribuicao Normal. Sendo assim, o metodo escolheu dentretodas as GPDs aquela que tem cauda infinita mas mais fina, o que e, conformeja sabemos da exposicao da Secao 4, a distribuicao exponencial. Agora, porquea partir da distribuicao exponencial e possıvel construir um aproximador paraa cauda de uma distribuicao muito mais fina que a exponencial? Bem, estefato nao e trivial e sua demostracao e uma parte da prova do Resultado dePickands. Contudo sempre ha um leitor curajoso que, apesar de nao questionara legitimidade da demostracao do Resultado de Pickands, atreve-se a declarar:

– Minha intuicao recusa-se a entender como a cauda da distribuicao Normalpode ser aproximada por uma funcao construıda com base na distribuicaoexponencial. A razao desta recusa e o fato das duas distribuicoes terem caudastotalmente diferentes, no sentido de que uma e mais fina que outra, alias,muito mais fina. Bem, como os proprios autores deste texto explicaram naSub-secoes 4.3 e 4.4, dedicadas as caudas em geral e as caudas das GPDs,se ha duas funcoes com caudas de grossuras diferentes – aquı estou usandoa jargao explicado e autorizado por autores –, entao a partir de uma certaabcissa, uma das funcoes crecera muito mais rapido que outra. Isto e, ate

136

Page 140: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

seria possıvel fazer, via re-escala, com que as duas fossem proximas uma daoutra num intervalo finito, mas cedo ou tarde a diferenca da grossura entrecaudas vai se manifestar e, causando aquele efeito, ou seja, vai obrigar umadas funcoes a crescer muito mais rapido que a outra.

Explicaremos. Os argumentos que fundamentam a desconfianca do leitorestao corretos. O desentendimento veio da omissao de um fato que sera apre-sentado agora. As duas funcoes, aquela cuja cauda esta sendo aproximada, ea que aproxima a cauda, crescem monotonicamente ao nıvel 1 – isto por queas duas sao funcoes de distribuicao. Isto implica que apesar da diferenca rela-tiva entre elas crescer, a diferenca absoluta fica muito pequena. Por exemplo,imagine duas funcoes de distribuicao que partem de 0, coincidem ate um certoponto, e que a partir deste ponto comecem a se divergir de maneira tal quea distancia entre o nıvel 1 e primeira delas, aquela que possui a cauda maisleve, seja igual a 1 milımetro (num determinado ponto), e a distancia do nivel1 ate a outra, aquela cuja cauda e mais grossa, seja 2 milimetros, onde a daprimeira for 0.1 mm, a da outra seja 1.5 mm, onde a da primeira for 0.01 mm,a segunda seja 1.2 mm, e assim por diante. E claro que a primeira das funcoesse aproxima de 1 muito mais rapido que a segunda. E nıtido que a diferencarelativa entre elas cresce:

2 − 1

2,

1.5 − 0.1

0.1,

1.2 − 0.01

0.01, etc.

enquanto que a distancia absoluta entre as duas nao ultrapassa ε = 2 milımetros.Queremos que o leitor entenda que o efeito explicado no paragrafo anterior

esta sendo usado pelo metodo POT para aproximar a cauda da distribuicaoNormal Padrao. Funciona assim. Seja u um valor a direita do qual a cauda daNormal precisa ser aproximada. A cauda comeca do ponto (u,Φ(u)) e crescerapido ao nıvel 1. Entao o metodo toma a distribuicao exponencial

G0,β,0(x) =

{0, quando x < 0,1 − exp {−x/β} , quando x ≥ 0,

e escolhe o valor do parametro β de modo tal que quando esta funcao formara aproximacao da cauda – e se voce lembra que para isto a distribuicao deveser apropriadamente encolhida e sua parte a direita de 0 deve ser transportadapara “comecar” do ponto (u,Φ(u)) –, esta esteja acompanhando de perto acauda da distribuicao Normal do ponto (u,Φ(u)) ate o mais longe possıvel.Quando este acompanhamento nao for mais factıvel – o que acontecera devidoa diferenca entre as grossuras da cauda e da distribuicao exponencial –, as duas

137

Page 141: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

funcoes serao tao proximas do nıvel 1 que a distancia absoluta entre elas seramuito pequena. Em consequencia, a cauda e seu aproximador serao proximosum do outro em toda a extensao a direita de u.

Voce agora esta convidado a observar novamente a Tabela 5 e notar comoo metodo POT muda o valor de β de acordo com que explicamos acima.

Comentario 29. Aqui daremos uma alternativa a explicacao do mecanismousado pelo metodo POT para aproximar, pela distribuicao exponencial, ascaudas da distribuicao Normal Padrao Φ(·). Chamaremos esta explicacaode comentario, ja que os comentarios sao as partes do texto que podem seromitidas numa primeira leitura – coisa que voce, talvez, gostasse de fazerdepois de se cansar da nossa insistencia na explicacao de todos os detalhes.

Comecaremos recordando que o aproximador da cauda de uma funcao dedistribuicao F (·) a direita de um limiar u e uma funcao do tipo (62), denotadapor G∗ξ,β(u),0(·). Destacamos tambem que esta funcao e construida a partir da

GPD Gξ,β(u),0(·), que aproxima a funcao Fu(·) – que expressa a distribuicao dosexcessos de F (·) acima de u. O motivo de tanta referencia e o esclarecimento deque a acuidade da aproximacao pode ser analisada em termos da proximidadede G∗ξ,β(u),0(·) a cauda de F (·), assim como pode ser analisada em termos da

proximidade de Gξ,β(u),0(·) a Fu(·). A primeira analise foi apresentada acima.Agora e a vez da segunda, que possui suas vantagens.

Se Φ(·) e a funcao de distribuicao Normal Padrao, e se pedimos ao metodoPOT que aproxime Φu(·) para u fixo (u e positivo, claro, e grande), entao ometodo deve construir seu aproximador usando G0,β(u),0(·), ja que o Resultadode Pickands obriga o metodo a tomar ξ = 0. Em outras palavras, o metodo sopode mudar o valor do parametro β para conseguir a desejada aproximacao.Que isto e possıvel e o conteudo do Resultado de Pickands. Nao entraremosna sua demostracao. O que queremos fazer agora e analisar a dependenciado valor de β(u) em relacao a u. De acordo com a Tabela 5 percebe-se queβ(u) decresce com o aumento de u. Seria isto uma regra geral, ou se trata deuma caracterıstica da amostra? Abaixo temos a comprovacao da generalidadedesta regra.

Vejamos a Figura 28. Os pontilhados nos quatro graficos representam afuncao da distribuicao amostral dos excessos da nossa amostra retirada da dis-tribuicao Normal Padrao. Os excessos sao relativos ao limiar u, cujos valoressao 0.5, 0.8, 1.1 e 1.4 nas ilustracoes (a), (b), (c) e (d), respectivamente. Asdistribuicoes amostrais representam aproximadamente as distribuicoes Φ0.5(·),

138

Page 142: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 2.1

1

(a)

0 1.8

1

(b)

0 1.5

1

(c)

0 1.1

1

(d)

Figura 28: As figuras apresentam, por pontos, a distribuicao amostral dos excessos

acima de limiar u da amostra retirada da distribuicao Normal Padrao Φ(·), e apresen-

tam por linhas pontilhadas as GPD’s G0,β(u),0(·) contruıdas pelo metodo POT para

aproximar Φu(·). Os valores do limiar u sao 0.5 em (a), 0.8 em (b), 1.1 em (c), e

1.4 em (d), com os respectivos valores de β(u): 0.629, 0.532, 0.405 e 0.459. Note

que as escalas do eixo de abcissas sao diferentes e decrescem de (a) para (d). Isso

implica que os graficos em (b) sao mais proximos do eixo vertical que os graficos em

(a). A mesma relacao vale quando compara-se os graficos em (b) e em (c). A mesma

relacao deveria valer para o par (c) e (d), mas, infelizmente, ela nao se manifestou no

desenho. A razao e que os graficos em (d) foram construıdos com base na amostra

constituıda de numero muito pequeno de pontos; esta escasez ocorre porque o caso

(d) corresponde ao maior valor do limiar u dentre todos os quatro casos.

139

Page 143: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Φ0.8(·), Φ1.1(·) e Φ1.4(·).34 Infelizmente, a quantidade dos pontos excedentesda amostra diminui com o crescimento de u. Por isto a quantidade de pontosdiminui de (a) para (d), e, alem disso, a acuidade da aproximacao de Φu(·)pela funcao da distribuicao amostral tambem piora. Mas, apesar desta piora,os desenhos exibem a propriedade que importa para nossa presente discussao:quanto maior u, mais proxima ao eixo vertical estara a funcao Φu(·) depoisde ter deixado o ponto (0, 0). Portanto, caso o metodo POT queira fazer afuncao G0,β(u),0(·) “acompanhar” de perto a funcao Φu(·), conforme u cresce,entao o parametro β(u) deve diminuir com o aumento de u. Isto por quequanto menor β mais perto do eixo vertical estara a funcao G0,β,0(·) – fatoque foi explicado na Sub-secao 4.4 e exibido na Figura 9(a). Pronto! Prova-mos que β(u) decresce com aumanto de u quando o metodo POT aproximacauda da distribuicao Normal Padrao. Este foi o principal objetivo do presentecomentario.

Depois de muitas explicacoes do porque o metodo POT conseguiria aprox-imar cauda da distribuicao Normal Padrao usando a distribuicao exponencial,e natural verificar se no caso da nossa amostra houve de fato a tao prometidaaproximacao. A resposta esta na Tabela 6. No nosso ponto de vista, os valoresdesta tabela confirmam uma boa aproximacao. Boa, apesar do procedimentode execusao da ideia do metodo POT ser inadequado para o presente caso.Sobre isto versa o nosso ultimo comentario da presente sub-secao.

Comentario 30. A analise proferida na presente sub-secao indica que a es-trategia tracada na Sub-secao 7.1 e inadequada para executar a ideia do metodPOT quando trata-se da estimacao da cauda de uma funcao de distribuicaocom cauda mais fina que a exponencial. Os problemas surgem ja no primeiropasso da estrategia (o passo (A) definido na Sub-secao 7.1 e detalhado naSub-secao 7.2). A razao e a inexistancia do limiar otimo, uopt, definido peloscriterios explicados nas Sub-secoes 7.2 e 7.6. A inexistencia de uopt complicatambem a juistificativa do segundo passo da estrategia, ja que este usa uopt

em seus procedimentos.A inadequanca acima citada ocorre porque a cauda aproximada e muito

mais fina que a cauda do aproximador. Isto sugere que o estudo do tipo decauda deve preceder a execucao do metdo POT, e que o caminho da execucaodeve ser trilhado de acordo com as conclusoes sobre o tipo de cauda. As

34Recorde que Φu(·) denota a funcao da distribuicao dos excessos acima de u de Φ(·), querdizer, da funcao da distribuicao Normal Padrao.

140

Page 144: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

p F−1(p) F−10.5 (p) F−1

0.55(p) F−10.6 (p) F−1

0.65(p) F−10.7 (p) F−1

0.75(p)

0.9 1.281 1.227 1.222 1.139 1.219 1.221 1.186

0.95 1.644 1.664 1.639 1.490 1.608 1.599 1.532

0.995 2.576 3.112 3.025 2.657 2.900 2.856 2.681

p F−10.8 (p) F−1

0.85(p) F−10.9 (p) F−1

0.95(p) F−11 (p) F−1

1.05(p) F−11.1 (p)

0.9 1.224 1.231 1.317 1.241 1.222 1.310 1.212

0.95 1.593 1.579 1.741 1.592 1.580 1.770 1.494

0.995 2.819 2.734 3.149 2.758 2.768 3.298 2.428

p F−11.15(p) F−1

1.2 (p) F−11.25(p) F−1

1.3 (p) F−11.35(p) F−1

1.4 (p) F−11.45(p)

0.9 1.232 1.220 1.250 – – – –

0.95 1.576 1.576 1.576 1.544 1.600 1.592 1.615

0.995 2.721 2.760 2.729 2.500 2.622 2.650 2.585

p F−11.5 (p) F−1

1.55(p) F−11.6 (p) F−1

1.65(p) F−11.7 (p) F−1

1.75(p) F−11.8 (p)

0.9 – – – – – – –

0.95 1.639 1.647 1.663 1.644 1.644 1.644 1.644

0.995 2.522 2.555 2.468 2.427 2.446 2.424 2.424

p F−11.85(p) F−1

1.9 (p) F−11.95(p) F−1

1.95(p)

0.9 1.281 1.281 1.281 1.281

0.95 1.644 1.644 1.644 1.644

0.995 2.382 2.398 2.430 2.411

Tabela 6: A comparacao entre quantis da distribuicao Normal Padrao e suas estima-

tivas produzidas por funcoes -aproximadores da cauda desta produzidas pelo metodo

POT. Analisamos p-quantis com valores 0.9, 0.95, 0.995 de p. Os verdadeiros valores

estao na coluna “Φ−1(p)”. Cada Fu denota o aproximador da cauda a direita de u

da distribuicao Normal Padrao, Φ(·). Os aproximadores sao produzidos por metodo

POT com base em uma amostra de Φ(·).

141

Page 145: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

ferramentas e ideias desse estudo nao estao no escopo do nosso presente tra-balho, assim como os caminhos alternativos a estrategia (A)-(C) definida naSub-secao 7.1.

Apesar da inadequacao comprovada da estrategia (A)-(C) para o caso emque a cauda aproximada e mais fina que a exponencial, muitas pessoas usamesta estrategia sem uma previa analise da cauda. Uma razao para isso eque tal analise e complexa e muito sensıvel as imperfeicoes de amostras. Asegunda razao e que a estrategia e bem capaz de dar uma boa aproximacao,como, por exemplo, no caso estudado acima. De fato a Tabela 6 mostra queas estimativas dos quantis, produzidas por esta estrategia, nao diferem muitodos quantis verdadeiros, e, mesmo que nao soubesemos os verdadeiros valores,poderıamos alegar a precisao da aproximacao pelo fato de que os valores naose alteram muito conforme a mudanca do limiar u. A terceira razao esta noemprego da funcao da media amostral de excessos. A ideia do seu uso valequando a verdadeira cauda e pesada ou e finita, mas nao no caso quandoa cauda e mais leve que a exponencial. Nos ultimos casos esta funcao seratipicamente decrescente – isto pode ser provado para a muitas distribuicoescom cauda fina por intermedio dos argumentos exibidos no Comentario 28.Acontece que este comportamento da funcao da media amostral de excessostem seu proveito. Se voce conseguir detectar, analizando seu formato, queela e convexa e aproxima-se a uma linha horizontal, entao voce tera uma forteindicacao de que a cauda aproximada e mais leve que a exponencial. Se voce seenganar e identificar linearidade no seu grafico, voce aproximara a cauda poruma GPD de cauda finita, mas isto pode ser uma aproximacao razoavelmenteboa, conforme explicamos no Comentario 6.

8.3 Aplicacao do metodo POT a uma amostra de dados reais

Nesta sub-secao reportamos a aplicacao do metodo POT a um conjunto dedados reais. Conjunto esse que foi recebido de um dos bancos brasileiros,35 eque e composto por uma amostra contendo cerca de 400 valores representandoas perdas relativas as fraudes ocorridas num setor especıfico do banco. Operıodo de observacao dos dados corresponde a um ano e meio, referentes a umperıodo anterior a julho de 2006. Cerca de 70% dos valores sao relativamente

35Se antes do prazo de entrega deste texto para editora eu conseguir a autrorizacao destebanco para a divulgacao dos dados, entao estes serao apresentados no Apendice. Eis umexemplo de nossa total dependencia de bancos! Se estes nao existissem, como entao terıamosa amostra analisada na presente sub-secao?!

142

Page 146: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

pequenos, nao ultrapassam R$ 300. Nota-se tambem que grande parte destes70% sao de perdas que nao ultrapassam R$ 1, e que as grandes perdas saoraras, mas realmente grandes. A maior delas e de R$33391 – cerca de 33 milreais. Para que o leitor possa sentir o peso destas, informamos que a mediada amostra e de 1097.17, enquanto sua variancia vale 1.36574e + 07.

O interesse na analise deste conjunto tem origem na obrigatoriedade im-posta aos bancos pelo governo – isto nao so no Brasil, mas no mundo inteiro –de estimar os riscos de grandes perdas e reservar uma quantia para cobrir asmesmas. As agencias reguladoras separaram em tres grupos todas as possıveisperdas provenientes de atividades bancarias: as que decorrem dos investimen-tos, as que decorrem do credito, e as que decorrem das falhas operacionais. Nocaso dessa ultima, a condicao que define as perdas pertencentes a esse grupoe bastante imprecisa – logo se ve que os burocratas das agencias reguladorasnao sao matematicos. Felizmente as pessoas sensatas consideram que este ter-ceiro grupo e composto de tudo aquilo que nao coube no primeiro grupo nemno segundo grupo. Roubaram um carro-forte – dizem que houve perda opera-cional. Houve fraude na compra e venda de acoes– o prejuızo do banco e outraperda operacional. Basicamente todos os prejuızos decorrentes de fraudes eerros humanos, sejam eles intencionais ou nao, sao “alocados” no grupo deperdas operacionais. A heterogeneidade de tudo que esta neste grupo faz comque os bancos separem as perdas operacionais em setores, tratando cada setorseparadamente. Isto nos fez assumir o seguinte

Pressuposto 6: Todos os dados do conjunto referem-se a perdas decorrentesdas atividades de um mesmo setor. Para fins ilustrativos o leitor podeimaginar que este setor e o de compensacao de cheques, e que os sin-istros causadores das perdas sao do tipo “digitou-se erradamente o valordo cheque” ou “compensou-se um cheque roubado ou com valor adul-terado”. Dito em termos mais cientıficos, pressupomos aqui que existauma funcao de distribuicao, a ser denotada por F (·), tal que sempre queocorre um sinistro na compensacao de um cheque, o valor do prejuızo euma realizacao da variavel aleatoria cuja funcao de distribuicao e F (·);a isto acrescentamos ainda que, para a completude do pressuposto, asrealizacoes sao independentes.

Talvez o leitor esteja interessado em saber como os bancos agregam os resulta-dos dos tratamentos separados de setores para produzir a estimativa de perdadecorrente de todas as atividades operacionais do banco. A exposicao disto

143

Page 147: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

nao exige pre-requisitos sofisticados, mas e um tanto extensa, e por isto naoencontrou lugar no nosso presente trabalho.

As observacoes de perdas operacionais interessam aos bancos porque apartir delas e calculado o “VaR operacional anual36 de confianca p”, que e aestimativa do valor que nao e ultrapassado, com probabilidade p, pela somadas perdas operacionais ocorridas no decorrer de um ano. O calculo do VaRoperacional anual nao e simples, pois leva em conta a flutuacao do numerode ocorrencias no perıodo de um ano. Para nao complicar os argumentos,analisaremos nosso conjunto de perdas operacionais com um objetivo maissimples, diretamente ligado ao objetivo principal da nossa exposicao, que e aexibicao do metodo POT. O nosso problema se traduz em:

(P6) aplicar o metodo POT a amostra de perdas operacionais para estimarF−1(p) para um valor de p proximo a 1, que seja, digamos, 0.995.

Nota sobre o problema 6. Gostarıamos de deixar claro que o problema nao serefere ao VaR operacional durante qualquer perıodo. A interpretacao deF−1(0.995), cujo valor esta em questao, e: o valor que nao sera ultrapas-sado, com a probabilidade 0.995, pelo prejuızo decorrente da proxima(apenas uma!) falha operacional.

So nao podemos nos esquecer que os procedimentos do metodo POT fun-cionam se

Pressuposto 7: A funcao de distribuicao F (·), de onde veio a amostra, satisfazas condicoes do Teorema de Pickands, ou em termos precisos, se estapertence ao domınio de atracao de uma das Distribuicoes de ValoresExtremos.

Aceitaremos este pressuposto sem testa-lo, evitando assim a discussao detestes apropriados.

Nossa execucao do metodo POT vai seguir a estrategia tracada na Sub-secao 7.1. Lembramos que ela comeca com estabelecimento de uopt, o limiarotimo, que e a abcissa a partir da qual o metodo POT estimara a cauda direitada funcao F (·). Ja tinhamos mencionado que o estabelicimento de uopt podeser feito de diversas maneiras, mas que no ambito do presente trabalho empre-garemos apenas uma delas, aquela descrita em Procedimento para identificacao

36Tipicamente anual, mas as vezes, pode ser para qualquer outro perıodo diferente de umano.

144

Page 148: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

de uopt da Sub-secao 7.2. A saber: analisar e(·), a funcao da media amostralde excessos construıda com base na amostra, com o objetivo de identificar amenor abcissa em que, dela adiante, o grafico da funcao apresente crescimentoaproximadamente linear. Tal abcissa e tomada como sendo uopt. Lembramosainda que este procedimento baseia-se na ideia de que uopt e o menor limiarque, a partir dele, a funcao da media de excessos da distribuicao F (·) sejaaproximadamente linear. Mas ja que esta funcao, denotada por e(·), e descon-hecida nos resta entao analisar a funcao e(·), acreditando que a amostra, quea gerou, “fez” ela ser uma boa aproximacao para e(·).

Para a nossa amostra de perdas operacionais, a funcao da media amostralde excessos esta representada na Figura 29.

0 2000 4000 6000 8000 10000

2000

4000

6000

8000

Figura 29: O grafico da funcao da media amostral dos excessos da amostra de perdas

operacionais tratada na Sub-secao 8.3.

Observando a figura, com os “mandamentos” do Procedimento, nota-se as

145

Page 149: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

seguintes propriedades:

(N1) A funcao de media amostral de excessos e concova ate a abcissa 1000, e aquantidade das observacoes no intervalo de 0 ate 1000 e tao grande, e taodensa, que podemos admitir que neste intervalo esta funcao esta proximada funcao da media de excessos da funcao F (·). Com isto conclui-se quea funcao de media de excessos de F (·) e concova no intervalo [0, 1000].

(N2) Se escolhermos dois pontos no grafico da funcao que sejam razoavel-mente afastados um do outro, de modo que suas abcissas estejam entre1000 e 6000, e apos isto ligarmos estes pontos por uma reta, veremosentao que o grafico oscila em torno desta reta. A posicao da reta naomuda muito em funcao da escolha, bf desde que os pontos escolhidosnao sejam proximos aos extremos do intervalo pouco informativo, que seencontra entre 2000 e 3000. Se ignorarmos esta excessao podemos nosconvencer de que a funcao da media de excessos da funcao F (·) e linearcom tangente positiva entre as abcissas 1000 e 6000.

(N3) O comportamento da funcao, observado no ıtem anterior, muda se umdos pontos escolhidos, ou ambos, estiverem com a abcissa a direita de6000. Na primeira hipotese a tangente da reta, que liga este com outroponto escolhido, e menor que a tangente “media” das retas que ligam ospontos cujas abcissas estao entre 1000 e 6000. No outro caso, naqueleonde ambos os pontos estao com abcissa a direita de 6000, a reta queliga estes, esta em posicao quase horizontal. Ou seja, a tangente dela eproxima de 0.

Agora, com base nas observacoes (N1)-(N3) e no bom senso misturadocom a imaginacao de estatıstico, e preciso determinar uopt, o limiar otimo.E claro que se nao fosse o comportamento da funcao, descrito no ıtem (N3),poderıamos afirmar com boa dose de confianca que uopt e 1000. Porem, selevarmos em conta o conteudo do ıtem (N3), vamos ter de concluir que elee 6000. Ao optar entre 1000 e 6000 nao so mudaremos a posicao do limiarotimo a direita do qual sera estimada a cauda de F (·). Escolhendo o valoruopt = 1000 admitiremos tambem que ξ > 0, ja se aceitarmos uopt = 6000,entao admitiremos que ξ = 0. Estas conclusoes sobre ξ veem do ıtem (iii) doProcedimento: a conclusao “ξ > 0” segue-se pois a funcao da media amostralde excessos e predominantemete crescente apos 1000, enquanto que a con-clusao “ξ = 0” segue-se pois esta funcao e quase horizontal a direita de 6000.

146

Page 150: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Lembramos que ξ refere-se ao parametro de forma da GPD, da qual o metodoPOT construira o aproximador da cauda de F (·) a direita de uopt; caso ξ > 0,esta GPD possui cauda polinomial, dita “pesada”, equanto que no caso ξ = 0esta cauda e exponencial, chamada de “leve”.

Sendo assim o que faremos entao para escolher entre 1000 e 6000? Asolucao e aplicar tres procedimentos cujos resultados nos auxiliarao na aceitacao-ou-rejeicao da hipotese “o limiar otimo e 1000”. Contudo, antes de mais nada,o leitor pode se perguntar: “Por que testar uopt = 1000 e nao uopt = 6000?”.E porque gostamos mais do primeiro. Voce, nosso leitor, quando precisa escol-her entre duas namoradas (ou, dois namorados) que sao absolutamente iguais,nao fica entao com aquela (ou, aquele) que e melhor? O mesmo acontece aquiconosco. Mas, falando serio, preferimos o valor 1000 porque a direita deleha mais pontos da amostra, o que da maior confianca as estimativas a seremusadas no teste.

Nao fomos nos que inventamos os procedimentos que serao aplicados aqui,eles sao parte de um conjunto de metodos usados na pratica, construıdos combase na ideia da establidade de estimativa de um dos paramentos envolvidosno metodo POT. Esta ideia sera analisada em detalhes no Comentario 32,depois dos procedimentos serem formulados.

Chamaremos os Procedimentos de I, II e III, para facilitar a referencia.E bom destacar, antes mesmo de formula-los, que o primeiro e o terceiro saolegıtimos, enquanto que o segundo nao. Decidimos apresentar este procedi-mento incorreto para a prevencao do seu emprego e tambem para salientar –no decorrer da revelacao da ilegitimidade do procedimento –uma propriedadedo Teorema de Pickands, que pode ter passado despercebida.

Para entender o Procedimento I, volte a formulacao do Resultado de Pickandsna Sub-secao 6.2 – aquele resultado que inspirou o metodo POT – e observeque na formula (58) – a formula que expressa a afirmacao do resultado –o parametro ξ nao depende do valor de u. Daı surge naturalmente a ideiamaterializada no seguinte

Procedimento I: Calcular estimativa ξ de ξ para diversos valores de u eidentificar o intervalo mais a esquerda no qual os valores de ξ sao maisou menos iguais. Atribuir a uopt o extremo esquerdo deste intervalo.

Executamos o Procedimento I. Os resultados podem ser vistos na Figura 30,parte deles tambem esta apresentada na Tabela 7. A regiao dos valores de upara os quais a estimativa de ξ nos parece ser estavel e entre 1000 e 2000.

147

Page 151: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 2000 4000 6000 8000 10000

0

1

2

3

4

5

Figura 30: A estimativa ξ versus o limiar u. A analise desta funcao com o intuito de

identificar regioes de estabilidade de ξ pode ajudar a determinar uopt, a posicao otima

do limiar u. Veja o Procedimento I e sua discussao apresentados na Sub-secao 8.3.

Concluımos isto com base na analise visual da Figura 30. Os valores das es-timativas de ξ para esta faixa de valores de u estao na Tabela 7. Esperamosque esta tabela convenca o leitor de que as respectivas estimativas de ξ estaooscilando em torno do valor 0.3, com relativamente baixa amplitude da os-cilacao. Essa observacao nos motiva a confirmar a hipotese: “o valor otimo dolimiar u e 1000”, que foi formulada depois de analisarmos a funcao da mediaamostral de excessos.

Comentario 31. O leitor certamente notou na Figura 30 dois patamares dealtura 0 no eixo de ordenadas. Estes surgiram pela mesma razao que originouos valores extremamente proximas a zero na estimativa de ξ, quando da aprox-imacao da cauda da distribuicao Normal Padrao apresentada e descutida na

148

Page 152: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

0 2000 4000 6000 8000 10000

0

5000

10000

15000

Figura 31: A estimativa β versus o limiar u. Voce nao pode determinar uopt, a

posicao otima do limiar u, com base nas regioes de estabilidade de β. Veja o Proced-

imento II e sua discussao apresentados na Sub-secao 8.3.

149

Page 153: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar 1000 1050 1100 1150 1200 1250 1300

ξ 0.412 0.28 0.3 0.284 0.306 0.287 0.269

β 3595.4 4499.3 4355.7 4493.1 4347.1 4495.4 4653.8

excedentes 54 50 50 49 49 48 47

limiar 1350 1400 1450 1500 1550 1600 1650

ξ 0.249 0.268 0.247 0.266 0.287 0.264 0.285

β 4826.9 4684.4 4869.2 4725.7 4577.8 4769.4 4620.1

excedentes 46 46 45 45 45 44 44

limiar 1700 1750 1800 1850 1900 1950 2000

ξ 0.308 0.333 0.361 0.392 0.364 0.279 0.249

β 4465.7 4305.2 4137.7 3961.6 4153.8 4764.6 5014.6

excedentes 44 44 44 44 43 41 40

Tabela 7: Estimativas dos parametros ξ e β para diversos valores do limiar u. As esti-

mativas sao calculadas da amostra de perdas operacionais discutidas na Sub-secao 8.3.

Sub-secao 8.2. Aquela sub-secao esclareceu a razao e explicou o que deve serfeito no caso da estimativa para ξ ser proxima de zero. Mas, para a comple-tude da presente exposicao, revelaremos novamente esta razao: acontece queas estimativas ξ e β vieram da maximizacao da funcao de log-verossimilhanca,construıda de acordo com pressuposto de que o verdadeiro valor de ξ e estri-tamente positivo. Este pressuposto fez com que o programa de maximizacaofosse proibido de procurar por ξ entre os valores inferores a 1E−10. Por outrolado, para alguns valores do limiar u, os valores dos excessos da amostra acimade u indicaram ao metodo POT que o verdadeiro ξ e zero, ou ate negativo. Foipor isso que o metodo atribuiu a ξ o menor valor permitido, isto e, 1E − 10,ou algo bem proximo deste. Os valores de u para os quais isto aconteceu saoas abcissas dos trechos planos do grafico da Figura 30.

Comentario 32. O Procedimento I funciona segundo o mesmo princıpio querege o metodo da determinacao do valor otimo do limiar u baseado na analiseda funcao da media amostral de excessos. Ambos procuram o intervalo mais aesquerda no qual um certo grafico apresenta um determinado padrao de com-portamento. Temos o grafico de ξ no primeiro caso, e o da media amostral dosexcessos acima de u no segundo. No primeiro caso procura-se a estabilidade

150

Page 154: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

de ξ como funcao de u, no segundo caso procura-se o comportamento linearem u da media amostral de excessos. Nos dois casos a intencao e encontrar ointervalo mais a esquerda em que o comportamento em interesse se revela. Eem ambos os casos, o valor otimo do limiar e o extremo esquerdo deste inter-valo. Isto e motivado pelo desejo de fazer o valor otimo o menor possıvel, quepor sua vez e motivado pelo fato de que quanto menor este valor, mais pontosda amostra poderao ser usados pelos passos do metodo POT posteriores aopasso que estabelece o valor do limiar u.

Talvez lhe passou pela cabeca que a mais confiavel das estimativa para ξseja a media das estimativas de ξ tomada a partir de todos os valores de u nosquais ξ apresentou uma estabilidade. Uma boa ideia. Nos nunca a testamos.Talvez seja uma ideia brilhante ... Fim do comentario.

Por analogia ao Procedimento I, e seguindo a ideia deste apresentada noComentario 32, foi construıdo o seguinte

Procedimento II – totalmente erroneo: jamais faca-o se nao quizer morrer devergonha ate seus ultimos dias! Calcular estimativa β de β para diversosvalores de u e identificar o intervalo mais a esquerda no qual os valores deβ sao mais ou menos iguais. Atribuir ao valor otimo o extremo esquerdodeste intervalo.

A diferenca entre este pressupoto e o anterior e que no lugar de ξ aparece oparametro β. Esta substituicao parece ser inocente: troca-se um parametropor outro – qual o problema?! O problema e que a substituicao de ξ por βe incorreta, pois ao contrario de ξ o parametro β depende da posicao de u.Confirme isto no Resultado de Pickands.

Nos executamos tambem o Procedimento II – coisa que voce nunca podefazer – e apresentamos seus resultados na Figura 31 e na Tabela 7. Fizemosisto com fins ilustrativos e didaticos. Voce, nosso leitor, esta proibido a aplicareste procedimento na procura da posicao do limiar otimo do metodo POT, maspode observar Figura 31 e Tabela 7.

Por fim apresentaremos o terceiro procedimento que nos auxilia na reit-eracao do valor do limiar otimo, que tem origem numa ideia diferente daquelana qual baseia-se o Procedimento I. O ponto da partida agora e o objetivofinal da aproximacao de cauda. Este e, recordemos, a estimacao de F −1(p)para um p dado. Daı o conteudo:

Procedimento III. Seja Fu(·) a notacao para a estimativa produzida pelo

151

Page 155: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

p F−11000(p) F−1

1050(p) F−11100(p) F−1

1150(p) F−11200(p) F−1

1250(p)

0.9 2658.45 2681.02 2684.85 2680.29 2685.88 2680.52

0.95 6091.95 6470.12 6408.00 6455.11 6392.66 6444.25

0.995 27973.43 25892.58 26154.23 25953.17 26223.15 25997.98

p F−11300(p) F−1

1350(p) F−11400(p) F−1

1450(p) F−11500(p) F−1

1550(p)

0.9 2670.61 2656.42 2671.12 2653.65 2670.95 2687.20

0.95 6497.14 6553.78 6499.22 6558.97 6505.52 6448.78

0.995 25786.06 25579.70 25778.38 25561.52 25754.92 25981.90

p F−11600(p) F−1

1650(p) F−11700(p) F−1

1750(p) F−11800(p) F−1

1850(p)

0.9 2667.61 2686.61 2704.49 2721.09 2736.16 2749.40

0.95 6510.05 6454.34 6394.84 6330.92 6261.80 6186.42

0.995 25736.98 25959.11 26222.08 26536.21 26915.76 27381.40

p F−11900(p) F−1

1950(p) F−12000(p)

0.9 2737.21 2664.28 2622.04

0.95 6253.63 6460.56 6533.01

0.995 26962.98 25919.50 25631.68

Tabela 8: Alguns valores numericos de F−1(u); veja a explicacao no rodape da

Figura 32.

metodo POT da cauda de F (·) a direita de u.37 Construa Fu(·) paradiversos valores de u e calcule F−1

u (p) para diversos valores de p. Feitoisto, procure pelo intervalo mais a esquerda no qual para cada p osquantis F−1

u (p) sao mais ou menos parecidos. O extremo esquerdo desteintervalo deve ser tomado como uopt, o valor otimo do limiar u.

Caso a estimativa de F−1(r), para um dado r, seja o objetivo final daaplicacao do metodo POT, como no nosso presente caso, entao o Procedi-mento III nao so reitera o valor otimo do limiar, como tambem fornece aresposta final no caso de r ser um dos p’s envolvidos no procedimento.

O conteudo do paragrafo acima justifica nossa opcao pelos valores 0.9, 0.95, 0.995para p na execucao do Procedimento III, pois no presente caso estamos interes-sados em estimar F−1(0.995) (isto foi formulado em (P6)). Os resultados desta

37Introduzimos esta notacao no lugar da tradicional G∗ξ,β(u),0

(·) por comodidade.

152

Page 156: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

200 400 600 800 1000 1200

1400

1600

1800

2000

2200

2400

2600

0 1000 2000 3000 4000 5000

3000

4000

5000

6000

7000

0 1000 2000 3000 4000 5000

20000

25000

30000

35000

Figura 32: Graficos de F−1u (p) para o limiar u variando de 0 a 5000. O primeiro

grafico corresponde ao valor 0.9 de p, o segundo a 0.95, o terceiro a 0.995. Aqui

Fu(·) e a notacao compacta G∗

ξ,β(u),0(·), que e o estimador da cauda da funcao de

distribuicao das perdas operacionais analisadas na Sub-secao 8.3. Para alguns valores

de u, os valores numericos de F−1(p) estao apresentados na Tabela 8.

153

Page 157: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

execucao sao apresentados na Figura 32 e na Tabela 8. Analisando a figura, ve-se que uma relativa estabilidade das estimativas F−1

u (p), u ∈ (0, 5000) comecapor volta de u = 1000 nos casos p = 0.95 e p = 0.995. Ja no caso p = 0.9,este “comeco de estabilidade” ficou a esquerda de 1000, mas ja que 1000 estana regiao da estabilidade, entao podemos concluir que este caso nao evedenciafortemente contra a hipotese uopt = 1000.

A analise visual dos tres graficos sugere que uma media de F−1u (p) calcu-

lada por valores de u da regiao de “estabilidade” talvez seja uma estimativade F−1(p) mais confiavel que F−1

u (p). Nao podemos comentar nada a respeitodesta sugestao. De imediato ela nos parece razoavel, mas nunca a vimos ser ex-ecutada, e nao temos experiencia suficiente para julgar as possıveis vantagense desvantagens desta proposta.

Entao, aceitamos uopt = 1000, e com isto, a resposta final seria 27.973, 43(veja a Tabela 8). Isto significa, nos termos da vida real explicados no Pres-suposto 6, que o proximo sinistro, quando ocorrer, nao trara perda superiora R$27.973,43 com probabilidade de 0.995. Se “seu” banco resolver que apostoda ocorrencia, seja qual for sua consequencia, nao havera nenhuma mudanca,nem na prevencao dos sinsitros, nem no controle de suas causas, entao pode-se dizer que cada futuro sinistro, quando ocorrer, nao trara perda superior aR$27.973,43 com probabilidade de 0.995. Podemos interpretar esse resultadotambem da seguinte forma: dos futuros sinistros, so 0.5% trarao um prejuızosuperior a R$27,973.43.

154

Page 158: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

9 Comentarios finais gerais

O metodo POT tornou-se tao comumente usado que as “novas geracoes” deseus usuarios deixaram de se preocupar com as condicoes que garantem ofuncionamento adequado do metodo, o que gera crencas erroneas do tipo: “Ometodo POT acerta a cauda de qualquer funcao de distribuicao F (·)”, “Acauda de qualquer funcao de distribuicao F (·) e do tipo Pareto”,38 e muitasoutras. Uma das razoes para isto sao, ao noso ver, os “manuais de usuarios”queesses novos usuarios recebem, e que nao expoe a base teorica do metodo.

Esta deficiencia foi suprida nas secoes anteriores do nosso trabalho: ap-resentamos as etapas de derivacao da ideia do metodo POT de uma formadetalhada e simples. A presente sub-secao usufrui desta apresentacao para ex-plicar para quais funcoes F (·) o metodo POT pode ser aplicado, o que esperardo resultado e muitos outros assuntos que sao raramente levantados em textossobre este metodo. Separamos a explicacao em modulos e cada modulo levouo nome de “comentario”, denominacao que talvez nao seja muito adequadapara o caso, mas que preserva o padrao da nossa apresentacao.

Comentario 33. A observacao principal e que uma funcao de distribuicao F (·)deve satisfazer determinadas condicoes para que a aplicacao do metodo POT,para aproximar cauda de F (·), seja legıtima. Esta condicao e o pressupostodo Resultado de Pickands: a funcao F (·) deve estar no domınio de atracao deuma das distribuicoes de valores extremos (EVD).

Comentario 34. O conteudo do Comentario 33 induz imediatamente a umaserie de duvidas, que por sua vez geram a seguinte sequencia de perguntas erespostas colocadas em forma de um dialogo:- Existem funcoes de distribuicao que nao pertemcem ao no domınio de atracaode nenhuma EVD? Isto e, existem funcoes que nao satisfazem o pressupostodo Resultado de Pickands?- Sim. As considcoes necessarias e suficientes para estar no domınio de atracaodas EVD’s foram dadas no ıtem (IV) da solucao do problema de distribuicaoassintotica de extremos (Sub-secao 5.4). E so tomar uma funcao que naosatisfaz estas condicoes.- Porque entao tais funcoes nao sao apresentadas com veemencia?- Aı esta o ponto! Acontece que todas as funcoes de distribuicao amplamenteconhecidas estao no domınio de atracao de EVD’s. Este fato ainda foi notado e

38Alias, estas duas crencas sao obviamente ligadas uma a outra, porem nao conseguimosidentificar qual das duas era a primeira a aparecer.

155

Page 159: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

enfatizado por Pickands no artigo [6] que expos para o mundo aquele teoremaque chamamos de “Resulatdo de Pickands”. Pickands diz: “almost all texbookdistribution functions belong to the domain of atraction of the Extreme ValueDistributions”. Esta talvez fosse a razao dele acreditar que seu teorema teriaamplas aplicacoes praticas.

Comentario 35. Os nossos argumentos acima apresentados podem induzir umpensamento erroneo, que e o assunto da discussao da presente observacao.

O pensamento do qual estamos falando e aquele que considera que a famıliade distribuicoes de Pareto genralizadas e uma toda-poderosa famılia cujosmembros sao capazes de aproximar caudas de uma imensidade de distribuicoesde probabilidade, entre as quais se encontram as distribuicoes que usualmenteaparecem em livros textos e na pratica, e que aquelas funcoes de distribuicaoque nao sao aproximaveis por membros desta famılia (tais distribuicoes exis-tem, como foi comprovado acima) sao raras, inuteis, deficientes, enfim, algoque nao merece a atencao, e, por fim, que nao existe uma outra famılia comcapacidade igual a da famılia das GPD’s.

A verdade nao e bem assim. O exemplo que sera usado abaixo para reve-lar a verdade sobre a a famılia de GPD’s e o exemplo apresentado e analisadona Sub-secao 8.2. Recordemos o conteudo daquela sub-secao. Ali tomamosa funcao de distribuicao Normal Padrao, Φ(·), criamos a partir dela umaamostra, depois processamos esta amostra pelo metodo POT, produzindo comisto uma aproximacao da cauda direita de Φ(·). Ao analisar o resultado, vi-mos que o metodo POT aproxima a cauda por uma distribuicao exponencial(isto se o metodo funcionar corretamente, pois se, devido a imperfeicao daamostra ou um equıvoco dos procedimentos de inferencia ocorrer um erro,entao a funcao aproximador sera finita ou pesada, o que fornece uma precisaoda aproximacao da cauda ainda pior que aquela fornecida pela distribuicao ex-ponencial). Explicamos tambem que a aproximacao da cauda da distribuicaoNormal Padrao por uma distribuicao exponencial nao e perfeita, pois a caudada primeira e muito mias leve que a da segunda. A primeira tem “grossura”de ordem e−x2

e a segunda de ordem e−x. Para fins praticos tal diferenca podenao ser significativa quando x for muito grande, mas a rigor a aproximacaoda cauda da distribuicao Normal Padrao pela distribuicao exponencial nao eperfeita.

Recordamos no paragrafo anterior o fato de que o metodo POT nao con-segue dar uma aproximacao perfeita a cauda da distribuicao normal a direitade limiar u, qualquer que seja o valor de u. Note agora que se a distribuicao

156

Page 160: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

normal estivesse inclusa na famılia GPD’s, entao poderıamos encontrar aaproximacao perfeita desta cauda (a distribuicao normal da famılia seria oaproximador da cauda de Φ(·)). Isto comprova que a famılia das GPD’s naoe tao completa e perfeita como se imagina. Ainda mais, junte numa famıliatodas as distribuicoes normais e todas as misturas de distribuicoes normais;chame esta famılia N para a comodidade da nossa exposicao.39 Tome agoraaquela distribuicao normal Φ(·) e aproxime sua cauda duas vezes: uma vezusando a famılia G de GPD’s e outra vez usando a famılia N , que acabamos deintroduzir. Segue-se entao dos argumentos acima que a segunda aproximacaosera melhor que a primeira. Isto mostra que existe pelo menos uma funcao dedistribuicao para qual a famılia G de GPD’s perde para outa famılia quandoa competicao entre elas e sobre a aproximacao de sua cauda. E verdade queG pode ganhar de N na outra “modalidade”: quando a competicao for pelotamanho do conjunto de funcoes cujas caudas sao aproximaveis por membrosdas famılias. Mas nao e nosso objetivo comparar G e N em todas as modal-idades possıveis. O importante e mostrar que ao menos numa modalidade afamılia G perde para uma outra famılia.

O argumento aprsentado acima desmente aquele pensamento erroneo sobreo poder absoluto da famılia das GPD’s. Qual entao e a parte justa dele e ondeeste foi inflado exageradamente? A verdade sobre a famılia G de GPD’s e aseguinte. De fato, seus membros servem para aproximar caudas de uma amploconjunto de funcoes de distribuicao; chamaremos esta por P(G) (funcoes comcaudas aProximaveis por G). Mas isto nao inibe a existencia de uma outrafamılia, digamos O (de Outra), para a qual exista um conjunto de funcoes,cujas caudas sao aproximaveis por O, e que este conjunto – designamos estesimbolicamente por P(O) – seja diferente do conjunto P(G). E claro que estesconjuntos P(G) e P(O) podem ate possuir funcoes em comum.40 Aconteceque ate agora nenguem se interessou em construir tal famılia O e compararos conjunto P(O) e P(G), assim como comparar a eficiencia na aproximacaode caudas por membros de O com a por membros de G. Acreditamos quenenguem fez tal estudo porque o desempenho da famılia G foi satisfatorio ateagora. Mas deve ser dito e entendido que isto nao implica que G e a unica e

39Escolhemos a famılia de misturas de distribuicoes normais porque ela e muito usada napratica. Poderıamos fazer nosso exemplo com outra famılia.

40Os argumentos do paragrafo anterior sustentam este fato: caso O contenha funcoes dedistribuicao normal entao estas estarao tambem em P(O); ja sabemos que as funcoes dedistribuicao normal estao no P(G). Nessas condicoes P(O) e P(G) possuem funcoes emcomum.

157

Page 161: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

melhor famılia para aproximacao de caudas.

Comentario 36. Depois de ler as tres observacoes acima o leitor comeca aacreditar na importancia de verificar se a funcao de distribuicao cuja caudase quer aproximar por metodo POT esta no domınio de atracao de EVD’s.“Como verificar isto?” E sobre isto que versa esta observacao.

Primeiramente lembraremos o leitor que a petinencia de uma F (·) aodomınio de EVD’s e uma propriedade vinculada a cauda de F (·). Lembraremostambem que no problema de aproximacao de cauda nao sabemos a forma deF (·), e temos apenas uma amostra desta funcao. E claro que o maior valorda amostra pode ser menor que o momento a partir do qual a cauda de F (·)comeca “mostrar” as propriedades especıficas para uma funcao do domıniode atracao de EVD’s. Portanto, e precisa lembrar sempre que so podemosinferir sobre as propriedades de F (·) a partir dos dados, e os dados podem serinsuficientes para que esta inferencia seja confiavel.

A inferencia citada no paragrafo anterior pode ser feita de diversas maneiras.Existem procedimentos estatısticos que somente verificam se F (·) esta ou naono domınio de atracao de EVD’s. Mas o que se usa na pratica e um proced-imento que alem de fornecer resposta a esta questao tambem consegue iden-tificar a melhor posicao para o limiar u, tal que a aproximacao pelo metodoPOT da cauda de F (·) a direita de u seja a mais eficiente se u estiver nestaposicao. Onde esta tal procedimento maravilhoso? E o procedimento descritopor nos na Sub-secao 7.2 e usado em todos os exemplos que apresentamos!Lembre-se que este procedimento determina uopt, o limiar otimo. Lembre-seque para tal o procedimento precisa identificar o comportamento linear dafuncao de media de excessos com base na analise da funcao da media amostralde excessos, a qual esta contruido a partir de amostra. Acontece que o fato doprocedimento conseguir identificar a linearidade desta funcao implica, devidoa teoria por tras deste procedimento, que a amostra confirmou que F (·) estano domınio de atracao de EVD’s. So que poucos trabalhos enfatizam isto, oque nos passa a sensacao de que eles nao se preocupam com a verificacao destapropriedade de F (·).

O argumento do paragrafo acima revela a vantagem do procedimento deidentificacao de uopt que foi descrito na Sub-secao 7.2. A vantagem e sua duplaacao. E por isso que ele e preferido entre os estatısticos. E pena que trabalhospraticos enfocam somente a segunda aplicacao deste procedimento mostrandocomo foi identificado a melhor posicao de u. Na verdade, bastaria acrescentarsomente a seguinte frase: “O fato de ter identificado uopt, a direita do qual a

158

Page 162: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

funcao de media de excessos e uma funcao linear, serve de comprovacao que afuncao F (·) esta no domınio de atracao de uma EVD”.

Comentario 37. Ao absorver os avisos das observacao ate agora apresentadas,o leitor ja comeca a se sentir preocupado: “O que acontecera se eu for aplicaro metodo POT para estimar cauda de uma funcao F (·), a qual nao se encontrano domınio das EVD’s e portanto nao e passıvel de abordagem pelo metodoPOT?”

Para facilitar a compreencao da resposta a esta pergunta, nos dividimoso POT em duas partes: sua ideia e o procedimento de sua execusao. O fatoda ideia nao se aplicar a uma dada F (·) nao significa que o procedimento naofuncionara. Ele pode ate dar um resultado, que sera uma aproximacao decauda desta F (·), so que nao havera garantia de precisao nesta aproximacao.Notamos que por coincidencia de circunstancias esta precisao pode nao serruim. Um exemplo de tal situacao esta na Sub-secao 8.3. Este exemplo foiincluıdo justamente para mostrar o funcionamento do metodo POT para umcaso em que nao se sabe nada sobre o real comportamento da funcao cuja caudaesta sendo aproximada. Na discussao dos resultados alegamos que ainda assimque estes podem ser julgados como satisfatorios.

Comentario 38. Mesmo se voce teve a sorte de receber uma boa amostra, etambem aplicou direitinho a ideia do metodo POT, mesmo assim ha uma pedrana qual voce pode tropecar. Este tropeco foi discutido no Comentario 15. Oponto e que ha diversas maneiras de se exibir o resultado do metodo. Para evi-tar possiveis confusoes, ao publicar seus resultados, especifique precisamentea forma da funcao usada para expressar o seu aproximador para a cauda.

159

Page 163: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

10 Exercıcios

SECAO 2.

Exercıcio 1. Designemos por Z a variavel aleatoria normal padrao e por F (Z)(·)sua funcao da distribuicao. Consultando a tabela da distribuicao normalpadrao, ve-se que F (Z)(1, 65) = 0, 95. Derive deste fato o valor de VaR95%(Z).

Seja agora S a variavel aleatoria normal com media 0 e variancia 9. Usandoa relacao S = 3Z e o valor conhecido de VaR95%(Z), encontre VaR95%(S).

Generalize o ıtem anterior: tome a variavel aleatoria Y ∼ N (0, σ2) paraqualquer desvio padrao σ, use a relacao Y = σZ e o conhecido valor deVaR95%(Z) para obter a expressao de VaR95%(Y ). Note que este dependelinearmente de σ, mas cuidado! Este nao e um fato geral que ocorre para todasas distribuicoes . A distribuicao normal com media 0 e um caso particular parao qual VaRp(Y ) = σVaRp(Z). Infelizmente muita gente generaliza este fatopara todos os casos, um erro. O presente exercıcio tem como objetivo chamaratencao a este fato.

SECAO 4.

Exercıcio 2. Recorde que no Comentario 3 alegamos que caso ξ > 0 o grafico daGPD padrao Gξ(·) no semi-eixo [0;+∞) e apenas o galho direito da hiperbole1/(x1/ξ) que foi refletida, deslocada e re-escalada para que passasse pelo ponto(0, 0) e se aproximasse do nıvel 1 quando x → ∞. Pedimos agora ao leitorque analise a expressao 1 − (1 + ξx)−1/ξ desta GPD padrao, e que tambemidentifique aquela parte desta expressao responsavel pela reflexao, aquela re-sponsavel pela re-escala, e finalmente, aquela responsavel pelo deslocamento.

Exercıcio 3. (a) Deduza a formula (8) da funcao de densidade da GPD padrao.(b) Mostre que o valor de qualquer uma dessas funcoes da densidade em x = 0e 1. Observe que este nao seria o caso se nao houvesse o fator ξ acompanhadode x na expressao da GPD padrao.(c) Mostre que no caso ξ > 0 a funcao de densidade da GPD padrao Gξ(·)e uma hiperbole que foi re-escalada e deslocada. Expresse como o fator dere-escala e o fator de deslocamento dependem do valor de ξ.(d) Mostre que caso ξ ∈ [−1/2, 0[, entao a densidade de Gξ(·) no intervalo[0,−1/ξ] e uma funcao potencia. Mostre que a forma desta funcao esta deacordo com a funcao de densidade correspondente a ξ = −1/4, apresentadana Figura 7: a funcao e concova, e sua derivada no ponto −1/ξ e 0.(e) Mostre que no caso ξ = −1/2 a funcao de densidade de Gξ(·) e uma reta

160

Page 164: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

que liga os pontos (0, 1) e (2, 0) (conforme apresentado na Figura 7).(f) Mostre que se ξ = −1, entao a GPD padrao e a distribuicao uniforme em[0, 1].(g) Mostre que se ξ ∈]−1,−1/2[ entao a funcao de densidade de Gξ(·) possuia forma da densidade correspondente a ξ = −2/3, apresentada na Figura 7:ela e uma funcao convexa e sua tangente e +∞ no ponto onde ela toca no eixox.(h) Mostre que se ξ < −1, entao a funcao de densidade de Gξ(·) tem a forma deuma hiperbola que passa pelo ponto (0, 1) e sobe ao ∞ conforme aproxima-sea sua assımptota vertical que passa pelo −1/ξ (como ilustrado na Figura 7).

Exercıcio 4. Considere a densidade da GPD com parametros arbitrarios ξ, β, s,e a funcao de densidade da GPD padrao com o mesmo valor do parametro ξ.Encontre a relacao entre estas duas funcoes de densidade.

Exercıcio 5 (referente a sub-secao 4.3). Neste exercıcio executaremos um dosmetodos mais primitivos para a identificacao do tipo de cauda de uma funcaode distribuicao F (·), desconhecida, a partir de sua amostra. O metodo baseia-se no seguinte fato: o histograma construıdo com base na amostra deve repetiro formato da funcao de densidade. Volte as Figuras 6 e 7 e observe que asfuncoes de densidade possuem formatos diferentes para as diferentes faixas devalores de ξ, ou seja, ((−∞,−1),−1, (−1,−1/2),−1/2, (−1/2, 0), 0, (0,+∞)).Sugerimos que voce tome uma GPD padrao de cada uma destas faixas e origineuma amostra de cada GPD padrao escolhida. Depois disso faca o histogramade cada amsotra. Convenca-se de que a partir do formato do histograma vocepoderia adivinhar o valor de ξ da GPD padrao Gξ(·) que tinha gerado estehistograma.

Exercıcio 6 (referente ao Comentario 4). Prove que conforme ξ ↓ 0, as funcoesGξ(·) convergem para a funcao exponencial G0(·). Em outras palavras, proveque para cada x > 0 ocorre que 1 − (1 + ξx)−1/ξ converge a 1 − e−x quandoξ ↓ 0. Para esta prova voce nao precisara muito mais do que o fato mencionadono Comentario 8.

Exercıcio 7. Demonstre o seguinte fato: Sejam FA(·) e FB(·) duas funcoesde distribuicao. Nessas condicoes o grafico de FB(·) fica abaixo do grafico deFA(·) se e somente se o grafico de FB(·) fica a direita do grafico de FA(·).Para facilitar a solucao , revelamos ao leitor que o fato a ser provado baseia-sefortemente no fato que as duas funcao sao monotonas nao-decrescentes (o quee garantido por serem FA(·) e FB(·) funcoes de distribuicoesp).

161

Page 165: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Exercıcio 8. Prove que o grafico de Gξ,1,0(·) no semi-eixo positivo tende a1 conforme ξ diminui a 0 por valores positivos, ou, equivalentemente, que ografico de Gξ,1,0(·) no semi-eixo positivo desce conforme ξ aumenta de 0 a +∞.

Solucao do Exercıcio 8. Fixaremos arbitrariamente x > 0. Queremos mostrarque Gξ(x) decresce conforme ξ cresce de 0 a ∞. Isto e equivalente a afirmacaode que

T (ξ) = (1 + ξx)−1/ξ e crescente em ξ ∈ (0,+∞) (128)

Para provar (128) mostraremos que ∂T (ξ)∂ξ > 0 para qualquer ξ ∈ (0,∞). Ja

que T (ξ) > 0 e ∂ log T (ξ)∂ξ = 1

T (ξ)∂T (ξ)

∂ξ , entao provar a afirmacao anterior e

equivalente a provar que ∂ log T (ξ)∂ξ > 0 para qualquer ξ ∈ (0,∞). Faremos a

conta:

∂ log{(1 + ξx)−1/ξ

}

∂ξ=

[−1

ξlog(1 + ξx)

]′=

1

ξ2log(1 + ξx) − 1

ξ

x

1 + ξx

=1

ξ2

{log(1 + ξx) − 1 +

1

1 + ξx

}

Mas a expressao entre chaves na segunda linha dos calculos acima e igual a 0quando ξ = 0, e sua derivada em relacao a ξ e

{log(1 + ξx) − 1 +

1

1 + ξx

}′=

x

1 + ξx− x

(1 + ξx)2> 0 para todo ξ > 0.

Isto garante que ∂ log T (ξ)∂ξ > 0 para qualquer ξ ∈ (0,∞), e, consequentemente,

prova o resultado desejado.

Exercıcio 9. Prove agora o mesmo fato provado no Exercıcio 8, agora para ξdecrescendo de 0 ao −∞. Os argumentos usados na solucao do Exercıcio 8 po-dem ser reaproveitados no presente caso, mas um cuidado especial e necessariodevido ao fato das GPDs padrao tocarem no nıvel 1 em pontos diferentes (vejaa Figura 5).

Exercıcio 10. Prove a relacao (17) para o caso particular em que ξ = 0 e s = 0.A dica da prova e: recorde da Sub-secao 4.2 o papel do parametro β naformacao de GPD Gξ,β,0(·) a partir do GPD padrao Gξ(·), e mostre queG0,β2,0(·) estica-se mais a direita que G0,β1,0(·) se β2 for maior que β1. Deduzadisso a relacao (17). Observe ainda que o mesmo raciocınio funciona paraquaisquer outros valores de ξ e s.

162

Page 166: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Exercıcio 11. Considere a GPD G0,β,0(·) com β > 1, e a GPD Gξ,1,0(·) comξ < 0. Mostre que a primeira sempre fica abaixo da segunda. (Dica: comparecada uma separadamente com a GPD G0,1,0(·).)Exercıcio∗12. Prove que duas GPDs nao podem ter mais que um ponto deintersecao com ordenada estritamente positiva. (A exigencia de que a orde-nada do ponto de interseccao seja positiva e importante, pois duas GPDs teminfinitos pontos em comum onde ambas assumem valor o 0.)

Exercıcio 13. Recorde a Afirmacao apresetada na Sub-secao 4.4. Ela disse quese ξ1 < ξ2 entao a direita de um determinado ponto x0 do eixo das abcissas,a GPD Gξ1 ,β1,s1(·) estara acima da GPD Gξ2,β2,s2(·) independentemente dosvalores de β1, s1, β2, s2. E o que acontece no caso ξ1 = ξ2? Qual das duasGPD’s estara acima? Analise esta pergunta em tres situacoes: (a) quandoβ1 = β2 mas s1 6= s2; (b) quando β1 6= β2 mas s1 = s2; (c) quando β1 6= β2 es1 6= s2.

SECAO 5.

Exercıcio 14. Repita o procedimento descrito na Sub-secao 5.2 que resultou nosgraficos apresentados na Figura 13, mas faca isto para distribuicao exponencialem vez da distribuicao Lognormal. Especificamente falando: Sejam X1, X2, . . .variaveis aleatorias independentes distribuıdas conforme a distribuicao expo-nencial. Use o computador para criar uma amostra sufientemente grande(digamos de 1000 observacoes) da variavel aleatoria max{X1, . . . , Xn} paran = 10. Faca o histograma da amostra gerada. Repita o mesmo processo paraoutros valores de n, digamos n = 50, 100, 150. Compare os quatro histogramas.Voce observa neles o padrao do comportamento formulado em (26)?

Exercıcio 15. Recorde que os Fatos 1 e 2 explicaram o papel das constantes ce d na transformacao da funcao de distribuicao de uma variavel aleatoria X,no caso em que esta seja transformada em cX + d. Porem, a transformacaousada em (20) nao e extatamente assim: a sua forma e X−d

c . Portanto elogico perguntar: Como exatamente as constantes c e d atuam na funcao dedistribuicao de X para transformar esta na funcao de distribuicao X−d

c ?

Exercıcio 16. Considere a sequencia de variaveis aleatorias {Xn, n ∈ N} taisque a funcao de distribuicao Fn(·) da variavel aleatoria Xn possui a seguinteforma:(a) Fn(x) = 0 se x < 0, Fn(x) = xn se x ∈ [0, 1], Fn(x) = 1 se x > 1;(b) Fn(x) = 0 se x < 0, Fn(x) = x1/n se x ∈ [0, 1], Fn(x) = 1 se x > 1;

163

Page 167: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

(c) Fn(x) = 0 se x < 0, Fn(x) = 1 − enx se x ≥ 0;(d) Fn(x) = 0 se x < 0, Fn(x) = 1 − ex/n se x ≥ 0.Calcule, em cada caso, o limite das funcoes de distribuicao das variaveisaleatorias {Xn, n ∈ N}.Exercıcio 17. Utilize o argumento exposto no Caso (a) do Exemplo 2 paraencontrar as sequencias {cn} e {dn} para as quais existe a convergencia emdistribuicao da sequencia cn [max{X1, . . . , Xn} − dn], isto no caso em que asvariaveis aleatorias X’s sao independentes e a distribuicao de cada uma delase:(a) 0 para x < 0, x2 para x ∈ [0, 1], 1 para x > 1;(b) 0 para x < 0,

√x para x ∈ [0, 1], 1 para x > 1.

(c) 0 para x < 0, x2/16 para x ∈ [0, 4], 1 para x > 4;(d) 0 para x < 0, ex−1 para x ∈ [0, log 2], 1 para x > log 2. Dica: expanda

ex = 1 + x + x2/2 + . . . .(e) 0 para x < −1, x + 1 para x ∈ [−1, 0], 1 para x > 0.

Identifique a funcao de distribuicao limite, isto e, verifique se ela e de Frechet,de Weibull ou de Gumbel, e encontre o valor do seu paramentro α.

Exercıcio 18. (a) Mostre que as funcoes L(x) = log(7(x+1)) e L(x) = (log(1+x3)) sao de variacao lenta.(b) Mostre que R(x) =

√x e R(x) = e|x| nao o sao.

Exercıcio 19. Aparentemente as EVD’s sao muito diferentes entre si. Mas, naverdade, ha uma relacao intrınseca entre todas elas. Temos que uma variavelaleatoria X possui distribuicao de Frechet com parametro α se e somente sea variavel aleatoria log(Xα) possui distribuicao de Gumbell, o que por suavez ocorre se e somente se a variavel aleatoria −X−1 possui distribuicao deWeibull de parametro α. Escolha entao um valor de α arbitrario e verifiqueesta relacao. E claro que tal relacao nao existe por acaso, mas a exibicaodestas razoes nao e cabıvel no nosso texto.

Exercıcio 20. O argumento que prova que o limite da sequencia de variaveisaleatorias (20), caso este exista e nao seja uma variavel aleatoria degenerada,pode ser somente uma das EVDs, baseia-se no fato que este limite e obriga-toriamente max-estavel. Dizemos que uma distribuicao H(·) e max-estavelcaso haja constantes a e b tais que a distribuicao de max(X1, X2) e igual adistribuicao de aX + b, onde X1 e X2 sao independentes e cada uma dasX1, X2, X tem distribuicao H(·). Mostre que a distribuicao de Gumbel e defato max-estavel. Para tal, considere duas variaveis aleatorias independentes

164

Page 168: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

X1 e X2 com esta distribuicao e mostre que a distribuicao de max(X1, X2)e uma Gumbel “deslocada e re-escalada”, ou seja, mostre que existem duasconstantes a e b, e uma variavel aleatoria X com distribuicao de Gumbel,tais que max(X1, X2) tem a mesma distribuicao que aX + b. Mostre tambemque as distribuicoes de Frechet e Weibull sao max-estaveis (para simplificar,considere nas duas situacoes somente o caso α = 1).

Exrecıcio 21.Sejam X1, X2, . . . variaveis aleatorias independentes e defina Yn = X1 + · · · +Xn. Encontre sequencias cn e dn tais que (Yn−dn)/cn convirja em distribuicaoa uma variavel aleatoria nao degenerada nos seguintes casos:

(a) F (x) =

0 x < 0(ex − 1)/(e − 1) x ∈ [0, 1]1 x > 1

(b) F (x) =

0 x < 4(2x − 2)/6 x ∈ [1, 4]1 x > 4

Descreva os limites e indique a qual famılia de distribuicoes de valores extremosos limites pertencem.

Exercıcio 22.Prove a Caso (b) do Exemplo 3.Dica. Use o metodo que epregamos no texto para tratar o Caso (a) do Exem-plo 3.

Exercıcio 23.Prove a propriedade formulada em (36):

(1 − 1

nnx

)n

→ 1 para todo x > 0, conforme n → ∞.

Dica. Tome log da expressao (1 − n−nx)n e mostre que este converge para 0quando n → ∞.

SECAO 6.

Exercıcio 24.(a) Mostre que caso F (·) possuir cauda direita finita (recorde que xF denotaseu “fim”), entao Fu(·) (definida por (55)) tambem tera cauda direita finita;

165

Page 169: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

onde seu “fim” e dado por xF − u.(b) Use o resultado de (a) para deduzir que

sup0<x<xF−u

∣∣Fu(x) − G(x)∣∣ = sup

0<x<∞

∣∣Fu(x) − G(x)∣∣,

onde F (·) e qualquer funcao de distribuicao com cauda direita finita e G(·) euma GPD arbitraria.

Exercıcio 25. Recorde que a transformacao (a)-(c) formulada na Sub-secao 6.3tranforma a cauda a direita de u de uma funcao de distribuicao F (·) em Fu(·),a funcao de distribuicao de excessos acima de u. Nesta transformacao, a partede F (·) que corresponde as abcissas menores que u e jogada fora. Por isso,nao existe transformacao que possa recuperar F (·) a partir de Fu(·). Porem,e possıvel pegar a parte de Fu(·) a direita de 0 e transforma-la em cauda deF (·) a direita de u. Os passos (a∗)-(c∗) apresentados na Ideia do metodo POT(Sub-secao 6.3) executam esta transformacao. Prove isso.

Exercıcio 26. Recorde a definicao (67) de ε(u), que expressa a distancia entreas funcoes Fu(·) e Gξ,β(u),0(·). Tome, para a simplificacao de notacoes, umaF (·) com cuada direita infinita e defina a distancia entre a cauda de Fu(·) adireita de u e G∗ξ,β(u),0(·):

ε∗(u) := supu<x<∞

∣∣∣F (x) − G∗ξ,β(u),0(x)∣∣∣ .

Pedimos entao que voce prove que

ε∗(u) = ε(u)(1 − F (u)

). (129)

Exercıcio 27. Verifique que a funcao Πξ,β,ν(·) definida em (64)-(65) e a funcao

G∗ξ,β,0

(·) definida em (62) (ou, pelo seu equivalente (63)) coincidem nos valores

x ∈ [u,+∞).

Dica. Sabıamos que voce nao tentaria solucionar com suas proprias forcas eque iria atras de ajuda. Dado isso, e a importancia do assunto, decidimosapresentar a solucao.

O caminho da solucao e obvio: substituir as expressoes para β e ν, dadasem (65), na formula (64), usar manipulacoes algebricas, depois, ao chegar na

expressao(1 + ξ x−u

β

)−1/ξsubstituir esta por 1 − Gξ,β,u(x) – a substituicao

166

Page 170: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

justificada pela definicao de G –, e usar manipulacoes algebricas que levem aexpressao (63) de G∗

ξ,β,0(·). A execucao:

1 −(

1 + ξx − u − ν

β

)−1/ξ

= 1 −

1 + ξ

x − u − βξ

{(1 − F (u))ξ − 1

}

β (1 − F (u))ξ

−1/ξ

= 1 −(

1

(1 − F (u))ξ+ ξ

x − u

β (1 − F (u))ξ

)−1/ξ

= 1 − {1 − F (u)}(

1 + ξx − u

β

)−1/ξ

= 1 − {1 − F (u)} [1 − Gξ,β,u(x)]

= F (u) + {1 − F (u)}Gξ,β,u(x)

SECAO 7.

Exercıcio 28. Derive a formula (81) usando o procedimento descrito no textologo abaixo desta formula.

Exercıcio 29 (referente ao texto logo depois da formulacao de “Procedimentopara identificacao do valor do limiar u”). Tome uma amostra fictıcia x1, . . . , xn;nem e preciso que ela tenha sido gerada por uma funcao de distribuicao F (·)com cauda infinita. Por exemplo, tome 1, 2, 3, . . . , 10. Escolha dois valores deu, digamos, u1 = 1, 5 e u2 = 3, 5. Construa eu1(·), eu2(·) e e(·). Verifique aseguinte propriedade, que e mais generica que a propriedade (108) alegada notexto: o grafico de e(·) a direita de qualquer u e congruente ao grafico de eu(·)a direita de 0.

Exercıcio 30. Tome uma variavel aleatoria X que tem distribuicao uniforme nospontos 1, 2, . . . , 10. Escolha dois valores a e b de modo que a < b. Construaa distribuicao de X dado que X > a e denote por Xa a variavel aleatoriaque possui esta distribuicao. Analogicamente defina Xb. Agora considerea distribuicao de Xa dado que Xa ultrapassou (b − a). Verifique que estadistribuicao coincide com a distribuicao de Xb. Esta coincidencia e a razaopor tras da equivalencia entre “Procedimento para identificacao do valor do

167

Page 171: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

limiar u” e “Procedimento simplificado para identificacao do valor do limiaru”. Repita este exercıcio para o caso em que X tem distribuicao uniforme nointervalo [0, 1].

Exercıcio 31.(a) Calcule a derivada ∂`(β)/∂β da funcao (96), e use esta para provar que β,dado por (97) e o ponto no qual a funcao (96) assume seu valor maximo.(b) Recorde que o parametro β so pode assumir valores positivos. Isto mo-tiva a seguinte tarefa: apresente o argumento que comprova que β e semprepositivo.

Exercıcio 32. Observe que a funcao da media de excessos, e(u), da funcaoGξ,β,0(·), foi discutida somente para valores u ≥ 0. Quais serao os valores dee(u) para u < 0?

Exercıcio 33. Seja F (·) uma funcao de distribuicao com funcao de densidade,denotada por f(·). Seja u um valor qualquer menor que xF . Encontre a funcaode densidade de Fu(·) em termos de F (·) e f(·). (Dica: use a relacao (61).)

Exercıcio 34. Recorde que (81)-(82) forneceu a expressao para a funcao damedia de excessos da funcao de distribuicao GPD Gξ,β,0(·). Agora derive estaexpressao. (Dica: o texto que precede (81)-(82) contem todas as ideias daderivacao.)

Exercıcio 35. Faca o grafico de e(u) para u ∈ [−1; 10], correspondente aseguinte amostra: x1 = 1, x2 = 2, x3 = 6.

Exercıcio 36. Determine valores x1, x2, x3, x4 de maneira tal que a sequenciae(x1), e(x2), e(x3) seja(a) crescente;(b) decrescente.

Exercıcio 37. Recorde que a formula (91) diz que em qualquer intervalo semi-aberto [x(k), x(k+1)) entre dois pontos consecutivos de amostra, os valores dafuncao e(·) sao dados pela expressao linear

1

n − k

n∑

i=k+1

x(i) − u. (130)

O valor desta expressao no ponto x(k+1) ja nao serve para e(·), pois no intervalo

168

Page 172: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

semi-aberto [x(k+1), x(k+2)) esta e igual a

1

n − (k + 1)

n∑

i=(k+1)+1

x(i) − u. (131)

Prove que(130) < (131) para qualquer u.

Esta desigualdade e importante pois, em conjunto com os fatos expostos noparagrafico anterior, ela mostra que a funcao e(·) pula para cima em cadaponto de amostra. Observaremos que a demonstracao da desigualdade naoe complicada; ela segue do fato de x(k+1) ser menor que qualquer um dosx(k+2), . . . , x(n).

Exercıcio 38. Recorde que a formula (81)-(82) foi derivada para a funcao damedia de excessos de GPD’s que possuem s = 0. Qual seria a formula para aGPD generica?

Exercıcio 39. Recorde que comentamos que o ponto (ξ, β) onde a funcao (94)assume seu valor maximo nao pode ser encontrado analiticamente, a menosque se saiba que ξ = 0. O presente exercıcio versa sobre este caso particular.

Faca ξ = 0 na formula (94). Calcule ∂`(0, β)/∂β. Entao β e a solucao daequacao

∂`

∂β(0, β) = 0

Encontre a expressao para β resolvendo analiticamente esta equacao.Agora tome uma GPD com ξ = 0 e um determinado valor β. Digamos, para

tıtulo de exemplo, β = 2. Gere uma amostra de 10 valores desta distribuicaoechame estes de y1, . . . , y10, assim N(u) = 10. Substitua os valores numericosda amostra e de N(u) na expressao para o valor β que voce havia encontrado.Este deve ser um valor proximo de β.

Repita o procedimento para um tamanho maior da amostra. Observe quea proximidade entre β e β melhora.

Repita os procedimentos com diversos valores de β. Voce deve observar apiora da proximidade entre β e β com aumento de β (com os mesmos tamanhosde amostras). A razao desta piora tem a seguinte explicacao: com aumento deβ a cauda de G0,β,0(·) fica mais grossa, com o engrossamento da cauda a prob-abilidade de ocorrencia de valores grandes aumenta, mas, por outro lado, afinitude da amostra inibe os valores apresentam-se na amostra em proporcoes

169

Page 173: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

iguais as suas probabilidades de ocorrencia, em particular, as proporcoes degrandes valores sao as mais distorcidas em relacao as respectivas probabili-dades. Isto implica na subestimacao de β, ja que este parametro nada mais eque a variancia da distribuicao que gerou a amostra usada para a estimativade β. Daı o fenomeno que voce observou.

Exercıcio 40. Recorde que Aspecto (5) avisou o ponto da amostra x1, . . . , xn

que coincide com uopt nao contribui com “seu excesso” na amostra (74). Defato, se isto ocorresse, entao a amostra (74) sempre teria o valor 0 entre seusvalores. Isto e incorreto do ponto de vista da Teoria de Inferencia Estatıstica,pois se fosse assim, significaria que qualquer amostra de uma GPD com s = 0sempre teria um ponto 0. Convidamos o leitor a “sentir” o problema quesurge devido ao acrescimo indiscriminado do ponto 0. Para tanto, tome umadistribuicao exponencial de parametro 1 e gere uma amostra. Acrescente aesta amostra o valor 0 e resolva o seguinte problema: inferir no parametro dadistribuicao exponencial a partir da nova amostra. Ao resolver este problemavoce vera onde e como o valor 0 atrapalha.

Exercıcio 41. Limpe os argumentos do Comentario26, isto e, faca as contasque derivem os resultados apresentados no comentario. Note que o comentariotrata o caso ξ > 0. Repita o tratamento para os casos ξ = 0 e ξ < 0.

Dica: Use a formula (78) para encontrar a funcao de densidade da dis-tribuicao condicional da variavel aleatoria (Y − v), dado que Y > v.

Exercıcio 42. Lembre-se que no Comentario26 alegamos que caso ξ ≥ 1, ografico de e(·) deve crescer mais rapido que uma funcao linear. Sugerimosagora que voce teste esta afirmacao com um exemplo: tome Gξ(·) com ξ = 2,gere uma amostra y1, . . . , y50 desta funcao, e construa a correspondente e(·).Voce consegue observar quao rapido a funcao e(·) cresce? Volte ao texto doComentario 26 para a explicacao deste crescimento.

Exercıcio 43. Imagine que o ponto da amostra x1, . . . , xn que coincide com ugerou um ponto a mais na amostra (93). Denote este ponto por y0. Qual e ovalor de y0? Qual e a sua contribuicao a funcao de log-verossimilhanca `(·, ·)(construida via (94)? Em que estamos dilerando quando acrescentamos esteponto a amostra?Respostas: E facil ver que y0 = 0. Portanto log(1 + ξy0/β) = 0, quer dizer, oacrescimo de y0 a amostra somente acrescenta − log(β) na funcao `(ξ, β). Pararesponder a ultima pergunta do exercıcio, notamos que o acrescimo de y0 = 0a amostra equivale a afirmacao que qualquer amostra retirada de uma GPD

170

Page 174: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

sempre tera 0 como um dos seus valores. Tal aformacao parece ser estarnhado ponto de vista de estatıstica. Porem, nao da para estudar esta questaocom mais profundidade, porque nao ha razoes solidas para assumir que ucoincide com um dos pontos da amostra x1, . . . , xn (sobre isto foi comentadono Aspecto 4).

SECAO 8.

Exercıcio 44. Recorde que no final da Sub-secao 8.1.1 foi provado que a funcaoF comp(·) satisfaz a condicao (109). Use as ideias daquela demonstracao paraprovar que F comp+ruido(·) tambem satisfaz a condicao (109).

Exercıcio 45. Prove a propriedade (125):

1√2π

e−12x2

{1

x− 1

x3

}≤ 1 − Φ(x) ≤ 1√

e−12x2

x,

(onde Φ(·) denota a funcao de distribuicao Normal Padrao) e descubra paraquais valores de x ela e valida.

Dica:

1√2π

e−12x2

x=

∫ ∞

x

e−12t2

√2π

{1 +

1

t2

}dt ≥

∫ ∞

x

e−12t2

√2π

dt = 1 − Φ(x)

prova a segunda desigualdade; para provar a primeira use o mesmo raciocınioe a identidade

e−12x2

{1

x− 1

x3

}=

∫ ∞

xe−

12t2{

1 − 3

t4

}dt.

171

Page 175: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

11 Apendice

11.1 Geracao da amostra da funcao com ruıdo

//*********DEFINICAO DA FUNCAO DE DISTRIBUICAO

function[y]=dist(x)

if x<=c

y=cdfnor("PQ",x,0,1); //funcao de distribuicao

//da normal(media=0, variancia=1)

else

y=0.1*(1-(1+(xi/beta)*(x-c))**(-1/xi))+0.9;

//func~ao de distribuic~ao

//da Pareto generalizada

end

if x>=1

y=1-(log(x+1.71)*(1-y));

end

endfunction

//********FUNCAO INVERSA

function[w]=amdist()

p=rand(1,1,"uniform"); //geracao dos numeros aleatorios

// entre 0 e 1

x0=0; //Este eh o chute inicial para

// o metodo numerico

deff(’[y]=distaux(x)’,’y=dist(x)-p’);

//definic~ao da equac~ao y=dist(x)-p

w=fsolve(x0,distaux);

endfunction

amostra=[];

for i=1:n

172

Page 176: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

amostra=[amostra amdist()];

end

11.2 Geracao de uma amostra para a distribuicao normal

// ’nor’ faz referencia a distribuic~ao normal;

nc=c; //numero de colunas

nl=1; //numero de linhas

media=0; //media da distribuic~ao

//normal

sd=1; // desvio padrao da

// distribuic~ao normal

amostra=grand(nl,nc,’nor’,media,sd)

11.3 Grafico da mean-excess-function

// a priori deve estar definido um vetor

// amostra formado pelos dados da amostra

passo=0.01; //espacamento entre os elementos

//da primeira coordenada

//do grafico

xlim=3; //alcance maximo da primeira

//coordenada do grafico

mef=[];

for i=0:passo:xlim

v=amostra(find(amostra>i));

v=v-v(1); //traslacao da amostra

mef=[mef mean(v)];

end

plot2d(0:passo:xlim,mef,style=5);

//grafico da mean-excess function

173

Page 177: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

11.4 Codigo para a estimativa dos parametros ξ e β

//lim e amostra s~ao as unicas entidades requeridas a priori

function[f,g,ind]=cost(x,ind,vy,N)

//x(1) corresponde a xi e x(2) a beta

//vy e o conjunto de pontos da amostra

// que ultrapassam o limiar considerado,

//subtraıdos do valor do limiar. Confira

// (b), subsecao 6.1

//f=funcao a ser maximizada

//g=derivadas parciais da funcao f

//Tem-se sempre de garantir que 1+quo*v>0!

//Aqui esta condicaao e verficada.

//pois tanto xi quanto beta sao positivos

quo=x(1)/x(2);

f=(-1)*(-N*log((x(2)))-(1+1/x(1))*sum(log((1+quo*vy))));

g=(-1)*[(1/x(1)**2)*sum(log((1+quo*vy)))-(1/x(1)+1)*...

sum(vy./(x(2)*(1+quo*vy))),-N/x(2)-(1/x(1)+1)*...

sum(-quo*vy./(x(2)*(1+quo*vy)))];

endfunction

lim=l0; //O limiar escolhido

vy=amostra(find(amostra>lim));

vy=vy-vy(1);

svy=size(vy); // O vetor amostra deve

//ser um vetor linha

//***********INICIALIZACOES NECESSARIAS PARA A OTIMIZACAO

x0=[0.5;0.5]; //Ponto inicial para a busca

l1=1E-10; l2=1E-10; //limites inferiores

u1=2; u2=10; //limites superiores

174

Page 178: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

N=svy(2); //tamanho de vy

[fop xop]=optim(cost,’b’,[l1;l2],[u1;u2],x0)

//otimizac~ao

175

Page 179: Emprego do m etodo A thorough yet simple exposition of the ...belitsky/wiki/lib/exe/...cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp-los. Tais programas podem

Referencias

[1] Beirlant, J., Goegebeur, Y., Segers, J., Teugels,J., Statistics of Extremes:Theory and Applications. Wiley (2004).

[2] Coles, S., An introduction to statistical modeling of extreme values.Springer (2001) (Springer Series in Statistics).

[3] Embrechts, P., Kluppelberg, C. and Mikosch, T., Modeling ExtremalEvents for Insurance and Finance. Springer (1997).

[4] Leadbetter, M.R., Lindgren, G. and Rootzen, H., Extremes and RelatedProperties of Random Sequences and Processes. Springer-Verlag, Berlin(1983).

[5] Mendes, B. V. M., Introducao a Analise de Eventos Extremos. EditoraE-Papers, Rio de Janeiro (2004).

[6] Pickands, J., Statistical inference using extreme order statistics. Ann.Statist., 3 (1975), pp. 119-131.

[7] Reiss, R.-D. and Thomas, M., Statistical analysis of extreme values: withapplications to insurance, finance, hydrology and other fields. (2nd edi-tion) Birkhauser Verlag (2001).

176