Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio...

56
Universidade Federal do Rio Grande do Norte Centro de Ciˆ encias Exata e da Terra ProgramadeP´os-Gradua¸c˜ ao em Matem´ atica Aplicada e Estat´ ıstica Allyson Fernandes Liandro A Distribui¸ ao F Generalizada para Selecionar Modelos de Sobrevivˆ encia com Fra¸ ao de Cura Natal, julho de 2014

Transcript of Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio...

Page 1: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Universidade Federal do Rio Grande do Norte

Centro de Ciencias Exata e da Terra

Programa de Pos-Graduacao em Matematica Aplicada e Estatıstica

Allyson Fernandes Liandro

A Distribuicao F Generalizada para SelecionarModelos de Sobrevivencia com Fracao de Cura

Natal, julho de 2014

Page 2: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Allyson Fernandes Liandro

A Distribuicao F Generalizada para SelecionarModelos de Sobrevivencia com Fracao de Cura

Trabalho apresentado ao Programa dePos-Graduacao em Matematica Aplicada eEstatıstica da Universidade Federal do RioGrande do Norte, em cumprimento com asexigencias legais para obtencao do tıtulode Mestre.

Area de Concentracao: Probabilidade eEstatıstica

Orientadora:

Profa. Dra. Dione Maria Valenca

Natal, julho de 2014

Page 3: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Allyson Fernandes Liandro

A Distribuicao F Generalizada para SelecionarModelos de Sobrevivencia com Fracao de Cura

Trabalho apresentado ao Programa dePos-Graduacao em Matematica Aplicada eEstatıstica da Universidade Federal do RioGrande do Norte, em cumprimento com asexigencias legais para obtencao do tıtulode Mestre.

Area de Concentracao: Probabilidade eEstatıstica

Aprovado em: / /

Banca Examinadora:

Profa. Dra. Dione Maria Valenca

Departamento de Estatıstica - CCET/UFRN

Orientadora

Prof. Dr. Bernado Borba de Andrade

Departamento de Estatıstica - CCET/UFRN

Examinador Interno

Prof. Dr. Juvencio Santos Nobre

Departamento de Estatıstica e Matematica Aplicada - CC/UFC

Examinador Externo

Page 4: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Dedicatoria

A todos que me ajudaram nessa conquista.

i

Page 5: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Agradecimentos

Primeiramente, agradeco a Deus por me dar forcas de onde as vezes nem tinha. Foi

mais uma etapa rumo ao meu sonho vencida.

Agradeco tambem a Nossa Senhora do Carmo. Sei que sempre esteve comigo me

protegendo. Obrigado!

Agradecer a minha mae Rainete pela paciencia e por sempre me incentivar ate

mesmo na minha decisao de ir a Natal cursar o mestrado. Sei que foi difıcil me ver

longe, mas sempre voltei quando pude. E ao meu pai Francisco por sempre me orientar

a continuar estudando e fazer por onde ser o melhor.

Agradeco aos meus irmaos Anderson e Adson por todo o apoio e ajuda que sempre

me deram. Obrigado por tudo!

Agradeco a minha noiva Izabele, por sempre acreditar em mim quando eu nem

tinha mais esperancas. Mesmo longe, estavamos sempre juntos. A cada dia acredito

mais que voce e a pessoa certa! Essa vitoria e para voce e meu filho, Pedro Emanuel.

A minha orientadora Dione Maria Valenca pela rigidez e carinho de uma mae.

Nunca irei esquecer aquelas palavras da Defesa! Voce acreditou em mim ate nos mo-

mentos em que eu nao fiz por onde. Obrigado por tudo! Espero ainda trabalhar com

voce por mais vezes, se assim me permitir.

Ao Professor Bernado Borba de Andrade, pela contribuicao desde a Pre-Qualificacao

ate a Defesa desse trabalho. Mais do que isso, pela formacao academica e pela paciencia.

Sei que nos veremos novamente algum dia.

Ao Professor Juvencio Santos Nobre por despertar meu interesse pela Estatıstica

na epoca da graduacao na UFC. Nao sei o que viu em mim, mas sei que me ajudou o

suficiente para nao desistir e terminar o curso. Obrigado tambem por ter aceitado a

estar na minha banca de Defesa. Farei o possıvel para atender suas expectativas em

mim.

Ao meu amigo Marcio Jose, meu amigo desde quando eramos criancas, que me

apresentou mesmo que sem querer aquela que seria minha paixao, a Estatıstica. Entrei

querendo mudar de curso, e acabei ficando...

Page 6: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Aos meus amigos George e Romualdo por tantos momentos vividos na infancia.

Mesmo nos vendo pouco, sei que nossa amizade vai durar muito!

Aos meus amigos da GC (galera da calcada):

Henrique, por varias vezes me ajudando a continuar em frente e pelas conversas jogadas

fora sobre varios assuntos. Ainda e so o comeco da nossa caminhada!

Joao, por varios momentos que um deu forca ao outro. Sei que a estrada e ardua, mas

seremos recompensandos, tenho certeza!

Hemerson, pelos conselhos e principalmente o incentivo. Sempre jogaremos, alem de

conversa fora, varias partidas de video game.

Joao Felipe, pela amizade de sempre e varios papos sobre todos os assuntos.

Atila e Saulo por tudo!

Sei que nossos caminhos se separaram, mas sei que um dia nos reuniremos novamente

naquela calcada!

A todos os professores que eu tive aula na UFC, em especial ao Professor Joao

Maurıcio Araujo Mota pelo incentivo e pela paciencia em varios momentos. Obrigado

por me auxiliar sempre que precisei, principalmente no momento que procurei um

mestrado. Voce mostrou a porta e ainda me incentivou a entrar. E agradeco tambem

a Professora Silvia Maria de Freitas pela formacao profissional e pessoal. Obrigado

tambem por me ajudar com meu mestrado. Serei grato a todos voces!

Aos professores do PPGMAE - UFRN, pela amizade e por sempre se preocupar

com o aluno: Pledson, Andre Pinho, Andre Gustavo, Carla Vivacqua e Nir Cohen.

Agradeco tambem a Professora Ivone Salsa pela orientacao na Iniciacao a Docencia.

Me ensinou que a arte de ensinar e tao bela quanto a arte de estudar.

Agradeco tambem aos funcionarios do CCET, em especial o Russinho. Quero te

ver um dia aqui no Ceara para comer um bom peixe!

Agradeco aos meus amigos do PPGMAE, em especial a Antonio Marcos e Anna

Rafaella por estar ao meu lado sempre que precisei. Por muitos dias difıceis e muitas

alegrias conquistadas. Choramos e rimos juntos! Sei que voces nao puderam ir a minha

Defesa, mas sei que estiveram comigo em pensamento e coracao. Agradeco ao Rumenick

por me ajudar sempre que precisei, principalmente no termino desse trabalho! Tambem

agradeco a Andressa, Bruno, Jocelanio, Herica, Alysson Lıvio, Wenia, Fabio Azevedo

(nao esquecerei aquelas palavras que me disse antes de ir embora para Fortaleza),

Renato, Eduardo, July e tantos outros que estiveram comigo nesse tempo em Natal.

Quero ver todos voces novamente algum dia.

A CAPES pelo apoio financeiro.

iii

Page 7: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

“Nao ha vergonha em errar,

vergonha e nao ter dado tudo de

si por medo de errar.”

(Mamoru Endo)

Page 8: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Resumo

A analise de sobrevivencia parametrica modela o tempo ate a ocorrencia de um

evento com base no ajuste de modelos probabilısticos fazendo uso frequente de modelos

flexıveis para a escolha de um modelo mais simples e facil de interpretar. Nesse sentido,

a distribuicao F generalizada tem a vantagem de incluir varias distribuicoes importantes

como casos especiais, com Weibull, log-normal, log-logıstica, entre outras. Modelos

de sobrevivencia que tratam de estudos em que um percentual dos indivıduos nao

apresentam a ocorrencia do evento de interesse, mesmo acompanhados por um longo

perıodo de tempo, sao chamados de modelos de longa duracao ou modelos com fracao

de cura e vem sendo estudados nos ultimos anos por diversos autores. Neste contexto,

este trabalho tem como objetivo o estudo de caracterısticas teoricas e computacionais

associadas ao ajuste do modelo F generalizado com fracao de cura.

Palavras-chave: Analise de sobrevivencia, fracao de cura, F generalizada.

v

Page 9: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Abstract

The parametric analysis of survival models the time until the occurrence of an event

based on the setting of probabilistic models making frequent use of flexible models for

choosing a simpler and easier to interpret model. In this sense, the generalized F

distribution has the advantage to include several important distributions as special

cases, with Weibull, lognormal, log-logistic and others. Survival models dealing with a

study on percentage of individuals do not have the occurrence of the event of interest,

whether or not accompanied by a long period of time, they are called long-term survival

models or cure rate models and has been studied in recent years by several authors.

In this context, this work aims to study theoretical and computational characteristics

associated with fitting the generalized F cure rate models.

Keywords: Survival analysis, cure rate, generalized F.

vi

Page 10: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Sumario

1 Introducao 1

1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Descricao dos capıtulos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Analise de Sobrevivencia 3

2.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.1 Modelo de posicao e escala . . . . . . . . . . . . . . . . . . . . . 4

2.1.2 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Modelos de sobrevivencia com fracao de cura . . . . . . . . . . . . . . . 5

2.2.1 Abordagem unificada . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.2 Modelo de mistura padrao . . . . . . . . . . . . . . . . . . . . . 7

2.2.3 Modelo de tempo de promocao . . . . . . . . . . . . . . . . . . 7

2.2.4 Funcao de verossimilhanca . . . . . . . . . . . . . . . . . . . . . 8

3 A Distribuicao F Generalizada com Fracao de Cura 10

3.1 A distribuicao F generalizada . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.1 Reparametrizacao proposta em Prentice (1975) . . . . . . . . . 14

3.1.2 Casos particulares da F generalizada . . . . . . . . . . . . . . . 15

3.2 Distribuicao F generalizada com fracao de cura . . . . . . . . . . . . . 15

3.2.1 Inferencia para o modelo FG com fracao de cura . . . . . . . . . 17

4 Aplicacoes 21

4.1 Cancer de ovario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.2 Cancer de Colon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3 Dados simulados no R . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5 Conclusoes 29

vii

Page 11: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

A Algumas definicoes e demonstracoes 31

A.1 Funcao gama e funcao poligama . . . . . . . . . . . . . . . . . . . . . . 31

A.2 Funcoes beta e beta incompleta . . . . . . . . . . . . . . . . . . . . . . 31

A.3 Obtencao da funcao de verossimilhanca marginal . . . . . . . . . . . . 32

A.4 Demonstracao para a equacao 3.2 . . . . . . . . . . . . . . . . . . . . . 33

A.5 Demonstracao para a equacao 3.3 . . . . . . . . . . . . . . . . . . . . . 34

A.6 Demonstracao para a equacao 3.4 . . . . . . . . . . . . . . . . . . . . . 34

B Comandos no R 36

viii

Page 12: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Capıtulo 1

Introducao

Em modelos de sobrevivencia, estamos interessados no tempo ate a ocorrencia de um

evento de interesse, comumente denominado tempo de sobrevivencia ou de vida. Em

alguns casos, um percentual dos indivıduos pode nao apresentar o evento de interesse,

mesmo acompanhados por um longo perıodo de tempo. Esses modelos sao chamados

de modelos de sobrevivencia com fracao de cura. Os modelos mais conhecidos nesta

classe sao o modelo de mistura padrao, desenvolvido em Berkson & Gage (1952) e um

modelo proposto por Yakovlev et al. (1993), mais tarde chamado de modelo de tempo

de promocao. Rodrigues et al. (2009) propoem uma extensao dos modelos de longa

duracao na qual os modelos anteriores sao casos particulares.

A escolha de submodelos por um modelo mais amplo e de grande importancia

em varias areas da estatıstica, como, por exemplo, em analise de sobrevivencia. A

distribuicao F generalizada e utilizada por incluir varias outras distribuicoes muito

importantes em modelos de sobrevivencia, como a gama generalizada, a log-logıstica, a

Weibull e a log-normal. Neste sentido, Prentice (1975) discutiu a utilizacao da famılia

F generalizada para dados sem censura e uma reparametrizacao de forma a facilitar a

escolha de submodelos. Kalbfleisch & Prentice (2002) estudam algumas propriedades

importantes da distribuicao F generalizada. Alguns autores como Hogg & Ciampi

(1985) e Brown et al. (1992) relatam problemas na maximizacao da verossimilhanca da

F generalizada.

Peng et al. (1998), que representa a principal referencia deste trabalho, propoem

um modelo de tempo de falha acelerado F generalizado com fracao de cura, com base

em um modelo de mistura padrao. Neste artigo o modelo proposto foi utilizado para

ajustar dados de sobrevivencia de pacientes portadores de linfoma nao-Hodgkin. Peng

(1999) desenvolve um pacote, chamado gfcure, desenvolvido para ajuste de modelos

de sobrevivencia F generalizado (e diversos casos particulares) com e sem fracao de

1

Page 13: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

1.1 Objetivo 2

cura, com base no software estatıstico R (R Development Core Team, 2013). Peng et

al. (1998) comentam que podem ocorrer problemas de maximos locais na maximizacao

da verossimilhanca do modelo de mistura padrao F generalizada.

1.1 Objetivo

O objetivo deste trabalho e estudar o modelo log-F generalizado com fracao de cura

com base na extensao proposta por Rodrigues et al. (2009). Especificamente temos

como objetivos:

1. Descrever as propriedades teoricas do modelo log-F generalizada com fracao de

cura via abordagem unificada e de alguns submodelos;

2. Estudar os procedimentos de maxima verossimilhanca para a estimacao dos pa-

rametros, a implementacao computacional e os procedimentos para a selecao de

submodelos;

3. Por fim, usar o modelo de mistura padrao F generalizada para selecionar sub-

modelos com fracao de cura, adequados ao ajuste de dados reais, disponıveis na

literatura.

1.2 Descricao dos capıtulos

No Capıtulo 2, temos uma breve revisao de analise de sobrevivencia e de modelos

de sobrevivencia com fracao de cura. No Capıtulo 3, abordamos sobre a distribuicao F

generalizada com as principais definicoes, a relacao entre seus submodelos, a funcao de

verossimilhanca do modelo F generalizado com fracao de cura e a escolha de modelos.

No Capıtulo 4 ajustamos o modelo de mistura padrao F generalizado para tres conjun-

tos de dados. O Apendice A e reservado para algumas demonstracoes. O Apendice B

apresenta os comandos utilizados nos Capıtulos 3 e 4, feitos no software R.

Page 14: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Capıtulo 2

Analise de Sobrevivencia

Neste capıtulo fazemos uma breve introducao aos principais conceitos de analise de

sobrevivencia. Informacoes mais detalhadas podem ser obtidas em Lawless (2003) e

Colosimo & Giolo (2006), por exemplo.

2.1 Conceitos basicos

Seja T uma variavel aleatoria absolutamente contınua e positiva, com funcao de

distribuicao F, representando o tempo ate a ocorrencia de um evento.

Definimos a funcao de sobrevivencia de T como sendo

S(t) = P (T > t) =

∫ ∞t

f(x)dx = 1− F (t). (2.1)

Esta funcao representa a probabilidade de um ıtem (ou indivıduo) sobreviver pelo

menos t unidades de tempo. Algumas vezes S(t) e referida como funcao de confiabili-

dade. Por definicao, temos que S(t) e uma funcao decrescente contınua, com S(0) = 1

e S(∞) = limt→∞ S(t) = 0.

A funcao densidade pode ser obtida atraves da funcao de sobrevivencia, da seguinte

forma:

f(t) = −dS(t)

dt. (2.2)

O risco ou taxa de falha em um intervalo [t, t + ∆t) e definido como sendo a pro-

babilidade do evento ocorrer neste intervalo, dado que nao ocorreu antes de t, dividida

pelo comprimento do intervalo, ∆t.

Se ∆t → 0, temos a taxa de falha instantanea no tempo t condicionada a sobrevi-

3

Page 15: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

2.1 Conceitos basicos 4

vencia ate o tempo t. Entao, a funcao de risco associada a T e definida como

h(t) = lim∆t→0

P (t ≤ T < t+ ∆t|T ≥ t)

∆t=f(t)

S(t). (2.3)

Existem varios modelos parametricos usados para analise de dados de sobrevivencia.

Lawless (2003), entre outros autores, descreve estes modelos, onde os principais sao a

Weibull, log-normal, log-logıstica e gama generalizada.

2.1.1 Modelo de posicao e escala

Uma classe ampla de modelos, apresentado em Lawless (2003), e chamada de modelo

de posicao de escala, usada para modelar o logaritmo dos tempos de falha. Seja,

Y = log T . Definindo,

Y = µ+ σε, (2.4)

com µ ∈ R e σ > 0, temos que Y pertence a famılia de posicao e escala com parametros

de posicao µ e escala σ, considerando que ε tem uma distribuicao que nao depende dos

parametros desconhecidos.

Podemos entao representar a funcao densidade de Y por

fY (y;µ, σ) =1

σf

(y − µσ

), y ∈ R (2.5)

em que a f(·) e uma funcao densidade associado a ε.

A funcao de sobrevivencia de Y e

SY (y;µ, σ) = S

(y − µσ

), y ∈ R (2.6)

com S(·) representando a funcao de sobrevivencia associado a ε.

Podemos tambem representar a funcao risco desse modelo a partir de (2.3). Logo

hY (y;µ, σ) =fY (y;µ, σ)

SY (y;µ, σ).

Uma generalizacao dos modelos de posicao e escala para distribuicoes com mais de

dois parametros e apresentada em Lawless (2003). A funcao densidade de ε para este

caso pode depender de um vetor de parametros ρ.

Page 16: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

2.2 Modelos de sobrevivencia com fracao de cura 5

2.1.2 Censura

Geralmente dados de tempo de vida apresentam caracteristicas especiais, devido

a presenca de observacoes censuradas, isto e, para alguns indivıduos em estudo nao

sabemos seu tempo exato de vida. O tipo mais comum de censura e a direita, em que

o tempo ate a ocorrencia do evento de interesse e superior ao que foi registrado.

Consideramos tres mecanismos de censura a direita:

• Tipo I: Obervacoes sao acompanhadas ate um perıdodo pre-estabelecido de tempo.

• Tipo II: Observacoes sao acompanhadas ate obter-se um numero pre-determinado

de falhas.

• Aleatorio: Observa-se este tipo de censura quando um indivıduo e retirado do

estudo por uma causa alheia ao proprio estudo.

Figura 2.1: Tipos de censura, sendo as esferas negras as falhas e as brancas as censuras. (Colosimo& Giolo, 2006)

Neste trabalho consideramos a censura aleatoria.

2.2 Modelos de sobrevivencia com fracao de cura

Existem dados de sobrevivencia nos quais uma porcentagem dos indivıduos nao

apresentara a ocorrencia do evento de interesse, mesmo se acompanhados por um longo

perıodo de tempo. Diz-se entao que esses indivıduos sao imunes ao evento de interesse

Page 17: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

2.2 Modelos de sobrevivencia com fracao de cura 6

e os modelos de sobrevivencia com presenca de indivıduos imunes sao chamados de

modelos com fracao de cura (tambem chamados de modelos de longa duracao).

2.2.1 Abordagem unificada

Rodrigues et al. (2009) propoem uma extensao dos modelos de longa duracao. Para

uma visao geral do modelo supomos que, para cada indivıduo em um determinado

estudo, N denota o numero de causas ou fatores de risco competindo para a ocorrencia

do evento de interesse, com distribuicao de probabilidade pθ(n) = Pθ(N = n), sendo θ

o parametro da distribuicao. Seja tambem, Ri os tempos ate a ocorrencia do evento

devido a i-esima causa em que R1, ..., RN sao i.i.d., com funcao de sobrevivencia

SR(·) = 1− FR(·).Seja T o tempo ate a ocorrencia do evento de interesse, definido como

T = min{R0, R1, . . . , RN},

com P (R0 = ∞) = 1. Com isso se N = 0 o evento de interesse nunca ocorrera. As

variaveis aleatorias Ri e N sao variaveis latentes, ou seja, nao observaveis, enquanto T

e uma variavel observavel. A funcao de sobrevivencia nesse caso e dada por:

Sp(t) = P (T > t)

= P (T > t,N = 0) + P (T > t,N ≥ 1)

= P (T > t|N = 0)Pθ(N = 0) + P (T > t|N ≥ 1)Pθ(N ≥ 1)

= pθ(0) +∞∑n=1

pθ(n)S(t)n (2.7)

em que, P (T > t|N = 0) = 1 e Pθ(N = 0) = pθ(0). A funcao de sobrevivencia Sp(t) e

dita impropria, pois o limt→∞ Sp(t) > 0.

A fracao de cura e definida como:

limt→∞

Sp(t) = Pθ(N = 0) = pθ(0)

que e tambem interpretado como a proporcao de indivıduos em que nunca vai ocorrer

o evento de interesse.

Podemos reescrever a funcao de densidade a partir da funcao de sobrevivencia, dada

Page 18: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

2.2 Modelos de sobrevivencia com fracao de cura 7

em (2.8), de acordo com (2.2):

fp(t) =∞∑n=1

npθ(n)f(t)S(t)n−1. (2.8)

Em analise de sobrevivencia com fracao de cura os modelos mais conhecidos sao os

modelos de mistura padrao e tempo de promocao. O modelo unificado possui ambos

como casos particulares (Rodrigues et al., 2009).

2.2.2 Modelo de mistura padrao

Esse modelo parametrico consiste em uma mistura de distribuicoes representando

a funcao de sobrevivencia dos indivıduos suscetıveis ao evento de interesse, que irao

falhar, e a outra uma funcao degenerada que permite tempos de vida infinitos para os

imunes.

Entao, seja N uma variavel aleatoria seguindo a distribuicao Bernoulli com parame-

tro (1 - θ). O modelo de sobrevivencia com fracao de cura, visto como caso particular

de (2.8) (Rodrigues et al., 2009), e dado por:

Sp(t) = θ + (1− θ)S(t) (2.9)

sendo pθ(0) = θ a fracao de cura.

As funcoes densidade e risco para este modelo sao dadas, respectivamente, por

fp(t) = (1− θ)f(t)

e

hp(t) = f(t)1− θ

θ + (1− θ)S(t).

Ver Maller & Zhou (1996) para mais informacoes.

2.2.3 Modelo de tempo de promocao

Esse modelo consiste em pressupor a existencia de varias causas que competem

entre si para ocorrer no indivıduo o evento de interesse, em que o numero de causas e

considerada uma variavel latente N com distribuicao Poisson com parametro θ. Entao

pode-se mostrar (Fonseca, 2009) que neste caso (2.8) se reduza a:

Sp(t) = e−θ(1−S(t)) (2.10)

Page 19: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

2.2 Modelos de sobrevivencia com fracao de cura 8

em que S(t) e uma funcao de sobrevivencia dos tempos Ri, com i = 1, ..., N e pθ = e−θ

a fracao de cura.

As funcoes densidade e risco para este modelo sao dadas, respectivamente, por:

fp(t) = θf(t)e−θ(1−S(t))

e

hp(t) = θf(t).

Ver Ibrahim, Chen & Sinha (2001) para mais informacoes.

Figura 2.2: Comparacao entre a funcao de sobrevivencia da Weibull, Weibull com modelo de misturapadrao e tempo de promocao.

2.2.4 Funcao de verossimilhanca

Suponha uma amostra com n indivıduos e para cada indivıduo i, i = 1, ..., n, sao

associados essas variaveis:

• Ni: Variavel aleatoria discreta com funcao de probabilidade Pθ(Ni = ni) = pθ(ni),

sendo θ um vetor de parametros desconhecidos;

• Rij: Variaveis i.i.d. nao observaveis representando o tempo ate a ocorrencia do

evento de interesse devido a j-esima causa ou risco, j = 1, ..., Ni, com funcao

de distribuicao F (·;ψ), funcao de sobrevivencia S(·;ψ) = 1 − F (·;ψ) que nao

dependem de Ni, sendo ψ um vetor de parametros desconhecidos;

Page 20: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

2.2 Modelos de sobrevivencia com fracao de cura 9

• T ∗i : Tempo de falha observado, dado por T ∗i = min{Ti;Ci}, com Ti = min{Ri0,

Ri1, ..., RiNi} e Ci o tempo de censura para o indivıduo i ;

• δi: Indicador de falha, sendo δi =

{1, se Ti ≤ Ci;

0, se Ti > Ci.

O conjunto dos dados completos e representado por Dc = (n,T∗′, δ′,N)

′, sendo

T∗ = (T ∗1 , ..., T∗n)′, δ = (δ1, ..., δn)

′e N = (N1, ..., Nn)

′e o conjunto de dados observados

por D = (n,T∗′, δ′)′.

Seja φ = (ψ′, θ′)′

o vetor de parametros. A funcao de verossimilhanca de φ, cor-

respondente ao conjunto dos dados completos Dc, admitindo censura nao-informativa,

e dada por:

L(φ;Dc) =n∏i=1

[S(ti;ψ)ni ]1−δi [nif(ti;ψ)S(ti;ψ)ni−1]δipθ(ni)

=n∏i=1

S(ti;ψ)ni−niδi [nif(ti;ψ)]δiS(ti;ψ)niδi−δipθ(ni)

=n∏i=1

[S(ti;ψ)]ni−δi [nif(ti;ψ)]δipθ(ni).

Como a equacao anterior depende das variaveis latentes Ni utiliza-se na pratica uma

verossimilhanca marginal, fazendo o somatorio da distribuicao conjunta (T ∗i , δi, Ni) com

relacao as variaveis nao observaveis Ni.

Entao a funcao de verossimilhanca marginal (Ver Apendice A.3) e dada por

L(φ;D) =n∏i=1

[Sp(ti;φ)ni ]1−δi [fp(ti;φ)]δi . (2.11)

Por razoes teoricas e computacionais, e preferıvel trabalhar com o logaritmo da

funcao de verossimilhanca para a estimacao dos parametros, como dada abaixo:

l(φ;D) = logL(φ;D)

= log

{n∏i=1

[Sp(ti;φ)ni ]1−δi [fp(ti;φ)]δi

}

=n∑i=1

{(1− δi) log[Sp(ti;φ)ni ] + δi log[fp(ti;φ)]}. (2.12)

Page 21: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Capıtulo 3

A Distribuicao F Generalizada com

Fracao de Cura

Nesse capıtulo apresentamos a funcao de distribuicao F generalizada conforme mos-

trado no artigo de Peng et al. (1998), suas propriedades, uma outra parametrizacao

sugerida em Prentice (1975), alem dos seus submodelos. As demonstracoes para alguns

resultados encontram-se no Apendice A.

3.1 A distribuicao F generalizada

Segundo Johnson, Kotz & Balakrishnan (1992), varias “generalizacoes” e diferen-

tes parametrizacoes da distribuicao F foram estudadas ao longo do tempo. A forma

descrita no livro de Kalbflesh & Prentice (2002) e a mais utilizada, pois leva em con-

sideracao o modelo de posicao e escala para se construir a distribuicao.

Seja T0 uma v.a. seguindo a distribuicao F com 2s1 e 2s2 graus de liberdade (Mood,

Graybill & Boes, 1974) cuja a funcao densidade e dada por:

fT0(t0) =

(s1

s2

)s1ts1−10

B(s1, s2)

[1 +

(s1

s2

)t0

]s1+s2t0 ∈ R+, (3.1)

com s1, s2 > 0 e B(s1, s2) a funcao beta (ver Apendice A.2).

Definicao

Seja T = aT b0 (Johnson, Kotz & Balakrishnan, 1992). A v. a. T e dita ter distri-

buicao F generalizada com os parametros a, b, s1 e s2, com a ∈ R e b > 0. A funcao

10

Page 22: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.1 A distribuicao F generalizada 11

densidade de T e dada a seguir (ver demonstracao no Apendice A.4)

fT (t) =

(s1

s2

)s1(ab)−1

(t

a

) s1b−1

B(s1, s2)

[1 +

(s1

s2

)(t

a

) 1b](s1+s2)

, t > 0. (3.2)

A distribuicao F generalizada, que foi descrita em Prentice (1975), tem como uma

das vantagens incluir outras distribuicoes bastante conhecidas na literatura como casos

particulares, a Weibull, log-normal, log-logistica e a gama generalizada, dentre outras.

Pode-se escrever Y = log T na forma do modelo de posicao e escala, como dada em

(2.4). Dessa maneira,

Y = µ+ σW

em que µ = log a, o parametro de posicao, σ = b, o parametro de escala e sendo

W = log T0.

A variavel W = log T0 representa uma log-F com parametros s1 e s2 (ver Peng et

al., 1998 e Apendice A.5), com funcoes de densidade, sobrevivencia e de risco dadas,

respectivamente, por

fW (w) =

(s1

s2

)s1ews1

B(s1, s2)

[1 +

(s1

s2

)ew](s1+s2)

, w ∈ R, (3.3)

SW (w) = Ik(s2, s1) (3.4)

e

hW (w) =us2(1− u)s1

B(s1, s2)Ik(s2, s1),

com u = 1

1+(s1s2

)ew

e k = s2(s2 + s1ew)−1, sendo Ix(a, b) a funcao beta incompleta (ver

Apendice A.2).

Algumas variacoes de s1 e s2 refletem no comportamento das funcoes de sobrevi-

vencia e de risco, como podem ser vistos nas Figuras 3.1 e 3.2.

A funcao geradora de momentos de W (Kalbfleisch & Prentice, 2002) e dada por

MW (t) =Γ(s1 + t)Γ(s2 − t)

Γ(s1)Γ(s2)

(s1

s2

).

Page 23: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.1 A distribuicao F generalizada 12

Figura 3.1: Graficos da funcao de sobrevivencia de W.

Figura 3.2: Graficos da funcao risco de W.

A partir da funcao geradora de momentos podemos encontrar a funcao geradora de

cumulantes:

KW (t) = logMW (t)

= log(Γ(s1 + t)) + log(Γ(s2 + t))− log Γ(s1)− log Γ(s2) + t log

(s2

s1

)A esperanca e variancia de W podem ser definidas a partir da funcao geradora de

cumulantes:

E(W ) =∂

∂wKW (t)

∣∣∣∣t=0

= Ψ(s1)−Ψ(s2) + log

(s2

s1

)e

V ar(W ) =∂2

∂w2KW (t)

∣∣∣∣t=0

= Ψ(1)(s1) + Ψ(1)(s2)

com Ψ(a) e Ψ(1)(a) sao decorrentes da funcao poligama (ver Apendice A.1).

Da mesma maneira, assimetria e curtose de W podem ser encontradas a partir da

Page 24: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.1 A distribuicao F generalizada 13

funcao geradora de cumulantes:

skew(W ) =

∂3

∂w3KW (t)

∣∣∣∣t=0(

∂2

∂w2KW (t)

∣∣∣∣t=0

)3/2=

Ψ(2)(s1)−Ψ(2)(s1)

[Ψ(1)(s1) + Ψ(1)(s1)]3/2

e

kurt(W ) =

∂4

∂w4KW (t)

∣∣∣∣t=0(

∂2

∂w2KW (t)

∣∣∣∣t=0

)2 =Ψ(3)(s1) + Ψ(3)(s1)

[Ψ(1)(s1) + Ψ(1)(s1)]2

com Ψ(2)(a) e Ψ(3)(a) sao decorrentes da funcao poligama.

Os parametros s1 e s2 controlam a assimetria e curtose da distribuicao. Quando

s1 > s2 a distribuicao e assimetrica a direita e se s1 < s2 a assimetria e a esquerda. No

caso de s1 = s2 a distribuicao e simetrica. A Figura 3.3 mostra como fica a densidade

de acordo com a variacao dos parametros de forma da distribuicao W .

Figura 3.3: Graficos da funcao densidade de W.

Podemos reescrever a funcao de distribuicao e sobrevivencia da v. a. Y a partir da

Page 25: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.1 A distribuicao F generalizada 14

generalizacao do modelo de posicao e escala:

fY (y) =1

σfW

(y − µσ

)

=

(s1

s2

)s1e( y−µ

σ)s1

σB(s1, s2)

[1 +

(s1

s2

)e( y−µ

σ)

](s1+s2), y ∈ R (3.5)

e

SY (y) = SW

(y − µσ

)= Ik(s2, s1) (3.6)

sendo k = s2

(s2 + s1e

y−µσ

)−1

.

Dizemos que Y tem distribuicao log-F generalizada e consideramos com notacao

Y ∼ logFG(µ, σ, s1, s2).

3.1.1 Reparametrizacao proposta em Prentice (1975)

Prentice (1975) propoe uma nova parametrizacao para o modelo logFG para fa-

cilitar a discriminacao entre modelos. Nesta proposta s1 e s2 sao substituıdos pelos

parametros q e p, sendo q ∈ R e p ≥ 0, em que

q =

(1

s1

− 1

s2

)(1

s1

+1

s2

)−1/2

e p =2

s1 + s2

.

Equivalentemente:

s1 =2

q2 + 2p+ q(q2 + 2p)1/2e s2 =

2

q2 + 2p− q(q2 + 2p)1/2.

Para completar a parametrizacao, definimos δ = (s−11 + s−1

2 )1/2 = (q2 + 2p)1/2.

Definimos σ = η/δ. A forma do modelo de posicao e escala para este caso e:

Y = µ+η

δW

A funcao densidade de probabilidade e de sobrevivencia de Y ficam:

fY (y) =δ

ηfW

((y − µ)δ

η

)(3.7)

Page 26: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.2 Distribuicao F generalizada com fracao de cura 15

e

SY (y) = SW

((y − µ)δ

η

). (3.8)

Segundo Cox (2008), a substituicao final de σ = η/δ nao e necessaria, mas tem uma

vantagem de garantir que tanto a F generalizada e a gama generalizada vao estimar

o mesmo parametro de escala, que e util para a interpretacao do modelo. Por outro

lado, a parametrizacao da forma da funcao risco da F generalizada depende da razao

η/δ no lugar de σ.

3.1.2 Casos particulares da F generalizada

A distribuicao F generalizada e vista como uma grande famılia de modelos co-

nhecidos em analise de sobrevivencia. Peng et al. (1998) e Cox (2008) abordam os

relacionamentos da F generalizada com outros modelos, como descritos na tabela a

seguir:

Tabela 3.1: Modelos obtidos atraves do modelo F generalizado

Restricoes nos parametrosModelo para T Densidade padrao

Original Prentice (1975)

gama generalizada s2 →∞ p = 0 fW (w) =|q|

Γ(q−2)(q−2)q

−2

e[q−1w−q−2 exp(qw)], se q 6= 0

logıstica s1 = s2 = 1 p = 1 e q = 0 fW (w) =ew

(1 + ew)2

log-normal s1, s2 →∞ p = q = 0 fW (w) =1√2πe−

w2

2

Weibull s1 = 1 e s2 →∞ p = 0 e q = 1 fW (w) = ew−ew

3.2 Distribuicao F generalizada com fracao de cura

Considere uma amostra de tamanho n. Para o i-esimo individuo da amostra, com

i = 1, ..., n definimos Ni, de forma analoga ao capıtulo anterior, como o numero de

causas ou fatores de risco competindo para a ocorrencia do evento de interesse, cuja

distribuicao de probabilidade e dada por pθ(ni) = Pθ(Ni = ni), para ni = 0, 1, ....

Para o indivıduo i, sejam Rij, para j = 1, ..., Ni, respectivamente, os tempos ate a

Page 27: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.2 Distribuicao F generalizada com fracao de cura 16

ocorrencia do evento devido a j-esima causa e considere aqui que logRij, sao variaveis

aleatorias i.i.d. seguindo a distribuicao logF generalizada com parametros µ, σ, s1 e s2,

com funcao de densidade e de sobrevivencia denotadas por fR(·) e funcao SR(·), dadas

respectivamente pelas expressoes (3.5) e (3.6).

Definimos tambem Ti = min{Ri0, Ri1, ..., RiNi}, sendo Ri0 tal que P (R0 = ∞) = 1

e Yi = log(Ti). Entao, de acordo com abordagem unificada para modelos com fracao de

cura descrita no Capıtulo 2, as funcoes de sobrevivencia e densidade de Yi , sao dadas

respectivamente por

Sp(yi;φ) = pθ(0) +∞∑ni=1

pθ(ni)SR(y)ni (3.9)

e

fp(yi;φ) = fR(y)∞∑ni=1

[nipθ(ni)SR(y)ni−1

], (3.10)

sendo φ = (µ, σ, s1, s2,θ) o vetor de parametros e fR(·) e SR(·) as funcoes de densidade

e sobrevivencia das variaveis latentes Rij.

Para os casos particulares em que Ni tem distribuicao Bernoulli(1 - θ) (modelo

de mistura) e Ni tem distribuicao de Poisson(θ) podemos mostrar que as funcoes de

sobrevivencia e densidade sao:

• Modelo de mistura padrao

Sp(y;φ) = θ + (1− θ)SR(y) (3.11)

e

fp(y;φ) = (1− θ)fR(y). (3.12)

• Modelo de tempo de promocao

Sp(y;φ) = exp[−θ(1− SR(y))]

e

fp(y;φ) = θ {fR(y)exp[−θ(1− SR(y))]} .

Page 28: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.2 Distribuicao F generalizada com fracao de cura 17

3.2.1 Inferencia para o modelo FG com fracao de cura

Considere o conjunto dos dados observaveis representados por D = (n,Y∗′, δ′)′,

em que Y∗ = (Y ∗1 , ..., Y∗n )′, sendo Y ∗i = min{log Ti, logCi} e Ci o tempo de censura,

i-esimo indivıduo, e δ = (δ1, ..., δn)′

representa o vetor de indicadores de falha/censura.

De acordo com a descricao dada na Secao 2.2.4, obtemos o logaritmo da funcao de

verossimilhanca marginal para o vetor de parametros desconhecidos φ = (µ, σ, s1, s2,θ)′

como

l(φ;D) =n∑i=1

(1− δi) log[Sp(yi;φ)] + δi log[fp(yi;φ)]. (3.13)

Estimacao dos Parametros

Com base em (3.13) podemos usar o metodo da maxima verossimilhanca, que con-

siste em obter estimativas dos parametros do modelo os valores que maximizam o

logaritmo da funcao de verossimilhanca. Desejamos entao resolver o sistema de equa-

coes:

U(φ) =∂l(φ;D)

∂φ= 0

Segundo Peng et al. (1998) algumas dificuldades computacionais surgem em maxi-

mizar a funcao de verossimilhanca no modelo de mistura F generalizado. As funcoes

de densidade e sobrevivencia de uma distribuicao F generalizada dependem de uma

funcao beta e uma relacao de beta incompleta, o que as torna difıcil avaliar com preci-

sao quando s1, s2 e σ tem valores extremos. Outros problemas sao de maximos locais

e a obtencao das derivadas da verossimilhanca em relacao a s1 e s2 para maximizar a

verossimilhanca do modelo de mistura padrao.

Peng et al. (1998) descrevem em seu artigo um pacote do S-Plus chamado gfcure,

desenvolvido para ajustar o modelo F generalizado com fracao de cura no caso parti-

cular do modelo de mistura padrao. Em 2005 o pacote e disponibilizado no software

R e e usado em conjunto com o pacote survival. Alem de estimar os parametros

relacionados ao modelo de tempo de falha acelerado, tambem estima os parametros re-

lacionados a fracao de cura. As distribuicoes que podem ser utilizadas no gfcure sao,

alem da F generalizada: exponencial, Weibull, log-normal, gama, rayleigh, log-logıstica,

log-logıstica generalizada e a gama generalizada estendida.

Para estimar os parametros das distribuicoes esse pacote oferece como opcao os

metodos Newton-Raphson, Nelder-Mead ou Simulated Annealing. O ultimo metodo e

recomendado por Peng et al. (1998) para distribuicoes com mais de dois parametros,

como a gama generalizada e a F generalizada. Este pacote nao faz parte do CRAN

Page 29: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.2 Distribuicao F generalizada com fracao de cura 18

do R, sendo necessario fazer um download dos arquivos para utiliza-lo, o que dificulta

o acesso pelo usuario comum. Nao houve atualizacao desde de 2005, o que deixa o

programa um pouco defasado.

Contudo, o pacote gfcure vem sendo utilizado por diversos autores para ajuste

modelos em aplicacoes a dados de sobrevivencia com fracao de cura: Peng & Carrier

(2002) fazem um estudo de simulacao que compara os modelos parametricos e semipa-

rametricos de fracao de cura. Le et al. (2007) ajustam modelos com fracao de cura em

dados sobre a leucemia linfoblastica aguda em adultos. Martinez et al. (2007) estudam

dados relativos ao retorno de doadores voluntarios de sangue e ajustam ao modelo gama

generalizada estendida com fracao de cura. Hubben et al. (2008) estudam o tratamento

de pacientes infectados com HIV na Italia usando para isso o modelo log-normal. Con-

lon et al. (2011) propoem um metodo de imputacao multipla para dados censurados

em estudos de cancer colorretal com base no modelo log-normal com fracao de cura.

Em todos os casos, as estimativas foram feitas com o auxılio do pacote gfcure.

Selecao de Modelos com Fracao de Cura

A distribuicao F generalizada tem como uma de suas vantagens a possibilidade

de escolha de submodelos, que facilitam na analise de dados. Para isso, desejamos

selecionar o modelo mais adequado para o ajuste.

O teste da razao de verossimilhancas e bastante utilizado para a escolha de mode-

los. Contudo, para testar alguns submodelos da F generalizada a hipotese nula coloca

o parametro na fronteira do espaco parametrico (Peng et al., 1998), mesmo com a para-

metrizacao proposta por Prentice (1975), e isso representa uma violacao das condicoes

de regularidade. Logo, nao se pode garantir a distribuicao assintotica qui-quadrado da

estatıstica da razao de verossimilhancas.

Desta forma, alternativas para o teste da razao de verossimilhancas sao:

• Metodo grafico: Um metodo bastante conhecido em analise de sobrevivencia

compara a curva estimada de Kaplan-Meier (Kaplan & Meier, 1958) com as

curvas de sobrevivencia estimadas conforme os modelos propostos. O modelo

mais adequado e aquele em que sua curva de sobrevivencia mais se aproximar da

curva do estimador Kaplan-Meier.

• AIC: Chamado de criterio de informacao Akaike, desenvolvido por Akaike (1974).

AIC e um ındice de ajuste que leva em consideracao a parcimonia do modelo com

uma penalizacao pelo numero de parametros no modelo. O criterio e definido por

AIC = −2(l(φ, D

))+ 2k

Page 30: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.2 Distribuicao F generalizada com fracao de cura 19

sendo k e o numero de parametros. O AIC, no entanto, nao funciona bem na

presenca de efeitos aleatorios.

Quanto menor for o valor do AIC, mais adequado e o modelo para um determi-

nado conjunto de dados.

• BIC: Chamado de criterio de informacao Bayesiano, desenvolvido por Schwarz

(1978), leva em consideracao tanto a parcimonia do modelo quanto o numero de

parametros que deve ser estimados para atingir esse grau particular de ajuste,

atraves da imposicao de uma penalidade para o aumento do numero de para-

metros. Diferentemente do AIC, a penalidade para o aumento do numero de

parametros no BIC e maior. O criterio e definido por

BIC = −2(l(φ, D

))+ k log(n)

sendo k e o numero de parametros e n o tamanho da amostra.

Da mesma forma que o AIC, quanto menor o valor do BIC, mais adequado e o

modelo.

Uma simulacao foi feita a fim de avaliar a eficacia dos metodos AIC e BIC para o

modelo F generalizado com fracao de cura, com parametros µ = 3, σ = 5, s1 = 10 e

s2 = 7. Os tamanhos da amostra variam entre 50, 100, 500, 1000 e 5000. As fracoes

de cura sao, para esse caso, de 10%, 30% e 50%. E as censuras sao: 30% e 50% de

censura. Os resultados seguem na Tabela 3.2.

Tabela 3.2: Simulacao para avaliar o desempenho do AIC e BIC para o modelo F generalizado comfracao de cura.

Tempos 50 100 500 1000 500030% censura

π(%) AIC BIC AIC BIC AIC BIC AIC BIC AIC BIC10 172.92 182.48 384.91 397.94 1915.50 1936.57 3796.33 3820.87 19380.40 19412.9930 205.45 215.01 384.28 397.31 2052.38 2073.45 4208.03 4232.56 20995.23 21027.8150 227.63 237.19 410.12 423.14 1904.93 1926 3876.36 3900.90 18062.57 18095.16

50% censuraπ(%) AIC BIC AIC BIC AIC BIC AIC BIC AIC BIC

10 160.13 169.69 314.67 327.69 1578.48 1599.55 3135.80 3160.34 14408.55 14441.1430 200.77 210.33 353.83 366.86 2113.40 2134.47 3280.83 3305.36 15568.88 15601.4650 195.37 204.93 365.18 378.20 1884.68 1905.76 3867.39 3891.93 18896.60 18929.19

Para amostras de tamanho 50 e 100 verifica-se que quanto mais a fracao de cura

aumenta, mais influenciam nas estimacoes de ambos os metodos. O restante segue a

mesma ideia, menos com a fracao de cura de 50%, que dimininui em relacao ao de

Page 31: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

3.2 Distribuicao F generalizada com fracao de cura 20

30%. Logo, tanto o tamanho da amostra, como a fracao de cura parece influenciar nas

estimativas de AIC e BIC. Esse cuidado com o tamanho da amostra e porcentagem de

censura sera refletida na Secao seguinte.

Page 32: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Capıtulo 4

Aplicacoes

Neste capıtulo usamos o modelo de mistura padrao F generalizada para a escolha de

submodelos entre gama generalizada, log-logıstica, log-normal e Weibull, para ajustar

dois conjuntos de dados disponıveis no R. O ajuste dos modelos foi realizado com base

no logaritmo da funcao de verossimilhanca (3.13) considerando as funcoes populacionais

de sobrevivencia Sp e de densidade fp dadas respectivamente em (3.11) e (3.12). Foram

utilizados os metodos de selecao descritos na Secao 3.2.1 para cada conjunto de dados.

Apos a escolha do modelo mais adequado, as estimativas desse modelo sao apresentadas.

Todos os procedimentos foram realizados com base no no software R 3.02, com o auxılio

do pacote gfcure.

Na primeira aplicacao o tamanho da amostra e bastante pequeno. Como os resul-

tados sao assintoticos e com o cuidado ja dito na Secao 3.2.1, essa aplicacao sera um

exemplo de como e feito o procedimento de escolha de modelos.

4.1 Cancer de ovario

O estudo a seguir trata sobre os tempos de vida ou censura em dias de 26 pacientes

com cancer de ovario, disponıveis no R com o nome ovarian. O estudo foi realizado

por uma Cooperativa de Oncologia Ocidental e publicado por Edmunson et al. (1979).

O percentual de censura dos dados e de 56%.

Os tempos mınimos e maximos observados no estudo foram de 59 dias e 1227 dias.

Segue abaixo algumas estatısticas descritivas dos tempos em relacao ao “status” de

falha ou censura.

21

Page 33: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.1 Cancer de ovario 22

Tabela 4.1: Estatısticas descritivas para os tempos de vida de pacientes com cancer de ovario, emdias.

Estatısticas descritivas Tempos Observados Tempos Censurados Tempos Gerais

Mınimo 353.0 59.0 59.01o Quartil 447.5 298.5 368.0Mediana 477.0 448.0 476.0Media 630.5 576.9 599.53o Quartil 786.0 812.5 794.8Maximo 1129.0 1227.0 1227.0

Na Figura abaixo, tem-se o histograma e boxplot dos tempos ate a falha ou censura

das pacientes com cancer de ovario. No boxplot verifica-se uma maior presenca de

dados censurados, indicando uma que pode haver uma parcela de pacientes curados ou

imunes ao evento de interesse.

Figura 4.1: Histograma e boxplot para os tempos de vida de pacientes com cancer de ovario, emdias.

Verificaremos alguns modelos na tentativa de saber qual que se melhor ajusta aos

dados. Inicialmente consideramos o ajuste de um modelo Weibull sem fracao de cura

e notamos (Figura 4.2) que este modelo parece nao se ajustar bem aos dados.

Como ha um indicativo em qua ha uma parcela dos pacientes curados ou imunes ao

evento de interesse, ajustamos os modelos com fracao de cura. Utilizamos o metodo de

comparar a curva estimada de Kaplan-Meier contra os submodelos da F generalizada.

Os resultados estao na Figura 4.3.

Page 34: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.1 Cancer de ovario 23

Figura 4.2: Comparacao entre Kaplan-Meier e a funcao de sobrevivencia Weibull.

Figura 4.3: Comparacao entre modelos.

A Figura 4.3 mostra que os modelos de mistura gama generalizada e Weibull aderem

bem aos dados, observando a presenca de uma longa duracao em uma parcela dos

parcientes.

A partir da Tabela 4.2 podemos notar que os valores das estatısticas AIC e o BIC

apontam para o modelo de mistura padrao Weibull como melhor modelo neste caso, o

que esta de acordo com o resultado da analise grafica.

Tabela 4.2: Comparacao entre os modelos.Modelo No de Parametros AIC BIC

F Generalizada 5 63.71 76.73gama generalizada 4 60.57 70.99

log-normal 3 62.82 70.64log-logıstica 3 62.27 70.09

Weibull 3 60.57 68.39

Escolhido o melhor ajuste para os dados podemos estimar os parametros e os erros

padroes para este modelo. Os resultados encontram-se na Tabela 4.3.

Page 35: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.2 Cancer de Colon 24

Tabela 4.3: Estimativas para o modelo Weibull.Parametro Estimativa Erro Padrao

α 6.04 0.15γ 0.47 0.26π 0.49 0.42

A fracao de cura estimada para este caso e de aproximadamente 49%.

4.2 Cancer de Colon

O estudo a seguir publicado em Moertel et al. (1990) considera dados sobre trata-

mento quimioterapico para cancer de colon. Foram observados os tempos de vida de

1858 pacientes onde registrou-se os tempos ate a ocorrencia do evento ou ate a censura

(em dias). O percentual de censura dos dados e de 50%.

Os tempos mınimos e maximos observados no estudo foram de 8 dias e 3329 dias.

Segue na Tabela 4.4 algumas estatısticas descritivas dos tempos em relacao ao “status”

de falha ou censura.

Tabela 4.4: Estatısticas descritivas para os tempos de vida de pacientes com cancer de colon, emdias.

Estatısticas descritivas Tempos Observados Tempos Censurados Tempos GeraisMınimo 8 19 81o Quartil 526 591 566Mediana 1814 1937 1855Media 1503 1582 15383o Quartil 2297 2356 2331Maximo 3309 3329 3329

Na Figura 4.4 tem-se o histograma e boxplot dos tempos ate a falha ou censura das

pacientes com cancer de colon. No boxplot verifica-se uma grande presenca de dados

atıpicos.

Na Figura 4.5 comparamos as curvas de sobrevivencia estimado dos modelos con-

tra a curva estimada de Kaplan-Meier. Inicialmente nao podemos descartar nenhum

modelo, pois todos estao bem ajustados nesse caso. Logo, e necessario outros criterios

de selecao de modelos.

Page 36: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.2 Cancer de Colon 25

Figura 4.4: Histograma e boxplot para os tempos de vida de pacientes com cancer de colon, em dias.

Figura 4.5: Comparacao entre modelos.

Os valores das estatısticas AIC e BIC sao apresentados na Tabela 4.5, onde podemos

concluir que o modelo que melhor ajusta aos dados e o modelo de mistura log-logıstica,

apesar dos valores de quase todos os outros modelos estarem bem proximos.

Tabela 4.5: Comparacao entre os modelos.Modelo No de Parametros AIC BIC

F Generalizada 5 4881.01 4894.03gama generalizada 4 4882.75 4893.17

log-normal 3 4884.21 4892.03log-logıstica 3 4880.89 4888.70

Weibull 3 4912.86 4920.68

Na Figura 4.6, e observado que o risco do paciente vir a obito cresce ate o 500o dia

e depois decresce drasticamente ate se estabilizar.

Page 37: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.3 Dados simulados no R 26

Figura 4.6: Funcao de risco ajustada pelo modelo log-logıstica para os dados de cancer de colon.

Na Tabela 4.6 temos as estimativas dos parametros e erros padroes para o modelo

log-logıstico.

Tabela 4.6: Estimativas para o modelo log-logıstico.Parametro Estimativa Erro Padrao

α 6.53 0.05γ 0.65 0.03π 0.41 0.06

A fracao de cura estimada para este caso e de aproximadamente 41%.

4.3 Dados simulados no R

Nesse caso, o conjunto de dados foi gerado a partir da F generalizada com os

parametros: µ = 3, σ = 5, s1 = 10 e s2 = 7. O tamanho da amostra e de 200 e a

porcentagem de censura nos dados ficaram em torno de 30%.

Os tempos minımos e maximos que foram gerados sao: 0.03 unidades de tempo

e 596.40 unidades de tempo. Na Tabela abaixo, tem-se as estatısticas descritivas do

tempos de vida simulados:

Tabela 4.7: Estatısticas descritivas para os tempos de vida simulados, em unidades de tempo.Estatısticas descritivas Tempos Observados Tempos Censurados Tempos GeraisMınimo 0.03 2.50 0.031o Quartil 3.86 74.95 10.42Mediana 15.54 233.40 43.61Media 48.89 254.40 137.303o Quartil 42.10 417.30 229.80Maximo 443.20 596.40 596.40

Page 38: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.3 Dados simulados no R 27

Na Figura 4.7 tem-se o histograma e boxplot dos tempos ate a falha ou censura.

No boxplot verifica-se alguns dados atıpicos.

Figura 4.7: Histograma e boxplot para os tempos de vida simulados, em unidades de tempo.

Assim como na aplicacao anterior, a Figura 4.8 mostra que, inicialmente, nenhum

modelo pode ser descartado. Assim, novamente, se faz necessario verificar qual o melhor

modelo atraves do AIC e BIC.

Figura 4.8: Comparacao entre modelos.

Na Tabela 4.8 temos a conclusao de que o modelo mais adequado a essa situacao e

a log-logıstica. A observacao que pode ser feita e a mesma da secao anterior, de que os

valores estao proximos e um modelo mais simples, como a Weibull, pode ser adotado

sem grandes problemas.

Page 39: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

4.3 Dados simulados no R 28

Tabela 4.8: Comparacao entre os modelos.Modelo No de Parametros AIC BIC

F Generalizada 5 714.84 731.33gama generalizada 4 713.41 726.61

log-normal 3 711.88 721.78log-logıstica 3 710.70 720.60

Weibull 3 715.65 725.55

Nesse caso, o modelo escolhido e o modelo de mistura Weibull. As estimativas dos

parametos e dos erros padroes sao dadas na Tabela 4.9.

Tabela 4.9: Estimativas para o modelo log-logıstico.Parametro Estimativa Erro Padrao

µ 0.57 0.04σ 0.02 0.004π 0.34 0.19

A fracao de cura para esse conjunto de dados e de 34%.

Page 40: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Capıtulo 5

Conclusoes

Neste trabalho estudamos a distribuicao F generalizada com fracao de cura (FGfc),

com base na abordagem estendida proposta por Rodrigues et al. (2009), que inclui

como caso particular o modelo de mistura padrao F Generalizado proposto em Peng

et al. (1998), sem a inclusao de covariaveis. Apresentamos a forma da verossimilhanca

marginal da FGfc no caso geral e nos dois casos particulares mais conhecidos que sao

os modelos de mistura padrao e o modelo de tempo de promocao. Discutimos alguns

procedimentos alternativos ao teste da razao de verossimilhancas, para a selecao de

submodelos da FGfc sem covariaveis. Consideramos aplicacoes com base em dados

disponibilizados no software R. Usamos para ajuste dos dados o pacote gfcure (Peng,

1999) e consequentemente assumimos nestas aplicacoes os modelos de mistura padrao

em que a funcao densidade e de sobrevivencia sao apresentados em (3.11) e (3.12).

Em trabalhos futuros consideramos que uma extensao importante seria o estudo e

implementacao computacional do modelo FGfc unificado com a inclusao de covariaveis

no parametro de posicao e no parametro associado a fracao de cura. Alem disso, per-

cebemos que apesar do pacote gfcure ter se mostrado preciso no ajuste dos submodelos

da FGfc nas aplicacoes, identificamos (em simulacoes nao apresentadas neste traba-

lho) que as estimativas dos parametros da FGfc podem apresentar muitas oscilacoes

em seus resultados com o uso deste pacote. Nao encontramos descricoes suficientes na

literatura para implementar adaptacoes no sentido de reduzir estas oscilacoes. Assim

um estudo de simulacao detalhado se faz necessario para avaliar a performance deste

pacote principalmente no ajuste da FGfc.

Uma outra extensao de interesse seria o estudo/implementacao de procedimentos

computacionais que possam ser utilizados com facilidade na estimacao e teste em mo-

delos FGfc em sua abordagem mais unificada, incluindo principalmente modelo de

tempo de promocao. Neste sentido Silva (2013) vem desenvolvendo uma adaptacao

29

Page 41: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

30

do pacote flexsurv (flexible parametric survival models) proposto em Jackson (2013)

em linguagem R para o modelo gama generalizada com fracao de cura, que poderia

ser implementada para o FGfc. Finalmente seria util um estudo teorico sobre testes

de hipoteses neste modelo para testar submodelos em situacao de fronteira do espaco

parametrico.

Page 42: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Apendice A

Algumas definicoes e demonstracoes

A.1 Funcao gama e funcao poligama

A funcao gama (Mood, Graybill & Boes, 1974), denotada por Γ(a), e definida por

Γ(a) =

∫ ∞0

xa−1exdx, t > 0.

Se a = n for inteiro, temos

Γ(n+ 1) = n!.

A funcao poligama (Abramowitz & Stegun, 1964) de ordem m e definido como:

Ψ(m)(a) =∂m+1

∂am+1log Γ(a).

A.2 Funcoes beta e beta incompleta

A funcao beta (Mood, Graybill & Boes, 1974), denotada por B(a, b), e definida

como

B(a, b) =

∫ 1

0

xa−1(1− x)b−1dx

sendo a e b positivos.

Uma outra forma da funcao beta e apresentada por Abramowitz & Stegun (1964),

onde

B(a, b) =

∫ ∞0

xa−1

(1 + x)a+bdx.

31

Page 43: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

A.3 Obtencao da funcao de verossimilhanca marginal 32

Podemos definir a funcao beta em relacao a funcao gama, como segue abaixo:

B(a, b) =Γ(a)Γ(b)

Γ(a+ b).

Definimos a funcao beta incompleta padronizada (Johnson, Kotz & Balakrishnan,

1992), denotada por Ix(a, b), como

Ix(a, b) =1

B(a, b)

∫ x

0

ua−1(1− u)b−1du

A.3 Obtencao da funcao de verossimilhanca margi-

nal

A demonstracao tambem pode ser vista em Carneiro (2012).

A funcao de verossimilhanca marginal e obtida fazendo-se o somatorio de L(φ;Dc)

em relacao a Ni. Ou seja,

L(φ;D) =∞∑ni=0

L(φ;Dc)

=∞∑ni=0

n∏i=1

[S(ti;ψ)ni ]1−δi [nif(ti;ψ)S(ti;ψ)ni−1]δipθ(ni)

Como o somatorio depende de i, entao

L(φ;D) =n∏i=1

∞∑ni=0

[S(ti;ψ)ni ]1−δi [nif(ti;ψ)S(ti;ψ)ni−1]δipθ(ni).

Podemos separar a funcao anterior em duas, δi = 0 e δi = 1.

Se δi = 0:

L(φ;D) =n∏i=1

∞∑ni=0

S(ti;ψ)nipθ(ni).

De (2.7), temos que

L(φ;D) =n∏i=1

Sp(ti;φ).

Se δi = 1:

L(φ;D) =n∏i=1

∞∑ni=0

nif(ti;ψ)S(ti;ψ)ni−1pθ(ni).

Page 44: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

A.4 Demonstracao para a equacao 3.2 33

De (2.8), temos que

L(φ;D) =n∏i=1

fp(ti;φ).

Logo, a funcao marginal e dada por:

L(φ;D) =n∏i=1

[Sp(ti;φ)ni ]1−δi [fp(ti;φ)]δi .

A.4 Demonstracao para a equacao 3.2

Seja T0 uma v.a. seguindo distribuicao F com 2s1 e 2s2 graus de liberdade, ambos

positivos, com densidade dada em (3.1). Fazendo T = aT b0 temos que a v. a. T tem

distribuicao F generalizada com os parametros a, b, s1 e s2, sendo b > 0. :

FT (t) = P (T < t) = P (aT b0 < t) = P

(T0 <

(t

a

)1/b)= FT0

((t

a

)1/b)Derivando a funcao fica:

fT (t) =

(t

a

) 1b−1

1

abfT0

((t

a

) 1b)

fT (t) =

(t

a

) 1b−1

1

ab

(s1

s2

)s1[( ta

) 1b]s1−1

B(s1, s2)

[1 +

(s1

s2

)(t

a

) 1b](s1+s2)

fT (t) =

(t

a

) 1b−1

1

ab

(s1

s2

)s1( ta

) s1b− 1b

B(s1, s2)

[1 +

(s1

s2

)(t

a

) 1b](s1+s2)

fT (t) =

(s1

s2

)s1(ab)−1

(t

a

) s1b−1

B(s1, s2)

[1 +

(s1

s2

)(t

a

) 1b](s1+s2)

Page 45: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

A.5 Demonstracao para a equacao 3.3 34

A.5 Demonstracao para a equacao 3.3

Seja W =log T − µ

σ, onde W e o logaritmo da v. a. T0. A funcao densidade de

probabilidade de W e dada por:

FW (w) = P (W < w) = P

(log T − µ

σ< w

)=

= P (log T < µ+ σw) = P (T < eµ+σw) = FT (µ+ σw)

Derivando a funcao em relacao a W, temos:

fW (w) = σeµ+σwfT (eµ+σw)

fW (w) = σeµ+σw

(s1

s2

)s1(eµσ)−1

(eµ+σw

) s1σ−1

B(s1, s2)

[1 +

(s1

s2

)(eµ+σw

) 1σ

]s1+s2

fW (w) =σ

σ

eµ+σw−µ(s1

s2

)s1(eµ+σw−µ)

s1σ−1

B(s1, s2)

[1 +

(s1

s2

)(eµ+σw−µ)

]s1+s2

fW (w) =

eσw(s1

s2

)s1eσws1σ−σw

B(s1, s2)

[1 +

(s1

s2

)eσwσ

]s1+s2

fW (w) =

(s1

s2

)s1ews1

B(s1, s2)

[1 +

(s1

s2

)ew](s1+s2)

A.6 Demonstracao para a equacao 3.4

A funcao de sobrevivencia da variavel W ficara dessa forma:

SW (w) =

∫ ∞w

( s1s2

)s1evs1

B(s1, s2)[1 + ( s1s2

)ev](s1+s2)dv

Page 46: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

A.6 Demonstracao para a equacao 3.4 35

SW (w) =

∫ ∞w

[( s1s2

)ev

1 + ( s1s2

)ev

]s1[ 1

1 + ( s1s2

)ev

]s2B(s1, s2)−1dv

Fazendo u =1

1 +(s1s2

)ev

=s2

s2 + s1eve du = −

1

1 +(s1s2

)ev

(s1s2

)ev

1 +(s1s2

)ev

dv,

temos que:

SW (w) = −∫ 0

s2(s2+s1ew)−1

us2−1(1− u)s1−1B(s1, s2)−1du

SW (w) =

∫ s2(s2+s1ew)−1

0

us2−1(1− u)s1−1B(s1, s2)−1du

SW (w) = Ik(s2, s1)

sendo k=s2(s2 + s1ew)−1.

Page 47: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Apendice B

Comandos no R

Nessa secao mostramos a rotina utilizada para a obtencao das estimativas tanto

da simulacao da Secao 3, quanto da Secao 4. Para isso, e preciso que baixe o pacote

gfcure e execute no software R 32-bits. Para mais informacoes de onde esta disponıvel

o pacote, consulte Peng (1999).

require(flexsurv) # Chamar o pacote flexsurv, ja com o survival incluso.

attach("SUA_BIBLIOTECA_DO_R \\ gfcure\\.RData")load.gfcure("SUA_BIBLIOTECA_DO_R \\ gfcure")

#### Rotina para a simulac~ao na Sec~ao 3.2.1

### Func~ao a partir da gerac~ao de numeros aleatorios da F

## a = 20 (mu = 3), b = 5, s1 = 10 e s2 = 7

rm(list = ls())

D = function(n, a, b, s1, s2, p, tau){

N <- rbinom(n, 1, 1-p)

C <- runif(n, 0, tau)

T <- vector(); y <- vector(); d <- vector(); cv <- vector()

T[N==1] <- a*rf(sum(N),2*s1,2*s2) bT[N==0] <- C[N==0]

y <- apply(cbind(T,C), 1, min)

d <- ifelse(T < C, 1, 0)

cv <- ifelse(y = C, 1, 0)

return(list(y = y, d = d, pc1=sum(cv)/sum(1-d),pc2=mean(1-d)))

}

36

Page 48: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

37

#### n = 50

### Censura = 30

## % de cura = 10

d <- D(50, 20, 5, 10, 7, 0.1, 250);d$pc1;d$pc2 # Verificar a censura.

n=50 # Escolha do tamanho da amostra

mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",

sait = 0, temp = 10, ntemp = 100);mod

(AIC=-2*mod$log+2*5)

(BIC=-2*mod$log+5*log(n))

## % de cura = 30

d <- D(50, 20, 5, 10, 7, 0.3, 450);d$pc1;d$pc2

n=50

mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",

sait = 0, temp = 10, ntemp = 100);mod

(AIC=-2*mod$log+2*5)

(BIC=-2*mod$log+5*log(n))

## % de cura = 50

d <- D(50, 20, 5, 10, 7, 0.5, 500000);d$pc1;d$pc2

n=50

mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",

sait = 0, temp = 0, ntemp = 200);mod

(AIC=-2*mod$log+2*5)

(BIC=-2*mod$log+5*log(n))

### Censura = 50

## % de cura = 10

d <- D(50, 20, 5, 10, 7, 0.1, 100);d$pc1;d$pc2

n=50

mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",

sait = 0, temp = 0, ntemp = 0);mod

Page 49: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

38

(AIC=-2*mod$log+2*5)

(BIC=-2*mod$log+5*log(n))

## % de cura = 30

d <- D(50, 20, 5, 10, 7, 0.3, 500);d$pc1;d$pc2

n=50

mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",

sait = 0, temp = 0, ntemp = 0);mod

(AIC=-2*mod$log+2*5)

(BIC=-2*mod$log+5*log(n))

## % de cura = 50

d <- D(50, 20, 5, 10, 7, 0.5, 500000);d$pc1;d$pc2

n=50

mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",

sait = 0, temp = 0, ntemp = 0);mod

(AIC=-2*mod$log+2*5)

(BIC=-2*mod$log+5*log(n))

#### Rotina para a Sec~ao 4.1

### Dados sobre cancer de ovario

str(ovarian)

t=seq(0:1200)

### Ajuste usando o Kaplan-Meier

ekm=survfit(Surv(futime, fustat)∼1, conf.type="none", data=ovarian)

plot(ekm, main="Estimador de Kaplan-Meier",ylab="S(t)", xlab="Tempos

(em dias)")

##### Modelos a serem considerados no estudo

#### Gama Generalizada

### Ajuste usando o gfcure

mod1=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian, dist

="egg",sait = 0, temp = 0, ntemp = 0)

Page 50: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

39

mod1

s=mod1$coef[1]

sigma=exp(mod1$coef[2])

mu=mod1$coef[3]

y1=(1-pegg(t, s, sigma, mu))*(1-mod1$cure)+mod1$cure

#### Weibull

### Ajuste usando o gfcure

mod2=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian)

mod2

a=1/exp(mod2$coef[1]);a

b=exp(mod2$coef[2]);b

y2=(exp(-(t/b) a)*(1-mod2$cure))+mod2$cure#### log-logıstica

### Ajuste usando o gfcure

mod3=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian,

dist="loglogistic")

mod3

a=1/exp(mod3$coef[1]);a

b=exp(mod3$coef[2]);b

y3=(1/(1+(t/b) a))*(1-mod3$cure)+mod3$cure#### F Generalizada

### Ajuste usando o gfcure

mod4=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian,

dist="gf", sait = 0, temp = 0, ntemp = 0)

mod4

#### log-normal

### Ajuste usando o gfcure

mod5=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian,

dist="lognormal")

mod5

mu=mod5$coef[2]

sigma=exp(mod5$coef[1])

Page 51: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

40

w = (log(t)-mu)/sigma

y5=pnorm(w, 0, 1, lower.tail=F)*(1-mod5$cure)+mod5$cure

### Grafico da figura 4.1

plot(ekm, main="Comparac~ao curvas de sobrevivencia", ylab="S(t)",

xlab="Tempos (em dias)")

lines(t,y1, col=2, lty=1)

lines(t,y2, col=3, lty=2)

lines(t,y3, col=4, lty=3)

lines(t,y5, col=6, lty=4)

legend(700,0.9,col=c(1,2,3,4,6),lty=c(1,1,2,3,4), c("Kaplan-Meier",

"gama generalizada","Weibull","log-logıstica","lognormal"),lwd=1,

bty="n")

#### Criterios de Informac~ao da tabela 4.1

### AIC

(AIC1=-2*mod1$log+2*4) # Gama generalizada

(AIC2=-2*mod2$log+2*3) # Weibull

(AIC3=-2*mod3$log+2*3) # log-logıstica

(AIC4=-2*mod4$log+2*5) # F generalizada

(AIC5=-2*mod5$log+2*3) # log-normal

### BIC

n=100

(BIC1=-2*mod1$log+4*log(n)) # Gama generalizada

(BIC2=-2*mod2$log+3*log(n)) # Weibull

(BIC3=-2*mod3$log+3*log(n)) # log-logıstica

(BIC4=-2*mod4$log+5*log(n)) # F generalizada

(BIC5=-2*mod5$log+3*log(n)) # log-normal

####### Rotina para a sec~ao 4.2

##### Inserir os dados

str(colon)

t=seq(0:3500)

### Ajuste usando o Kaplan-Meier

Page 52: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

41

ekm=survfit(Surv(time, status)∼1, conf.type="none", data=colon)

#### Gama generalizada

### Ajuste usando o gfcure

mod1=gfcure(Surv(time, status)∼1, cureform=∼1, dist="egg", data=colon,

sait = 0, temp = 10, ntemp = 10)

mod1

s=mod1$coef[1]

sigma=exp(mod1$coef[2])

mu=mod1$coef[3]

y1=(1-pegg(t, s, sigma, mu))*(1-mod1$cure)+mod1$cure

##### Usando a distribuic~ao Weibull

### Ajuste usando o gfcure

mod2=gfcure(Surv(time, status)∼1, cureform=∼1, data=colon)

mod2

a=1/exp(mod2$coef[1]);a

b=exp(mod2$coef[2]);b

y2=(exp(-(t/b) a)*(1-mod2$cure))+mod2$cure#### log-logıstica

### Ajuste usando o gfcure

mod3=gfcure(Surv(time, status)∼1, cureform=∼1,dist="loglogistic", data=colon)

mod3

a=1/exp(mod3$coef[1]);a

b=exp(mod3$coef[2]);b

y3=(1/(1+(t/b) a))*(1-mod3$cure)+mod3$cure#### F Generalizada

### Ajuste usando o gfcure

mod4=gfcure(Surv(time, status)∼1, cureform=∼1, dist="gf", data=colon,

sait = 10, temp = 10, ntemp = 10)

mod4

#### log-normal

Page 53: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

42

### Ajuste usando o gfcure

mod5=gfcure(Surv(time, status)∼1, cureform=∼1, dist="lognormal", data

=colon)

mod5

mu=mod5$coef[2]

sigma=exp(mod5$coef[1])

w = (log(t)-mu)/sigma

y5=pnorm(w, 0, 1, lower.tail=F)*(1-mod5$cure)+mod5$cure

### Grafico para a figura 4.3

plot(ekm, main="Comparac~ao curvas de sobrevivencia",

ylab="S(t)", xlab="Tempos (em dias)")

lines(t,y1, col=2, lty=1)

lines(t,y2, col=3, lty=2)

lines(t,y3, col=4, lty=3)

lines(t,y5, col=6, lty=4)

legend(1500,0.9,col=c(1,2,3,4,6),lty=c(1,1,2,3,4), c("Kaplan-Meier",

"gama generalizada","Weibull","log-logıstica","lognormal"),lwd=1,bty="n")

#### Criterios de Informac~ao da tabela 4.3

### AIC

(AIC1=-2*mod1$log+2*4) # Gama generalizada

(AIC2=-2*mod2$log+2*3) # Weibull

(AIC3=-2*mod3$log+2*3) # log-logıstica

(AIC4=-2*mod4$log+2*5) # F generalizada

(AIC5=-2*mod5$log+2*3) # log-normal

### BIC

n=100

(BIC1=-2*mod1$log+4*log(n)) # Gama generalizada

(BIC2=-2*mod2$log+3*log(n)) # Weibull

(BIC3=-2*mod3$log+3*log(n)) # log-logıstica

(BIC4=-2*mod4$log+5*log(n)) # F generalizada

(BIC5=-2*mod5$log+3*log(n)) # log-normal

Page 54: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

Referencias

Abramowitz, M. and Stegun, I.A. (1964). Handbook of Mathematical Functions with

Formulas, Graphs, and Mathematical Tables. Dover Publications, New York.

Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE Tran-

sactions on Automatic Control, Vol. 19, No. 6, pp. 716-723.

Berkson, J. and Gage, R.P. (1952). The likelihood ratio, Wald, and Lagrange mul-

tiplier tests: an expository note. Journal of American Statistical Association,

Vol. 47, No. 259, pp. 501-515.

Brown, B.W., Levy, L.B., Lovato, J., Russell, K. and Spears, F.M. (1992). Algorithm

762: LLDRLF, Log-likelihood and Some Derivatives for log-F Models. ACM

Transactions on Mathematical Software, Vol. 22, No. 3, pp. 372-382.

Carneiro, H.P. de A. (2012). Testes de Hipoteses em Modelos de Sobrevivencia com

Fracao de Cura. Dissertacao de Mestrado - PPGMAE - UFRN.

Cox, C (2008). A generalized F distribution: An umbrella for parametric survival

analysis. Statistics in medicine, Vol. 27, pp. 4301-4312.

Colon, A.S.C., Taylor, J.M.G., Sargent, D.J. and Yothers, G. (2011). Using cure

models and multiple imputation to utilize recurrence as an auxiliary variable for

overall survival. Clinical trials, Vol. 8, pp. 581-590.

Colosimo, E.A. e Giolo, S.R. (2006). Analise de Sobrevivencia Aplicada. Edgard

Blucher, Sao Paulo, SP.

Edmunson, J.H., Fleming, T.R., Decker, D.G., Malkasian, G.D., Jefferies, J.A.,

Webb, M.J., and Kvols, L.K. (1979). Different Chemotherapeutic Sensitivities

and Host Factors Affecting Prognosis in Advanced Ovarian Carcinoma vs. Mi-

nimal Residual Disease. Cancer Treatment Reports, Vol. 63, pp. 241-247.

Fonseca, R.S. (2011). Modelos de Sobrevivencia com Fracao de Cura e Omissao nas

Variaveis. Dissertacao de Mestrado - PPGMAE - UFRN.

43

Page 55: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

44

Hogg, S.A. and Ciampi, A. (1985). GFREG: A computer program for maximum

likelihood regression using the generalized F distribution. Computer Methods

and Programs in Biomedicine, Vol. 20, pp. 201-215.

Hubben, G.A.A., Bishai, D., Pechlivanoglou, P., Cattelan, A.M., Grisetti, R., Fac-

chin, C., Compostella, F.A., Bos, J.M., Postma, M.J. and Tramarin, A. (2008).

The societal burden of HIV/AIDS in Northern Italy: An analysis of costs and

quality of life. AIDS Care, Vol. 20, No. 4, pp. 449-455.

Ibrahim, J.G., Chen, M.H. and Sinha, B. (1992). Bayesian Survival Analysis. Sprin-

ger, New York.

Jackson, C. (2013). Flexible parametric survival models. URL: http://cran.r-

project.org/web/packages/flexsurv/index.html. Acesso: 09 de julho de 2014.

Johnson, N.L., Kotz, S. and Balakrishnan, N. (1992). Continuous Univariate Dis-

tributions. Wiley, Vol.2, New York.

Kalbfleisch, J.D. and Prentice, R.L. (2002). The Statistical Analysis of Failure Time

Data. Wiley, New York.

Kaplam, E.L. and Meier, P. (1958). Nonparametric Estimation from Incomplete

Observation. Journal of the American Statistical Association, Vol.58, No. 282,

pp. 457-481.

Lawless, J.F. (2003). Statistical Models and Methods for Lifetime Data. Wiley, New

York.

Le, Q.H., Thomas, X., Ecochard, R., Iwaz, J., Lheeritier, V., Michallet, M., Fiere,

D. (2007). Proportion of long-term event-free survivors and lifetime of adult

patients not cured after a standard acute lymphoblastic leukemia therapeutic

program. American Cancer Society, Vol. 109, No. 10, pp. 2058-2067.

Maller, R.A., Zhou, X. (1974). Survival analysis with long-term survivors. Wiley,

New York.

Martinez, E.Z., Lourencon, A.F., Mazucheli, J. e Ferreira, O. (2007). Modelos de

Sobrevivencia de Longa Duracao Aplicados ao Estudo do Comportamento de

Retorno do Doador de Sangue Voluntario. Revista de Matematica e Estatıstica.

Vol 25, No. 1, pp. 137-154.

Moetel, C.G., Fleming, T.R., Macdonald, J.S., Hallen, D.G., Laurie, J.A., Good-

man, P.J., Ungerleider, J.S., Emerson, W.A., Tormey, D.C., Glick, J.H., Veeder,

M.H. and Mailliard, J.A. (1990). Levamisole and Flurouracil for Adjuvant The-

Page 56: Federal University of Rio Grande do Norte - A Distribui˘c~ao ......Universidade Federal do Rio Grande do Norte Centro de Ci^encias Exata e da Terra Programa de Pos-Graduac~ao em Matemat

45

rapy of Resected Colon Carcinoma. The New England Journal of Medicine,

Vol.8, pp. 322-352.

Mood, A.M., Graybill, F.A., Boes, D.C. (1974). Introduction To The Theory of

Statistics. McGraw - Hill International Editions, 3th Edition.

Peng, Y. (1999) GFCURE - An S-PLUS Package for Parametric

Analysis of Survival Data with Possible Cured Fraction. URL:

http://www.math.mun.ca/∼ypeng/research/gfcure/. Acesso: 09 de junho

de 2014.

Peng, Y. and Carrier, K.C. (2002). An Empirical Comparison of Parametric and

Semiparametric Cure Models. Biometrical Journal, Vol. 44, No. 8, pp. 1002-1014.

Peng, Y. and Dear, K.B.G. and Denham, J.W. and others (1998). A generalized F

mixture model for cure rate estimation. Statistics in medicine, Vol. 17, No. 8,

pp. 813-830.

Prentice, R.L. (1975). Discrimination Among Some Parametric Models. Statistics

in medicine, Vol. 62, No. 3, pp. 607-614.

R Development Core Team (2013). R: A Language and Environment of Statistical

Computing. R Foundation for Statistical Computing, Vienna, Austria. URL:

http://www.r-project.org/.

Rodrigues, J., Cancho, V.G., de Castro, M. and Louzada-Neto, F. (2009). On

the unification of long-term survival models. Statistics and Probability Letters

Vol. 79, pp. 753-759.

Schwartz, G. (1978). Estimating the Dimension of a Model.The Annals of Statistics

Vol. 6, No. 2, pp. 461-464.

Silva, R. P. da (2013). Modelo Gama Generalizado com Longa Duracao: Teoria e

Pratica. Monografia de Graduacao (Formacao em Estatıstica) - Curso de Esta-

tıstica, Departamento de Estatıstica, Universidade Federal do Rio Grande do

Norte, Natal-RN. 50 f.

Yakovlev, A.Y., Asselain, B., Bardou, V.J., Fourquet, A., Hoang, T., Rochefediere,

A. and Tsodikov, A.D. (1993). A simple stochastic model of tumor recurrence

and its application to data on premenopausal breast cancer. Biometric et analyse

de donnes spatio-temporelles, Vol. 12, pp. 66-82.