Dr David Pérol Centre Léon Bérard, Lyon david.perol@lyon ...Problématique… • A haue analyse,...
Transcript of Dr David Pérol Centre Léon Bérard, Lyon david.perol@lyon ...Problématique… • A haue analyse,...
Analyses intermédiaires
Monaco, 4 février 2016
Dr David Pérol
Centre Léon Bérard, Lyon
1
Préambule
• Analyses intermédiaires en oncologie : où, quand ?
• Phases I : CRML, CRM, EWOC…
• Phases II :
• Designs multi-étapes (Fleming, Simon, Chen …)
• Plans bayésiens
• Phases III : quête en cours d’essai de l’effet du traitement
expérimental vs. traitement de référence
Cadre de cette présentation ! 2
Introduction (1)
• Essai de phase III :
• Accumulation progressive d’informations, au fur et à mesure des
inclusions et du suivi des patients
• Au terme de l’essai : quantité d’information suffisante pour analyser les
données et conclure (effet du traitement testé ?)
• Analyses intermédiaires : recherche de l’effet TT en cours d’essai
• avant que tous les patients prévus aient été recrutés
et/ou
• avant la fin de la période de suivi initialement prévue 3
Introduction (2)
• Quelques bonnes raisons pour arrêter prématurément un essai… (1)
• Différence convaincante entre les traitements comparés
• Aucune différence entre les traitements
• Toxicité trop forte
• Recrutement trop lent
• Nouvelles informations disponibles rendant l’essai inutile ou non éthique
• Observance au traitement trop faible
• Faible qualité des données
• Ressources trop faibles ou diminuées
• Atteinte à l’intégrité de l’essai (fraudes…)
(1) D’après S. Piantadosi (1997)
4
• Recherche anticipée de l’effet du traitement
• Détecter au plus tôt le bénéfice du traitement
• Éviter de continuer à traiter des patients par un traitement moins efficace
(dans l’essai ou hors essai)
Arrêt pour efficacité
• Arrêter prématurément une étude dont on peut prédire
(avec une certitude raisonnable) qu’elle ne pourra pas aboutir
Arrêt pour futilité
Analyses intermédiaires : objectifs (1)
5
• Limiter le nombre de patients exposés à un risque toxique
• Détecter au plus tôt un éventuel effet délétère du traitement
Arrêt pour toxicité
• Vérifier le bon déroulement de l’essai (recrutement, taux
d’écart au protocole, caractéristiques des patients inclus…)
Mesures correctrices
Analyses intermédiaires : objectifs (2)
6
Considérations statistiques dans les AI (1)
• Question posée :
« A un moment donné de l’essai, il y a-t-il une évidence
statistique montrant que l’un des bras est plus efficace ? »
• Lors de cette AI, comment espérer pouvoir garantir une probabilité
élevée de mettre en évidence l’effet du traitement ?
(moins de patients que l’effectif initialement calculé !)
7
• En fait, il est possible de mettre en évidence l’effet du traitement
avec moins de sujets que l’effectif prévu :
• Si l’effet réel du traitement est bien >> à l’effet initialement suspecté
• Si le risque de base des patients inclus est bien >> à celui attendu
Effectif initialement calculé surdimensionné par rapport à la réalité
(manque de données fiables pour faire les hypothèses du calcul du NSN)
Considérations statistiques dans les AI (2)
8
Problèmes posés par les AI
• Essai comparatif, 2 traitements, efficacité (taux de RO) :
• H0 : p1 = p2
• H1 : p1 = 0.30, p2 = 0.50
• Calcul du NSN : α = 0.05, puissance 80% 100 patients / bras
• Quid si nous analysons les données plusieurs fois en cours d’essai ?
• Pouvons nous conclure que l’un des 2 traitement est plus efficace
que l’autre si p < 0.05 avant la fin du recrutement ?
9
Number of Pat ient s
Risk R
atio
0 50 100 150 200
0.0
0.5
1.0
1.5
Number of Pat ient s
pvalue
0 50 100 150 200
0.2
0.4
0.6
0.8
1.0
• H 1
H1 : p1 = 0.30, p2 = 0.50
Si en réalité :
p1 = 0.40 et p2 = 0.50
- si analyse faite à la fin de l’essai,
on va estimer :
p1 = 0.45, p2 = 0.52
p-value = 0.40
- cependant, si analyse tous les 4
pts inclus, on devrait stopper
l’essai après 96 pts et conclure à
une différence significative !
Exemple
10
Faux positifs
• Dans un essai clinique, le risque de faux résultats positifs augmente dans
les situations suivantes :
• Chaque fois que l’on réalise des tests séparés pour des critères de jugements
multiples
• Chaque fois que l’on réalise des tests séparés dans des sous-groupes
• Chaque fois que l’on réalise en cours d’étude des tests non prévus aux
protocole (analyses intermédiaires non planifiées)
inflation du risque alpha posé par la multiplicité des comparaisons
statistiques
11
Problématique…
• A chaque analyse, on prend le risque d’obtenir un résultat significatif par hasard
• La répétition des tests augmente le risque global de conclure à tort à l’efficacité
(aux dés, la probabilité d’obtenir un six est plus forte avec 3 dés qu’avec 1 seul)
Analyse 1
Risque de conclure
à tort à une
différence
= 5%
Analyse 2
Risque de conclure
à tort à une
différence
= 5%
Analyse 4
Risque de conclure
à tort à une
différence
= 5%
Analyse 3
Risque de conclure
à tort à une
différence
= 5%
>>> 5% ! 12
Inflation du risque alpha
Nombre de tests répétés
au seuil de 5 %
Niveau global de signification
1 0.05
2 0.08
3 0.11
4 0.13
5 0.14
10 0.19
20 0.25
50 0.32
100 0.37
Tests de signification répétés à intervalles équidistants dans le cas de 2 traitements,
pour une réponse gaussienne et de variance connue 1
1. Pocock S.J. 1983. Clinical trials : a practical approach. John Wiley & Sons, Chichester, England. .
13
Question
• Comment garantir un risque global de conclure à tort à l’efficacité
du traitement de 5% sur l’ensemble des comparaisons effectuées ?
14
Solution
• Diminuer de façon suffisamment sévère le seuil de signification statistique
de chacune des comparaisons afin que le risque α global ne soit pas
affecté, en une approche séquentielle
• Le plus simple : diminuer ces seuils α’, α’’… en divisant le risque α global
par le nombre de comparaisons effectuées (seuil constant à chaque
analyse)
15
Exemple
• 3 analyses intermédiaires + 1 analyse finale 4 comparaisons
• Diviser le risque α global (5%) par le nombre de comparaisons effectuées
Seuil retenu pour chaque analyse :
• Cas 1 :
1 : p = 0,07
• Cas 2 :
1 : p = 0,25
STOP 2 : p = 0,011
2 : p = 0,08 3 : p = 0,04 F : p = 0,011
16
0,05/4 = 0.0125
Seuil constant à chaque analyse ?
• Cf. exemple précédent : 0,05/4 = 0,0125
1 : p = 0,42 2 : p = 0,28 3 : p = 0,12
Résultat non significatif avec p = 0,04 : si aucune analyse intermédiaire n’avait
été réalisée, les mêmes données auraient conduit à un résultat significatif !
Situation paradoxale !
17
Finale : p = 0,04
En pratique
• Seuils de signification croissants au fur et à mesure des analyses
• interruption prématurée seulement si on obtient un résultat très hautement
significatif lors d’une analyse (effet réel très supérieur à celui attendu)
18
AI 1
AI 2
AI 3
AI 4
A F
Pocock
0.017
0.017
0.017
0.017
0.017
O’Brien et
Fleming
0.0005
0.004
0.0012
0.025
0.040
• Fonction de dépense du risque α au cours du temps :
• définition lors de chaque analyse de la part de risque α que l'on peut
dépenser au fur et à mesure que se déroule l'essai (à chaque analyse)
• n'impose pas de prédéfinir le nombre d'analyses à effectuer (seule la
fonction alpha*(t) doit être définie)
• Alpha*(t) est croissante au cours du temps
• Alpha*(0) = 0 < alpha*(t1) < alpha*(t2) < ... < alpha*(tK) = alpha
Méthode de Lan et Demets
19
• Phase III, objectif principal : comparer la PFS de 2 thérapies ciblées en
1re ligne de traitement métastatique
• Hypothèse : augmentation de la médiane de PFS de 20 à 28 mois avec le
traitement expérimental (avec α = 0.05, puissance 90%)
• Inclusion de 736 patients (368 x 2) pour observer 375 événements
• Deux analyses intermédiaires prévues (IDMC)
• 1ère analyse : futilité : réalisée quand 20% (75) événements seront
observés (M18)
• 2ème analyse : efficacité (supériorité) : réalisée quand 60% (225)
événements seront observés (M33)
Analyse intermédiaire : exemple
21
• H : augmentation de la médiane de PFS de 20 à 28 mois
• 1ère AI (futilité) : arrêt de l’essai si la capacité (puissance) de mettre en évidence
la supériorité du traitement expérimental est <5%
HR (Exp. Vs Std.) Médiane de PFS (Bras Exp.)
(Bras Std. : 20 mois)
Probabilité
d’arrêter l’essai
≥ 1,05 ≤19 mois >98%
1,00 20 mois 86%
0,91 22 mois 18%
0,87 23 mois 3%
0,83 24 mois 0.2%
≤0,71 ≥28 mois <0,01%
Exemple (2)
22
Exemple (3)
• H : augmentation de la médiane de PFS de 20 à 28 mois
• 2ème AI (efficacité) : arrêt de l’essai pour supériorité si p<0,0076 (Lan
DeMets/OB-F) (Analyse finale : α = 0,0476)
HR (Exp. Vs Std.) Médiane de PFS (Bras Exp.)
(Bras Std. : 20 mois)
Probabilité
d’arrêter l’essai
≥0,83 ≤24 mois <10%
0,71 28 mois 44%
0,67 30 mois 64%
≤0,63 ≥32 mois >80% 23
• Analyses intermédiaires :
• Simplicité de mise en œuvre (les seuils ne dépendent que du nombre total
d’analyses, utilisation des tests statistiques classiques)
• Réduction du NSN pour conclure en cas de différence vraie entre les
traitements
• Mais si pas de conclusion précoce, augmentation sensible du NSN par rapport à
une méthode à 1 étape, à puissance identique
(20% pour 5 analyses)
• Contrainte :
• Le nombre de tests réalisés peut être spécifié a priori (Rq : Lan et DeMets
n'impose pas de prédéfinir le nombre d'analyses à effectuer)
Conclusion
24
En pratique…
• Double monitorage :
• Très souvent une même analyse intermédiaire sert à surveiller
simultanément l'efficacité et la tolérance
(des règles d'arrêt et des méthodes différentes d'ajustement peuvent être utilisées)
• Confidentialité :
• La divulgation des résultats d’une AI peut engendrer des biais dans la
réalisation de l’étude (implique la levée de l'insu pour les études en
double aveugle !)
Rôle des Comités de surveillance INDEPENDANTS+++ (charte)
Recommandations destinée au Comité directeur de l’essai (poursuite
du recrutement, interruption de l’essai, modification du protocole…)
25
Recrutement
Éligibilité
Objectif
principal
Respect du plan
d’analyse
Tolérance
Qualité des données
Contexte scientifique
Comité de Surveillance (IDMC)
IDMC
26
Analyses intermédiaires : conclusion
Des intérêts opposés 1 !
Pour arrêter :
Minimise la taille de l’essai
Minimise le nb de patients
inclus dans le bras de TT le
moins efficace
Coûts moindres !
Résultats rapidement
disponibles !
Pour continuer :
Augmentation de la précision des estimations
Augmentation de la puissance de l’essai
Possibilité de faire des analyses en sous-groupes
Information sur les critères de jugement secondaires
(1) D’après S. Piantadosi (1997)
27
Références
Piantadosi S. 1997. “Data Dependent Stopping”, in Clinical Trials: A Methodologic Perspective. Chapter 10. New York: John Wiley and Sons.
Pocock S.J. 1977. Group sequential methods in the design and analysis of clinical trials. Biometrics 35 : 549-56.
Pocock S.J. 1983. Clinical trials : a practical approach. John Wiley & Sons, Chichester, England.
Peto R., et al. 1976. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. Br J Cancer 354 : 585-612.
O'Brien P.C., Fleming T.R. 1979. A multiple testing procedure for clinical trials. Biometrics 35 : 549-56.
Fleming-Harrington-O’Brien 1984. Controlled Clinical Trials 5 : 348-61.
Whitehead J. 1993. Interim analyses and stopping rules in cancer clinical trials. Br J Cancer 68 : 1179-85.
Whitehead J. 1997. The design and analysis of sequential clinical trials. Revised 2nd edition. Chichester : Wiley Ed., 314 p.
Lan K.K.G., DeMets D.L. 1983. Discrete sequential boundaries for clinical trials. Biometrika 70 : 659-63.
Snapinn S, et al. 2006. Assessment of futility in clinical trials. Pharm Stat 5: 273-81.
Cytel Software Corporation. 1992. EaSt. A software package for the design and interim monitoring of group sequential clinical trials. Cambridge : Cytel Software Corporation Ed., 79p.
International Conference on Harmonisation, Chapitre VI.3, p. 354.
28