Dr David Pérol Centre Léon Bérard, Lyon david.perol@lyon ...Problématique… • A haue analyse,...

28
Analyses intermédiaires Monaco, 4 février 2016 Dr David Pérol Centre Léon Bérard, Lyon [email protected] 1

Transcript of Dr David Pérol Centre Léon Bérard, Lyon david.perol@lyon ...Problématique… • A haue analyse,...

Analyses intermédiaires

Monaco, 4 février 2016

Dr David Pérol

Centre Léon Bérard, Lyon

[email protected]

1

Préambule

• Analyses intermédiaires en oncologie : où, quand ?

• Phases I : CRML, CRM, EWOC…

• Phases II :

• Designs multi-étapes (Fleming, Simon, Chen …)

• Plans bayésiens

• Phases III : quête en cours d’essai de l’effet du traitement

expérimental vs. traitement de référence

Cadre de cette présentation ! 2

Introduction (1)

• Essai de phase III :

• Accumulation progressive d’informations, au fur et à mesure des

inclusions et du suivi des patients

• Au terme de l’essai : quantité d’information suffisante pour analyser les

données et conclure (effet du traitement testé ?)

• Analyses intermédiaires : recherche de l’effet TT en cours d’essai

• avant que tous les patients prévus aient été recrutés

et/ou

• avant la fin de la période de suivi initialement prévue 3

Introduction (2)

• Quelques bonnes raisons pour arrêter prématurément un essai… (1)

• Différence convaincante entre les traitements comparés

• Aucune différence entre les traitements

• Toxicité trop forte

• Recrutement trop lent

• Nouvelles informations disponibles rendant l’essai inutile ou non éthique

• Observance au traitement trop faible

• Faible qualité des données

• Ressources trop faibles ou diminuées

• Atteinte à l’intégrité de l’essai (fraudes…)

(1) D’après S. Piantadosi (1997)

4

• Recherche anticipée de l’effet du traitement

• Détecter au plus tôt le bénéfice du traitement

• Éviter de continuer à traiter des patients par un traitement moins efficace

(dans l’essai ou hors essai)

Arrêt pour efficacité

• Arrêter prématurément une étude dont on peut prédire

(avec une certitude raisonnable) qu’elle ne pourra pas aboutir

Arrêt pour futilité

Analyses intermédiaires : objectifs (1)

5

• Limiter le nombre de patients exposés à un risque toxique

• Détecter au plus tôt un éventuel effet délétère du traitement

Arrêt pour toxicité

• Vérifier le bon déroulement de l’essai (recrutement, taux

d’écart au protocole, caractéristiques des patients inclus…)

Mesures correctrices

Analyses intermédiaires : objectifs (2)

6

Considérations statistiques dans les AI (1)

• Question posée :

« A un moment donné de l’essai, il y a-t-il une évidence

statistique montrant que l’un des bras est plus efficace ? »

• Lors de cette AI, comment espérer pouvoir garantir une probabilité

élevée de mettre en évidence l’effet du traitement ?

(moins de patients que l’effectif initialement calculé !)

7

• En fait, il est possible de mettre en évidence l’effet du traitement

avec moins de sujets que l’effectif prévu :

• Si l’effet réel du traitement est bien >> à l’effet initialement suspecté

• Si le risque de base des patients inclus est bien >> à celui attendu

Effectif initialement calculé surdimensionné par rapport à la réalité

(manque de données fiables pour faire les hypothèses du calcul du NSN)

Considérations statistiques dans les AI (2)

8

Problèmes posés par les AI

• Essai comparatif, 2 traitements, efficacité (taux de RO) :

• H0 : p1 = p2

• H1 : p1 = 0.30, p2 = 0.50

• Calcul du NSN : α = 0.05, puissance 80% 100 patients / bras

• Quid si nous analysons les données plusieurs fois en cours d’essai ?

• Pouvons nous conclure que l’un des 2 traitement est plus efficace

que l’autre si p < 0.05 avant la fin du recrutement ?

9

Number of Pat ient s

Risk R

atio

0 50 100 150 200

0.0

0.5

1.0

1.5

Number of Pat ient s

pvalue

0 50 100 150 200

0.2

0.4

0.6

0.8

1.0

• H 1

H1 : p1 = 0.30, p2 = 0.50

Si en réalité :

p1 = 0.40 et p2 = 0.50

- si analyse faite à la fin de l’essai,

on va estimer :

p1 = 0.45, p2 = 0.52

p-value = 0.40

- cependant, si analyse tous les 4

pts inclus, on devrait stopper

l’essai après 96 pts et conclure à

une différence significative !

Exemple

10

Faux positifs

• Dans un essai clinique, le risque de faux résultats positifs augmente dans

les situations suivantes :

• Chaque fois que l’on réalise des tests séparés pour des critères de jugements

multiples

• Chaque fois que l’on réalise des tests séparés dans des sous-groupes

• Chaque fois que l’on réalise en cours d’étude des tests non prévus aux

protocole (analyses intermédiaires non planifiées)

inflation du risque alpha posé par la multiplicité des comparaisons

statistiques

11

Problématique…

• A chaque analyse, on prend le risque d’obtenir un résultat significatif par hasard

• La répétition des tests augmente le risque global de conclure à tort à l’efficacité

(aux dés, la probabilité d’obtenir un six est plus forte avec 3 dés qu’avec 1 seul)

Analyse 1

Risque de conclure

à tort à une

différence

= 5%

Analyse 2

Risque de conclure

à tort à une

différence

= 5%

Analyse 4

Risque de conclure

à tort à une

différence

= 5%

Analyse 3

Risque de conclure

à tort à une

différence

= 5%

>>> 5% ! 12

Inflation du risque alpha

Nombre de tests répétés

au seuil de 5 %

Niveau global de signification

1 0.05

2 0.08

3 0.11

4 0.13

5 0.14

10 0.19

20 0.25

50 0.32

100 0.37

Tests de signification répétés à intervalles équidistants dans le cas de 2 traitements,

pour une réponse gaussienne et de variance connue 1

1. Pocock S.J. 1983. Clinical trials : a practical approach. John Wiley & Sons, Chichester, England. .

13

Question

• Comment garantir un risque global de conclure à tort à l’efficacité

du traitement de 5% sur l’ensemble des comparaisons effectuées ?

14

Solution

• Diminuer de façon suffisamment sévère le seuil de signification statistique

de chacune des comparaisons afin que le risque α global ne soit pas

affecté, en une approche séquentielle

• Le plus simple : diminuer ces seuils α’, α’’… en divisant le risque α global

par le nombre de comparaisons effectuées (seuil constant à chaque

analyse)

15

Exemple

• 3 analyses intermédiaires + 1 analyse finale 4 comparaisons

• Diviser le risque α global (5%) par le nombre de comparaisons effectuées

Seuil retenu pour chaque analyse :

• Cas 1 :

1 : p = 0,07

• Cas 2 :

1 : p = 0,25

STOP 2 : p = 0,011

2 : p = 0,08 3 : p = 0,04 F : p = 0,011

16

0,05/4 = 0.0125

Seuil constant à chaque analyse ?

• Cf. exemple précédent : 0,05/4 = 0,0125

1 : p = 0,42 2 : p = 0,28 3 : p = 0,12

Résultat non significatif avec p = 0,04 : si aucune analyse intermédiaire n’avait

été réalisée, les mêmes données auraient conduit à un résultat significatif !

Situation paradoxale !

17

Finale : p = 0,04

En pratique

• Seuils de signification croissants au fur et à mesure des analyses

• interruption prématurée seulement si on obtient un résultat très hautement

significatif lors d’une analyse (effet réel très supérieur à celui attendu)

18

AI 1

AI 2

AI 3

AI 4

A F

Pocock

0.017

0.017

0.017

0.017

0.017

O’Brien et

Fleming

0.0005

0.004

0.0012

0.025

0.040

• Fonction de dépense du risque α au cours du temps :

• définition lors de chaque analyse de la part de risque α que l'on peut

dépenser au fur et à mesure que se déroule l'essai (à chaque analyse)

• n'impose pas de prédéfinir le nombre d'analyses à effectuer (seule la

fonction alpha*(t) doit être définie)

• Alpha*(t) est croissante au cours du temps

• Alpha*(0) = 0 < alpha*(t1) < alpha*(t2) < ... < alpha*(tK) = alpha

Méthode de Lan et Demets

19

Lan Demets

20

• Phase III, objectif principal : comparer la PFS de 2 thérapies ciblées en

1re ligne de traitement métastatique

• Hypothèse : augmentation de la médiane de PFS de 20 à 28 mois avec le

traitement expérimental (avec α = 0.05, puissance 90%)

• Inclusion de 736 patients (368 x 2) pour observer 375 événements

• Deux analyses intermédiaires prévues (IDMC)

• 1ère analyse : futilité : réalisée quand 20% (75) événements seront

observés (M18)

• 2ème analyse : efficacité (supériorité) : réalisée quand 60% (225)

événements seront observés (M33)

Analyse intermédiaire : exemple

21

• H : augmentation de la médiane de PFS de 20 à 28 mois

• 1ère AI (futilité) : arrêt de l’essai si la capacité (puissance) de mettre en évidence

la supériorité du traitement expérimental est <5%

HR (Exp. Vs Std.) Médiane de PFS (Bras Exp.)

(Bras Std. : 20 mois)

Probabilité

d’arrêter l’essai

≥ 1,05 ≤19 mois >98%

1,00 20 mois 86%

0,91 22 mois 18%

0,87 23 mois 3%

0,83 24 mois 0.2%

≤0,71 ≥28 mois <0,01%

Exemple (2)

22

Exemple (3)

• H : augmentation de la médiane de PFS de 20 à 28 mois

• 2ème AI (efficacité) : arrêt de l’essai pour supériorité si p<0,0076 (Lan

DeMets/OB-F) (Analyse finale : α = 0,0476)

HR (Exp. Vs Std.) Médiane de PFS (Bras Exp.)

(Bras Std. : 20 mois)

Probabilité

d’arrêter l’essai

≥0,83 ≤24 mois <10%

0,71 28 mois 44%

0,67 30 mois 64%

≤0,63 ≥32 mois >80% 23

• Analyses intermédiaires :

• Simplicité de mise en œuvre (les seuils ne dépendent que du nombre total

d’analyses, utilisation des tests statistiques classiques)

• Réduction du NSN pour conclure en cas de différence vraie entre les

traitements

• Mais si pas de conclusion précoce, augmentation sensible du NSN par rapport à

une méthode à 1 étape, à puissance identique

(20% pour 5 analyses)

• Contrainte :

• Le nombre de tests réalisés peut être spécifié a priori (Rq : Lan et DeMets

n'impose pas de prédéfinir le nombre d'analyses à effectuer)

Conclusion

24

En pratique…

• Double monitorage :

• Très souvent une même analyse intermédiaire sert à surveiller

simultanément l'efficacité et la tolérance

(des règles d'arrêt et des méthodes différentes d'ajustement peuvent être utilisées)

• Confidentialité :

• La divulgation des résultats d’une AI peut engendrer des biais dans la

réalisation de l’étude (implique la levée de l'insu pour les études en

double aveugle !)

Rôle des Comités de surveillance INDEPENDANTS+++ (charte)

Recommandations destinée au Comité directeur de l’essai (poursuite

du recrutement, interruption de l’essai, modification du protocole…)

25

Recrutement

Éligibilité

Objectif

principal

Respect du plan

d’analyse

Tolérance

Qualité des données

Contexte scientifique

Comité de Surveillance (IDMC)

IDMC

26

Analyses intermédiaires : conclusion

Des intérêts opposés 1 !

Pour arrêter :

Minimise la taille de l’essai

Minimise le nb de patients

inclus dans le bras de TT le

moins efficace

Coûts moindres !

Résultats rapidement

disponibles !

Pour continuer :

Augmentation de la précision des estimations

Augmentation de la puissance de l’essai

Possibilité de faire des analyses en sous-groupes

Information sur les critères de jugement secondaires

(1) D’après S. Piantadosi (1997)

27

Références

Piantadosi S. 1997. “Data Dependent Stopping”, in Clinical Trials: A Methodologic Perspective. Chapter 10. New York: John Wiley and Sons.

Pocock S.J. 1977. Group sequential methods in the design and analysis of clinical trials. Biometrics 35 : 549-56.

Pocock S.J. 1983. Clinical trials : a practical approach. John Wiley & Sons, Chichester, England.

Peto R., et al. 1976. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. Br J Cancer 354 : 585-612.

O'Brien P.C., Fleming T.R. 1979. A multiple testing procedure for clinical trials. Biometrics 35 : 549-56.

Fleming-Harrington-O’Brien 1984. Controlled Clinical Trials 5 : 348-61.

Whitehead J. 1993. Interim analyses and stopping rules in cancer clinical trials. Br J Cancer 68 : 1179-85.

Whitehead J. 1997. The design and analysis of sequential clinical trials. Revised 2nd edition. Chichester : Wiley Ed., 314 p.

Lan K.K.G., DeMets D.L. 1983. Discrete sequential boundaries for clinical trials. Biometrika 70 : 659-63.

Snapinn S, et al. 2006. Assessment of futility in clinical trials. Pharm Stat 5: 273-81.

Cytel Software Corporation. 1992. EaSt. A software package for the design and interim monitoring of group sequential clinical trials. Cambridge : Cytel Software Corporation Ed., 79p.

International Conference on Harmonisation, Chapitre VI.3, p. 354.

28