SG XVI - Manuale Italiano

StatPoint Technologies, Inc.

STATGRAPHICS® Centurion XVI

Manuale d’uso

STATGRAPHICS® CENTURION XVI

MANUALE D’USO

Titolo originale: STATGRAPHICS® Centurion XVI User Manual

© 2009 by StatPoint Technologies, Inc. www.STATGRAPHICS.com

All rights reserved. No portion of this document may be reproduced, in any form or by any means, without the express written consent of StatPoint Technologies, Inc.

STATGRAPHICS is a registered trademark. STATGRAPHICS Centurion XVI, StatPoint, StatFolio, StatGallery, StatReporter, StatPublish, StatWizard, StatLink, and SnapStats are trademarks. All products or services mentioned in this book are the trademarks or service marks of their respective owners.

Via Giambologna 19 - 52100 Arezzo (Italy) Telefono: 0575.333.297 - Fax: 0575.333.284 Email: [email protected] Web: www.adalta.it Copyright per l’edizione italiana © 2009 - Adalta snc Codice: stp-mit-116 Traduzione, revisione tecnica e realizzazione editoriale: Ing. Carmelo Giarratana - Villasanta (MB)

Tutti i diritti sono riservati a norma di legge e a norma delle convenzioni internazionali. Nessuna parte di questo manuale può essere riprodotta con sistemi elettronici, meccanici o altri, senza l’autorizzazione scritta di Adalta snc.

Nomi e marchi citati nel manuale sono generalmente depositati o registrati dalle rispettive case produttrici.

Ogni cura è stata posta nella verifica della documentazione contenuta in questo manuale. Tuttavia né gli autori, né Adalta snc possono assumersi alcuna responsabilità derivante dall’utilizzo della stessa. Lo stesso dicasi per ogni persona o società coinvolta nella creazione, nella produzione e nella distribuzione di questo manuale.

iii Indice

Indice

Prefazione ......................................................................................................................... vii

Introduzione ........................................................................................................................1

1.1 Installazione........................................................................................................................................1

1.2 Eseguire il programma......................................................................................................................8

1.3 Immettere i dati................................................................................................................................14

1.4 Leggere i dati di un file ...................................................................................................................18

1.5 Analizzare i dati ...............................................................................................................................20

1.6 Utilizzare la barra degli strumenti di analisi .................................................................................24

1.7 Diffondere i risultati........................................................................................................................29

1.8 Salvare il proprio lavoro .................................................................................................................30 Gestione dei dati ............................................................................................................... 31

2.1 Il DataBook......................................................................................................................................32

2.2 Accedere ai dati................................................................................................................................34

2.2.1 Leggere i dati da un file di STATGRAPHICS Centurion..................................................35

2.2.2 Leggere i dati da un file di Excel, ASCII, XML o di un’altra applicazione esterna........36

2.2.3 Trasferire i dati con il metodo copia-e-incolla .....................................................................37

2.2.4 Leggere i dati di un database ODBC.....................................................................................38

2.3 Manipolare i dati ..............................................................................................................................39

2.3.1 Copiare e incollare i dati..........................................................................................................39

2.3.2 Creare nuove variabili da colonne esistenti ..........................................................................39

2.3.3 Trasformare i dati.....................................................................................................................43

2.3.4 Ordinare i dati...........................................................................................................................46

2.3.5 Ricodificare i dati......................................................................................................................48

2.3.6 Combinare più colonne...........................................................................................................49

2.4 Generare i dati..................................................................................................................................51

2.4.1 Generare strutture di dati........................................................................................................51

2.4.2 Generare numeri casuali..........................................................................................................54

2.5 Proprietà del DataBook..................................................................................................................55

2.6 Visualizzatore dei dati .....................................................................................................................56 Analisi statistica ................................................................................................................ 59

3.1 Finestre di input dei dati.................................................................................................................61

3.2 Finestre di analisi .............................................................................................................................63

3.2.1 Pulsante Finestra di input .......................................................................................................65

3.2.2 Pulsante Opzioni di analisi .....................................................................................................65

3.2.3 Pulsante Tabelle e grafici.........................................................................................................66

3.2.4 Pulsante Opzioni per il pannello............................................................................................68

iv Indice

3.2.5 Pulsante Salva i risultati...........................................................................................................70

3.2.6 Pulsanti per i grafici .................................................................................................................72

3.2.7 Pulsante Escludi .......................................................................................................................73

3.3 Stampare i risultati...........................................................................................................................74

3.4 Pubblicare i risultati.........................................................................................................................76 Grafici ............................................................................................................................... 73

4.1 Modificare i grafici ..........................................................................................................................78

4.1.1 Opzioni per il layout................................................................................................................79

4.1.2 Opzioni per la griglia ...............................................................................................................81

4.1.3 Opzioni per le linee .................................................................................................................83

4.1.4 Opzioni per i punti ..................................................................................................................85

4.1.5 Opzioni per il titolo principale...............................................................................................87

4.1.6 Opzioni per la scala degli assi.................................................................................................89

4.1.7 Opzioni per il riempimento delle aree ..................................................................................91

4.1.8 Opzioni per testi, etichette e legende....................................................................................92

4.1.9 Aggiungere nuovi testi.............................................................................................................92

4.2 Jittering di un grafico a dispersione ..............................................................................................93

4.3 Brushing di un grafico a dispersione ............................................................................................95

4.4 Smoothing di un grafico a dispersione.........................................................................................97

4.5 Identificare i punti ...........................................................................................................................99

4.6 Copiare i grafici in altre applicazioni ..........................................................................................102

4.7 Salvare un grafico in un file .........................................................................................................103 Statfolio ............................................................................................................................ 105

5.1 Salvare una sessione ......................................................................................................................105

5.2 Script di StatFolio..........................................................................................................................106

5.3 Aggiornamento automatico delle analisi statistiche..................................................................110

5.4 Pubblicare i dati nel formato HTML..........................................................................................111 StatGallery........................................................................................................................ 115

6.1 Configurare una pagina di StatGallery .......................................................................................115

6.2 Copiare i grafici in StatGallery.....................................................................................................117

6.3 Sovrapporre i grafici......................................................................................................................118

6.4 Modificare un grafico di StatGallery...........................................................................................119

6.4.1 Aggiungere nuovi elementi ...................................................................................................119

6.4.2 Modificare gli elementi..........................................................................................................120

6.4.3 Cancellare gli elementi...........................................................................................................120

6.5 Stampare StatGallery.....................................................................................................................121 StatReporter ..................................................................................................................... 123

7.1 La finestra di StatReporter ...........................................................................................................123

7.2 Copiare l’output in StatReporter .................................................................................................124

v Indice

7.3 Modificare l’output in StatReporter............................................................................................125

7.4 Salvare StatReporter......................................................................................................................125 StatWizard....................................................................................................................... 127

8.1 Accedere ai dati o creare un nuovo studio statistico................................................................128

8.2 Scegliere il tipo di analisi per i dati ..............................................................................................132

8.3 Ricerca delle statistiche e dei test desiderati ..............................................................................137 Preferenze del sistema ..................................................................................................... 141

9.1 Comportamento generale del sistema ........................................................................................141

9.2 Stampa.............................................................................................................................................144

9.3 Grafici .............................................................................................................................................144 Tutorial 1 – Analisi di un singolo campione................................................................... 147

10.1 Procedura di analisi a una variabile...........................................................................................148

10.2 Statistiche di sintesi .....................................................................................................................151

10.3 Diagramma a scatola e baffi.......................................................................................................154

10.4 Verifica degli outlier ....................................................................................................................156

10.5 Istogramma ..................................................................................................................................160

10.6 Grafico dei quantili e percentili .................................................................................................165

10.7 Intervalli di confidenza...............................................................................................................166

10.8 Verifica di ipotesi.........................................................................................................................168

10.9 Limiti di tolleranza ......................................................................................................................170 Tutorial 2 – Confrontare due campioni .......................................................................... 173

11.1 Eseguire la procedura di confronto di due campioni.............................................................173

11.2 Statistiche di sintesi .....................................................................................................................175

11.3 Istogramma duale ........................................................................................................................176

11.4 Diagramma duale a scatola e baffi ............................................................................................177

11.5 Confrontare le deviazioni standard...........................................................................................179

11.6 Confrontare le medie ..................................................................................................................180

11.7 Confrontare le mediane..............................................................................................................181

11.8 Grafico dei quantili .....................................................................................................................182

11.9 Test di Kolmogorov-Smirnov per due campioni ...................................................................183

11.10 Grafico quantili-quantili ...........................................................................................................184 Tutorial 3 – Confrontare più di due campioni................................................................ 185

12.1 Eseguire la procedura di confronto di più campioni .............................................................186

12.2 Analisi della varianza...................................................................................................................190

12.3 Confrontare le medie ..................................................................................................................192

12.4 Confrontare le mediane..............................................................................................................194

12.5 Confrontare le deviazioni standard...........................................................................................196

12.6 Grafico dei residui.......................................................................................................................196

12.7 Grafico per l’analisi delle medie (ANOM) ..............................................................................198

vi Indice

Tutorial 4 – Analisi della regressione .............................................................................. 199 13.1 Analisi della correlazione............................................................................................................200

13.2 Regressione semplice ..................................................................................................................204

13.3 Adattare un modello non lineare ..............................................................................................207

13.4 Analisi dei residui ........................................................................................................................209

13.5 Regressione multipla...................................................................................................................211 Tutorial 5 – Analisi dei dati qualitativi ............................................................................ 219

14.1 Sintetizzare i dati qualitativi .......................................................................................................220

14.2 Analisi di Pareto ..........................................................................................................................221

14.3 Tabulazione incrociata................................................................................................................224

14.4 Confrontare due o più campioni...............................................................................................231

14.5 Tabelle di contingenza................................................................................................................235 Tutorial 6 – Analisi della capacità di un processo.......................................................... 237

15.1 Rappresentazione dei dati ..........................................................................................................238

15.2 Procedura di analisi della capacità.............................................................................................240

15.3 Caso di dati non normali............................................................................................................243

15.4 Indici di capacità..........................................................................................................................250

15.5 Calcolatrice Six Sigma.................................................................................................................253 Tutorial 7 – Disegno di esperimenti (DOE) .................................................................. 255

16.1 Realizzare il disegno....................................................................................................................256

Passo 1: Definire le risposte...........................................................................................................257

Passo 2: Definire i fattori sperimentali .........................................................................................258

Passo 3: Selezionare il disegno sperimentale ...............................................................................259

Passo 4: Specificare il modello.......................................................................................................266

Passo 5: Selezionare i run...............................................................................................................267

Passo 6: Valutare il disegno............................................................................................................267

Passo 7: Salvare l’esperimento.......................................................................................................269

16.2 Analizzare i risultati.....................................................................................................................269

Passo 8: Analizzare i dati ................................................................................................................270

Passo 9: Ottimizzare le risposte ....................................................................................................282

Passo 10: Salvare i risultati .............................................................................................................285

16.3 Ulteriore sperimentazione..........................................................................................................285

Passo 11: Ampliare il disegno........................................................................................................286

Passo 12: Estrapolare......................................................................................................................287 Libri consigliati............................................................................................................... 289 Dataset ............................................................................................................................ 290

Indice analitico ................................................................................................................ 291

vii Prefazione

Prefazione

Scopo di questo manuale è descrivere agli utenti di STATGRAPHICS Centurion XVI il funzionamento di base del programma e il suo utilizzo per analizzare i dati. Il libro offre una panoramica completa del sistema, incluse le procedure di installazione, la gestione dei dati, la preparazione delle analisi statistiche, la stampa e la pubblicazione dei risultati. Poiché il libro è stato ideato per mettere rapidamente in azione gli utenti, esso si concentra sulle funzionalità più importanti del programma, evitando di soffermarsi su ogni dettaglio. Il menu Guida di STATGRAPHICS Centurion XVI consente di accedere a una ricca raccolta di informazioni aggiuntive, incluso un file PDF distinto per ciascuna delle oltre 160 procedure statistiche.

I primi nove capitoli di questo libro trattano l’utilizzo di base di STATGRAPHICS Centurion XVI. È probabile che riusciate a capire da soli gran parte di questi argomenti mentre utilizzate il programma; tuttavia, la lettura di questi capitoli accelererà il vostro processo di apprendimento e avrete la certezza di non avere tralasciato alcun elemento importante.

Gli ultimi sette capitoli sono tutorial che hanno lo scopo di

1. presentare alcune delle più comuni analisi statistiche;

2. dimostrare come le funzionalità uniche di STATGRAPHICS Centurion XVI agevolino il processo di analisi dei dati.

Vi consigliamo di esaminare i tutorial, perché rendono meglio l’idea della grande efficienza di STATGRAPHICS Centurion XVI nell’analizzare i dati reali.

NOTA: il programma include una copia di questo manuale nel formato PDF; per accedervi, selezionate Manuale d’uso dal menu Guida. Nel documento PDF tutti i grafici sono a colori. Il programma include anche i file di dati e gli StatFolio citati nel manuale.

StatPoint Technologies, Inc. agosto 2009

1 Introduzione

Introduzione

Installare STATGRAPHICS Centurion XVI, eseguire il programma e creare un semplice file di dati

1.1 Installazione STATGRAPHICS Centurion XVI viene distribuito in due modi: su Internet, in un unico file che potete scaricare sul vostro computer, e su CD-ROM. Per eseguire il programma, occorre installarlo sul disco fisso. Come altri programmi Windows, l’installazione è estremamente semplice: Passo 1: se avete ricevuto il programma su un CD, inserite il CD nel lettore del computer. Dopo pochi istanti, il programma di installazione dovrebbe avviarsi automaticamente. In caso contrario, aprite la finestra Risorse del computer ed eseguite il file sgcinstall.exe nella cartella principale del CD-ROM. Se avete scaricato il programma da Internet, trovate il corrispondente file sul disco fisso e fate doppio clic sul nome del file per avviare la procedura di installazione. Passo 2: sullo schermo saranno visualizzate in sequenza alcune finestre di dialogo. Se state eseguendo il programma da un CD, la prima finestra vi chiederà di specificare la lingua o le lingue in cui dovrà essere installato Statgraphics:

Capitolo

1

2 Introduzione

Figura 1-1. La finestra per scegliere la lingua o le lingue di installazione del software

Scegliete la lingua principale e una o più lingue addizionali. La lingua principale sarà utilizzata durante l’installazione e come lingua di default quando avviate il programma per la prima volta. Se scegliete delle lingue addizionali, potrete passare da una lingua all’altra mentre utilizzate il programma selezionando Modifica – Preferenze. Se avete scaricato il programma da Internet, dovrete eseguire un programma di installazione distinto per ogni lingua. NOTA: durante il periodo di valutazione gli utenti possono accedere a una qualsiasi delle lingue disponibili in STATGRAPHICS Centurion XVI. Dopo l’acquisto, vi sarà chiesto di specificare la lingua principale e le eventuali lingue addizionali; notate che potrete accedere soltanto alle lingue che avrete scelto di utilizzare con STATGRAPHICS Centurion XVI.

3 Introduzione

Passo 3: STATGRAPHICS Centurion XVI usa InstallShield per installare il programma sul vostro computer. InstallShield controlla l’intallazione tramite una serie di finestre di dialogo. La prima finestra è quella di benvenuto in STATGRAPHICS Centurion XVI:

Figura 1-2. La finestra di benvenuto

Fate clic sul pulsante Avanti. NOTA: per installare e attivare STATGRAPHICS Centurion XVI, dovrete avere i diritti di amministratore sul vostro computer. Nel caso aveste bisogno della presenza di un amministratore di sistema durante la procedura di installazione, vi raccomandiamo di installare e attivare il software mentre è presente l’amministratore.

4 Introduzione

Passo 4: la seconda finestra visualizza il contratto di licenza del software:

Figura 1-3. La finestra con il contratto di licenza

Leggete con attenzione il contratto di licenza. Se ne accettate i termini, selezionate l’opzione Accetto i termini … e fate clic su Avanti per continuare. Se non lo accettate, fate clic su Annulla; in questo caso, non potrete utilizzare il programma.

5 Introduzione

Passo 5: la successiva finestra chiede alcune informazioni sulla persona che dovrà utilizzare il programma:

Figura 1-4. La finestra con le informazioni sull’utente del programma

Inserite le informazioni richieste. Se volete consentire a chiunque usi il computer di accedere a STATGRAPHICS Centurion XVI, selezionate l’opzione appropriata.

6 Introduzione

Passo 6: la successiva finestra indica la cartella in cui sarà installato il programma:

Figura 1-5. La finestra per scegliere la cartella di installazione del programma

Per default, STATGRAPHICS Centurion XVI viene installato nella sottocartella \Statgraphics\STATGRAPHICS Centurion XVI di Programmi. Se state installando il programma in un server di rete, scegliete una cartella cui tutti i potenziali utenti possono accedere in lettura. Non è richiesto l’accesso in scrittura. Per informazioni dettagliate sull’installazione in rete del programma, consultate il file Reame.txt nel CD di STATGRAPHICS Centurion XVI oppure scaricate il file con i dettagli sull’installazione della rete.

7 Introduzione

Passo 7: la successiva finestra vi consente di scegliere il tipo di installazione:

Figura 1-6. La finestra per scegliere il tipo di installazione

Selezionate una delle seguenti opzioni:

Tipica – Installa il programma, i file della guida, la documentazione e i file degli esempi. Lo spazio richiesto sul disco fisso è un po’ più di 60 MB. Minima – Installa soltanto il programma e i file della guida. È sufficiente uno spazio sul disco fisso di circa 30 MB. Personalizzata – Installa soltanto i componenti che selezionate.

Se scegliete l’installazione minima, risparmierete spazio sul disco, ma non potrete accedere alla documentazione on-line e ai file degli esempi.

8 Introduzione

Passo 8: seguite le restanti istruzioni per completare l’installazione. Quando l’installazione sarà completata, sullo schermo apparirà la finestra finale:

Figura 1-7. La finestra di fine installazione

Fate clic su Fine per completare l’installazione. Selezionate l’opzione Avvia il programma per avviare subito STATGRAPHICS Centurion XVI, oppure seguite le seguenti istruzioni.

1.2 Eseguire il programma

Alla fine del processo di installazione, viene inserita un’icona di collegamento a STATGRAPHICS Centurion XVI nel menu Start di Windows e sul desktop. Per avviare il programma:

Passo 1: fate doppio clic su questa nuova icona del desktop oppure aprite il menu Start di Windows posto nell’angolo inferiore sinistro dello schermo e fate clic sull’icona Statgraphics. In alternativa, potete utilizzare la finestra Risorse del computer: aprite in sequenza le cartelle Programmi – Statgraphics – STATGRAPHICS Centurion XV.II, poi fate clic sull’icona del programma sgwin.

9 Introduzione

Passo 2: quando il programma STATGRAPHICS Centurion XVI è caricato in memoria, sullo schermo appare una nuova finestra. La prima volta che eseguite il programma, sarà visualizzata la finestra Benvenuti:

Figura 1-8. La finestra di benvenuto

Avete due opzioni:

1. Iniziare un periodo di prova di 30 giorni per valutare il programma prima di acquistarlo; in questo caso, fate clic sul pulsante Valuta.

2. Se avete già acquistato il programma e avete ricevuto il numero di serie, fate clic sul pulsante Attiva.

10 Introduzione

Se fate clic sul pulsante Valuta, sarà visualizzata la seguente finestra:

Figura 1-9. La finestra per l’attivazione del periodo di prova

La finestra visualizza un Codice di prodotto di 16 caratteri che è unico per il vostro computer. Per iniziare il periodo di prova, dovrete digitare il corrispondente Codice di attivazione. Per ricevere il Codice di attivazione, potete premere uno dei due pulsanti sotto il Passo 2:

1. Il pulsante 1. Fate clic qui invia automaticamente un messaggio a StatPoint Technologies tramite Internet per richiedere il codice di attivazione. Un web service risponderà immediatamente a questa richiesta, inviando il codice di attivazione all’indirizzo e-mail che avete specificato.

11 Introduzione

2. Il pulsante 2. Fate clic qui accede al vostro programma di posta elettronica, inserendo le informazioni in una e-mail che potrete spedire a StatPoint. Questa e-mail sarà elaborata durante le normali ore di lavoro.

Per evitare ritardi, utilizzate il primo metodo, se possibile.

NOTA: gli utenti che stanno attivando delle copie ottenute da licenze per siti di enti o istituzioni devono utilizzare il primo metodo. I codici di attivazione saranno trasmessi agli indirizzi e-mail indicati dagli enti/istituzioni che hanno acquistato la licenza. I responsabili informatici degli enti/istituzioni dovrebbero avvisare gli utenti di questa prassi.

Passo 3: dopo che la vostra richiesta sarà stata elaborata, riceverete una e-mail contenete il codice di attivazione. Digitate il codice nel campo sotto il Passo 3 e premete il pulsante Attiva. Se il codice di attivazione corrisponde al codice di prodotto, vedrete il seguente messaggio:

Figura 1-10. Il messaggio che segnala l’inizio del periodo di attivazione

Premete OK per avviare il programma.

NOTA 1: se state utilizzando Microsoft Vista o Windows 7, quando fate doppio clic sull’icona STATGRAPHICS del desktop per avviare il programma, l’operazione potrebbe non riuscire. In questo caso, fate clic con il pulsante destro del mouse e selezionate Run as Administrator dalla lista delle opzioni.

NOTA 2: se installate STATGRAPHICS Centurion XVI su un altro computer, dovrete ripetere la procedura di installazione per ottenere un codice di attivazione, in quanto il codice di prodotto è unico per ciascun computer.

12 Introduzione

Passo 4: la prima volta che eseguite il programma, dovrete anche scegliere il sistema di menu che intendete utilizzare:

Figura 1-11. La finestra per scegliere il sistema di menu

Potete scegliere il sistema classico di STATGRAPHICS Centurion XVI (facendo clic sul pulsante No), che organizza le procedure statistiche nei menu Grafici, Descrivi, Confronta, Relazione, Previsione, SPC e DOE, oppure il sistema Six Sigma (facendo clic sul pulsante Sì), che organizza le procedure nei menu Define, Measure, Analyze, Improve, Control e Previsione. Entrambi i sistemi di menu includono le stesse procedure; cambia soltanto la loro organizzazione. Successivamente, potrete cambiare la vostra scelta iniziale selezionando Preferenze dal menu Modifica del programma.

13 Introduzione

Passo 5: sarà creata la finestra principale di STATGRAPHICS Centurion XVI:

Figura 1-12. La finestra principale di STATGRAPHICS

I prossimi paragrafi spiegano come utilizzare StatWizard per creare un file contenente i dati del censimento della popolazione degli Stati Uniti d’America nel 2000.

14 Introduzione

1.3 Immettere i dati I dati da analizzare con STATGRAPHICS Centurion XVI devono essere posti nel DataBook, che è formato da 26 fogli (datasheet), identificati dalle lettere da A a Z, ciascuno dei quali contiene un array rettangolare di righe e colonne:

Figura 1-13. Il DataBook di STATGRAPHICS

In un tipico foglio, ogni riga contiene le informazioni su un singolo campione, osservazione o caso, mentre ogni colonna rappresenta una variabile.

Per esempio, supponete di utilizzare STATGRAPHICS Centurion XVI per analizzare i dati del censimento della popolazione degli USA nel 2000. Una piccola parte dei risultati del censimento è riportata qui di seguito:

15 Introduzione

Stato Populazione Età media % Donne Reddito pro capite

Alabama 4.447.100 35,8 51,7 $18.819 Alaska 626.932 32,4 48,3 $22.660 Arizona 5.130.632 34,2 50,1 $20.275 Arkansas 2.673.400 36,0 51,2 $16.904 California 33.871.648 33,3 50,2 $22.711 Colorado 4.301.261 34,3 49,6 $24.049

Figura 1-14. I dati estratti dal censimento della popolazione USA nel 2000

Quando questi dati vengono inseriti in un foglio di STATGRAPHICS Centurion XVI, le informazioni relative a ciascuno Stato dovranno essere poste in una riga distinta; inoltre, dovranno essere create cinque colonne per contenere i nomi degli Stati e i dati del censimento. Per inserire dati come questi in un foglio di STATGRAPHICS Centurion XVI, avete due alternative:

1. Digitare i dati direttamente nel DataBook di STATGRAPHICS Centurion XVI.

2. Digitare i dati in un altro programma, come Excel, e poi leggerli o copiarli in STATGRAPHICS Centurion XVI.

In questo paragrafo descriveremo il primo metodo. Per iniziare, fate doppio clic sull’intestazione della prima colonna, il cui nome è Col_1. Sullo schermo sarà visualizzata una finestra che potete utilizzare per modificare importanti proprietà di questa colonna:

16 Introduzione

Figura 1-15. La finestra per definire le colonne

Ogni colonna in un foglio di STATGRAPHICS Centurion XVI è associata a un nome, un commento e un tipo di dati:

• Nome – Assegnate a ogni colonna un nome unico composto da 1 a 32 caratteri. Questi nomi sono utilizzati dal programma per identificare le variabili da analizzare quando selezionate una procedura statistica. Sono utilizzati anche come etichette di default nella maggior parte dei grafici. I nomi possono contenere qualsiasi carattere. Il programma non fa distinzione fra lettere maiuscole e minuscole nei nomi. Sono ammessi gli spazi all’interno dei nomi. Se tentate di specificare lo stesso nome a più colonne dello stesso foglio, sebbene sia possibile assegnare lo stesso nome a colonne di fogli differenti.

• Commento – Digitate un commento che descrive il contenuto della colonna. I commenti non possono contenere più di 64 caratteri e sono facoltativi. Una volta immessi, i commenti appaiono nella seconda riga della colonna.

• Tipo – Specificate il tipo di dati da attribuire ai contenuti della colonna. In questo caso, la prima colonna che contiene i nomi degli Stati deve essere di tipo Carattere. Per le altre colonne, lasciate il tipo Numerico o, se volete limitare il tipo di dati che possono essere immessi, scegliete Intero o Cifre decimali. Per informazioni dettagliate sui tipi di dati delle colonne, consultate il Capitolo 2.

Quando avete definito una colonna, fate clic su OK. Create cinque colonne, come indicato qui di seguito:

17 Introduzione

Figura 1-16. Il foglio con i nomi delle colonne

Adesso inserite i dati come in qualsiasi altro spreadsheet, utilizzando i tasti con le frecce per spostarvi da una cella all’altra. NON digitate i simboli di separazione delle migliaia quando inserite grandi numeri. Alla fine dovreste ottenere un foglio simile a questo:

Figura 1-17. Il foglio dopo l’inserimento di 6 righe di dati

18 Introduzione

A questo punto, dovreste salvare i dati in un file. Selezionate File – Salva – Salva il file di dati dal menu principale. Scegliete il nome del file in cui salvare i dati:

Figura 1-18. La finestra per salvare i file

I file di dati in STATGRAPHICS Centurion XVI vengono salvati su disco con l’estensione di default “.sgd”, che memorizza i dati nel formato XML. Quando salvate un file, potete cambiare l’impostazione del campo Salva come in un altro formato di file.

1.4 Leggere i dati di un file

Una volta che i dati sono stati immessi in un foglio di STATGRAPHICS Centurion, possono essere analizzati. Per rendere più interessante l’esempio, carichiamo i dati del censimento di tutti i 50 Stati e del District of Columbia (D. C.), che sono forniti insieme a STATGRAPHICS Centurion XVI in un file chiamato census2000.sgd. Per aprire questo file, selezionate File – Apri –

Apri Sorgente dati dal menu principale. Innanzitutto, il programma vi chiederà di specificare l’origine dei dati da analizzare:

19 Introduzione

Figura 1-19. La finestra per specificare l’origine dei dati da analizzare

La scelta di default è corretta in questo caso. Poi, selezionate il nome del file che contiene i dati:

Figura 1-20. La finestra per selezionare il file da aprire

Il file dell’esempio in esame si trova nella cartella di default dei dati (di solito, C:\Programmi\Statgraphics\STATGRAPHICS Centurion XVI\Data).

20 Introduzione

Una volta aperto il file, vengono riempite 51 righe di dati:

Figura 1-21. Il foglio con i dati del file census2000.sgd

1.5 Analizzare i dati Una volta che i dati sono stati caricati nel DataBook di STATGRAPHICS Centurion, è possibile applicare loro una delle oltre 160 procedure statistiche in uno dei seguenti modi:

1. Selezionando la procedura desiderata dal menu principale.

2. Facendo clic su uno dei pulsanti di scelta rapida nella barra degli strumenti.

3. Avviando StatWizard tramite il pulsante con il cappello del mago che si trova nella barra degli strumenti.

21 Introduzione

Iniziamo a sintetizzare la variabilità del reddito pro capite (colonna Per capita Income) degli Stati. La migliore procedura di sintesi dei dati numerici di una singola colonna è Analisi a una variabile. Questa procedura calcola le statistiche di sintesi, come la media e la deviazione standard del campione. Inoltre, crea vari grafici, tra cui un istogramma e un diagramma a scatola e baffi. La posizione della procedura Analisi a una variabile dipende dal sistema di menu che state utilizzando:

1. Menu classico: selezionate Descrivi – Dati numerici – Analisi a una variabile. 2. Menu Six-Sigma: selezionate Analyze – Variabili – Analisi a una variabile.

Come tutte le procedure statistiche, anche Analisi a una variabile inizia visualizzando una finestra di input dei dati:

Figura 1-22. La finestra di input dei dati della procedura Analisi a una variabile

Il riquadro a sinistra visualizza i nomi di tutte le colonne del foglio che contengono dati. Per analizzare i dati della colonna Per Capita Income, fate clic sul suo nome e poi sul pulsante con la freccia nera accanto al campo Dati. Così facendo, il nome della colonna che contiene i valori dei redditi sarà posto nel campo Dati. Lasciate vuoto il campo Seleziona (serve solo per analizzare un sottoinsieme di righe del foglio, anziché tutte le righe). Quando fate clic su OK, sarà visualizzata la finestra Tabelle e grafici. Questa finestra mostra le tabelle e i grafici che sono disponibili per la procedura Analisi a una variabile. Per adesso, accettiamo le impostazioni di default:

22 Introduzione

Figura 1-23. La finestra Tabelle e grafici

Se fate clic di nuovo su OK, sarà creata una nuova finestra di analisi:

Figura 1-24. La finestra della procedura Analisi a una variabile

23 Introduzione

La finestra contiene quattro pannelli, separati da barre divisorie mobili. I due pannelli a sinistra visualizzano un output in forma tabellare, mentre i due pannelli a destra visualizzano un output grafico. Se fate doppio clic sul pannello in basso a sinistra, sarà ingrandita la tabella con le statistiche di sintesi:

Figura 1-25. Il pannello ingrandito con le statistiche di sintesi

La tabella contiene diverse statistiche interessanti. Il reddito pro capite nei 51 Stati, incluso D.C., varia da 15.853 a 28.766 dollari. Il reddito medio è 20.934,50 dollari. Sotto la tabella è riportato l’output di StatAdvisor, che fornisce una breve interpretazione dei risultati. In questo caso, StatAdvisor si concentra sulle due statistiche visualizzate in rosso, che misurano l’asimmetria e la curtosi dei dati. Come spiega StatAdvisor, i dati con distribuzione normale o gaussiana hanno valori di asimmetria e curtosi standard compresi tra –2 e +2. In questo caso, entrambe le statistiche sono all’interno di questo intervallo; ciò significa che per le osservazioni in esame possiamo accettare come modello una curva normale a forma di campana, sebbene l’asimmetria sia molto prossima a essere statisticamente significativa.

24 Introduzione

Se fate di nuovo doppio clic sulla tabella delle statistiche di sintesi, ripristinerete i quattro pannelli originali. Facendo doppio clic sul pannello in basso a destra, sarà ingrandito il diagramma a scatola e baffi:

Figura 1-26. Il pannello ingrandito con il diagramma a scatola e baffi

Il diagramma a scatola e baffi, ideato da John Tukey, fornisce una rappresentazione grafica del campione di dati sulla base di cinque numeri di sintesi. La scatola rappresenta la metà centrale dei dati, che si estende dal quartile inferiore a quello superiore. Le linee che si estendono a sinistra e a destra (i baffi) della scatola terminano, rispettivamente, in corrispondenza del minimo e del massimo della distribuzione dei dati. La mediana dei dati è indicata dalla linea verticale all’interno della scatola, mentre il segno più (+) rappresenta la posizione della media del campione. Il fatto che il baffo destro è leggermente più lungo di quello sinistro, mentre la media è un po’ più grande della mediana, indica che la distribuzione dei dati è asimmetrica o obliqua a destra.

1.6 Utilizzare la barra degli strumenti di analisi La prima volta che viene visualizzata una finestra di analisi come Analisi a una variabile, vengono inclusi soltanto alcuni dei grafici e delle tabelle disponibili. Per visualizzare altri risultati dell’analisi, bisogna utilizzare gli appositi pulsanti nella barra degli strumenti di analisi che appare subito sopra il titolo dell’analisi:

Figura 1-27. I pulsanti della barra degli strumenti di analisi

25 Introduzione

I pulsanti della barra di analisi sono molto importanti. Le azioni dei primi sei pulsanti sono descritte nel seguente prospetto: Nome Funzione

Finestra di input Visualizza la finestra di input dei dati in modo che sia

possibile modificare i dati delle colonne selezionate.

Opzioni di analisi Seleziona le opzioni che si applicano alle tabelle

e ai grafici dell’analisi corrente.

Tabelle e grafici Visualizza l’elenco di altri grafici e tabelle che è possibile

creare.

Opzioni per il pannello Seleziona le opzioni che si applicano soltanto alla tabella

o al grafico correntemente ingrandito.

Salvare i risultati Salva le statistiche calcolate nelle colonne di un foglio.

Opzioni per il grafico Consente di modificare i titoli, la scala e altre

caratteristiche del grafico correntemente ingrandito.

Figura 1-28. Sei importanti pulsanti della barra degli strumenti di analisi

Altri pulsanti a destra di questi agiscono sul grafico correntemente ingrandito, come è descritto nel Capitolo 5.

Per esempio, se fate clic sul pulsante Tabelle e grafici , sarà visualizzata una finestra di dialogo che elenca gli altri grafici disponibili nella procedura Analisi a una variabile:

Figura 1-29. Elenco di tabelle e grafici disponibili nella procedura Analisi a una variabile

Facendo clic sulla casella accanto a Istogramma delle frequenze e poi sul pulsante OK, viene aggiunto un terzo pannello nel lato destro della finestra di analisi:

26 Introduzione

Figura 1-30. La finestra Analisi a una variabile con il nuovo istogramma delle frequenze

Se fate doppio clic sull’istogramma per ingrandirlo e poi fate clic sul pulsante Opzioni per il

pannello, sarà visualizzata una finestra con le opzioni specifiche per l’istogramma:

27 Introduzione

Figura 1-31. La finestra con le opzioni specifiche per l’istogramma delle frequenze

Questa finestra consente di cambiare il numero di barre dell’istogramma, come pure l’intervallo di valori che esse rappresentano. Impostate a 15 il campo Numero di classi e fate clic su OK; l’istogramma varierà per rispecchiare questa nuova impostazione:

Figura 1-32. L’istogramma delle frequenze dopo la modifica del numero di classi

28 Introduzione

È anche possibile modificare il tipo di riempimento e il colore delle barre dell’istogramma utilizzando il pulsante Opzioni per il grafico. Questo pulsante visualizza una finestra che permette di cambiare molti elementi del grafico. Se fate clic sulla scheda Riempimenti, avrete accesso alle seguenti opzioni di riempimento:

Figura 1-33. La finestra con le opzioni di riempimento degli elementi del grafico

Fate clic sul pulsante radio 1 e poi selezionate un nuovo tipo di riempimento o colore per modificare l’aspetto delle barre dell’istogramma. NOTA: le operazioni di molti pulsanti della barra degli strumenti di analisi possono essere eseguite facendo clic con il pulsante destro del mouse nel pannello che contiene una tabella o un grafico. Sarà visualizzato un menu popup che elenca le operazioni disponibili.

29 Introduzione

1.7 Diffondere i risultati

Una volta completata l’analisi, i risultati possono essere diffusi in vari modi:

Azione Metodo

Stampare i risultati dell’analisi. Fate clic sul pulsante con la stampante nella barra degli strumenti principali per stampare tutti i grafici e le tabelle, oppure fate clic su un pannello con il pulsante destro del mouse e selezionate Stampa dal menu popup per stampare un solo grafico o una sola tabella.

Pubblicare i risultati per visualizzarli in un browser del Web.

Selezionate StatPublish dal menu File. Sarà visualizzata una finestra dove potrete specificare la cartella in cui salvare il documento HTML.

Copiare i risultati in un’altra applicazione.

Fate clic sulla tabella o sul grafico da copiare e selezionate Copia dal menu Modifica. Poi, attivate l’altra applicazione e selezionate Modifica – Incolla.

Salvare i risultati in un report. Premete il pulsante destro del mouse e selezionate Copia l’analisi in StatReporter. StatReporter, descritto nel Capitolo 7, consente di salvare i risultati dell’analisi in un file RTF, che potrà essere importato in altri programmi, come Microsoft Word.

Salvare un grafico in un file. Ingrandite la finestra del grafico da salvare. Poi selezionate Salva grafico dal menu File.

Figura 1-34. Metodi per diffondere i risultati dell’analisi

Queste operazioni saranno descritte nei successivi capitoli.

30 Introduzione

1.8 Salvare il proprio lavoro

Per salvare la sessione corrente di lavoro con STATGRAPHICS Centurion XVI, selezionate Salva

StatFolio dal menu File e digitate il nome da assegnare al file:

Figura 1-35. La finestra per salvare in uno StatFolio la sessione di lavoro

Uno StatFolio è formato dalle istruzioni che indicano come eseguire le analisi della vostra sessione corrente, con i puntatori ai file o database che contengono i dati da analizzare. Ogni volta che caricate lo StatFolio che avete salvato, vengono automaticamente riletti i dati e rieseguite le analisi. Tutte le opzioni che avevate scelto per le analisi saranno mantenute.

NOTA 1: se i dati di origine cambiano tra l’istante in cui avete salvato uno StatFolio e l’istante in cui questo viene caricato di nuovo in STATGRAPHICS Centurion, le analisi saranno diverse perché faranno riferimento ai nuovi valori. Questo fornisce un semplice metodo per rieseguire le analisi che devono essere ripetute periodicamente, senza bisogno di ricostruirle.

NOTA 2: i dati e StatFolio vengono registrati in file differenti. Se avete bisogno di spostare uno StatFolio in un altro computer, ricordatevi di spostare anche i file dei dati.

31 Gestione dei dati

Gestione dei dati

Accedere ai dati di file e database, trasformarli e organizzarli in strutture idonee all’analisi

Per analizzare i dati con STATGRAPHICS Centurion XVI, innanzitutto bisogna inserirli nel DataBook, che è una finestra formata da 26 fogli (datasheet). Un foglio è un array rettangolare di righe e colonne. Ogni colonna di un foglio rappresenta una variabile. Ogni riga rappresenta un caso o un’osservazione. Per esempio, il seguente foglio contiene i dati su un certo numero di marche e modelli di automobili.

Figura 2-1. Il foglio con i dati da analizzare

Capitolo

2


Questo capitolo descrive tutto ciò che bisogna sapere sui dati e STATGRAPHICS Centurion XVI, incluse le tecniche per accedere ai dati, per manipolarli e per utilizzarli nelle analisi statistiche.

2.1 Il DataBook Ogni colonna di un foglio di STATGRAPHICS Centurion XVI rappresenta una variabile. Le variabili di solito sono proprietà o misure degli elementi che definiscono le righe del foglio. Per esempio, il foglio 93cars ha una colonna che identifica la marca di ogni automobile, una colonna che ne identifica il tipo, le colonne che riportano i consumi di carburante in città e in autostrada, le colonne che indicano la lunghezza, l’altezza e il peso dell’automobile, e altre informazioni. Ogni colonna è associata a un nome e un tipo. Il nome serve a identificare i dati da utilizzare in un’analisi statistica. Il tipo influisce sul modo in cui i dati saranno analizzati. A ogni colonna è anche associato un commento facoltativo, che serve a fornire informazioni aggiuntive sul contenuto di una colonna. Nota: i dati provengono dal Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) e siamo stati autorizzati a utilizzarli. Per visualizzare o modificare le proprietà di una colonna, fate doppio clic sul nome della colonna per visualizzare la finestra Modifica colonna:

Figura 2-2. La finestra per modificare le proprietà di una colonna


È possibile specificare:

1. Nome: da 1 a 32 caratteri. Quando eseguite le analisi statistiche, le colonne sono identificate da questi nomi. Ogni colonna di un foglio deve avere un nome unico, mentre colonne di fogli differenti possono avere lo stesso nome. I nomi possono includere qualsiasi carattere, inclusi gli spazi. Il programma non fa distinzione fra lettere maiuscole e minuscole nei nomi delle variabili.

2. Commento: da 0 a 64 caratteri; fornisce informazioni aggiuntive sul contenuto di una colonna.

3. Tipo: specifica il tipo di dati che è possibile inserire nella colonna. I tipi di dati

disponibili sono i seguenti:

Tipo Contenuto Esempio

Numerico Qualsiasi numero valido 3,14 Carattere Una stringa alfanumerica Chevrolet Intero Un numero intero 105 Data Mese, giorno e anno 4/30/05 Mese Mese e anno 4/05 Trimestre Trimestre e anno Q2/05 Ora (HH:MM) Ora e minuti 3:15 Ora (HH:MM:SS) Ora, minuti e secondi 3:15:53 Data-Ora (HH:MM)

Mese, giorno, anno, ora e minuti

4/30/05 3:15

Data-Ora (HH:MM:SS)

Mese, giorno, anno, ora, minuti e secondi

4/30/05 3:15:53

Cifre decimali Numero con cifre decimali fisse (da 1 a 9)

34,10

Formula Calcolato da altre colonne MPG City/MPG Highway

Figura 2-3. Tipi di dati delle colonne


Quando inserite dei dati in una colonna, il loro formato dovrà essere conforme al tipo di dati che avete specificato per la colonna. Per esempio, se tentate di digitare un nome in una colonna di tipo numerico, il dato non sarà accettato. Il formato dei dati immessi deve essere conforme anche alle impostazioni correnti di Windows. In particolare, STATGRAPHICS Centurion XVI mantiene le impostazioni correnti di Windows relative ai seguenti elementi:

1. simbolo di separazione dei numeri decimali 2. formato e separatori dell’ora 3. formato e separatori della data

Per verificare le impostazioni correnti del vostro computer, utilizzate il Pannello di controllo di Windows. Quando inserite una data, dovrete utilizzare il formato specificato nella finestra Modifica – Preferenze di STATGRAPHICS Centurion: Anni a 4 cifre (per esempio, 4/30/2005) o a 2 cifre (per esempio, 4/30/05). Se utilizzate il secondo formato, potrete specificare soltanto gli anni compresi tra il 1950 e il 2049. Per ulteriori informazioni sulle formule, consultate il paragrafo successivo Manipolare i dati.

2.2 Accedere ai dati Il Capitolo 1 ha descritto come inserire manualmente i dati in un foglio. Spesso, gli utenti hanno accesso a dati che esistono già in altri file o applicazioni. Ci sono tre tecniche fondamentali per inserire questi dati in un foglio di STATGRAPHICS Centurion XVI:

1. Leggere il file dei dati: se i dati sono stati precedentemente inseriti in un file, potete leggerli direttamente con STATGRAPHICS Centurion selezionando File – Apri – Apri

Sorgente dati. Questa tecnica vi consente di leggere i dati memorizzati in file di vari formati, inclusi i file di Excel, i file di testo ASCII con campi delimitati, i file XML, i file di STATGRAPHICS e quelli di altre applicazioni di statistica.

2. Copiare e incollare i dati tramite gli Appunti di Windows: se avete caricato i dati in un programma come Excel, potete facilmente copiarli negli Appunti (clipboard) di Windows e poi incollarli in STATGRAPHICS selezionando Modifica – Incolla.

3. Eseguire una query SQL per caricare i dati da un database: se i dati si trovano in un database compatibile ODBC, come Oracle o Microsoft Access, potete caricarli in STATGRAPHICS selezionando File – Apri – Apri Sorgente dati e poi scegliendo l’opzione Interrogazione ODBC.


2.2.1 Leggere i dati da un file di STATGRAPHICS Centurion

Per leggere i dati che sono stati già salvati in un file di STATGRAPHICS Centurion, attivate uno dei 26 fogli del DataBook facendo clic sulla sua scheda. Poi, selezionate File – Apri –

Apri Sorgente dati e specificate File di dati STATGRAPHICS nella successiva finestra:

Figura 2-4. La finestra Apri sorgente di dati

Dopo aver fatto clic su OK, scegliete un file di STATGRAPHICS:

Figura 2-5. Selezionare un file di STATGRAPHICS

Potete leggere i file di STATGRAPHICS Centurion XVI o di versioni precedenti di STATGRAPHICS, come STATGRAPHICS Plus. I dati del file selezionato sostituiranno il contenuto del foglio attivo.


2.2.2 Leggere i dati da un file di Excel, ASCII, XML o di un’altra applicazione esterna

Per leggere i dati che sono stati salvati in un file creato da un’altra applicazione, attivate uno dei 26 fogli del DataBook facendo clic sulla sua scheda. Poi, selezionate File – Apri –

Apri Sorgente dati e specificate File di dati esterno nella successiva finestra:


Dopo aver fatto clic su OK, vedrete una finestra nella quale dovrete specificare il file da importare e altre importanti informazioni:

Figura 2-7. La finestra per selezionare un file di dati esterno


I campi di questa finestra sono:

1. Tipo di file di input – Tipo di file da importare. STATGRAPHICS Centurion XVI può importare i dati da molte altre applicazioni, fra cui Excel, Matlab, Minitab, JMP, SPSS, SAS e molti altri programmi di statistica.

2. Nome del file – Nome del file da importare. Premete il pulsante SFOGLIA per selezionare il file desiderato.

3. Worksheet – Nome del worksheet da importare. Può essere letto un solo worksheet alla volta.

4. Larghezze delle colonne – Larghezze delle colonne, separate da virgole (soltanto per i file ASCII formattati).

5. Delimitatore – Delimitatore delle colonne (soltanto per i file ASCII delimitati).

6. Righe – L’intervallo di righe all’interno del worksheet da leggere. Questo intervallo include i nomi delle variabili e i commenti, se presenti.

7. Intestazione – Le informazioni contenute nelle prime 2 righe dell’intervallo specificato (per i programmi per fogli elettronici come Excel). Le due righe immediatamente sopra i dati da leggere possono contenere i nomi delle colonne e/o i commenti. Se i nomi non sono contenuti nel file, saranno generati i nomi di default.

8. Identificatore dei valori mancanti – Qualsiasi simbolo speciale utilizzato nel file esterno per indicare i dati mancanti, come NA. Le celle che contengono il valore specificato saranno trasformate in celle vuote quando vengono poste nel foglio di STATGRAPHICS Centurion XVI.

Fate clic su OK per caricare i dati del file esterno in STATGRAPHICS Centurion XVI. Saranno analizzati i dati di ogni colonna e a ciascuna di queste sarà assegnato il tipo di dati appropriato. A questo punto i dati sono pronti per essere analizzati.

2.2.3 Trasferire i dati con il metodo copia-e-incolla

Il modo più semplice per trasferire i dati di un’altra applicazione in STATGRAPHICS Centurion XVI consiste nell’utilizzare gli Appunti (clipboard) di Windows. Per esempio, se i dati si trovano in un file di Excel, avviate Excel, selezionate i dati da copiare negli Appunti, poi scegliete l’opzione Copia dal menu Modifica di Excel. Per incollare i dati degli Appunti direttamente in un foglio di STATGRAPHICS Centurion XVI, selezionate Incolla dal menu Modifica di STATGRAPHICS. Quando i dati vengono incollati in una colonna del foglio corrente, STATGRAPHICS li esamina e sceglie il tipo di dati appropriato per la colonna.


Quando copiate e incollate i dati, potete trasferire anche i nomi e i commenti delle colonne. Per farlo, includete i nomi e i commenti delle colonne di Excel, prima di copiare i dati negli Appunti. Attivate STATGRAPHICS Centurion XVI, fate clic sulla riga delle intestazioni del foglio prima di selezionare Incolla. I primi dati degli Appunti saranno copiati nella riga delle intestazioni.

2.2.4 Leggere i dati di un database ODBC

STATGRAPHICS Centurion XVI consente anche di utilizzare ODBC per leggere i dati di un database Oracle, Access o di altro tipo. Per accedere a un database, innanzitutto selezionate File – Apri – Apri Sorgente dati. Poi attivate l’opzione Interrogazione ODBC nella seguente finestra:


Sullo schermo saranno visualizzate in sequenza alcune finestre che vi permetteranno di:

1. Selezionare il nome del database da leggere.

2. Selezionare i campi da trasferire.

3. Specificare un filtro per limitare i record da caricare.

4. Specificare il tipo di ordinamento dei risultati. A questo punto, viene creata ed eseguita una query SQL, i cui risultati vengono posti nel foglio attivo di STATGRAPHICS. Per avere informazioni dettagliate sul modo in cui vengono predisposte le query ODBC, consultate il file PDF Data Files and StatLink.


2.3 Manipolare i dati Una volta che i dati sono stati inseriti in un foglio di STATGRAPHICS Centurion XVI, è possibile manipolarli in vari modi:

1. I dati possono essere copiati e incollati in altre parti.

2. È possibile creare nuove colonne da quelle esistenti.

3. I dati possono essere trasformati utilizzando espressioni algebriche o funzioni matematiche.

4. Il foglio può essere ordinato in base al contenuto di una o più colonne.

5. I dati possono essere ricodificati per formare gruppi o per altri scopi.

6. I dati che si estendono su più colonne possono essere disposti in una sola colonna, se così è richiesto da una procedura statistica.

Queste importanti operazioni sono descritte nei prossimi paragrafi.

2.3.1 Copiare e incollare i dati

Il foglio STATGRAPHICS Centurion XVI supporta molte operazioni tipiche dei fogli elettronici, come Taglia, Copia, Incolla, Inserisci e Cancella. La cosa importante da ricordare quando eseguite queste operazioni è che ogni colonna ha un proprio tipo di dati. Se incollate inavvertitamente delle stringhe di caratteri in una colonna numerica, STATGRAPHICS cambierà il tipo di dati della colonna per accogliere i nuovi dati. Se non ricordate il tipo di dati di una colonna, fate clic sulla sua intestazione per accedere alla finestra Modifica Colonna. Questa finestra vi consente di modificare il tipo di dati della colonna.

2.3.2 Creare nuove variabili da colonne esistenti

STATGRAPHICS Centurion XVI dispone di vari operatori che semplificano i calcoli matematici. Una delle principali applicazioni di questi operatori consiste nel creare nuove variabili utilizzando i dati di colonne esistenti. In STATGRAPHICS Centurion XVI, le nuove variabili possono essere create:

1. Direttamente “al volo” utilizzando i campi delle finestre di input dei dati, senza salvare le variabili nel foglio.

2. Creando una nuova colonna in uno dei 26 fogli del DataBook.


Per esempio, supponete che siano richiesti i valori del rapporto tra il consumo di carburante in città e quello in autostrada per ogni automobile del file 93cars. Questo file contiene due colonne distinte: MPG City (miglia per gallone in città) e MPG Highway (miglia per gallone in autostrada). Per sintetizzare la distribuzione dei rapporti, potreste selezionare la procedura Analisi a una

variabile e specificare il rapporto direttamente nel campo Dati della finestra di input dei dati:

Figura 2-9. Creare una trasformazione “al volo”

Quando fate clic su OK, il programma esegue l’analisi dei valori risultanti dalla formula “100 * MPG City / MPG Highway”, senza modificare i dati del foglio:


Figura 2-10. Risultati della procedura Analisi a una variabile applicata ai dati trasformati

Il rapporto medio è 76.3% circa; il rapporto minimo è 64.0% e il massimo 93.9%. La possibilità di eseguire le procedure statistiche senza modificare i fogli è molto importante perché semplifica notevolmente l’analisi dei dati. Se serve, potete creare una nuova colonna contenente i valori trasformati. Per esempio, ritornate alla finestra con i dati del file 93cars, fate doppio clic sull’intestazione della colonna Col_27. Sarà visualizzata la finestra Modifica colonna che potrete utilizzare per definire una nuova variabile di tipo Formula con i dati della trasformazione richiesta:


Figura 2-11. Creare una colonna di formule

In questo modo, sarà creata una nuova colonna i cui valori sono calcolati dalle due colonne originali che contengono i dati sui consumi (MPG). I dati delle colonne di tipo Formula sono visualizzati in grigio, per indicare che sono stati calcolati automaticamente da altre colonne:

Figura 2-12. Rappresentazione dei valori ottenuti da una formula


Se i valori delle colonne MPG City e MPG Highway cambiano, i dati della colonna MPG Ratio saranno ricalcolati.

NOTA: di solito le formule vengono automaticamente ricalcolate quando i loro dati sono utilizzati in altri calcoli oppure vengono salvati o stampati. Per ricalcolare immediatamente le formule, selezionate Aggiorna formule dal menu Modifica.

2.3.3 Trasformare i dati

STATGRAPHICS Centurion XVI include anche numerose funzioni matematiche che possono essere utilizzate per trasformare i dati esistenti. Analogamente alla creazione di nuove variabili, le trasformazioni possono essere effettuate direttamente all’interno dei campi di una finestra di input oppure creando nuove colonne in un foglio.

Per esempio, supponete che sia richiesto un diagramma per rappresentare il consumo (in miglia per gallone) di un’automobile in funzione del logaritmo naturale del peso del veicolo. Selezionate

la procedura Grafico X-Y facendo clic sul pulsante nella barra degli strumenti principali; viene visualizzata la seguente finestra di input:

Figura 2-13. Trasformare i dati in una finestra di input


Anziché digitare il nome di una colonna in un campo di dati, digitate un’espressione di STATGRAPHICS Centurion. Queste espressioni sono formule che operano sui dati tramite simboli algebrici e operatori speciali. Potete disporre di una vasta gamma di operatori, il cui funzionamento è descritto nel file PDF STATGRAPHICS Operators. La seguente tabella riporta gli operatori più comuni:

Operatore Utilizzo Esempio

+ Addizione X+100 - Sottrazione X-100 / Divisione X/100 * Moltiplicazione X*100 ^ Elevamento a potenza X^2 ABS Valore assoluto ABS(X) AVG Media AVG(X) DIFF Differenze all’indietro DIFF(X) EXP Funzione esponenziale EXP(10) LAG Ritardo di k periodi LAG(X;k) LOG Logaritmo naturale LOG(X) LOG10 Logaritmo in base 10 LOG10(X) MAX Massimo MAX(X) MIN Minimo MIN(X) SD Deviazione standard SD(X) SQRT Radice quadrata SQRT(X) STANDARDIZE Conversione in valori Z STANDARDIZE(X)

Figura 2-14. Operatori più utilizzati di STATGRAPHICS

Quando create un’espressione di STATGRAPHICS Centurion, potete combinare più operatori utilizzando le regole di precedenza dell’algebra. Per esempio, la seguente espressione sottrae a ogni valore della colonna Weight il valore minimo della colonna e divide il risultato per la differenza tra i pesi minimo e massimo di tutte le automobili: ( Weight – MIN(Weight) ) / ( MAX(Weight) – MIN(Weight) ) Le parentesi sono necessarie per garantire che le sottrazioni siano eseguite prima della divisione. Il programma non fa distinzione fra lettere maiuscole e minuscole nelle espressioni e ignora gli spazi vuoti.


Tutte le finestre di input includono un pulsante Trasforma, come illustra la Figura 2-13. Questo pulsante è molto utile durante la creazione delle espressioni di STATGRAPHICS Centurion. Per esempio, se non ricordate il nome dell’operatore da utilizzare, posizionate il cursore in un campo di dati e poi fate clic su Trasforma; sarà visualizzata una finestra simile a questa:

Figura 2-15. La finestra visualizzata dal pulsante Trasforma

A destra c’è l’elenco di tutti gli operatori di STATGRAPHICS Centurion, con un punto interrogativo (?) per ogni argomento da specificare. Se fate clic sul nome di un operatore, questo sarà inserito nel campo Espressione. Dopo avere sostituito i punti interrogativi con i numeri o i nomi di colonne appropriati, fate clic sul pulsante Visualizza per vedere i primi valori generati dall’espressione o sul pulsante OK per inserire l’espressione nella finestra di input.

NOTA: non è necessario utilizzare il pulsante Trasforma se digitate direttamente l’espressione nella finestra di input.

La trasformazione impostata nella finestra di input (come quella della Figura 2-13) sarà utilizzata dalla procedura di analisi:


Figura 2-16. La procedura Grafico X-Y ha utilizzato i valori trasformati dei pesi delle automobili

Gli operatori di STATGRAPHICS Centurion possono essere utilizzati anche per creare colonne di formule, simili a quelle descritte nel precedente paragrafo.

2.3.4 Ordinare i dati

Il contenuto di un foglio può essere ordinato selezionando la colonna o le colonne da utilizzare per definire il criterio di ordinamento e poi utilizzando l’opzione Ordina dati del menu Modifica. Per esempio, per ordinare i dati del file 93cars in base ai consumi delle automobili, selezionate le colonne MPG City e MPG Highway e poi scegliete l’opzione Ordina dati. Sullo schermo sarà visualizzata la seguente finestra:


Figura 2-17. La finestra con le opzioni di ordinamento

Potete specificare una o due colonne come base di ordinamento del contenuto del foglio. Per esempio, se scegliete MPG City come colonna primaria di ordinamento e MPG Highway come colonna secondaria, i dati saranno ordinati prima in funzione dei consumi in città e, poi, per le automobili che hanno lo stesso valore di MPG City, in funzione dei consumi in autostrada:

Figura 2-18. Il file 93cars.sgd dopo l’ordinamento


NOTA: non occorre ordinare i dati prima di eseguire una procedura statistica, perché ciò sarà fatto automaticamente dalla procedura, se necessario. Il file sul disco non viene modificato quando eseguite un’operazione di ordinamento, a meno che non salviate i dati ordinati. Tale operazione influisce soltanto sull’ordine in cui le righe vengono visualizzate nel foglio di STATGRAPHICS Centurion.

2.3.5 Ricodificare i dati

A volte conviene ricodificare i dati raggruppandoli in gruppi omogenei o modificando le loro etichette. Per ricodificare una colonna di dati, innanzitutto fate clic sull’intestazione della colonna da ricodificare; poi selezionate Ricodifica dati dal menu Modifica. Sarà visualizzata la seguente finestra:

Figura 2-19. La finestra per ricodificare i dati


Per esempio, la colonna Domestic del file 93cars contiene il codice 1 per le automobili prodotte negli Stati Uniti e il codice 0 per tutte le altre. Per cambiare il codice 0 in “Foreign” e il codice 1 in “U.S.”, potete utilizzare la finestra precedente. È possibile ricodificare fino a 7 intervalli di valori alla volta. Il documento PDF Edit Menu descrive dettagliatamente due esempi di ricodifica.

2.3.6 Combinare più colonne

Molte procedure statistiche di STATGRAPHICS Centurion XVI richiedono che i dati da analizzare siano disposti in un’unica colonna. A volte i dati non sono organizzati in questo modo. Per esempio, supponete di avere un piccolo campione di 12 osservazioni, disposte in 4 colonne, così:

Figura 2-20. Un campione di dati disposti su più colonne

Per disporre questi dati nella stessa colonna, potreste eseguire più operazioni copia-e-incolla. Una soluzione più semplice consiste nell’utilizzare la procedura Unisci colonne, che è un’opzione del menu Modifica. Questa procedura presenta innanzitutto una finestra di input che richiede i nomi delle colonne con i dati da analizzare:


Figura 2-21. La finestra di input per combinare le colonne


1. Dati – Le colonne da combinare.

2. Seleziona – Permette di selezionare il sottoinsieme di righe da includere nella nuova colonna.

3. Poni nel datasheet – Il foglio di destinazione dei dati combinati.

4. Ordine delle colonne – Impila i dati per colonne (una colonna dopo l’altra) o per righe.

5. Crea colonna con numeri di riga – Crea una seconda colonna che identifica le righe originali che contenevano i singoli dati.

6. Crea colonna con identificatori – Crea una seconda colonna che identifica le colonne originali che contenevano i singoli dati.

7. Elimina i valori mancanti – Ignora i valori mancanti, anziché lasciare una cella vuota per ciascuno di essi.


Dopo aver fatto clic su OK, vedrete i dati combinati in un’unica colonna:

Figura 2-22. I dati combinati in un’unica colonna

2.4 Generare i dati STATGRAPHICS Centurion XVI è in grado di generare dati e di inserirli nelle colonne di un foglio. Questo paragrafo descrive due importanti esempi:

1. Generare semplici strutture di dati.

2. Generare numeri casuali.

2.4.1 Generare strutture di dati

Molte procedure di STATGRAPHICS Centurion XVI, in particolare quelle che eseguono l’analisi della varianza, richiedono che i dati da analizzare siano posti in un’unica colonna del foglio, insieme a una o due colonne di codici che identificano i fattori esplicativi. Per esempio, considerate i dati della seguente tabella a doppia entrata:


Blend Treatment 1 Treatment 2 Treatment 3

1 75 82 91 2 78 85 93 3 77 84 92 4 75 85 96

Per analizzare questi dati utilizzando la procedura ANOVA a più fattori, è necessario disporli nel foglio nel seguente formato:

Figura 2-23. La struttura richiesta

Le prime due colonne indicano i livelli dei fattori corrispondenti a ciascun dato da analizzare. La terza colonna contiene tutte le osservazioni. Per creare questa struttura, la soluzione più semplice, di solito, consiste nel digitare i dati nelle prime due colonne. Tuttavia, poiché i dati delle colonne ricalcano un semplice schema, è possibile generarli utilizzando gli operatori speciali di STATGRAPHICS Centurion. Per esempio, i numeri della colonna Blend possono essere generati facendo clic sull’intestazione della prima colonna e poi selezionando Genera dati dal menu Modifica. Sarà visualizzata una finestra, dove potrete inserire un’espressione appropriata:


Figura 2-24. Generare i numeri della colonna Blend

L’opzione Genera dati calcola un’espressione di STATGRAPHICS Centurion e inserisce i risultati nella colonna selezionata. Nella precedente espressione, i due operatori utilizzati sono:

COUNT(inizio; fine; incremento) – Genera i valori compresi tra inizio e fine, con l’incremento specificato. Per esempio, COUNT(1;4;1) genera i numeri interi 1, 2, 3 e 4. Nota: come detto alla fine del Paragrafo 2.1, il formato dei dati immessi deve essere conforme alle impostazioni correnti del vostro sistema; per esempio, se avete impostato la virgola come simbolo di separazione degli argomenti delle funzioni, questa formula dovrà essere digitata così: COUNT(1,4,1). REP(X; ripetizioni) – Ripete ciascun valore di X per il numero di volte specificato da ripetizioni, in gruppi. In questo caso, ogni numero intero compreso tra 1 e 4 viene ripetuto 3 volte.

I numeri della colonna Treatment possono essere generati in maniera analoga facendo clic sull’intestazione della seconda colonna, selezionando Genera dati dal menu Modifica e digitando la seguente formula:


Figura 2-25. Generare i numeri della colonna Treatment

Questa espressione usa un operatore aggiuntivo:

RESHAPE(X; dimensione) – Ripete i valori di X in modo circolare, finché non avrà generato un numero di valori pari a dimensione. In questo caso, la sequenza 1, 2, 3 viene ripetuta 4 volte.

Questi generatori di schemi possono essere utili quando il file dei dati da creare è grande.

2.4.2 Generare numeri casuali

I numeri casuali possono essere generati in STATGRAPHICS Centurion XVI in due modi:

1. Se i numeri appartengono a una distribuzione esponenziale, gamma, lognormale, normale, uniforme o di Weibull, possono essere generati facendo clic sull’intestazione di una colonna, selezionando Genera dati dal menu Modifica e digitando l’espressione appropriata di STATGRAPHICS Centurion.

2. Per altre distribuzioni, i numeri casuali devono essere generati con la procedura

Distribuzioni di probabilità.


Per esempio, supponete che siano richiesti 100 numeri casuali di una distribuzione normale con una media di 20 e una deviazione standard pari a 2. Fate clic sull’intestazione di una colonna vuota per attivarla. Poi selezionate Genera dati dal menu Modifica e completate la seguente finestra:

Figura 2-26. Generare i numeri casuali di una distribuzione normale

La sintassi dell’operatore RNORMAL è:

RNORMAL(n; mu; sigma) – Genera n numeri pseudo-casuali di una distribuzione normale con una media mu e una deviazione standard sigma.

Fate clic su OK per generare i numeri casuali e inserirli nella colonna selezionata. La sintassi degli altri generatori di numeri casuali è descritta nel documento PDF STATGRAPHICS Centurion Operators.

2.5 Proprietà del DataBook Questo capitolo ha descritto vari aspetti importanti della gestione dei dati di STATGRAPHICS Centurion XVI. In particolare, ha spiegato come leggere i dati di file e database e come manipolarli dopo che sono stati inseriti in un foglio di STATGRAPHICS. In qualsiasi momento è possibile visualizzare lo stato dei fogli attivando la finestra del DataBook e selezionando Proprietà DataBook dal menu Modifica o StatLink dal menu File:


Figura 2-27. La finestra con le proprietà del DataBook

Questa finestra mostra l’origine dei dati di ciascun foglio. Per evitare che i dati di un foglio possano essere modificati accidentalmente, attivate l’attributo Lettura soltanto in corrispondenza del foglio. L’opzione Acquisire consente di rileggere periodicamente il file dei dati di origine in modo che le procedure statistiche siano automaticamente aggiornate. Questa importante funzionalità è descritta nel Capitolo 5.

2.6 Visualizzatore dei dati In STATGRAPHICS Centurion XVI è stata introdotta una nuova procedura per visualizzare i file di dati. La procedura, accessibile selezionando Visualizzatore dei dati dal menu Strumenti, genera un prospetto sintetico con i valori non mancanti, unici, minimi e massimi delle variabili selezionate:


Visualizzatore dei dati

Numero di colonne: 26 Numero di righe: 93 Numero di casi completi: 82

Colonna Valori Valori

Nome Commento Tipo non mancanti unici Minimo Massimo

Make Carattere 93 32

Model Carattere 93 93

Type Carattere 93 6

Min Price price for basic version in $1,000 Numerico 93 79 6,7 45,4

Mid Price average of min and max prices in $1,000 Numerico 93 81 7,4 61,9

Max Price price for a premium version in $1,000 Numerico 93 79 7,9 80,0

MPG City miles per gallon in city driving Numerico 93 21 15,0 46,0

MPG Highway miles per gallon in highway driving Numerico 93 22 20,0 50,0

Air Bags 0=none, 1=driver only, 2=driver and passenger Numerico 93 3 0 2,0

Drive Train Carattere 93 3

Cylinders Numerico 92 5 3,0 8,0

Engine Size liters Numerico 93 26 1,0 5,7

Horsepower maximum Numerico 93 57 55,0 300,0

RPM revs per minute at maximum horsepower Numerico 93 24 3800,0 6500,0

Revs per Mile revs per mile in highest gear Numerico 93 78 1320,0 3755,0

Manual 0=no, 1=yes Numerico 93 2 0 1,0

Fueltank gallons Numerico 93 38 9,2 27,0

Passengers persons Numerico 93 6 2,0 8,0

Length inches Numerico 93 51 141,0 219,0

Wheelbase inches Numerico 93 27 90,0 119,0

Width inches Numerico 93 16 60,0 78,0

U Turn Space feet Numerico 93 14 32,0 45,0

Rear seat inches Numerico 91 24 19,0 36,0

Luggage cu. ft. Numerico 82 16 6,0 22,0

Weight pounds Numerico 93 81 1695,0 4105,0

Domestic 1=U.S. manufacturer Numerico 93 2 0 1,0

Figura 2-28. Il prospetto sintetico del Visualizzatore dei dati

59 Analisi statistica

Analisi statistica

Eseguire analisi statistiche, selezionare tabelle e grafici addizionali, scegliere le opzioni, modificare i dati di input e salvare i risultati

Il menu principale di STATGRAPHICS Centurion XVI include oltre 160 procedure di analisi statistica; la modalità di utilizzo di tutte queste procedure è essenzialmente identica:

1. Quando selezionate una procedura dal menu, sullo schermo viene visualizzata una finestra di input dei dati. I campi di questa finestra sono utilizzati per specificare le variabili da analizzare.

2. Se la procedura selezionata ha delle opzioni che influiscono su tutte le tabelle e i grafici all’interno della procedura, viene visualizzata la finestra Opzioni di analisi per selezionare le impostazioni desiderate.

3. Se la procedura selezionata ha più di una tabella o più di un grafico, viene visualizzata la finestra Tabelle e grafici nel quale potrà essere selezionato l’output desiderato.

4. I dati specificati vengono letti e analizzati, e viene creata una nuova finestra di analisi.

5. Le opzioni selezionate possono essere modificate utilizzando il pulsante Opzioni di analisi nella barra degli strumenti di analisi; le vostre modifiche saranno automaticamente riportate nelle tabelle e nei grafici della finestra di analisi.

6. Per aggiungere altri grafici e tabelle a quelli standard, utilizzate il pulsante Tabelle e grafici nella barra degli strumenti di analisi.

7. Per modificare un grafico o una tabella, ingrandite il corrispondente pannello e selezionate Opzioni per il pannello nella barra degli strumenti di analisi.

Capitolo

3


8. Per modificare il titolo, la scala, i caratteri, il tipo di indicatore e altri elementi di un grafico, prima fate doppio clic sul grafico per ingrandirlo e poi selezionate Opzioni per il grafico nella barra degli strumenti di analisi.

9. Le tabelle e i grafici possono essere stampati, pubblicati come file HTML, copiati in altre applicazioni, come Microsoft PowerPoint, o salvati in StatReporter.

10. I risultati numerici possono essere salvati nelle colonne di un foglio qualsiasi utilizzando il pulsante Salva i risultati nella barra degli strumenti di analisi.

11. Un’intera analisi può essere salvata su disco in uno StatFolio per essere riutilizzata successivamente.

Questo capitolo descrive dettagliatamente una tipica procedura di analisi. L’obiettivo dell’analisi è trovare un modello statistico che mette in relazione il consumo di carburante in città con il peso di 93 automobili. I dati da analizzare si trovano nel file 93cars.sgd. I consumi sono espressi in miglia per gallone (MPG) e i pesi in libbre (pound). Un grafico a dispersione dei dati è illustrato qui di seguito:

Figura 3-1. Grafico a dispersione XY che rappresenta i consumi di carburante in città in funzione del peso delle automobili

Come era prevedibile, la distanza percorsa in città (MPG City) ha una correlazione inversa con il peso (Weight) del veicolo. Il grafico mette in evidenza una certa non-linearità nella relazione; inoltre almeno un punto può essere considerato un potenziale outlier.


La Regressione semplice è la procedura principale di STATGRAPHICS Centurion XVI che consente di trovare un modello statistico che mette in relazione due variabili. Questa procedura è in grado di determinare sia i modelli lineari sia quelli non lineari. Il modello più semplice che mette in relazione una variabile dipendente Y con una variabile indipendente X è la linea retta, espressa dalla seguente equazione

Y = a + b X

dove b è il coefficiente angolare (o pendenza) della retta e a è l’intercetta. Se la relazione tra le variabili non è lineare, è possibile utilizzare un modello curvilineo, come quello esponenziale

Y = exp(a + b X)

3.1 Finestre di input dei dati

La procedura Regressione semplice si trova nel menu principale:

1. selezionate Relazione – Un fattore, se state utilizzando il menu classico;

2. selezionate Improve – Analisi della regressione – Un fattore, se state utilizzando il menu Six Sigma.

La procedura inizia con una tipica finestra di input dei dati:

Figura 3-2. La finestra di input dei dati della procedura Regressione semplice


I primi due campi sono obbligatori: Y: la variabile dipendente o risposta; X: la variabile indipendente o esplicativa.

Nei campi di input potete inserire il nome di una colonna come MPG City o un’espressione di STATGRAPHICS Centurion come LOG(MPG City) . Se più fogli contengono una colonna con il nome specificato, anteponete la lettera del foglio desiderato al nome della colonna. Per esempio, se i fogli A e B contenessero una colonna Weight, per utilizzare la colonna del foglio A, dovreste specificare il nome A.Weight.

Il campo Seleziona può essere utilizzato per selezionare un sottoinsieme di righe del foglio. Per esempio, se in questo campo digitate un’istruzione come FIRST(50), saranno utilizzate soltanto le prime 50 righe del foglio. Il seguente prospetto elenca le tipiche espressioni del campo Seleziona:

Espressione Utilizzo Esempio

FIRST(k) Seleziona le prime k righe. FIRST(50) LAST(k) Seleziona le ultime k righe. LAST(50) ROWS(inizio;fine) Seleziona le righe comprese tra

inizio e fine, estremi inclusi. ROWS(21;70)

RANDOM(k) Seleziona un insieme casuale di k righe.

RANDOM(50)

colonna < valore Seleziona soltanto le righe dove colonna è minore di valore.

Passengers < 5

colonna <= valore Seleziona soltanto le righe dove colonna è minore o uguale a valore.

Passengers <= 5

colonna > valore Seleziona soltanto le righe dove

colonna è maggiore di valore. Passengers > 5

colonna >= valore Seleziona soltanto le righe dove

colonna è maggiore o uguale a valore. Passengers >= 5

colonna = valore Seleziona soltanto le righe dove colonna è uguale a valore.

Cylinders = 6

colonna <> valore Seleziona soltanto le righe dove colonna è diverso da valore.

Cylinders <> 4

condizione1 & condizione2 Seleziona le righe che soddisfano entrambe le condizioni.

Cylinders = 6 & Make = “Ford”

condizione1 | condizione2 Seleziona le righe che soddisfano almeno una delle condizioni.

Cylinders = 6 | Make = “Ford”

binarycolumn Seleziona le righe dove il valore di binarycolumn è diverso da 0.

Domestic

Figura 3-3. Espressioni ammesse nel campo Seleziona


Quando specificate una condizione che fa riferimento a una variabile non numerica, valore deve essere racchiuso tra parentesi; in questo caso, il programma fa distinzione fra lettere maiuscole e minuscole. È possibile combinare più condizioni utilizzando i simboli AND (&) e OR (|).

Ciascuna delle espressioni ammesse nel campo Seleziona, in effetti, genera una sequenza di valori booleani 0 e 1, dove 0 sta per falso e 1 sta per vero. Quando un’espressione viene utilizzata nel campo Seleziona di una finestra di input, il suo effetto è selezionare tutte le righe per le quali la condizione è vera, escludendo tutte quelle per le quali la condizione è falsa.

3.2 Finestre di analisi

Una volta specificati i dati, viene creata una nuova finestra di analisi:

Figura 3-4. La finestra di analisi della procedura Regressione semplice

La finestra è formata da più pannelli divisi da barre mobili. Le tabelle si trovano sul lato sinistro della finestra, i grafici sul lato destro.


Per ingrandire il pannello di una tabella o di un grafico, fate doppio al suo interno; il pannello occuperà tutto lo spazio della finestra:

Figura 3-5. Un pannello ingrandito della finestra di analisi della Regressione semplice

Per ripristinare la visualizzazione degli altri pannelli, fate doppio clic di nuovo sul pannello ingrandito. Quando è attiva una finestra di analisi, viene visualizzata una seconda barra di strumenti sotto la barra degli strumenti principali di STATGRAPHICS Centurion XVI. La barra degli strumenti di analisi si presenta in questo modo:

Ogni icona (pulsante) di questa barra svolge una funzione importante.


3.2.1 Pulsante Finestra di input

Questo pulsante visualizza la finestra di input dei dati originariamente utilizzata per specificare le variabili, come illustra la Figura 3-2. Se modificate le variabili e fate clic su OK, i risultati dell’analisi saranno automaticamente aggiornati. Questo vi consente di provare diverse combinazioni di dati senza bisogno di avviare una nuova analisi.

3.2.2 Pulsante Opzioni di analisi

Di solito, le analisi hanno numerose opzioni. La prima volta che eseguite un’analisi, vengono automaticamente selezionati i valori di default per queste opzioni, che sono appropriati alla maggior parte dei casi. Tuttavia, se volete modificare queste impostazioni di default, utilizzate il pulsante Opzioni di analisi all’interno di una procedura. Per la Regressione semplice, la finestra Opzioni di analisi specifica il tipo di modello da trovare e il metodo per determinare i coefficienti incogniti del modello:

Figura 3-6. La finestra con le opzioni di analisi per la procedura Regressione semplice

Esaminando la tabella dei metodi alternativi della Figura 3-7, è possibile notare che molti modelli curvilinei presentano un valore di R-quadrato più grande rispetto al modello lineare. Il primo della lista è il modello Curva S. Se avete selezionato questo modello nella finestra con le opzioni di analisi e fate clic su OK, l’intera analisi cambierà conformemente a questa nuova scelta. Come potete notare esaminando il grafico del nuovo modello, Curva S approssima molto bene la curvatura dei dati:


Figura 3-7. Il modello Curva S

3.2.3 Pulsante Tabelle e grafici

Questo pulsante visualizza la lista delle tabelle e dei grafici che possono essere aggiunti alla finestra di analisi. Per la procedura Regressione semplice le tabelle e i grafici disponibili sono i seguenti:

Figura 3-8. La finestra con le tabelle e i grafici della procedura Regressione semplice


Per esempio, se decidete di aggiungere le tabelle che riportano i modelli alternativi e i residui anomali, saranno aggiunti nuovi pannelli alla finestra di analisi:

Figura 3-9. La finestra di analisi della Regressione semplice con le nuove tabelle

Se selezionate un grafico dei residui, sarà aggiunto un nuovo grafico nella finestra di analisi:


Figura 3-10. La finestra di analisi della Regressione semplice con un nuovo grafico

3.2.4 Pulsante Opzioni per il pannello

Oltre alle opzioni che si applicano all’intera analisi, è possibile scegliere delle opzioni per singoli grafici o tabelle. Per accedere a queste opzioni, innanzitutto bisogna ingrandire il grafico o la tabella e poi utilizzare il pulsante Opzioni per il pannello. Per un grafico del modello adattato, le opzioni disponibili sono le seguenti:


Figura 3-11. Le opzioni per un grafico del modello adattato

Per esempio, se disattivate la casella Limiti di confidenza e fate clic su OK, il grafico sarà rappresentato senza i limiti di confidenza interni:


Figura 3-12. Il grafico del modello approssimato senza i limiti di confidenza

3.2.5 Pulsante Salva i risultati

Questo pulsante consente di salvare i risultati numerici di un’analisi statistica nelle colonne di un foglio di STATGRAPHICS Centurion. Per la procedura Regressione semplice sono disponibili le seguenti opzioni:


Figura 3-13. Le opzioni di salvataggio dei risultati della procedura Regressione semplice

Per salvare i risultati, attivate gli elementi preferiti nel riquadro Salva. Per ogni elemento da salvare scegliete un nome di colonna nel riquadro Variabili target e specificate il foglio nel riquadro Datasheet. Se intendete salvare i commenti insieme ai dati, attivate la casella Salva commenti.

La casella Salvataggio automatico consente di salvare automaticamente gli elementi selezionati ogni volta che ripetete l’analisi. Ciò è utile se intendete salvare i risultati dell’analisi in uno StatFolio, perché le analisi vengono ripetute ogni volta che viene caricato uno StatFolio. Se attivate la casella Salvataggio automatico, potete configurare uno StatFolio per calcolare e salvare automaticamente i risultati statistici desiderati. Combinando questa funzionalità con quelle di scripting descritte nel Capitolo 5, potrete automatizzare molte operazioni.


3.2.6 Pulsanti per i grafici

Quando un grafico è ingrandito nella finestra di analisi, si rendono disponibili vari pulsanti addizionali, tra i quali figurano:

Opzioni per il grafico – Visualizza una finestra che permette di cambiare i colori, le etichette, la scala degli assi e altri elementi.

Aggiungi testo – Permette di aggiungere dei testi al grafico.

Jitter – Distribuisce casualmente lo spazio tra i punti del grafico nelle direzioni orizzontale e verticale per impedire che si sovrappongano.

Brush – Colora i punti di un grafico a dispersione in funzione del valore della variabile selezionata.

Smussa/Ruota – Applica un metodo di smoothing a un grafico bidimensionale o ruota un grafico tridimensionale.

Zoom e Panoramica – Ingrandisce o rimpicciolisce il grafico nella direzione X, Y o Z.

Esplora – Esplora dinamicamente i grafici a superficie e a contorno.

Identifica – Visualizza un’etichetta che identifica un punto quando fate clic su di esso con il mouse.

Localizza per nome – Colora di rosso tutti i punti che hanno un valore uguale a quello immesso nel campo Etichetta (da utilizzare insieme al pulsante Identifica).

Localizza per riga – Colora di rosso tutti i punti che hanno un numero di riga uguale a quello immesso nel campo Riga. Questi pulsanti sono descritti dettagliatamente nel Capitolo 4.


3.2.7 Pulsante Escludi

Alcune procedure statistiche vi consentono di eliminare gli outlier sospetti dai dati da analizzare; per fare ciò, ingrandite il grafico, fate clic su un punto sospetto e poi sul pulsante Escludi. Per esempio, il grafico della Figura 3-12 mostra un punto che è ben oltre i limiti di previsione. Se fate clic su questo punto e poi sul pulsante Escludi, il modello sarà ricalcolato senza tenere conto di questo outlier. Il grafico risultante rappresenta il nuovo modello, indicando con un simbolo × il punto o i punti che sono stati esclusi dall’analisi:

Figura 3-14. Il modello Curva S dopo l’esclusione di un outlier sospetto

Anche gli altri grafici e le tabelle della finestra di analisi saranno automaticamente adattati al nuovo modello. È possibile escludere più punti da un modello facendo clic su un punto alla volta e poi sul pulsante Escludi. Per reinserire nell’analisi un punto escluso, fate clic sul corrispondente simbolo × e poi sul pulsante Escludi.


3.3 Stampare i risultati I risultati di un’analisi statistica possono essere stampati in due modi:

1. Per stampare tutti i grafici e le tabelle della finestra di analisi, fate clic sul pulsante Stampa nella barra degli strumenti principali oppure selezionate Stampa dal menu File.

2. Per stampare un particolare grafico o tabella, fate clic sul corrispondente pannello con il

pulsante destro del mouse e selezionate Stampa dal menu popup. Nel primo caso, sarà visualizzata la seguente finestra:

Figura 3-15. La finestra per stampare i risultati di un’analisi

Specificate i pannelli da stampare nel riquadro Stampa. Se attivate la casella Tutte le analisi, potete stampare contemporaneamente i risultati di altre finestre di analisi. È possibile accedere ad altre opzioni di stampa selezionando Imposta pagina dal menu File:


Figura 3-16. La finestra per impostare la pagina

Questa finestra consente di:

1. Impostare i margini delle pagine stampate. 2. Indicare le informazioni da stampare nelle intestazioni di ciascuna pagina.

3. Specificare se ciascun pannello (tabella o grafico) deve essere stampato su una

pagina distinta (1 Pannello/Pagina) o se più pannelli possono essere stampati sulla stessa pagina (Più pannelli/Pagina).

4. Specificare le dimensioni relative dei grafici come percentuali delle dimensioni della pagina.

5. Stampare in bianco e nero, anche se la vostra stampante è a colori.

6. Stampare l’eventuale sfondo a colori dei grafici.

7. Raddoppiare il numero di pixel per stampare le linee e i punti di un grafico.

L’opzione Linee spesse potrebbe rendere più scuri i grafici stampati con una stampante ad alta risoluzione.


Altre opzioni, come il formato o l’orientamento del foglio (orizzontale o verticale), sono disponibili selezionando Imposta stampante dal menu File; in questo caso, sarà visualizzata la finestra associata al driver della vostra stampante.

3.4 Pubblicare i risultati

I risultati di un’analisi statistica possono essere pubblicati nel formato HTML per essere visualizzati con un browser del Web; per fare questo, selezionate l’opzione StatPublish dal menu File. Otterrete un documento HTML che potrà essere utilizzato da tutti, anche da coloro che non hanno STATGRAPHICS Centurion XVI nei loro computer. Questo procedimento è descritto nel Capitolo 5. I risultati di un’analisi statistica possono essere anche copiati e commentati in una finestra di StatReporter e, infine, salvati in un file RTF (rich text format); questo file potrà essere letto direttamente da programmi come Microsoft Word. StatReporter è descritto nel Capitolo 7.

77 Grafici

Grafici

Modificare i grafici, salvare i profili dei grafici, interagire con i grafici, salvare i grafici in file distinti e copiare i grafici in altre applicazioni

Le 160 procedure statistiche di STATGRAPHICS Centurion XVI generano centinaia di tipi di grafici. Per agevolare il processo di analisi dei dati, ogni volta che viene creato un grafico vengono utilizzate le impostazioni di default dei titoli, delle scale e di altri parametri. Nella maggior parte dei casi, le impostazioni di default sono sufficienti per completare l’analisi. Ma per pubblicare i risultati finali, è importante realizzare grafici di qualità.

Questo capitolo descrive tutto ciò che bisogna conoscere per elaborare i grafici di STATGRAPHICS Centurion XVI. Imparerete a migliorare il loro aspetto e a copiarli in altre applicazioni, come Microsoft Word e PowerPoint. Sarete in grado di interagire con i grafici; per esempio, se c’è un punto interessante nel grafico, potrete ottenere varie informazioni su di esso. Potrete anche ruotare un grafico 3D per rilevare eventuali relazioni tra le variabili rappresentate sugli assi X, Y e Z.

Come esempio considereremo ancora i dati del file 93cars.sgd. Per illustrare le principali operazioni con i grafici, utilizzeremo il grafico del modello approssimato che mette in relazione il consumo di carburante in città con il peso delle automobili.

Capitolo

4

78 Grafici

4.1 Modificare i grafici La procedura Regressione semplice, di solito, viene utilizzata per trovare un modello curvilineo che mette in relazione una variabile risposta Y con una variabile esplicativa X. Come detto nel precedente capitolo, il modello Curva S approssima bene la relazione tra il consumo di carburante in città (colonna MPG City) e il peso delle automobili (Weight), i cui valori sono inclusi nel file 93cars.sgd.

La prima volta che viene creato, un grafico del modello approssimato Curva S si presenta così:

Figura 4-1. Grafico del modello approssimato con titoli e scale di default

I titoli, le scale, i tipi di punti e linee, i colori e altri attributi del grafico sono stati generati automaticamente.

79 Grafici

4.1.1 Opzioni per il layout

Per modificare un grafico, innanzitutto fate doppio clic su di esso per ingrandirlo; poi fate clic

sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi. Sarà visualizzata una finestra con le schede corrispondenti ai vari elementi del grafico. La scheda Layout della finestra Opzioni per i grafici consente di modificare alcune caratteristiche principali del grafico:

Figura 4-2. La scheda Layout nella finestra Opzioni per i grafici

È possibile modificare la posizione dei segni di graduazione degli assi, lo spessore degli assi e il colore dello sfondo e della cornice del grafico. Per esempio, scegliendo il colore giallo per lo Sfondo e aggiungendo gli Effetti 3D, si ottiene un grafico simile a quello illustrato nella pagina successiva:

80 Grafici

Figura 4-3. Il grafico con un nuovo colore di sfondo e l’effetto tridimensionale

81 Grafici

4.1.2 Opzioni per la griglia

La scheda Griglia consente di aggiungere una griglia al grafico:

Figura 4-4. La scheda Griglia nella finestra Opzioni per i grafici

Aggiungendo una griglia grigia tratteggiata in Entrambe le direzioni, si ottiene il seguente grafico:

82 Grafici

Figura 4-5. Il grafico con la griglia

83 Grafici

4.1.3 Opzioni per le linee

La scheda Linee consente di specificare il tipo, il colore e lo spessore delle linee di un grafico:

Figura 4-6. La scheda Linee nella finestra Opzioni per i grafici

Un grafico come quello del modello approssimato ha tre linee distinte (1, 15 e 16 nel riquadro Linee): la linea della migliore approssimazione, i limiti di confidenza interni e i limiti di previsione esterni. Per modificare uno di questi tipi di linee, fate clic sul pulsante da 1 a 20 e poi selezionate gli attributi preferiti. Aumentando lo spessore della linea centrale e modificando gli altri due tipi di linee si ottiene:

84 Grafici

Figura 4-7. Il grafico dopo aver modificato i tipi di linee

NOTA: lo spessore può essere modificato soltanto nelle linee continue.

85 Grafici

4.1.4 Opzioni per i punti

La scheda Punti consente di specificare il tipo, il colore e la dimensione dei punti di un grafico:

Figura 4-8. La scheda Punti nella finestra Opzioni per i grafici

Il pulsante 1 controlla gli attributi del primo gruppo di punti di un grafico. Nell’esempio in esame c’è uno solo gruppo di punti. Impostando il rombo pieno nel riquadro Tipi di punti, si ottiene il seguente grafico:

86 Grafici

Figura 4-9. Il grafico con un nuovo tipo di punto

87 Grafici

4.1.5 Opzioni per il titolo principale

La scheda Titolo principale consente di specificare il testo e il tipo di caratteri del titolo principale del grafico:

Figura 4-10. La scheda per definire il titolo principale di un grafico

Il titolo di un grafico può occupare due righe. Un codice “{3}” in un campo del titolo indica che il testo sarà automaticamente generato dalla procedura di analisi; di solito, il titolo automatico contiene nomi di variabili o i valori di alcune statistiche. Potete modificare i titoli, inclusi quelli automatici. Potete anche spostare un titolo trascinandolo con il mouse:

88 Grafici

Figura 4-11. Il grafico con il titolo principale modificato

89 Grafici

4.1.6 Opzioni per la scala degli assi

La finestra Opzioni per i grafici contiene anche le schede che consentono di modificare il titolo e la scala degli assi:

Figura 4-12. La scheda Asse X nella finestra Opzioni per i grafici

Ci sono molti campi importanti in questa finestra:

1. Titolo: il titolo dell’asse.

2. Da, A, Incremento e Omettere: impostano la scala dei segni di graduazione degli assi. Il campo Omettere consente di escludere la visualizzazione di alcune etichette dei segni di graduazione, se sono troppo ravvicinate. Per esempio, per visualizzare un’etichetta sì e una no, impostate a 1 il campo Omettere.

3. Ruotare le etichette dell’asse: visualizza verticalmente le etichette dei segni di graduazione.

4. Senza potenza: impedisce che i numeri grandi e piccoli siano rappresentati da etichette come (X 1000).

90 Grafici

5. Scala: traccia gli assi utilizzando due scale logaritmiche in base 10.

6. Quando i dati cambiano: specifica se la scala dovrà restare costante oppure no quando nel grafico vengono rappresentati nuovi dati.

7. Font …: questi pulsanti consentono di modificare il colore, la dimensione e lo stile dei caratteri

del titolo e dei segni di graduazione. Il risultato ottenuto con le precedenti impostazioni e con analoghe modifiche all’asse Y è il seguente:

Figura 4-13. Il grafico dopo la modifica dei titoli e della scala degli assi X e Y

91 Grafici

4.1.7 Opzioni per il riempimento delle aree

Alcuni grafici sono formati da elementi (barre, poligoni o fette di torta) le cui aree possono essere colorate o riempite mediante la scheda Riempimenti nella finestra Opzioni per i grafici:

Figura 4-14. La scheda Riempimenti nella finestra Opzioni per i grafici

Il pulsante 1 controlla il primo tipo di riempimento del grafico. In un istogramma, tutte le barre usano il primo tipo di riempimento. In alcuni grafici, come quelli a torta, vengono utilizzati vari tipi di riempimento. In questi casi, i pulsanti da 2 a 20 controllano gli altri tipi di riempimento. Per i grafici, come gli istogrammi, è consigliabile scegliere un tipo di riempimento non uniforme quando si stampa in bianco e nero:

92 Grafici

Figura 4-15. Istogramma delle frequenze con un tipo di riempimento personalizzato

4.1.8 Opzioni per testi, etichette e legende

Per i grafici che contengono legende o etichette aggiuntive, la finestra Opzioni per il grafico include delle schede che consentono di modificare i testi e i tipi di caratteri di tali elementi. 4.1.9 Aggiungere nuovi testi

Per inserire nuovi testi in un grafico, fate clic sul pulsante Aggiungi testo nella barra degli strumenti di analisi. Sarà visualizzata una finestra dove potrete digitare il nuovo testo:

Figura 4-16. La finestra per inserire nuovi testi nel grafico

93 Grafici

Il testo sarà posizionato inizialmente sotto il titolo principale; per spostarlo, trascinatelo con il mouse:

Figura 4-17. Il grafico con una nuova stringa di testo

Per modificare il testo che avete aggiunto al grafico, fate clic su di esso e poi sul pulsante Opzioni per il grafico.

4.2 Jittering di un grafico a dispersione Se una o entrambe le variabili di un grafico a dispersione sono discrete, la probabilità che i punti si trovino esattamente nella stessa posizione oscurandosi a vicenda è alta. Il pulsante Jitter nella barra degli strumenti di analisi risolve questo problema distribuendo casualmente lo spazio tra i punti del grafico nelle direzioni orizzontale e verticale. Per esempio, considerate il seguente grafico dei dati del file 93cars.sgd:

94 Grafici

Figura 4-18. Grafico a dispersione del consumo di carburante in funzione del numero di cilindri

Sebbene ci siano 93 righe nel foglio, il numero di punti visibili nel grafico è molto più piccolo. Se fate clic sul pulsante Jitter, sarà visualizzata una finestra che vi consentirà di aggiungere casualmente un piccolo spazio tra i punti del grafico:

Figura 4-19. La finestra per sparpagliare casualmente i punti del grafico

In questo caso, aggiungendo un piccolo spazio orizzontale, si avrà una migliore rappresentazione della posizione dei punti:

95 Grafici

Figura 4-20. L’effetto del jittering orizzontale sul grafico a dispersione

Ogni punto è stato spostato di una piccola quantità casuale lungo l’asse orizzontale. Il jittering di un grafico influisce soltanto sulla visualizzazione dei punti; non ha alcun effetto sui dati del foglio né su eventuali calcoli.

4.3 Brushing di un grafico a dispersione

Un metodo interessante per rappresentare le relazioni tra le variabili consiste nel colorare i punti di un grafico a dispersione in funzione del valore di un’altra variabile. Per esempio, considerate la seguente matrice di grafici per le variabili selezionate dal file 93cars.sgd (il grafico si ottiene

utilizzando il pulsante Matrice di grafici nella barra degli strumenti principali):

96 Grafici

Figura 4-21. La matrice di grafici per i dati del file 93cars.sgd

Il grafico a dispersione in ogni cella della matrice rappresenta i valori delle variabili corrispondenti ai suoi identificatori di riga e colonna.

Supponete di voler visualizzare la relazione tra la potenza delle automobili (Horsepower) e le

cinque variabili rappresentate in questa matrice di grafici. Se fate clic sul pulsante Brush nella barra degli strumenti di analisi, sarà visualizzata la seguente finestra:

Figura 4-22. La finestra per selezionare la variabile di brushing

Selezionate la variabile quantitativa da utilizzare per codificare i punti. Dopo avere selezionato la variabile, sarà visualizzata la seguente finestra:

97 Grafici

Figura 4-23. La finestra per selezionare l’intervallo di colorazione

I due cursori servono a specificare i limiti inferiore e superiore della variabile. Tutti i punti del grafico sono colorati di blu se cadono nell’intervallo specificato. Per esempio, nel seguente grafico tutte le automobili di potenza compresa tra 55,0 e 121,5 sono colorate di blu:

Figura 4-24. La matrice di grafici dopo la colorazione

È evidente da questi grafici che la variabile Horsepower è strettamente correlata con le altre variabili.

4.4 Smoothing di un grafico a dispersione

Per visualizzare meglio la relazione tra le variabili in un grafico a dispersione, è possibile aggiungere una versione livellata del grafico applicando un metodo di smoothing. Per ottenere la

versione livellata di un grafico a dispersione, fate clic sul pulsante Smussa/Ruota nella barra degli strumenti di analisi; sarà visualizzata la seguente finestra:

98 Grafici

Figura 4-25. La finestra con le opzioni per smussare un grafico a dispersione

Il processo di smoothing di un grafico a dispersione avviene selezionando una serie di posizioni lungo l’asse X e rappresentando in corrispondenza di ciascuna posizione una media ponderata della frazione specificata dei punti che sono più vicini a quella posizione. Uno dei migliori metodi di smoothing è LOWESS (LOcally WEighted Scatterplot Smoothing), che di solito viene utilizzato con una frazione di smoothing tra 40% e 60%. Il risultato di questo metodo di smoothing applicato ai grafici dei dati delle automobili è illustrato nella seguente figura:

Figura 4-26. I grafici a dispersione smussati applicando il metodo Lowess con una frazione di smoothing del 50%

Le versioni smussate dei grafici illustrano meglio il tipo di relazione tra le variabili.

99 Grafici

4.5 Identificare i punti Per visualizzare il numero di riga e le coordinate di un punto del grafico, posizionate il puntatore del mouse sul punto e poi tenete premuto il pulsante. Nell’angolo superiore destro del grafico sarà visualizzato un piccolo riquadro che indica il numero di riga e le coordinate X e Y del punto:

Figura 4-27. Il riquadro con le informazioni sul punto selezionato del grafico

Contemporaneamente, il numero di riga del punto sarà posto nel campo Riga della barra degli strumenti di analisi:

Figura 4-28. Il campo Riga mostra il numero di riga del punto selezionato

Per ottenere altre informazioni su un punto del grafico, fate clic sul pulsante Identifica ; poi selezionate una colonna del DataBook nella successiva finestra:

100 Grafici

Figura 4-29. La finestra di identificazione dei punti del grafico

Dopo avere selezionato una variabile, se fate clic su un punto qualsiasi del grafico, il corrispondente valore della variabile sarà visualizzato nel campo Etichetta della barra degli strumenti di analisi:

Figura 4-30. Il campo Etichetta mostra il valore della variabile Make per il punto selezionato

I pulsanti Localizza posti a destra dei campi Etichetta e Riga possono essere utilizzati per localizzare i punti su un grafico. Se digitate un valore in uno di questi campi e poi fate clic sul corrispondente pulsante Localizza, saranno selezionati tutti i punti del grafico che hanno il valore digitato. Per esempio, il seguente grafico colora di blu tutti i punti delle automobili Honda:

101 Grafici

Figura 4-31. Il grafico mette in evidenza tutti i punti delle automobili Honda

Questa tecnica è molto efficace con una matrice di grafici. Per esempio, la successiva figura mette in evidenza tutti i punti corrispondenti alla riga 42:

102 Grafici

Figura 4-32. Nei grafici sono messi in evidenza i punti della riga 42

Localizzando un punto in una matrice di grafici, è più facile capire se si tratta di un outlier per più variabili.

NOTA: il colore utilizzato per mettere in evidenza i punti è impostato nella scheda Grafici della finestra Preferenze, accessibile dal menu Modifica.

4.6 Copiare i grafici in altre applicazioni Una volta creato un grafico in STATGRAPHICS Centurion XVI, potete facilmente copiarlo in altre applicazioni, come Microsoft Word o PowerPoint, seguendo questo procedimento:

1. Ingrandite il pannello che contiene il grafico.

2. Selezionate Copia dal menu Modifica di STATGRAPHICS Centurion XVI.

3. Selezionate Incolla dal menu Modifica dell’altra applicazione.

Per default, i grafici vengono incollati nel formato “Picture”, che corrisponde a un metafile di Windows. Se volete incollare il grafico in un altro formato, selezionate l’opzione Incolla speciale, anziché Incolla nell’applicazione di destinazione.

103 Grafici

Per copiare i risultati di un’intera analisi in un’altra applicazione, inclusi tutti i grafici e le tabelle, prima copiate l’analisi in StatReporter utilizzando il menu popup associato al pulsante destro del mouse, poi copiate StatReporter nell’applicazione di destinazione. Questa tecnica è descritta nel Capitolo 7.

Per copiare il grafico e la finestra che lo contiene, come illustra la Figura 4-31, vi consigliamo di utilizzare un’applicazione specifica per catturare le immagini dello schermo. Le figure di questo manuale sono state catturate con il programma SnagIt, che può essere acquistato presso il sito www.techsmith.com. Se utilizzate SnagIt, vi suggeriamo di impostare l’opzione Input a “Window” e l’opzione Output a “Clipboard”; in questo modo potrete incollare le immagini direttamente in qualsiasi documento.

4.7 Salvare un grafico in un file Ogni grafico può essere salvato in un file; per farlo, ingrandite il grafico e selezionate Salva grafico dal menu File. La seguente finestra vi chiederà di specificare il nome e il formato del file:

Figura 4-33. La finestra per salvare un grafico in un file

Se il grafico deve essere utilizzato da Word o PowerPoint, salvatelo nel formato Windows

Metafiles, per ottenere la massima flessibilità. Se il grafico deve essere visualizzato in una pagina web, salvatelo nel formato JPEG.

105 StatFolio

StatFolio

Salvare una sessione di lavoro, pubblicare i risultati delle analisi nel formato HTML e automatizzare le analisi utilizzando gli script di avviamento

Ogni volta che selezionate un’analisi statistica dal menu di STATGRAPHICS Centurion XVI, viene creata una nuova finestra di analisi. In qualsiasi momento potete salvare tutte le finestre di analisi in uno StatFolio: un file che contiene la definizione di tutte le analisi statistiche che sono state create, inclusi i puntatori ai dati. Salvando uno StatFolio e riaprendolo successivamente, in effetti salvate e ripristinate la sessione corrente di lavoro con STATGRAPHICS Centurion XVI. Quando salvate una sessione in uno StatFolio, viene salvata la definizione delle analisi, non il loro output. Quando riaprite uno StatFolio, i dati nei corrispondenti file di origine vengono riletti e tutte le analisi ricalcolate. StatFolio quindi fornisce un semplice metodo per ripetere le analisi in un momento successivo utilizzando dati che potrebbero essere cambiati. È anche possibile creare uno script che viene eseguito ogni volta che viene caricato uno StatFolio. I dettagli di questa e di altre funzionalità di StatFolio sono descritti in questo capitolo.

5.1 Salvare una sessione Per salvare lo stato corrente della sessione di lavoro con STATGRAPHICS Centurion XVI, selezionate File – Salva – Salva StatFolio dal menu principale. Digitate il nome da assegnare allo StatFolio nella seguente finestra:

Capitolo

5

106 StatFolio

Figura 5-1. La finestra per salvare la sessione corrente in uno StatFolio

Gli StatFolio vengono salvati in file con estensione .sgp e contengono:

1. Una definizione di tutte le analisi che sono state create, le variabili di input, le tabelle e i grafici, le impostazioni di tutte le opzioni, le modifiche apportate ai grafici e così via. Quando riaprite uno StatFolio, le analisi vengono ripetute e tutti i grafici e le tabelle vengono aggiornati.

2. Collegamenti con i file dei dati di origine contenuti nel DataBook. Se i dati cambiano tra

l’istante in cui salvate lo StatFolio e quello in cui lo riaprite, la finestra di analisi riporterà tali cambiamenti.

3. Collegamenti con StatGallery e StatReporter, se li avete utilizzati prima di salvare lo

StatFolio. Il programma vi chiederà di specificare i nomi di StatGallery e StatReporter quando salvate lo StatFolio.

5.2 Script di StatFolio

La prima volta che viene caricato uno StatFolio, vengono ripristinate tutte le finestre di analisi. Se lo StatFolio è stato salvato con uno script di avviamento, STATGRAPHICS Centurion XVI lo esegue automaticamente. Uno script può essere creato selezionando Script di avviamento di

107 StatFolio

StatFolio dal menu Modifica. Sarà visualizzata una finestra i cui campi vi consentono di definire la sequenza delle operazioni da svolgere:

Figura 5-2. Un semplice script di StatFolio

Le operazioni desiderate vanno specificate nell’ordine in cui devono essere eseguite. Le operazioni disponibili sono elencate nel successivo prospetto.

108 StatFolio

Operazione Argomento Target Descrizione

Esegui Titolo dell’analisi da eseguire Aggiorna l’analisi indicata. Assegna Espressione di

STATGRAPHICS Centurion Nome di una colonna

Calcola l’espressione e la assegna alla colonna indicata.

Stampa Finestre da stampare Stampa il contenuto delle finestre indicate.

Pubblica Esegue StatPublish per pubblicare il contenuto dello StatFolio in un file HTML.

Shell Comando di Windows da eseguire

Argomento del comando

Esegue un comando di Windows.

Ritardo Numero di secondi Pausa della durata specificata. Carica Nome dello StatFolio Specifica lo StatFolio da

caricare dopo l’esecuzione dello script. L’operatore Carica consente di aprire in sequenza più StatFolio.

Esci Esce da STATGRAPHICS Centurion XVI.

Figura 5-3. Gli operatori degli script di avviamento

Nell’esempio illustrato nella Figura 5-2 viene eseguita la procedura Regressione semplice. All’interno di questa analisi, si suppone che Salva i risultati sia stato impostato per salvare automaticamente i residui del modello approssimato nella colonna RESIDUI. I residui vengono poi divisi per i valori originali dei dati e moltiplicati per 100 per ottenere gli errori percentuali, che vengono assegnati alla nuova variabile PERROR. I valori di PERROR sono poi sintetizzati tramite la procedura Analisi a una variabile; infine, vengono stampati i risultati di entrambe le analisi. Notate che gli StatFolio possono essere aperti in sequenza inserendo nello script di uno StatFolio l’operatore Carica che chiede di caricare un altro StatFolio. Potete anche chiudere automaticamente STATGRAPHICS Centurion XVI tramite l’operatore Esci. NOTA: per escludere l’esecuzione degli script, selezionate Disabilita gli script di avviamento nella scheda Generale della finestra Preferenze, accessibile dal menu Modifica:

109 StatFolio

Figura 5-4. Disabilitare l’esecuzione degli script di avviamento

110 StatFolio

5.3 Aggiornamento automatico delle analisi statistiche Una volta creato uno StatFolio contenente diverse analisi, i dati dei file di origine possono essere riletti periodicamente in modo da aggiornare tutte le analisi. Per fare questo, utilizzate la finestra Proprietà DataBook del menu Modifica o selezionate StatLink dal menu File:

Figura 5-5. La finestra per specificare i file di origine da rileggere periodicamente

Per rileggere periodicamente i file di origine:

1. Selezionate la casella Acquisire in corrispondenza dei file di origine da rileggere.

2. Attivate il pulsante Sì nel riquadro Acquisire da StatLink.

3. Specificate la frequenza di rilettura di ogni file di origine nel campo Aggiorna ogni.

4. Selezionate la casella Esegui script per eseguire lo script di StatFolio ogni volta che vengono letti i dati.

111 StatFolio

Includendo l’operatore Pubblica nello script di avviamento di uno StatFolio, STATGRAPHICS Centurion XVI invierà automaticamente l’output a un server di rete.

5.4 Pubblicare i dati nel formato HTML L’output di uno StatFolio può essere pubblicato in un formato che può essere visualizzato soltanto con un browser standard; per farlo, selezionate StatPublish dal menu File. Sarà visualizzata una finestra che vi chiederà di specificare dove salvare l’output da pubblicare e quali elementi includere nell’output:

Figura 5-6. La finestra StatPublish per creare un documento HTML

I campi di questa finestra vi consentono di specificare:

• File HTML nella cartella locale: in questo campo dovrete indicare il nome del file HTML che conterrà l’indice degli argomenti dello StatFolio. Il file elenca i contenuti dello StatFolio e include i collegamenti con altri file HTML, uno per ogni finestra dello StatFolio. Per default, il file HTML viene posto nella stessa cartella dello StatFolio, con lo stesso nome dello StatFolio, ma con estensione .htm, anziché .sgp. Per vedere uno StatFolio così pubblicato, basta aprire questo file con un browser.

112 StatFolio

• URL del sito FTP: tutto l’output pubblicato viene posto nella cartella precedentemente specificata. L’output include i file HTML, i file dei grafici e altri file di supporto. Se specificate l’indirizzo di un sito web nel campo URL del sito FTP, tutti i file saranno anche inviati al server specificato da questo indirizzo. Notate che per fare questo dovrete avere l’autorizzazione ad accedere in modalità scrittura al sito; tale autorizzazione viene concessa dall’amministratore della rete.

• Nome utente FTP: il nome utente per accedere al sito specificato. • Password FTP: la password per accedere al sito specificato. • Includi: in questo campo selezionate le finestre da pubblicare. • Larghezza e altezza del grafico in pixel: le dimensioni dei grafici quando vengono

incorporati nei file HTML. • Formato delle immagini: i grafici possono essere incorporati nei file HTML in uno di

questi tre formati:

1. JPEG – Immagini statiche salvate nel formato JPEG. I file creati hanno nomi come pubexample_analysis1_graph1.jpg.

2. PNG – Immagini statiche salvate nel formato PNG. I file creati hanno nomi come

pubexample_analysis1_graph1.png.

3. Applet Java – Immagine dinamica che può essere aggiornata mentre è visualizzata nel browser. Un grafico sarà aggiornato periodicamente (dopo il numero di secondi specificato) attraverso la lettura di un file ausiliario che ha un nome come pubexample_analysis1_graph1.sgz. Questa opzione è stata ideata per essere utilizzata in combinazione con la rilettura periodica dei dati tramite StatLink, come descritto nel documento PDF Dynamic Data Processing and Analysis. Nota: non tutti i grafici vengono pubblicati appropriatamente con questa opzione. Se uno o più grafici non sono visualizzati correttamente dal browser, scegliete un’altra opzione.

• Applet interattive: per un grafico pubblicato come applet, questa opzione consente al

browser di visualizzare i valori dei dati quando l’utente fa clic con il mouse sui punti del grafico.

113 StatFolio

Dopo aver definito i campi di input di questa finestra, fate clic su OK per pubblicare lo StatFolio. Per vedere lo StatFolio pubblicato, avviate il browser e utilizzate il suo menu File per aprire il file specificato nel primo campo della Figura 5-6. In alternativa, selezionate Visualizza risultati di Published dal menu File di STATGRAPHICS Centurion XVI.

NOTA: le tabelle e i grafici vengono incorporati nei file HTML di output con nomi generati automaticamente da StatPublish. Se utilizzate il browser per vedere lo StatFolio pubblicato, potete esaminare il codice sorgente HTML e determinare facilmente i nomi dei file. Potete incorporare questi file nelle vostre pagine web, se preferite.

115 StatGallery

StatGallery

Visualizzare i grafici affiancandoli o sovrapponendoli

StatGallery è una finestra speciale di STATGRAPHICS Centurion XVI dove è possibile affiancare o sovrapporre i grafici creati da procedure diverse. Affiancare i grafici è un ottimo metodo per confrontare due insiemi di dati, due modelli statistici o due livelli di un diagramma a contorno. Sovrapponendo i grafici è possibile creare delle rappresentazioni uniche, non ottenibili con altre funzioni del sistema.

I contenuti di StatGallery vengono salvati in file con estensione .sgg. Se inserite dei risultati statistici in StatGallery, un puntatore al file di StatGallery sarà salvato nello StatFolio corrente. Quando riaprirete lo StatFolio, sarà automaticamente caricato il corrispondente file di StatGallery.

6.1 Configurare una pagina di StatGallery La finestra di StatGallery viene creata all’avviamento di STATGRAPHICS Centurion XVI. È formata da una o più pagine, ciascuna delle quali può contenere fino a 9 grafici. Per default, ogni pagina della galleria è configurata per visualizzare 4 grafici, come illustra la prossima figura.

Capitolo

6

116 StatGallery

Figura 6-1. La finestra di StatGallery

I pulsanti di questa finestra vi consentono di sfogliare le pagine della galleria. Se volete cambiare il numero di grafici visualizzati in una pagina, fate clic con il pulsante destro del mouse all’interno di un pannello e selezionate Configurazione pannelli dal menu popup. Potete scegliere la configurazione che può contenere fino a 9 grafici:

Figura 6-2. Le varie configurazioni di una pagina di StatGallery

117 StatGallery

Le sette configurazioni a sinistra corrispondono a disposizioni rettangolari di righe e colonne. L’opzione Per colonne consente di ottenere una disposizione con un numero di righe diverso in ciascuna delle tre colonne. Per ottenere la configurazione preferita, potete anche trascinare con il mouse le barre di separazione dei pannelli di una pagina di StatGallery.

6.2 Copiare i grafici in StatGallery Per inserire un grafico nella finestra di StatGallery, innanzitutto copiatelo negli Appunti di Windows (clipboard) mentre è attiva la finestra di analisi dove è stato generato il grafico. Per esempio, supponete di voler visualizzare i diagrammi a contorno creati con la procedura DOE Analizza il disegno per due diversi livelli di un determinato fattore sperimentale. Il procedimento da seguire è questo:

1. Configurate una pagina di StatGallery per visualizzare i grafici nella disposizione Sinistra e

destra (due pannelli). 2. Generate un diagramma a contorno all’interno di Analizza il disegno per un livello del

fattore sperimentale e copiatelo negli Appunti di Windows.

3. Attivate la finestra di StatGallery. Fate clic con il pulsante destro del mouse sul pannello a sinistra e selezionate Incolla dal menu popup per inserire il diagramma a contorno in StatGallery.

4. Ritornate nella finestra Analizza il disegno e create un secondo diagramma a contorno per

un altro livello del fattore sperimentale. Copiate il diagramma negli Appunti di Windows.

5. Attivate di nuovo la finestra di StatGallery. Fate clic con il pulsante destro del mouse sul pannello a destra e selezionate Incolla dal menu popup. Il secondo diagramma a contorno sarà inserito accanto al primo nella pagina di StatGallery.

Il risultato ottenuto sarà simile a quello illustrato nella prossima figura.

118 StatGallery

Figura 6-3. Due grafici affiancati nella finestra di StatGallery

In questo esempio, confrontando la successione dei colori all’interno di ciascun diagramma, si nota una riduzione della resistenza (strength) all’aumentare del polietilene. Quando copiate un grafico in StatGallery, potete selezionare l’opzione Incolla collegamento, anziché Incolla, dal menu popup associato al pulsante destro del mouse. Se selezionate Incolla collegamento, il grafico in StatGallery viene collegato dinamicamente alla finestra di analisi dove è stato generato, quindi esso cambierà automaticamente ogni volta che il grafico originale sarà modificato.

6.3 Sovrapporre i grafici Quando incollate un grafico in un pannello di StatGallery che ne contiene già uno, potete scegliere di sostituire il grafico o di sovrapporre il nuovo grafico a quello esistente. La sovrapposizione dei grafici può essere utile per confrontare due modelli statistici differenti:

119 StatGallery

Figura 6-4. Grafici sovrapposti in StatGallery

Quando un grafico viene sovrapposto a quello esistente in StatGallery, vengono aggiunti soltanto i contenuti all’interno degli assi del secondo grafico. I testi del secondo grafico non vengono inclusi.

Nota: se i due grafici hanno scale diverse, il secondo grafico sarà adattato al primo.

6.4 Modificare un grafico di StatGallery È possibile modificare alcuni elementi di un grafico dopo che è stato incollato in StatGallery.

6.4.1 Aggiungere nuovi elementi

Per aggiungere un nuovo elemento a un grafico:

1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.

120 StatGallery

2. Fate clic con il pulsante destro del mouse sul grafico e selezionate l’opzione Aggiungi

elemento dal menu popup. Sarà visualizzata la seguente finestra:

Figura 6-5. La finestra per aggiungere nuovi elementi

3. Selezionate il tipo di elemento da aggiungere al grafico. Per utilizzare i primi 5 pulsanti della Figura 6-5, tenete premuto il pulsante del mouse per tracciare la linea o la figura geometrica fino a ottenere le dimensioni desiderate. L’ultimo pulsante attiva la modalità testo, che vi consentirà di accedere a una finestra di input del testo quando farete clic sul grafico. Utilizzate il mouse per trascinare il nuovo testo nella posizione desiderata.

6.4.2 Modificare gli elementi

Per modificare un elemento di StatGallery:

1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello. 2. Fate clic sull’elemento da modificare per selezionarlo. L’elemento selezionato sarà

circondato da piccoli rettangoli.

3. Premete il pulsante destro del mouse e selezionate l’opzione Modifica elemento dal menu popup.

Sarà visualizzata la finestra corrispondente al tipo di elemento selezionato, dove potrete selezionare le modifiche desiderate.

6.4.3 Cancellare gli elementi

Per cancellare un elemento da StatGallery:

1. Fate doppio clic sul grafico desiderato per ingrandire il suo pannello.

2. Fate clic sull’elemento da cancellare per selezionarlo.

121 StatGallery

3. Premete il pulsante destro del mouse e selezionate l’opzione Cancella elemento dal menu popup.

6.5 Stampare StatGallery Per stampare gli elementi di StatGallery:

1. Attivate la finestra di StatGallery facendo clic su di essa con il mouse.

2. Fate clic sull’icona Stampa nella barra degli strumenti principali oppure premete il pulsante destro del mouse e selezionate l’opzione Stampa dal menu popup.

È possibile stampare tutte le pagine o soltanto un gruppo di pagine selezionate.

123 StatReporter

StatReporter

Copiare le analisi in StatReporter, commentando l’output e salvando i risultati in un file RTF da importare in Microsoft Word

StatReporter è una finestra dove è possibile integrare in un report formale l’output generato da varie procedure statistiche. È una versione distinta di WordPad che viene eseguita all’interno di STATGRAPHICS Centurion XVI. StatReporter consente di:

1. Creare un report completo all’interno di STATGRAPHICS Centurion XVI, senza bisogno di utilizzare altre applicazioni. Questo può essere particolarmente utile quando le risorse del sistema sono limitate.

2. Salvare il contenuto di StatReporter in un file RTF (Rich Text Format), che può essere

letto direttamente da altri programmi, come Microsoft Word.

7.1 La finestra di StatReporter StatReporter opera in una finestra separata di STATGRAPHICS Centurion XVI, che viene creata automaticamente quando avviate il programma. È formato da un controllo Rich Edit e da una barra di strumenti:

Capitolo

7

124 StatReporter

Figura 7-1. La finestra di StatReporter

In questa finestra potete digitare direttamente dei testi o incollare l’output creato in altre finestre di STATGRAPHICS Centurion XVI.

7.2 Copiare l’output in StatReporter STATGRAPHICS Centurion XVI vi offre tre metodi per copiare i risultati delle procedure di analisi nella finestra di StatReporter:

1. Per copiare un solo grafico (o una tabella) in StatReporter, prima copiatelo negli Appunti di Windows (clipboard) ingrandendo il suo pannello e selezionando Copia dal menu Modifica. Poi attivate la finestra di StatReporter, spostate il cursore nella posizione desiderata e selezionate Modifica – Incolla.

2. In alternativa, ingrandite il pannello che contiene il grafico (o la tabella) da copiare

facendo doppio clic su di esso. Poi premete il pulsante destro del mouse e selezionate Copia il pannello in StatReporter dal menu popup. Il grafico (o la tabella) sarà copiato in StatReporter nella posizione corrente del cursore.

3. Per copiare tutto l’output di una finestra di analisi, premete il pulsante destro del mouse e

selezionate Copia l’analisi in StatReporter dal menu popup. Tutti i grafici e le tabelle della finestra di analisi saranno copiati in StatReporter.

125 StatReporter

Ciascuna delle precedenti operazioni crea una copia statica dell’originale (nel senso che l’output in StatReporter non cambierà mai). Per creare una copia collegata dinamicamente al grafico o alla tabella originale utilizzando il metodo 1, selezionate Incolla speciale (anziché Incolla) e poi attivate l’opzione Incolla collegamento. La copia del grafico o della tabella in StatReporter cambierà automaticamente ogni volta che sarà modificato l’originale nella finestra di analisi.

7.3 Modificare l’output in StatReporter La barra degli strumenti di StatReporter vi consente di modificare l’output delle analisi che avete inserito nella finestra. Per modificare un testo, selezionatelo e poi fate clic su uno dei pulsanti della barra degli strumenti. Per inserire la data e l’ora correnti, fate clic sul pulsante Data/Ora.

7.4 Salvare StatReporter Per salvare il contenuto della finestra di StatReporter, selezionate File – Salva – Salva StatReporter dal menu principale e digitate il nome da assegnare al file da salvare. I file di StatReporter hanno estensione .rtf e possono essere letti direttamente da altri programmi, come Microsoft Word. Quando aprite uno StatFolio, viene automaticamente caricata la finestra di StatReporter che era presente quando avete salvato lo StatFolio. È possibile aprire soltanto la finestra di StatReporter utilizzando il menu File – Apri.

127 StatWizard

StatWizard

Scegliere l’analisi statistica appropriata, cercare le statistiche e i test desiderati e generare più finestre per vari fattori esplicativi

StatWizard è un’applicazione speciale di STATGRAPHICS Centurion XVI appositamente ideata per assistervi in vari modi:

1. Può aiutarvi a creare un nuovo foglio o leggere un file di dati. 2. Può suggerirvi l’analisi da eseguire in funzione del tipo di dati da analizzare.

3. Può cercare particolari statistiche o test e indicarvi le procedure statistiche che

li calcolano.

4. Può aiutarvi a definire le trasformazioni dei dati o a scegliere i sottoinsiemi dei dati.

5. Può ripetere le analisi desiderate per ogni valore unico in una colonna di dati. Potete avviare StatWizard in qualsiasi momento facendo clic sul pulsante con il cappello del

mago nella barra degli strumenti principali.

Capitolo

8

128 StatWizard

8.1 Accedere ai dati o creare un nuovo studio statistico Se il DataBook è vuoto quando avviate StatWizard, sarà visualizzata una finestra che vi chiederà informazioni sulle operazioni da svolgere:

Figura 8-1. La finestra iniziale di StatWizard

Ci sono tre opzioni:

1. Caricare nuovi dati nel Databook di STATGRAPHICS Centurion XVI. StatWizard vi aiuterà, tramite una serie di finestre, a definire le colonne di un foglio o a selezionare un file di origine, come descritto nel primo capitolo di questo manuale.

2. Progettare un nuovo studio prima di caricare i dati. In questo caso, StatWizard vi chiederà il tipo di studio da realizzare e vi aiuterà a definirlo tramite una serie di finestre.

129 StatWizard

3. Eseguire un’analisi che non richiede dati. In questo caso, StatWizard elencherà tutte queste analisi, vi chiederà di sceglierne una e vi presenterà immediatamente l’analisi scelta.

Per esempio, supponete di voler impostare un nuovo studio per valutare la ripetitività e la riproducibilità di un processo di misurazioni. Se selezionate la seconda opzione nella Figura 8-1 e fate clic su OK, accederete alla seguente finestra:

Figura 8-2. La finestra di StatWizard per definire il tipo di studio

Selezionate Preparare uno studio di Gage R&R e fate clic su OK per visualizzare una terza finestra che vi chiederà informazioni sul tipo di studio:

130 StatWizard

Figura 8-3. La finestra di StatWizard per impostare il nuovo tipo di studio

Digitate il numero di operatori che saranno coinvolti nello studio, il numero di pezzi che saranno misurati e il numero di volte che ciascun operatore misurerà i singoli pezzi. Potete anche specificare l’intestazione dello studio. L’ultima finestra vi chiederà i nomi degli operatori, periti o laboratori che effettueranno le misurazioni:

131 StatWizard

Figura 8-4. La finestra per specificare i nomi degli operatori

StatWizard crea lo studio desiderato e lo inserisce in un foglio del DataBook:

Figura 8-5. Il nuovo studio creato da StatWizard

Una volta effettuate le misurazioni, i loro valori dovranno essere inseriti nel foglio; dopodiché potrete avviare di nuovo StatWizard per selezionare una procedura di analisi (oppure potete selezionare direttamente una delle analisi del menu principale).

132 StatWizard

8.2 Scegliere il tipo di analisi per i dati Se i dati sono già caricati nel DataBook, facendo clic sul pulsante StatWizard, sarà visualizzata una finestra dalla quale potrete selezionare una o più analisi da eseguire:

Figura 8-6. La finestra di StatWizard per selezionare le analisi

Ci sono cinque opzioni:

1. Selezionare un’analisi in base al tipo di dati: visualizza altre finestre che richiedono informazioni sui dati da analizzare; poi viene presentata una lista di procedure.

2. Selezionare un’analisi per nome: visualizza tutte le analisi in ordine alfabetico. Selezionando un’analisi e facendo clic su OK, accederete direttamente alla finestra di input dei dati per l’analisi selezionata, bypassando i consueti menu.

133 StatWizard

3. Selezionare una SnapStat: vi consente di selezionare una SnapStat. Le SnapStats sono procedure di analisi snelle che producono una sola pagina di output. Hanno meno opzioni delle altre analisi, ma sono molto più semplici da definire.

4. Ricerca: visualizza una lista di statistiche, test, grafici e altri output che possono essere creati da STATGRAPHICS Centurion XVI. Se selezionate un elemento della lista, cambierà automaticamente il contenuto del campo Selezionare un’analisi per nome, dove saranno elencate soltanto quelle analisi che calcolano l’elemento desiderato.

5. Scegliere una delle seguenti Opzioni rapide: elenca alcune delle analisi più frequentemente utilizzate. Selezionando un’analisi e facendo clic su OK, accederete direttamente alla finestra di input dei dati per l’analisi selezionata.

Se selezionate l’opzione 1, StatWizard visualizzerà una finestra dove dovrete indicare i dati da analizzare. Per esempio, se avete caricato il file 93cars.sgd nel DataBook, la finestra si presenterà così:

Figura 8-7. La finestra di StatWizard per selezionare i dati da analizzare

134 StatWizard


• Variabili risposta o dati (Y): una o più variabili risposta contenenti i valori da analizzare. Se i dati da analizzare si trovano in una sola colonna, questa deve essere specificata qui.

• Tipo: il tipo di dati contenuti nelle variabili risposta. Le analisi visualizzate nelle successive finestre dipendono da questa scelta.

• Fattori esplicativi quantitativi (X): i fattori quantitativi da utilizzare per prevedere le variabili

risposta. In una regressione, qui vanno specificate le variabili indipendenti.

• Fattori esplicativi categoriali (X): i fattori non quantitativi da utilizzare per prevedere le variabili risposta. In un’ANOVA, qui vanno specificati i fattori esplicativi.

• Etichette dei casi: una colonna contenente le etichette delle varie osservazioni (righe). Le procedure presentate nelle successive finestre dipendono dalle scelte fatte nella Figura 8-7.

La prossima finestra vi chiederà di specificare le righe del file da analizzare:

135 StatWizard

Figura 8-8. La finestra di StatWizard per selezionare le righe del foglio

Le prime sei opzioni presumono che intendiate eseguire una sola analisi. L’ultima opzione genera più finestre di analisi, una per ogni valore unico contenuto nella colonna specificata. Questo è un semplice metodo per specificare una variabile “BY” per una serie di analisi. Successivamente vi sarà chiesto se intendete trasformare le variabili indicate. Se rispondete affermativamente, sarà visualizzata la seguente finestra:

136 StatWizard

Figura 8-9. La finestra di StatWizard per selezionare il tipo di trasformazione delle variabili

Potete selezionare una trasformazione per una o più variabili. Se scegliete una trasformazione, il programma creerà l’espressione appropriata. Per esempio, se richiedete la radice quadrata di MPG City, il programma creerà l’espressione SQRT(MPG City) che sarà utilizzata dalle procedure di analisi. L’ultima finestra di StatWizard elenca le analisi appropriate al tipo di dati che avete specificato:

137 StatWizard

Figura 8-10. La finestra di StatWizard per selezionare le analisi da eseguire

Selezionate una o più analisi dalla lista e fate clic su OK; sarà creata una finestra per ogni analisi selezionata.

8.3 Ricerca delle statistiche e dei test desiderati Se volete calcolare i valori di particolari statistiche o test, ma non ricordate quali analisi utilizzare per ottenerli, digitate i dati in un foglio e poi fate clic sul pulsante StatWizard nella barra degli strumenti principali. Nella finestra iniziale di StatWizard, selezionate Ricerca e aprite il menu a tendina. Saranno elencati tutti i test, le statistiche e altri calcoli svolti da STATGRAPHICS Centurion XVI:

138 StatWizard

Figura 8-11. Utilizzare l’opzione Search di StatWizard

Se selezionate un elemento della lista Ricerca, nel campo Selezionare un’analisi per nome saranno visualizzate tutte le analisi che calcolano l’elemento selezionato:

139 StatWizard

Figura 8-12. La lista delle analisi associate all’elemento selezionato nel riquadro Ricerca

Per eseguire un’analisi:

1. Fate clic sull’opzione Selezionare un’analisi per nome. 2. Selezionate un’analisi. 3. Fate clic su OK.

Accederete direttamente alla finestra di input dei dati per l’analisi selezionata, bypassando i consueti menu.

141 Preferenze del sistema

Preferenze del sistema

Impostare i parametri funzionali del sistema

STATGRAPHICS Centurion XVI contiene centinaia di opzioni, ciascuna delle quali ha un valore di default che è stato selezionato per soddisfare le esigenze della maggior parte degli utenti. Se preferite, potete modificare le impostazioni di molte di queste opzioni. Ciò può essere fatto da tre diversi punti del programma:

1. Comportamento generale del sistema: i parametri funzionali del sistema sono impostati nella finestra Preferenze accessibile dal menu Modifica.

2. Opzioni di stampa: sono impostate nella finestra Imposta pagina accessibile dal menu

File.

3. Grafici: le opzioni relative ai grafici sono impostate selezionando Opzioni per il grafico mentre è visualizzato un grafico qualsiasi. La scheda Profilo della finestra Opzioni per il grafico consente di salvare vari gruppi di opzioni per i grafici.

9.1 Comportamento generale del sistema Le impostazioni di default relative al comportamento generale del sistema e alle procedure statistiche selezionate possono essere modificate selezionando Preferenze dal menu Modifica. Viene visualizzata una finestra che contiene una scheda Generale per il comportamento generale del sistema e altre schede per le opzioni di default delle analisi statistiche:

Capitolo

9


Figura 9-1. La finestra con le preferenze del sistema

Alcune delle principali opzioni sono descritte qui di seguito: • Livello di confidenza: percentuale di default utilizzata per i limiti di confidenza, i limiti di

previsione, le verifiche di ipotesi e l’interpretazione dei P-value (o valore P) da parte di StatAdvisor.

• Cifre significative: numero di cifre significative utilizzato per visualizzare i risultati

numerici; gli zeri non significativi vengono troncati. È disponibile un campo distinto per salvare i risultati numerici nel foglio.

• Opzioni del sistema: queste opzioni si applicano all’intero sistema.

o Usa il menu Six Sigma: visualizza i menu secondo lo schema DMAIC (Define, Measure, Analyze, Improve, Control) del sistema Six Sigma. Il sistema classico dei menu di STATGRAPHICS offre le stesse opzioni con nomi differenti.


o Ordina i nomi delle variabili: se selezionate questa opzione, i nomi delle colonne saranno elencati in ordine alfabetico nelle finestre di input dei dati, altrimenti saranno elencati nello stesso ordine che hanno nel foglio.

o Anni a 4 cifre: le date saranno visualizzate con gli anni di 4 cifre, anziché 2. Per default, si suppone che gli anni di 2 cifre, come 2/1/05, rappresentino date comprese tra il 1950 e il 2049. La modifica di questa opzione avrà effetto soltanto dopo che avrete riavviato il programma.

o Salvataggio automatico: abilita il salvataggio automatico in background dello StatFolio corrente e dei file di dati; potete impostare l’intervallo di tempo tra i salvataggi. Se questa funzione è abilitata e si verifica un malfunzionamento del computer o del programma, avrete la possibilità di ripristinare lo stato dello StatFolio e dei fogli quando riavvierete il programma.

o Aggiorna link per ciascun valore: ricalcola tutte le statistiche ogni volta che cambia un valore in un foglio. Di solito, le statistiche non vengono ricalcolate finché non attivate, stampate o pubblicate un’analisi statistica o non salvate lo StatFolio.

• StatAdvisor: imposta il comportamento di default di StatAdvisor.

o Aggiungi ai pannelli di testo: l’output di StatAdvisor viene automaticamente aggiunto in fondo ai pannelli di testo. Questo output è sempre disponibile facendo clic sul pulsante con il cappello della laurea nella barra degli strumenti principali.

o Evidenzia i riferimenti in …: visualizza in un colore speciale quei valori nei pannelli di

testo cui fa riferimento StatAdvisor.

• Intestazioni di analisi: usa un font blu per visualizzare il titolo dell’analisi all’inizio del pannello Sintesi dell’analisi.

• StatFolio: attivate la casella Disabilita gli script di avviamento per impedire che gli script di avviamento siano eseguiti quando vengono caricati gli StatFolio.

• Cartella dei file temporanei: gli StatFolio, i file di dati e altri file saranno temporaneamente memorizzati in questa directory prima di essere copiati in quella definitiva. Specificando un drive locale, è possibile ridurre notevolmente il tempo necessario per salvare un file in alcune reti, perché si riduce il numero di richieste delle reti.

Il documento PDF Preferences descrive le opzioni delle altre schede.


9.2 Stampa Due opzioni del menu File controllano la stampa dell’output:

1. Imposta stampante: accede alla finestra con le opzioni di stampa del driver della vostra stampante. Tipicamente, questa finestra consente di impostare il formato e l’orientamento del foglio (orizzontale o verticale).

2. Imposta pagina: accede a una finestra specifica di STATGRAPHICS Centurion XVI che

consente di impostare i margini, le testatine e altre opzioni. Questa finestra è descritta nel Paragrafo 3.3.

9.3 Grafici Se ingrandite un pannello che contiene un grafico all’interno di una finestra di analisi, viene abilitato il pulsante Opzioni per il grafico nella barra degli strumenti di analisi. Questo pulsante visualizza una finestra che consente di modificare l’aspetto di un grafico, come è descritto dettagliatamente nel Capitolo 4. Questa finestra include anche la scheda Profilo, che consente di salvare gruppi di opzioni per i grafici in profili personalizzati e di modificare il profilo di default che viene utilizzato quando viene creato un nuovo grafico:


Figura 9-2. La scheda Profilo della finestra Opzioni per il grafico

Per cambiare le impostazioni di default del sistema:

1. Modificate le caratteristiche di un grafico in una finestra di analisi qualsiasi. Impostate i colori, i tipi di caratteri e le altre opzioni da applicare ai grafici futuri.

2. Fate clic sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi attivate la scheda Profilo.

3. Selezionate la casella Profilo di default.

4. Selezionate uno dei 12 profili utente e fate clic sul pulsante Salva con nome (i profili

di sistema sono di sola lettura).

5. Digitate il nome del profilo da salvare:


Figura 9-3. La finestra per salvare un profilo

6. Fate clic su OK per salvare nel nuovo profilo l’insieme delle impostazioni correnti dei grafici (colori, tipi di caratteri, punti, linee ecc.).

Il prossimo grafico che sarà creato utilizzerà questo nuovo profilo. A un nuovo grafico è possibile applicare anche altri profili precedentemente salvati; per farlo, create il grafico con le impostazioni di default e poi:

1. Fate clic sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi attivate la scheda Profilo.

2. Selezionate uno dei 15 profili e fate clic sul pulsante Carica.

Il grafico corrente sarà immediatamente aggiornato con le impostazioni del profilo selezionato.

147 Analisi di un singolo campione

Tutorial 1 – Analisi di un

singolo campione

Statistiche di sintesi, istogramma, diagramma a scatola e baffi, intervalli di confidenza e verifica di ipotesi

Un tipico problema di statistica consiste nell’analizzare un campione di n osservazioni estratto da una popolazione. Per esempio, considerate le seguenti temperature corporee (in gradi Fahrenheit) misurate su n = 130 individui: 98,4 98,4 98,2 97,8 98 97,9 99 98,5 98,8 98 97,4 98,8 99,5 98 100,8 97,1 98 98,7 98,9 99 98,6 97,7 96,7 98,8 98,2 97,5 97,2 97,4 97,1 96,7 99,2 97,9 98,8 97,6 98,6 98,8 98,5 98,7 97,5 97,9 97,1 98,4 97,4 98,6 97,8 98,2 98 98 98,3 98,6 98,8 98,7 98,8 98,1 96,4 98,8 98,7 97,9 98,6 99,2 98,6 98 99,1 97,8 97,2 98,2 98,7 98,4 98,2 97,7 98,3 98,7 96,8 98 97,2 97,9 96,9 98,3 97,8 97 98,6 98,4 98,2 98 98 98,2 97,8 99 98,1 97,7 97,4 98,8 99,3 98,9 96,3 97,8 99,9 98,4 99,4 98,7 98,4 98,2 99,3 98,5 98,3 99 99,2 97,6 99,1 97,6 98,4 97,6 98,4 98 98,8 97,3 98,7 98,6 99,4 100 98,6 98,3 98,6 97,4 98,1 97,8 98,2 99 99,1 98,2

I dati provengono dal Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) e siamo stati autorizzati a utilizzarli.

Capitolo

10


Li abbiamo memorizzati nel file bodytemp.sgd, nella colonna Temperature che contiene 130 righe, una per ogni persona oggetto dello studio. Analisi a una variabile è la procedura principale di STATGRAPHICS Centurion XVI che sintetizza un campione scelto da una popolazione. Questa procedura sintetizza i dati in forma numerica e grafica e verifica le ipotesi sulla media, la mediana e la deviazione standard della popolazione.

10.1 Procedura di analisi a una variabile Per analizzare i dati delle temperature, innanzitutto caricate il file bodytemp.sgd in un foglio:

1. Selezionate File – Apri – Apri Sorgente dati dal menu principale.

2. Nella finestra Apri Sorgente dati selezionate l’opzione File di dati STATGRAPHICS.

3. Selezionate bodytemp.sgd dalla lista dei file nella finestra Apri file di dati. I dati dovrebbero presentarsi in questo modo:

Figura 10-1. Il foglio con i valori delle temperature corporee

Le temperature corporee si trovano nella prima colonna a sinistra e sono espresse in gradi Fahrenheit.


La procedura Analisi a una variabile può essere avviata dal menu principale in questo modo:

1. Se state utilizzando il menu classico, selezionate Descrivi – Dati numerici – Analisi a una

variabile.

2. Se state utilizzando il menu Six Sigma, selezionate Analyze – Variabili – Analisi a una

variabile.

Nella finestra successiva indicate la colonna con i dati da analizzare:

Figura 10-2. La finestra di input della procedura Analisi a una variabile

Per analizzare tutte le 130 righe, lasciate vuoto il campo Seleziona. Fate clic su OK. Sullo schermo sarà visualizzata la finestra Tabelle e grafici. Questa finestra mostra le tabelle e i grafici disponibili. Per il momento, accettate le impostazioni di default.

Figura 10-3. La finestra Tabelle e grafici


Sarà visualizzata una finestra di analisi con quattro pannelli:


Il primo pannello in alto a sinistra indica che il campione ha n = 130 valori compresi fra 96,3 e 100,8 gradi. Il pannello in alto a destra contiene un grafico a dispersione dei dati, con i punti distribuiti casualmente nella direzione verticale. Notate che la densità dei punti è maggiore fra 98 e 99 gradi e minore alle due estremità. Questo tipo di comportamento è tipico di un campione di dati scelto da una popolazione la cui distribuzione ha un picco centrale ben definito. I pannelli in basso mostrano le statistiche di sintesi e un diagramma a scatola e baffi, che sono descritti nei prossimi paragrafi.


10.2 Statistiche di sintesi La tabella nel pannello inferiore sinistro riporta varie statistiche relative ai dati del campione. Se volete aggiungere altre statistiche, ingrandite il pannello facendo doppio clic su di esso; poi fate clic sul pulsante Opzioni per il pannello nella barra degli strumenti di analisi:

Figura 10-5. La finestra con le statistiche di sintesi

Se selezionate le statistiche Mediana, Quartile inferiore, Quartile superiore e Range interquartile, otterrete i seguenti risultati:

Statistiche di sintesi per Temperature

Conteggio 130

Media 98,2492

Mediana 98,3

Deviazione standard 0,733183

Coeff. di variazione 0,746248%

Minimo 96,3

Massimo 100,8

Range 4,5

Quartile inferiore 97,8

Quartile superiore 98,7

Range interquartile 0,9

Asimmetria std. -0,0205699

Curtosi std. 1,81642

Figura 10-6. La tabella con le statistiche di sintesi

Di solito si suppone che i valori misurati abbiano una distribuzione normale o gaussiana, che ha la caratteristica forma di campana. I dati di una distribuzione normale sono descritti da due statistiche:


1. La media del campione 25.981

==

∑=

n

x

x

n

i

i

, che determina il centro della distribuzione.

2. La deviazione standard del campione ( )

733.01

1

2

=

−

−

=

∑=

n

xx

s

n

i

i

, che esprime la variabilità

della distribuzione.

In una distribuzione normale il 68% circa di tutti i valori è compreso all’interno di una deviazione standard della media della popolazione, il 95% circa all’interno di due deviazioni standard e il 99,73% circa all’interno di tre deviazioni standard.

La deviazione standard e la media sono sufficienti a descrivere completamente il campione soltanto se questo appartiene a una distribuzione normale. Due statistiche che possono essere utilizzate per verificare questa ipotesi sono l’asimmetria e la curtosi standardizzate. Queste statistiche misurano la forma delle distribuzioni:

1. L’asimmetria misura il grado di simmetria di una distribuzione. Una distribuzione simmetrica, come quella normale, ha un’asimmetria nulla. Le distribuzioni in cui prevalgono i valori estremamente grandi hanno asimmetria positiva. Le distribuzioni in cui prevalgono i valori estremamente piccoli hanno asimmetria negativa.

2. La curtosi misura la forma di una distribuzione simmetrica. Una curva normale o a campana ha curtosi nulla. Una distribuzione che è più appuntita di quella normale ha curtosi positiva. Una distribuzione che è più appiattita di quella normale ha curtosi negativa.

Se i dati provengono da una distribuzione normale, l’asimmetria e la curtosi standardizzate sono comprese tra –2 e +2. La distribuzione normale è un modello accettabile per i dati del campione in esame.

Un altro utile strumento di sintesi, ideato da John Tukey, è detto “sintesi a cinque numeri” (five number summary):

Minimo (il valore più piccolo) = 96,3 Primo quartile (25° percentile) = 97,8 Mediana (50° percentile) = 98,3 Terzo quartile (75° percentile) = 98,7 Massimo (il valore più grande) = 100,8

Questi cinque numeri dividono il campione in quattro parti e formano la base del diagramma a scatola e baffi, descritto nel prossimo paragrafo.


NOTA: le statistiche di sintesi che selezionate mediante il pulsante Opzioni per il pannello vengono utilizzate soltanto nell’analisi in corso. Per cambiare le statistiche di default delle analisi future, utilizzate l’opzione Preferenze del menu Modifica. La scheda Statistiche nella finestra Preferenze vi consente di cambiare le statistiche che vengono calcolate per default quando eseguite la procedura Analisi a una variabile (e molte altre procedure che visualizzano statistiche di sintesi):

Figura 10-7. La finestra Preferenze per selezionare le statistiche di default


10.3 Diagramma a scatola e baffi Il diagramma a scatola e baffi, ideato da John Tukey, è un metodo grafico efficace per sintetizzare i dati; l’esempio rappresentato nell’angolo in basso a destra della Figura 10-4 è ingrandito nella seguente illustrazione:

Figura 10-8. Il diagramma a scatola e baffi per le temperature corporee

Un diagramma a scatola e baffi è composto dai seguenti elementi:

1. Una scatola centrale che si estende dal primo al terzo quartile. Il 50% dei valori centrali della distribuzione si trova all’interno della scatola.

2. Una linea verticale in corrispondenza della mediana del campione divide a metà i dati. Se

i dati provengono da una distribuzione simmetrica, questa linea dovrebbe essere vicina al centro della scatola.


3. Un segno più in corrispondenza della media del campione. Una differenza significativa

tra la mediana e la media, di solito, segnala la presenza di un outlier (un valore che si discosta notevolmente dagli altri) o una distribuzione asimmetrica. Nel caso di distribuzione asimmetrica, la media tende a spingersi nella direzione della coda più lunga.

4. Due baffi che si estendono dai quartili verso i valori minimo e massimo delle

osservazioni, a meno che alcuni valori non siano talmente lontani dalla scatola da essere classificati punti esterni (outside); in questo caso, i baffi si estendono fino ai punti più estremi che non sono classificati esterni. STATGRAPHICS Centurion XVI, conformemente al metodo di Tukey, identifica due tipi di punti anomali:

a. Punti molto esterni (far outside): sono quelli che si trovano a più di 3 volte il range

interquartile prima o dopo i confini della scatola (nota: il range interquartile è la distanza tra i quartili, che è uguale alla larghezza della scatola). Un punto molto esterno è indicato dal simbolo del punto (di solito un piccolo quadrato) con un segno più sovrapposto. Se i dati provengono da una distribuzione normale, la probabilità che un punto sia così lontano dalla scatola da essere classificato molto

lontano è soltanto di 1 su 300 circa in un campione della dimensione corrente. A meno che non ci siano migliaia di osservazioni nel campione, i punti molto lontani di solito indicano la presenza di veri outlier (o di una distribuzione non normale).

b. Punti esterni (outside): sono quelli che si trovano a più di 1,5 volte il range

interquartile prima o dopo i confini della scatola. I punti esterni sono indicati dal simbolo del punto, senza il segno più. Anche quando i dati provengono da una distribuzione normale, la probabilità di osservare 1 o 2 punti esterni in un campione di n = 100 osservazioni è di circa il 50% e non indica necessariamente la presenza di un vero outlier. Questi punti richiedono un’indagine più approfondita.

Il diagramma a scatola e baffi della Figura 10-8 può essere considerato simmetrico. I baffi hanno approssimativamente la stessa lunghezza, la media e la mediana sono simili e vicine al centro della scatola. Sono rappresentati tre punti esterni, ma nessun punto è molto lontano. Se fate clic con il mouse sull’outlier di destra, il programma vi segnalerà che il punto corrisponde alla riga 15 del file. Se fate clic sul pulsante Opzioni per il pannello nella barra degli strumenti di analisi, potete aggiungere al diagramma la Tacca della mediana:


Figura 10-9. Il diagramma a scatola e baffi con una tacca per la mediana

L’opzione Tacca della mediana aggiunge al grafico una tacca di ampiezza pari approssimativamente a un intervallo di confidenza per la mediana della popolazione, al livello di confidenza di default del sistema (95%, di solito). Questa tacca indica il margine di errore che si ha quando si stima la mediana delle temperature della popolazione da cui è estratto il campione. In questo caso, l’errore di campionamento è di circa 0,15 gradi in entrambe le direzioni. Con un campione più grande si avrebbe un margine di errore più piccolo.

10.4 Verifica degli outlier Prima di calcolare altre statistiche, è bene verificare se il punto della riga 15 è un vero outlier e, in tal caso, escluderlo dai dati in esame. STATGRAPHICS Centurion XVI ha una procedura che esegue un test formale per determinare se un’osservazione possa provenire da una distribuzione normale. Il test è accessibile dal menu principale selezionando:


1. Descrivi – Dati numerici – Identificazione degli outlier, se utilizzate il menu classico.

2. Analyze – Variabili – Identificazione degli outlier, se utilizzate il menu Six Sigma.

Specificando Temperature nel campo Dati, si aprirà la finestra Opzioni; poi visualizzerete la finestra Tabelle e grafici. Dopo che avrete selezionato le opzioni desiderate, otterrete un’ampia tabella di statistiche che sarà visualizzata nella seconda metà del pannello a sinistra. Particolarmente interessante è la parte della tabella che mostra i 5 valori più piccoli e i 5 valori più grandi del campione:

Valori ordinati

Valori studentizzati Valori studentizzati Z-score

Riga Valore senza eliminazione con eliminazione modificati con MAD

95 96,3 -2,65859 -2,74567 -2,698

55 96,4 -2,52219 -2,59723 -2,5631

23 96,7 -2,11302 -2,15912 -2,1584

30 96,7 -2,11302 -2,15912 -2,1584

73 96,8 -1,97663 -2,01521 -2,0235

...

99 99,4 1,56955 1,59096 1,4839

13 99,5 1,70594 1,7323 1,6188

97 99,9 2,25151 2,30628 2,1584

120 100,0 2,3879 2,45231 2,2933

15 100,8 3,47903 3,67021 3,3725

Test di Grubbs (suppone la normalità)

Statistica del test = 3,47903 P-value = 0,0484379

Figura 10-10. Valori selezionati dall’output della procedura Identificazione degli outlier

Il dato più insolito è quello della riga 15, evidenziato in rosso, cui corrisponde il valore 3,479 nella colonna Valori studentizzati senza eliminazione. I valori studentizzati sono calcolati con la seguente formula:

s

xx

zi

i

−

=

Il valore 3,479 indica che un’osservazione è 3,479 deviazioni standard sopra la media del campione, se l’osservazione viene inclusa nel calcolo di x ed s. La colonna Valori studentizzati con eliminazione indica di quante deviazioni standard un’osservazione si discosta dalla media del campione se l’osservazione non viene utilizzata nei calcoli. Se non viene incluso nei calcoli, il valore della riga 15 si discosta dalla media di 3,67 deviazioni standard.


Le osservazioni che si discostano dalla media di oltre 3 deviazioni standard sono rare, a meno che la dimensione n del campione non sia molto grande o la distribuzione non sia normale. È possibile eseguire un test formale per verificare le seguenti ipotesi:

Ipotesi nulla: il valore più estremo proviene dalla stessa distribuzione normale delle altre osservazioni.

Ipotesi alternativa: il valore più estremo non proviene dalla stessa distribuzione normale delle altre osservazioni.

Un tipico test per verificare queste ipotesi è quello di Grubbs, detto anche test di deviazione

studentizzata estrema. STATGRAPHICS Centurion XVI esegue questo test e fornisce un P-value. In generale, un P-value (o valore P) indica la probabilità che una statistica assuma un valore tanto estremo o anche più estremo di quello osservato nel campione, se l’ipotesi nulla fosse vera. Se il P-value è sufficientemente piccolo, l’ipotesi nulla può essere rifiutata, perché il valore del campione sarebbe un evento estremamente raro. Con “sufficientemente piccolo” di solito s’intende un P-value minore di 0,05, che è detto “livello di significatività” o “rischio α (alpha)” della procedura del test. Se c’è una probabilità minore del 5% che venga raggiunto il valore estremo del campione, supponendo vera l’ipotesi nulla, allora questa ipotesi viene rifiutata. Nell’esempio in esame, la statistica test è uguale 3,479, che è il massimo assoluto dei Valori studentizzati senza eliminazione. Il P-value è 0,0484 ed essendo minore di 0,05, possiamo rifiutare l’ipotesi nulla, concludendo che il valore della riga 15 è un outlier rispetto agli altri valori del campione. Potete eliminare la riga 15 facendo clic sul pulsante Finestra di input nella barra degli strumenti di analisi e digitando nel campo Seleziona un’espressione come questa:

Figura 10-11. La finestra Identificazione degli outlier con l’espressione che elimina l’outlier


Poiché la riga 15 è l’unica osservazione che supera i 100 gradi, l’espressione del campo Seleziona considera soltanto le altre 129 righe. Il nuovo output della procedura Identificazione degli outlier è riportato nel seguente prospetto:

Valori ordinati

Valori studentizzati Valori studentizzati Z-score

Riga Valore senza eliminazione con eliminazione modificati con MAD

95 96,3 -2,75487 -2,85205 -2,698

55 96,4 -2,61209 -2,6956 -2,5631

23 96,7 -2,18375 -2,23455 -2,1584

30 96,7 -2,18375 -2,23455 -2,1584

73 96,8 -2,04097 -2,08332 -2,0235

...

119 99,4 1,6713 1,69652 1,4839

99 99,4 1,6713 1,69652 1,4839

13 99,5 1,81408 1,84516 1,6188

97 99,9 2,3852 2,44992 2,1584

120 100,0 2,52798 2,60411 2,2933

Test di Grubbs (suppone la normalità)

Statistica del test = 2,75487 P-value = 0,676064

Figura 10-12. L’output della procedura Identificazione degli outlier dopo avere eliminato la riga 15

Il valore più estremo tra le restanti osservazioni è quello della riga 95. Poiché il P-value del test di Grubbs è molto più grande di 0,05, è ragionevole supporre che tutte le restanti osservazioni provengano dalla stessa popolazione.

In teoria, si dovrebbe riesaminare lo studio originale per tentare di scoprire la causa del valore anomalo della riga 15. Poiché questo non può essere fatto adesso, accettiamo i risultati del test di Grubbs ed escludiamo la riga15 da tutti i successivi calcoli. Modificando la finestra di input dei dati per la procedura Analisi a una variabile nel modo indicato nella Figura 10-11, si ottengono le seguenti statistiche di sintesi:


Conteggio 129

Media 98,2295

Mediana 98,3

Deviazione standard 0,70038

Coeff. di variazione 0,713004%

Minimo 96,3

Massimo 100,0

Range 3,7


Quartile inferiore 97,8

Quartile superiore 98,7

Range interquartile 0,9

Asimmetria std. -1,40217

Curtosi std. 0,257075

Figura 10-13. Statistiche di sintesi dopo avere eliminato la riga 15

10.5 Istogramma Un altro tipico metodo grafico per rappresentare un campione di dati misurati è l’istogramma delle frequenze. Ritornando alla procedura Analisi a una variabile, per creare un istogramma, fate

clic sul pulsante Tabelle e grafici nella barra degli strumenti di analisi e selezionate Istogramma

delle frequenze. Otterrete il seguente istogramma di default:

Figura 10-14. L’istogramma delle frequenze con le classi di default


L’altezza delle barre dell’istogramma rappresenta il numero di osservazioni che cadono nell’intervallo delle temperature coperto dalle varie barre. Il numero e la larghezza delle barre sono impostati per default in base alla dimensione n del campione, applicando la regola selezionata nella scheda EDA (Exploratory Data Analysis) della finestra Modifica – Preferenze:

Figura 10-15. La scheda EDA della finestra Preferenze

Se si usa la regola di Sturges, il numero di barre è pari al numero intero più piccolo che non è minore di 1+3,322log10(n). Le altre regole, come 10log10(n), tendono a produrre più barre e sono da preferire con i grandi insiemi di dati. Una volta creato l’istogramma, per modificarne le impostazioni di default, fate doppio clic sull’istogramma per ingrandire il suo pannello e poi fate clic sul pulsante Opzioni per il pannello:


Figura 10-16. La finestra con le opzioni per l’istogramma delle frequenze

Per impostare le classi, bisogna considerare il numero di cifre significative dei dati. Per esempio, poiché le temperature corporee sono state approssimate al decimo di grado, la larghezza delle barre dovrebbe essere un multiplo intero di 0,1. Così facendo, ciascuna barra copre lo stesso numero di misure possibili. Il seguente istogramma è composto da 25 intervalli compresi tra 96 e 101 gradi, ciascuno dei quali copre 0,2 gradi:


Figura 10-17. L’istogramma delle frequenze con un nuovo numero di classi

Aumentando il numero di classi, si mettono in evidenza maggiori dettagli. La forma generale della distribuzione è simile a quella di una curva normale a campana. I dati dell’istogramma possono essere rappresentati in forma tabellare, facendo clic sul pulsante

Tabelle e grafici nella barra degli strumenti di analisi e selezionando l’opzione Tabulazione delle

frequenze:


Tabulazione delle frequenze per Temperature

Limite Limite Frequenza Frequenza Frequenza

Classe inferiore superiore Punto medio Frequenza relativa cumulata rel. cum.

a o sotto 96,0 0 0,0000 0 0,0000

1 96,0 96,2 96,1 0 0,0000 0 0,0000

2 96,2 96,4 96,3 2 0,0155 2 0,0155

3 96,4 96,6 96,5 0 0,0000 2 0,0155

4 96,6 96,8 96,7 3 0,0233 5 0,0388

5 96,8 97,0 96,9 2 0,0155 7 0,0543

6 97,0 97,2 97,1 6 0,0465 13 0,1008

7 97,2 97,4 97,3 6 0,0465 19 0,1473

8 97,4 97,6 97,5 6 0,0465 25 0,1938

9 97,6 97,8 97,7 10 0,0775 35 0,2713

10 97,8 98,0 97,9 16 0,1240 51 0,3953

11 98,0 98,2 98,1 13 0,1008 64 0,4961

12 98,2 98,4 98,3 14 0,1085 78 0,6047

13 98,4 98,6 98,5 13 0,1008 91 0,7054

14 98,6 98,8 98,7 18 0,1395 109 0,8450

15 98,8 99,0 98,9 7 0,0543 116 0,8992

16 99,0 99,2 99,1 6 0,0465 122 0,9457

17 99,2 99,4 99,3 4 0,0310 126 0,9767

18 99,4 99,6 99,5 1 0,0078 127 0,9845

19 99,6 99,8 99,7 0 0,0000 127 0,9845

20 99,8 100,0 99,9 2 0,0155 129 1,0000

21 100,0 100,2 100,1 0 0,0000 129 1,0000

22 100,2 100,4 100,3 0 0,0000 129 1,0000

23 100,4 100,6 100,5 0 0,0000 129 1,0000

24 100,6 100,8 100,7 0 0,0000 129 1,0000

25 100,8 101,0 100,9 0 0,0000 129 1,0000

sopra 101,0 0 0,0000 129 1,0000

Media = 98,2295 Deviazione standard = 0,70038

Figura 10-18. Forma tabellare delle frequenze dell’istogramma

Notate che un’osservazione appartiene a un intervallo se è maggiore del limite inferiore dell’intervallo e minore o uguale al limite superiore. L’ultima colonna a destra è di notevole interesse, perché indica la probabilità cumulata che un valore di temperatura cada in una determinata classe o nelle classi precedenti. Per esempio, l’89,92% di tutti i valori è minore o uguale a 99,0 gradi.


10.6 Grafico dei quantili e percentili Un altro metodo per visualizzare le probabilità cumulate consiste nel selezionare Grafico dei quantili dalla lista del pulsante Grafici nella procedura Analisi a una variabile:

Figura 10-19. Il grafico dei quantili

In questo grafico, i dati vengono prima ordinati dal più piccolo al più grande. Il j-esimo valore più grande viene poi rappresentato in Y = (j+0,5)/n, che è una stima della proporzione della popolazione le cui temperature sono minori o uguali al valore osservato. Come l’ultima colonna a destra nella tabella delle frequenze, la curva rappresenta la probabilità cumulata che un individuo abbia una temperatura minore o uguale a quella indicata nell’asse orizzontale. Poiché i valori delle temperature sono stati approssimati al decimo di grado, ci sono dei salti verticali nel grafico. La Figura 10-19 include anche due cursori incrociati, che potete visualizzare premendo il tasto destro del mouse sul grafico e selezionando Localizza dal menu popup. Utilizzate il mouse per trascinare questi cursori in un’altra posizione. I numeri che appaiono alle estremità dei cursori


indicano la posizione del loro punto di incrocio. Nel precedente grafico, i cursori sono stati utilizzati per localizzare la mediana o 50° percentile, che è il valore della temperatura in corrispondenza della quale la proporzione visualizzata sull’asse verticale è uguale a 0,5. Una tabella di percentili può essere creata selezionando Percentili dalla lista del pulsante Tabelle:

Percentili per Temperature

Percentili Limite inferiore Limite superiore

1,0% 96,4 96,34 96,811

5,0% 97,0 96,8727 97,2473

10,0% 97,2 97,1538 97,4829

25,0% 97,8 97,6152 97,8846

50,0% 98,3 98,1082 98,3508

75,0% 98,7 98,5743 98,8437

90,0% 99,1 98,9761 99,3051

95,0% 99,3 99,2116 99,5862

99,0% 99,9 99,6479 100,119

L'output include limiti di confidenza normali al 95,0%.

Figura 10-20. La tabella dei percentili

Il p-esimo percentile rappresenta una stima del valore di temperatura al di sotto del quale si trova il p% della popolazione. Utilizzate il pulsante Opzioni per il pannello per aggiungere ai percentili i limiti di confidenza al 95%, supponendo che il campione provenga da una distribuzione normale.

Per esempio, il 90° percentile è il valore di temperatura che è superato soltanto dal 10% degli individui della popolazione. La stima migliore di questo percentile basata sul campione dei dati è 99,1 gradi. Tuttavia, considerando la dimensione limitata del campione, il 90° percentile potrebbe trovarsi tra 98,98 e 99,31 gradi, con un livello di confidenza al 95%.

10.7 Intervalli di confidenza Una volta eliminato l’outlier dal campione, potete stimare i parametri definitivi della distribuzione da cui provengono i dati. Se selezionate Intervalli di confidenza dalla finestra Tabelle e

grafici, otterrete i seguenti risultati:

Intervalli di confidenza per Temperature

intervallo di confidenza al 95,0% per la media: 98,2295 +/- 0,122015 [98,1074; 98,3515] intervallo di confidenza al 95,0% per la deviazione standard: [0,624081; 0,798114]

Figura 10-21. Intervalli di confidenza al 95% per la media e la deviazione standard

Gli intervalli di confidenza forniscono un limite al potenziale errore nella stima della media e della deviazione standard della popolazione. Date le restanti 129 osservazioni, possiamo


affermare di essere confidenti al 95% che la temperatura media della popolazione è compresa tra 98,11 e 98,35 gradi. Analogamente, la deviazione standard della popolazione è compresa tra 0,624 e 0,798 gradi. Facendo clic sul pulsante Opzioni per il pannello, potete richiedere altri intervalli di confidenza utilizzando il metodo bootstrap:

Figura 10-22. La finestra con le opzioni per gli intervalli di confidenza

Gli intervalli bootstrap, diversamente da quelli della Figura 10-21, non si basano sull’ipotesi che la popolazione abbia una distribuzione normale. Dai dati vengono selezionati campioni casuali di n = 129 osservazioni (il campionamento è con ripetizione, nel senso che le stesse osservazioni possono essere selezionate più di una volta). Il processo si ripete 500 volte, vengono calcolate le statistiche dei campioni e il 95% centrale dei risultati viene utilizzato per calcolare gli intervalli di confidenza. La seguente tabella riporta gli intervalli bootstrap per la media, la deviazione standard e la mediana della popolazione:

Intervalli di confidenza per Temperature

intervallo di confidenza al 95,0% per la media: 98,2295 +/- 0,122015 [98,1074; 98,3515] intervallo di confidenza al 95,0% per la deviazione standard: [0,624081; 0,798114] Intervalli bootstrap Media: [98,1147; 98,3372] Deviazione standard: [0,608285; 0,788895] Mediana: [98,2; 98,4]

Figura 10-23. Intervalli di confidenza al 95%

NOTA: i vostri risultati potrebbero essere leggermente diversi da quelli mostrati.


I primi intervalli, calcolati utilizzando le distribuzioni t di Student e chi-quadrato, sono molto vicini agli intervalli bootstrap. Questo era prevedibile perché i dati non presentano una significativa asimmetria o curtosi.

10.8 Verifica di ipotesi È anche possibile eseguire delle verifiche di ipotesi formali. Per esempio, sappiamo che la temperatura normale del corpo umano è 98,6 gradi Fahrenheit. Per verificare se i dati in esame provengono da una distribuzione normale con tale media, possiamo definire le seguenti ipotesi:

Ipotesi nulla: µ = 98,6 gradi

Ipotesi alternativa: µ ≠ 98,6 gradi

Per eseguire la verifica all’interno della procedura Analisi a una variabile, selezionate Verifica di

ipotesi dalla lista del pulsante Tabelle e grafici. Prima di esaminare i risultati, fate clic sul pulsante Opzioni per il pannello e specificate le opzioni della verifica desiderata:

Figura 10-24. Opzioni per la verifica delle ipotesi


Il valore immesso nel campo Media/Mediana rappresenta l’ipotesi nulla. Sotto Ipotesi altern. potete scegliere una delle tre ipotesi alternative:

1. Diverso: µ ≠ 98,6 2. Minore: µ < 98,6 3. Maggiore: µ > 98,6

Anche se il campione in esame suggerisce una temperatura media inferiore, abbiamo scelto un’alternativa bilaterale (Diverso). Un test unilaterale con l’ipotesi alternativa µ < 98,6 gradi, a questo punto dell’analisi, sarebbe soltanto un modo per “curiosare tra i dati”, perché formuleremmo l’ipotesi dopo avere esaminato i dati.

I risultati della verifica sono i seguenti:

Verifica di ipotesi per Temperature

Media del campione = 98,2295 Mediana del campione = 98,3 Deviazione standard del campione = 0,70038

test t Ipotesi nulla: media = 98,6 Alternativa: diversa

Statistica t calcolata = -6,00896 P-Value = 1,81264E-8 Rifiutare l'ipotesi nulla per alfa = 0,05.

test per ranghi con segno Ipotesi nulla: mediana = 98,6 Alternativa: diversa

Rango medio di valori sotto la mediana ipotizzata: 67,7099 Rango medio di valori sopra la mediana ipotizzata: 43,5658 Statistica di test per grandi campioni = 5,07771 (applicata la correzione di continuità) P-Value = 3,82663E-7 Rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 10-25. Risultati delle verifiche di ipotesi

Sono stati effettuati due test:

1. Un test t standard: suppone che i dati provengano da una distribuzione normale (sebbene non sia eccessivamente sensibile alle partenze da questa ipotesi).

2. Un test (non parametrico) per ranghi con segno: si basa sui ranghi della distanza di ciascuna osservazione dalla mediana ipotizzata. Questo test non suppone che la distribuzione sia normale ed è meno sensibile agli outlier rispetto al test t.


In entrambi i casi, il P-value è ben al di sotto di 0,05, e questo suggerisce di rifiutare l’ipotesi che il campione provenga da una popolazione con una media di 98,6 gradi.

NOTA: la notazione E-8 dopo un numero significa che il numero deve essere moltiplicato per 10–8. Pertanto, il P-value 1,81264E-8 è pari a 0,0000000181264.

È importante notare che l’intervallo di confidenza per la media, dato nel Paragrafo 10.7, non includeva il valore 98,6. Qualsiasi valore esterno all’intervallo di confidenza viene scartato dal test t qui considerato. Pertanto l’intervallo di confidenza può essere considerato come quell’intervallo che contiene tutti i possibili valori della popolazione che possono essere supportati dal campione di dati.

10.9 Limiti di tolleranza Il campione delle temperature del corpo umano richiede un’ulteriore analisi per ottenere i limiti di tolleranza normali; sono i limiti entro i quali si prevede di trovare una determinata percentuale della popolazione con un certo livello di confidenza. La procedura per ottenere i limiti di tolleranza è accessibile dal menu principale:

1. selezionate Descrivi – Dati numerici – Limiti di tolleranza statistici, se state utilizzando il menu classico;

2. selezionate Analyze – Variabili – Analisi della capacità – Limiti di tolleranza statistici, se state utilizzando il menu Six Sigma.

La procedura inizia con una finestra nella quale dovrete specificare la dimensione, la media e la deviazione standard del campione. Utilizzando i risultati della Figura 10-13, i valori da immettere sono i seguenti:


Figura 10-26. La finestra per i limiti di tolleranza

Quando fate clic su OK, prima appare la finestra Opzioni e poi la finestra Tabelle e grafici. L’output risultante è il seguente:

Limiti di tolleranza statistici

Dimensione del campione = 129 Media del campione = 98,2295 Deviazione standard del campione = 0,70038 Intervallo di tolleranza al 95,0% per 99,0% della popolazione Xbar +/- 2,88436 sigma Superiore: 100,25 Inferiore: 96,2093 StatAdvisor

Supponendo che i dati provengano da una distribuzione normale, i limiti di tolleranza stabiliscono che possiamo essere confidenti al 95,0% che il 99,0% della distribuzione è compresa tra 96,2093 e 100,25. Questo intervallo è calcolato prendendo la media dei dati +/-2,88436 volte la deviazione standard.

Figura 10-27. Risultati della procedura Limiti di tolleranza statistici

L’interpretazione di StatAdvisor sintetizza in modo conciso i risultati della procedura. Il livello di confidenza e la percentuale della popolazione possono essere cambiati utilizzando il pulsante Opzioni per il pannello.

La procedura Limiti di tolleranza statistici genera anche un grafico che mostra i limiti di tolleranza:


Figura 10-28. Il grafico con i limiti di tolleranza

Possiamo prevedere, con un livello di confidenza del 95%, che non più di un individuo su 100 avrà una temperatura oltre i limiti di tolleranza calcolati.

173 Confrontare due campioni

Tutorial 2 – Confrontare

due campioni

Confronto grafico e verifica di ipotesi

Spesso, i dati da analizzare sono formati da due campioni, che potrebbero provenire da popolazioni differenti. In questi casi, è utile:

1. Rappresentare graficamente i dati in modo che sia possibile un confronto visivo. 2. Verificare le ipotesi per determinare se ci sono differenze statisticamente significative

tra i campioni. Il Tutorial 1 nel precedente capitolo ha analizzato un campione di temperature corporee misurate su 130 soggetti, di cui 65 erano femmine e 65 maschi. In questo tutorial, confronteremo i dati delle femmine con quelli dei maschi. Per analizzare le temperature corporee, aprite il file bodytemp.sgd selezionando File – Apri – Apri

Sorgente dati.

11.1 Eseguire la procedura di confronto di due campioni La procedura principale per confrontare i dati di due campioni è Confronta due campioni, che può essere eseguita in questo modo:

Capitolo

11


1. selezionate Confronta – Due campioni – Campioni indipendenti, se utilizzate il menu classico; 2. selezionate Analyze – Variabili – Confronto di due campioni – Campioni indipendenti, se

utilizzate il menu Six Sigma. Sarà visualizzata la finestra di input di questa procedura:

Figura 11-1. La finestra di input della procedura Confronto di due campioni

Il riquadro Input indica come devono essere immessi i dati dei due campioni:

1. Due colonne di dati – i dati di ciascun campione in una colonna distinta. 2. Colonne di dati e codici – i dati di entrambi i campioni nella stessa colonna; una seconda

colonna contiene i codici che distinguono i due campioni. Il file bodytemp.sgd ha il secondo tipo di struttura, con tutte le n = 130 osservazioni in un’unica colonna, chiamata Temperature, mentre una seconda colonna, Gender, contiene l’etichetta “Female” (femmina) o “Male” (maschio). Nel campo Seleziona è stata inserita un’espressione per selezionare soltanto le righe il cui valore di temperatura è minore o uguale a 100 gradi Fahrenheit. L’espressione escluderà dall’analisi il valore della riga 15, perché è un outlier, come determinato nel Capitolo 10.


Dopo la finestra Tabelle e grafici, sarà visualizzata la finestra di analisi che contiene quattro pannelli, con una sintesi dei dati, un istogramma duale, le statistiche di sintesi per gruppo e un diagramma duale a scatola e baffi:

Figura 11-2. La finestra di analisi della procedura Confronto di due campioni

Dopo avere escluso l’outlier, ci sono n1 = 64 osservazioni per le femmine, che variano da 96,4 a 100,0 gradi, ed n2 = 65 osservazioni per gli uomini, che variano da 96,3 a 99,5 gradi.

11.2 Statistiche di sintesi La tabella Statistiche di sintesi contiene le statistiche calcolate per ciascun campione:



Gender=Female Gender=Male

Conteggio 64 65

Media 98,3562 98,1046

Mediana 98,4 98,1

Deviazione standard 0,684262 0,698756

Coeff. di variazione 0,695697% 0,712256%

Minimo 96,4 96,3

Massimo 100,0 99,5

Range 3,6 3,2

Quartile inferiore 98,0 97,6

Quartile superiore 98,8 98,6

Range interquartile 0,8 1,0

Asimmetria std. -1,35246 -0,702297

Curtosi std. 1,49635 -0,610877

Figura 11-3. Statistiche di sintesi per campione

Diverse cose sono particolarmente interessanti:

1. La temperatura media delle femmine è di circa 0,25 gradi più alta di quella dei maschi. La differenza tra le mediane è 0,30 gradi.

2. La deviazione standard delle femmine è leggermente più piccola di quella dei maschi; questo indica che le temperature corporee delle femmine potrebbero avere una variabilità più ridotta di quelle dei maschi.

3. Entrambi i campioni hanno valori di asimmetria e curtosi standardizzate compresi tra –2 e 2. Come spiegato nel Capitolo 10, se i valori di asimmetria e curtosi standardizzate sono compresi in tale intervallo, si può supporre che i dati provengano da una distribuzione normale.

Resta da determinare se la differenza apparente tra femmine e maschi sia statisticamente significativa.

11.3 Istogramma duale L’istogramma delle frequenze offre un confronto diretto tra i due campioni. Se utilizzate il pulsante Opzioni per il pannello per modificare il numero di classi in modo che ci siano 25 intervalli tra 96 e 101 gradi, otterrete il seguente grafico:


Figura 11-4. Istogramma duale delle frequenze

L’istogramma delle femmine è rappresentato sopra la linea orizzontale. L’istogramma dei maschi è invertito e rappresentato sotto la linea orizzontale. Le forme delle distribuzioni sono simili, con un possibile spostamento della distribuzione delle femmine a destra di quella dei maschi.

11.4 Diagramma duale a scatola e baffi La finestra di analisi visualizza anche i diagrammi a scatola e baffi per i due campioni. Come spiegato nel Capitolo 10, le scatole centrali coprono la metà centrale di ciascun campione. I baffi si estendono fino ai valori minimo e massimo di ciascun campione, esclusi eventuali punti che sono eccessivamente distanti dalle scatole. Una linea verticale viene tracciata all’interno di ciascuna scatola in corrispondenza della mediana del campione, mentre un piccolo segno più indica la posizione della media del campione.


In questo caso, è particolarmente utile aggiungere le tacche delle mediane tramite il pulsante Opzioni per il pannello. Il grafico risultante è il seguente:

Figura 11-5. Diagramma duale a scatola e baffi con le tacche delle mediane

Questo diagramma mette in evidenza:

1. uno spostamento apparente del centro della distribuzione delle femmine a destra di quella dei maschi. Entrambe le medie e le mediane presentano una differenza simile;

2. l’intervallo coperto dalle femmine è più ampio di quello coperto dai maschi, ma soltanto se si include il punto esterno più piccolo;

3. la tacca della mediana delle femmine si sovrappone leggermente a quella dei maschi. Le tacche sono tracciate in modo tale che, se le due tacche non si sovrapponessero, si potrebbe affermare che le due mediane sono significativamente differenti, al livello di significatività di default del sistema (correntemente pari al 5%). Un confronto più formale è descritto nel prossimo paragrafo.

Sebbene questo diagramma mostri una differenza tra i centri dei due campioni, resta indeterminata la significatività statistica di tale differenza.


11.5 Confrontare le deviazioni standard Il primo confronto formale tra i due campioni consiste nel verificare l’ipotesi che le deviazioni standard (σ) delle popolazioni da cui provengono i dati siano uguali, contro l’ipotesi che siano differenti, ovvero:

Ipotesi nulla: σ1 = σ2

Ipotesi alternativa: σ1 ≠ σ2

Questo ci consente di determinare se la differenza apparente tra la variabilità dei maschi e delle femmine sia statisticamente significativa o se invece sia entro i limiti normali di variabilità casuale per campioni della dimensione corrente.

Per eseguire la verifica, fate clic sul pulsante Tabelle e grafici nella barra degli strumenti di analisi e selezionate Confronto di deviazioni standard. I risultati sono i seguenti:

Confronto di deviazioni standard per Temperature

Gender=Female Gender=Male

Deviazione standard 0,684262 0,698756

Varianza 0,468214 0,48826

G.l. 63 64

Rapporto delle varianze = 0,958945 Intervalli di confidenza al 95,0% Deviazione standard di Gender=Female: [0,582853; 0,828723] Deviazione standard di Gender=Male: [0,595887; 0,844885] Rapporto delle varianze: [0,584028; 1,57609] Test F per confrontare le deviazioni standard Ipotesi nulla: sigma1 = sigma2 Ipotesi alt.: sigma1 diversa da sigma2 F = 0,958945 P-value = 0,8684 Non rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 11-6. Confronto delle deviazioni standard di due campioni

L’output più importante di questa tabella è evidenziato in rosso:

1. Rapporto delle varianze: visualizza un intervallo di confidenza al 95% per il rapporto tra la varianza della popolazione delle femmine, σ1

2, e la varianza della popolazione dei maschi, σ2

2. La varianza è una misura della variabilità calcolata elevando al quadrato la deviazione standard (nota: il confronto della variabilità tra più campioni di solito si basa sulle varianze, anziché sulle deviazioni standard, perché hanno proprietà matematiche più interessanti). I valori del rapporto σ1

2 / σ22 variano da 0,58 a 1,58. Questo indica che la


varianza delle femmine potrebbe essere compresa tra il 58% e il 158% circa della varianza dei maschi. Questa mancanza di precisione è tipica quando si confrontano variabilità di campioni relativamente piccoli.

2. Il P-value associato a un test F dell’ipotesi precedentemente definita. Un P-value minore di 0,05 indica una differenza statisticamente significativa tra la varianza delle femmine e quella dei maschi a un livello di significatività del 5%. Poiché il P-value è molto più grande di 0,05, non c’è una prova evidente per rifiutare l’ipotesi di varianze uguali e, quindi, di deviazioni standard uguali.

Dunque, non esiste una prova significativa per concludere che la variabilità delle temperature corporee delle femmine sia diversa da quella dei maschi.

È importante notare che questo test è molto sensibile all’ipotesi che i campioni provengano da popolazioni con distribuzioni normali, un’ipotesi che è accettabile in base ai valori di asimmetria e curtosi standardizzate.

11.6 Confrontare le medie Il secondo confronto tra i due campioni consiste nel verificare l’ipotesi che le medie (µ) delle due popolazioni siano uguali:

Ipotesi nulla: µ1 = µ2

Ipotesi alternativa: µ1 ≠ µ2

Per eseguire questa verifica, fate clic di nuovo sul pulsante Tabelle e selezionate Confronto di medie. I risultati sono i seguenti:

Confronto di medie per Temperature

Intervallo di confidenza al 95,0% per la media di Gender=Female: 98,3562 +/- 0,170924 [98,1853; 98,5272] Intervallo di confidenza al 95,0% per la media di Gender=Male: 98,1046 +/- 0,173144 [97,9315; 98,2778] Intervallo di confidenza al 95,0% per la differenza tra le medie supponendo le varianze uguali: 0,251635 +/- 0,240998 [0,0106371; 0,492632] test t per confrontare le medie Ipotesi nulla: media1 = media2 Ipotesi alt.: media1 diversa da media2 supponendo le varianze uguali: t = 2,06616 P-value = 0,040846 Rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 11-7. Confronto delle medie di due campioni


L’output più importante di questa tabella è evidenziato in rosso:

1. Differenza tra le medie (supponendo le varianze uguali): visualizza un intervallo di confidenza al 95% per la media della popolazione delle femmine meno la media della popolazione dei maschi. I valori di µ1 – µ2 variano da 0,01 a 0,49. Questo indica che la temperatura media corporea delle femmine è tra 0,01 e 0,49 gradi più alta di quella dei maschi.

2. Il P-value associato a un test t dell’ipotesi precedentemente definita. Poiché il P-value è più

piccolo di 0,05, c’è una prova sufficiente per rifiutare l’ipotesi di medie uguali e quindi per dichiarare che le medie delle due popolazioni sono statisticamente diverse a un livello di significatività del 5%.

Notate che questo test è stato fatto supponendo che le varianze delle due popolazioni fossero uguali; ciò è stato confermato dal test F nel precedente paragrafo. Se le varianze fossero state significativamente differenti, avreste potuto eseguire un test t approssimato, facendo clic sul pulsante Opzioni per il pannello e deselezionando la casella Supponi sigma uguali. Sembra dunque che le temperature delle femmine provengano da una popolazione con una temperatura media più alta di quella dei maschi.

11.7 Confrontare le mediane Se sospettate che i dati possano contenere degli outlier, potete eseguire un test non parametrico per confrontare le mediane, anziché le medie. I test non parametrici non suppongono che i dati provengano da distribuzioni normali e tendono a essere meno influenzati da eventuali outlier. Selezionando Confronto di mediane dalla finestra Tabelle e grafici, eseguirete il test W di Mann-Whitney (Wilcoxon). In questo test, innanzitutto i dati dei due campioni vengono combinati. I dati risultanti vengono poi ordinati per rango, da 1 a n1 + n2, e i valori dei dati originali vengono sostituiti dai rispettivi ranghi. Poi viene costruito un test statistico W confrontando i ranghi medi delle osservazioni nei due campioni:


Confronto di mediane per Temperature

Mediana del campione 1: 98,4 Mediana del campione 2: 98,1 Test W di Mann-Whitney (Wilcoxon) per confrontare le mediane Ipotesi nulla: mediana1 = mediana2 Ipotesi alt.: mediana1 diversa da mediana2 Rango medio del campione 1: 71,9219 Rango medio del campione 2: 58,1846 W = 1637,0 P-value = 0,0368312 Rifiutare l'ipotesi nulla per alfa = 0,05.

Figura 11-8. Confronto delle mediane di due campioni

L’interpretazione del test di Mann-Whitney (Wilcoxon) è simile a quella del test t descritto nel precedente paragrafo, con un P-value piccolo che porta a concludere che le mediane delle due popolazioni sono significativamente diverse.

11.8 Grafico dei quantili Per illustrare la differenza tra le due distribuzioni, è possibile affiancare i grafici dei quantili di ciascun campione selezionando Grafico dei quantili dalla finestra Grafici:

Figura 11-9. I grafici dei quantili affiancati


Il grafico dei quantili illustra la proporzione dei dati in ciascun campione che è minore di un dato valore di X, come una funzione di X. Se i campioni provengono dalla stessa popolazione, i grafici dei quantili sono molto vicini. Lo spostamento di un grafico a destra o a sinistra dell’altro grafico indica una differenza tra le medie dei due campioni. Una differenza nella pendenza delle curve indica una differenza tra le deviazioni standard. Nel precedente grafico è evidente che la distribuzione delle femmine è spostata a destra di quella dei maschi. Complessivamente, però, le pendenze sono simili.

11.9 Test di Kolmogorov-Smirnov per due campioni Un altro test non parametrico che può essere eseguito se non è sostenibile l’ipotesi di distribuzione normale è il test di Kolmogorov-Smirnov per due campioni. Questo test si basa sul calcolo della distanza verticale massima tra le funzioni di distribuzione cumulata (FDC) dei due campioni, che è pari approssimativamente alla distanza massima tra i due grafici dei quantili della Figura 11-9. Se la distanza massima è sufficientemente grande, si può affermare che i due campioni provengono da popolazioni significativamente differenti.

Se selezionate Kolmogorov-Smirnov Test nella finestra Tabelle e grafici, otterrete i seguenti risultati:

Test di Kolmogorov-Smirnov per Temperature

Statistica DN stimata= 0,242548 Statistica K-S bilaterale per grandi campioni = 1,37737 P-value approssimato = 0,0449985

Figura 11-10. L’output del test di Kolmogorov-Smirnov

La distanza verticale massima, indicata con DN, è uguale approssimativamente a 0,24 per le temperature corporee.

Il P-value è utilizzato per determinare se le distribuzioni sono significativamente diverse tra loro. Un valore P piccolo porta alla conclusione che la differenza è significativa. Poiché il valore P per il campione è minore di 0,05, c’è una differenza significativa tra le distribuzioni dei maschi e delle femmine al livello di significatività del 5%.

Attenzione: se i dati sono eccessivamente arrotondati, questo test potrebbe risultare inaffidabile, in quanto la FDC (funzione di distribuzione cumulata) empirica potrebbe variare con notevoli salti. Se possibile, è meglio affidarsi a confronti che si basano su parametri selezionati delle distribuzioni, come la media, la deviazione standard o la mediana.


11.10 Grafico quantili-quantili Un ultimo grafico (accessibile selezionando Grafico quantili-quantili nella finestra Grafici) rappresenta i quantili stimati di un campione in funzione dei quantili dell’altro campione:

Figura 11-11. Il grafico quantili-quantili delle temperature corporee

In questo grafico c’è un punto che corrisponde a ciascuna osservazione nel più piccolo dei due campioni. Nell’altro asse è riportato il quantile stimato del campione più grande. Se i campioni provengono da popolazioni identiche, i punti sono vicini alla diagonale. Uno spostamento costante a sinistra o a destra indica che c’è una differenza significativa tra i centri delle due distribuzioni. I punti che divergono dalla retta con una pendenza diversa da quella della diagonale indicano una differenza significativa nella variabilità. In questo caso, la differenza tra le popolazioni può essere un po’ più complicata di un semplice spostamento nella media, in quanto i punti sono più vicini alla retta alle temperature alte e basse che alle temperature centrali. Sembra che la distribuzione delle temperature delle femmine sia più concentrata al centro rispetto a quella dei maschi.

185 Confrontare più di due campioni

Tutorial 3 – Confrontare più

di due campioni

Confrontare le medie e le deviazioni standard, ANOVA a una via, ANOM e metodi grafici

Quando i dati da analizzare appartengono a più di due gruppi, bisogna utilizzare una serie di tecniche diverse da quelle del precedente capitolo. Per esempio, supponete di dover confrontare la resistenza di un dispositivo realizzato con 4 materiali differenti. In un tipico esperimento, potreste estrarre 12 dispositivi per ciascuno dei quattro materiali per confrontarli. I seguenti dati rappresentano i risultati di tale esperimento:

Materiale A Materiale B Materiale C Materiale D

64,7 60,4 58,3 60,8 64,8 61,8 62,1 60,2 66,8 63,3 62,4 59,8 67,0 61,6 60,3 58,3 64,9 61,0 60,6 56,4 63,7 63,8 60,0 61,6 61,8 60,9 60,3 59,5 64,3 65,1 62,4 62,0 64,3 61,5 61,9 61,4 65,9 60,0 63,1 58,6 63,6 62,9 60,2 59,5 64,6 60,6 58,6 60,0

Capitolo

12


È estremamente importante determinare quale dei materiali produce il dispositivo più resistente e quali materiali sono statisticamente diversi dagli altri. Ci sono due metodi per inserire i dati di più campioni in un foglio:

1. Utilizzare una colonna per ciascun campione.

2. Utilizzare un’unica colonna per tutti i dati e creare una seconda colonna dove inserire i codici che identificano il campione da cui proviene ciascuna osservazione.

In questo esempio abbiamo utilizzato il primo metodo. I dati dei dispositivi sono stati inseriti in quattro colonne del file widgets.sgd, che potete aprire selezionando File – Apri – Apri Sorgente dati.

12.1 Eseguire la procedura di confronto di più campioni La procedura Confronto di più campioni è accessibile dal menu principale:

1. selezionate Confronta – Più campioni – Confronto di più campioni, se utilizzate il menu classico; 2. selezionate Analyze – Variabili – Confronto di più campioni – Confronto di più campioni, se

utilizzate il menu Six Sigma. La finestra iniziale serve a indicare come sono strutturati i dati da analizzare:

Figura 12-1. La finestra iniziale della procedura Confronto di più campioni

In questo caso, i dati sono stati posti in più colonne del foglio. La seconda finestra richiede i nomi delle colonne che contengono i dati:


Figura 12-2. La finestra di input dei dati della procedura Confronto di più campioni

Nel file dei dati campione, le osservazioni sono state poste in quattro colonne, chiamate A, B, C e D. Quando fate clic su OK, appare la finestra Tabelle e grafici. Le impostazioni di default possono essere accettate per questo tutorial. La finestra di analisi contiene quattro pannelli:


Figura 12-3. La finestra di analisi della procedura Confronto di più campioni

Il pannello in alto a sinistra riporta la dimensione e l’intervallo di variazione di ciascun campione. Il pannello in alto a destra contiene un grafico a dispersione dei dati, qui di seguito ingrandito:


Figura 12-4. Grafico a dispersione della resistenza dei dispositivi in funzione del materiale

Notate che molte delle osservazioni si sovrappongono sul grafico. Per risolvere questo problema, fate doppio clic sul grafico per ingrandire il pannello che lo contiene, poi fate clic sul

pulsante Jitter nella barra degli strumenti di analisi e aggiungete una piccola quantità di spazio orizzontale spostando verso destra il cursore superiore:

Figura 12-5. La finestra per sparpagliare casualmente i punti del grafico

In questo modo, ciascun punto del grafico sarà spostato di una piccola quantità casuale nella direzione orizzontale, rendendo più visibili i singoli punti:


Figura 12-6. Il grafico a dispersione dopo il jittering

Il jittering influisce soltanto sulla visualizzazione dei punti; non ha alcun effetto sui dati del foglio né su eventuali calcoli.

12.2 Analisi della varianza Il primo passo per confrontare più campioni, di solito, consiste nell’eseguire l’analisi della varianza a una via (ANOVA a una via). L’ANOVA è utilizzata per verificare l’uguaglianza di più medie scegliendo tra le seguenti ipotesi:

Ipotesi nulla: µA = µB = µC = µD Ipotesi alternativa: le medie non sono tutte uguali

dove µj rappresenta la media della popolazione da cui proviene il campione j. Rifiutare l’ipotesi nulla significa che i campioni provengono da popolazioni le cui medie non sono tutte uguali. L’output dell’ANOVA è contenuto nella tabella ANOVA, che viene visualizzata inizialmente nel pannello in basso a sinistra della finestra di analisi:


Tabella ANOVA

Sorgente Somma dei quadrati G.l. Media dei quadrati Rapporto F P-value

Tra i gruppi 157,882 3 52,6272 22,76 0,0000

Intra-gruppo 101,728 44 2,31201

Totale (Corr.) 259,61 47

Figura 12-7. Tabella dell’analisi della varianza

L’analisi della varianza scompone la variabilità dei dati osservati in due componenti: la variabilità tra i gruppi, che quantifica le differenze tra i dispositivi fatti di materiali differenti, e la variabilità all’interno dei gruppi (intra-gruppo), che quantifica le differenze tra dispositivi fatti dello stesso materiale. Se la variabilità stimata tra i gruppi è significativamente più grande di quella all’interno dei gruppi, c’è una prova evidente che le medie del gruppo non sono tutte le stesse.

La quantità chiave nella Figura 12-7 è P-value. Se il P-value è piccolo (minore di 0,05, se si opera al livello di significatività del 5%), viene rifiutata l’ipotesi che le medie siano uguali. Nell’esempio in esame, è piccolo il dubbio che le medie siano significativamente differenti.

Nell’ultima edizione di Statistics for Experimenters di Box, Hunter e Hunter (John Wiley and Sons, 2005), gli autori descrivono una nuova forma grafica di rappresentare i risultati dell’ANOVA. Questa nuova forma, ANOVA grafica, è riportata nel pannello in basso a destra:

Figura 12-8. ANOVA grafica


Nella parte inferiore del grafico c’è un diagramma a punti dei residui del modello. Nell’ANOVA a una via, i residui sono uguali alla differenza tra ciascuna osservazione e la media di tutte le osservazioni del suo gruppo. Nell’esempio in esame, la variabilità osservata nei residui è indicativa della variabilità naturale tra dispositivi fatti dello stesso materiale. Sopra la linea centrale sono rappresentate le deviazioni scalate delle medie dei gruppi dalla media globale di tutte le n = 48 osservazioni. Queste deviazioni sono scalate in modo che la loro variabilità possa essere confrontata con quella dei residui. I gruppi i cui punti sono troppo distanti per provenire da una distribuzione con una dispersione simile a quella dei residui probabilmente corrispondono a popolazioni differenti.

Nella Figura 12-8, il gruppo A sembra nettamente separato dagli altri gruppi. La separazione delle altre tre medie appare meno evidente. Un confronto più formale delle quattro medie dei campioni è descritto nel prossimo paragrafo.

12.3 Confrontare le medie Se il P-value nella tabella ANOVA è piccolo, allora bisogna analizzare le medie dei campioni per determinare quali medie sono significativamente diverse dalle altre. Un grafico efficace per svolgere questo compito è Grafico delle medie, che è accessibile tramite il pulsante Tabelle e grafici:

Figura 12-9. Il grafico delle medie


Questo grafico mostra le media dei campioni insieme a un intervallo di incertezza attorno a ciascuna media. L’interpretazione degli intervalli dipende dal tipo di intervallo rappresentato, che può essere modificato tramite il pulsante Opzioni per il pannello. I due tipi di intervalli più utilizzati sono:

1. Intervalli LSD (Least Significant Difference) di Fisher. Questi intervalli sono scalati in modo tale che si possa scegliere una coppia di campioni e dichiarare le loro medie sono significativamente differenti se gli intervalli non si sovrappongono nella direzione verticale. Sebbene la probabilità di dichiarare erroneamente differenti due campioni con questo metodo sia fissata al 5%, se si confrontano molte coppie di medie, la probabilità di commettere un errore per almeno una coppia aumenta notevolmente.

2. Intervalli HSD (Honestly Significant Difference) di Tukey. Questi intervalli sono scalati per mantenere il tasso di errore al 5% sull’intero esperimento. Applicando il metodo di Tukey, non dichiarerete erroneamente che due medie sono significativamente differenti se esse non si sono in più del 5% delle analisi che avete eseguito.

Gli intervalli nella Figura 12-9 usano il metodo di Tukey. Poiché l’intervallo per il campione A non si sovrappone a nessun altro intervallo, la media del campione A è significativamente differente da quella degli altri 3 campioni. Anche il campione B è significativamente differente dal campione D, perché i loro intervalli non si sovrappongono. Il campione C, invece, non è significativamente differente da B o D.

La stessa analisi può essere rappresentata in forma tabellare selezionando Test dei range multipli nella finestra Tabelle e grafici:

Test dei range multipli

Metodo: HSD di Tukey al 95,0%

Conteggio Media Gruppi omogenei

D 12 59,8417 X

C 12 60,85 XX

B 12 61,9083 X

A 12 64,7 X

Contrasto Sig. Differenza +/- Limiti

A – B * 2,79167 1,65755

A – C * 3,85 1,65755

A – D * 4,85833 1,65755

B – C 1,05833 1,65755

B – D * 2,06667 1,65755

C – D 1,00833 1,65755

* indica una differenza statisticamente significativa.

Figura 12-10. Output della procedura Test dei range multipli


La parte inferiore dell’output mostra le varie coppie di medie. La colonna Differenza indica la media del primo gruppo meno quella del secondo. La colonna +/- Limiti indica un intervallo di incertezza per la differenza. Una coppia per la quale il valore assoluto della differenza supera il limite è statisticamente significativa al livello di significatività selezionato ed è indicata con un asterisco (*) nella colonna Sig. Nell’esempio in esame, quattro delle sei coppie di medie presentano differenze significative.

Nella parte superiore dell’output, i campioni sono ordinati in gruppi omogenei, indicati da una serie di X. Un gruppo è omogeneo se al suo interno non ci sono differenze significative. In questo caso, il campione A è un gruppo a sé stante, perché è significativamente differente da tutti gli altri. Il campione C appartiene a due gruppi, uno con B e uno con D. Occorrerebbero altri dati per determinare a quale gruppo appartiene effettivamente il campione C.

12.4 Confrontare le mediane Se sospettate che i dati contengano degli outlier, potete eseguire un test non parametrico in alternativa all’analisi standard della varianza, selezionando i test di Kruskal-Wallis e Friedman nella finestra Tabelle. Questi test confrontano le mediane dei campioni, anziché le medie:

Ipotesi nulla: le mediane sono tutte uguali

Ipotesi alternativa: le mediane non sono tutte uguali

Il tipo di test da eseguire può essere scelto tramite il pulsante Opzioni per il pannello. Sono disponibili due tipi di test:

1. Test di Kruskal-Wallis – Appropriato quando ciascuna colonna contiene un campione casuale della sua popolazione. In questo caso, le righe non hanno un significato intrinseco.

2. Test di Friedman – Appropriato quando ciascuna riga rappresenta un blocco, ovvero il livello di qualche altra variabile. Tipiche variabili di blocco sono i giorni della settimana, i turni di lavoro o i luoghi di fabbricazione.

Nell’esempio in esame, la riga non ha significato, quindi è appropriato il test di Kruskal-Wallis:

Test di Kruskal-Wallis

Dimensione del campione Rango medio

A 12 40,7917

B 12 25,7917

C 12 19,25

D 12 12,1667

Statistica di test = 27,3735 P-value = 0,00000491592

Figura 12-11. Output del test di Kruskal-Wallis


Il dato importante di questa tabella è P-value; poiché questo valore è piccolo (minore di 0,05), l’ipotesi di mediane uguali viene rifiutata. Le coppie di mediane possono essere confrontate anche selezionando Diagramma a scatola e baffi nella finestra Tabelle e grafici e poi utilizzando la finestra Opzioni per il pannello per aggiungere le tacche delle mediane:

Figura 12-12. Il diagramma a scatola e baffi con le tacche delle mediane

L’intervallo coperto da ciascuna tacca indica l’incertezza associata alla stima della mediana del corrispondente gruppo. Le tacche sono scalate in modo da poter affermare che due campioni hanno mediane significativamente differenti, al livello di significatività di default del sistema (5% di solito), se le loro tacche non si sovrappongono. Nel precedente grafico, le tacche delle mediane dei campioni B, C e D si sovrappongono, ma la mediana del campione A è significativamente più grande di quella degli altri 3 campioni.

NOTA: il fenomeno del ripiegamento osservato nella Figura 12-12 si verifica quando una tacca si estende oltre il limite della scatola.


12.5 Confrontare le deviazioni standard È anche possibile verificare l’ipotesi che le deviazioni standard siano uguali:

Ipotesi nulla: σA = σB = σC = σD

Ipotesi alternativa: le deviazioni standard non sono tutte uguali

Questo può essere fatto selezionando Test delle varianze nella finestra Tabelle e grafici:

Test delle varianze

Test P-value

Test di Levene 0,143286 0,933432 Figura 12-13. Confronto delle varianze

Viene riportato l’output di uno dei quattro test disponibili, in base alle impostazioni della finestra Opzioni per il pannello. Tre di questi test, incluso quello di Levene, forniscono il P-value. Un P-value minore di 0,05 porta a rifiutare l’ipotesi di sigma uguali al livello di significatività del 5%. In questo caso, le deviazioni standard non sono significativamente differenti l’una dall’altra, in quanto il P-value è molto più grande di 0,05. In sintesi, sembra che la resistenza media dei dispositivi sia diversa per materiali differenti. Tuttavia, la variabilità tra dispositivi fatti dello stesso materiale è approssimativamente la stessa per i quattro materiali.

12.6 Grafico dei residui Quando si adatta un modello statistico ai dati, è importante esaminare i residui del modello approssimato. In questa analisi, c’è un residuo in corrispondenza di ciascuno degli n = 48 dispositivi, definito come la differenza tra la resistenza di un dispositivo e la resistenza media di tutti i dispositivi fatti dello stesso materiale. La finestra Grafici contiene un’opzione per generare automaticamente i Grafici dei residui. In base all’impostazione della finestra Opzioni per il pannello, potete rappresentare i residui per gruppo, in funzione dei valori previsti, o in ordine di riga come si trovano nel foglio. Il seguente grafico rappresenta i residui in funzione del valore previsto della resistenza dei dispositivi (opzione Residui vs Previsti nella finestra Opzioni per il pannello):


Figura 12-14. Grafico dei residui in funzione dei valori previsti di resistenza dei dispositivi

In questi tipi di grafici dovreste ricercare:

1. Outlier – Residui molto distanti da tutti gli altri. Questi punti richiedono un’indagine più approfondita per scoprire se esiste una causa che spiega il loro comportamento anomalo.

2. Eteroschedasticità – Una variazione sistematica della varianza all’aumentare o al diminuire dei valori previsti. Questa condizione si manifesta nella tipica forma a imbuto del grafico e potrebbe richiedere la trasformazione delle osservazioni originali, prendendo i logaritmi dei dati prima di eseguire l’analisi. Procedure come Test dei range multipli non operano correttamente quando la variabilità all’interno dei gruppi differisce significativamente tra i gruppi.

Se necessario, i residui possono essere salvati in una colonna di un foglio qualsiasi facendo clic

sul pulsante Salva i risultati nella barra degli strumenti di analisi.


12.7 Grafico per l’analisi delle medie (ANOM) Un metodo alquanto diverso per confrontare più medie consiste nell’utilizzare il grafico generato dall’opzione Grafico dell’analisi delle medie (ANOM) della finestra Tabelle e grafici:

Figura 12-15. Grafico per l’analisi delle medie

Ideato per essere simile a un diagramma di controllo, questo grafico visualizza la media di ciascun campione insieme a una linea verticale tracciata fino alla media globale di tutte le osservazioni. I limiti di decisione sono rappresentati sopra e sotto la media globale. Le medie che cadono oltre i limiti possono essere dichiarate significativamente differenti dalla media globale. Nell’esempio in esame, l’interpretazione è che i dispositivi del campione A sono significativamente più resistenti della media, mentre quelli dei campioni C e D sono significativamente più deboli della media. In alcuni casi, questo tipo di interpretazione può essere molto utile.

199 Analisi della regressione

Tutorial 4 – Analisi

della regressione

Adattare modelli lineari e non lineari ai dati, scegliere il modello migliore, analizzare i residui e rappresentare graficamente i risultati

Una delle parti più utilizzate di STATGRAPHICS Centurion XVI è la serie delle procedure che adatta i modelli di regressione ai dati. In un modello di regressione, una variabile risposta Y è espressa come una funzione di una o più variabili esplicative X, più il rumore. In molti casi (ma non in tutti, la funzione è lineare nei coefficienti incogniti, quindi il modello può essere espresso come:

Yi = β0 + β1X1,i + β2x2,i + β3X3,i + … + βkXk,i + εi

dove l’indice i rappresenta l’i-esima osservazione nel campione dei dati, i coefficienti β sono le incognite del modello ed ε è una deviazione casuale, che di solito si suppone provenire da una distribuzione normale con media 0 e deviazione standard σ.

Dato un insieme di dati con una variabile risposta Y e una o più possibili variabili esplicative, l’obiettivo dell’analisi di regressione è costruire un modello che:

1. descrive le relazioni che esistono tra le variabili, in modo da potere fare una buona previsione del valore di Y, noti i valori delle variabili X;

2. non contiene più variabili X di quelle necessarie per fare una buona previsione.

L’ultima considerazione a volte è detta parsimonia. I modelli che richiedono poche variabili esplicative ben selezionate, di solito, danno i migliori risultati.

Capitolo

13


Questo capitolo esamina vari tipi di modelli di regressione. Nel nostro esempio utilizzeremo come variabile risposta Y il consumo di carburante in città (in miglia per gallone) delle automobili del file 93cars.sgd. L’obiettivo è costruire un modello dalle altre colonne del file che permette di prevedere con buona approssimazione il consumo di un’automobile.

13.1 Analisi della correlazione Per iniziare a costruire un modello di regressione è consigliabile partire dalla procedura Analisi

a più variabili. Questa procedura è accessibile dal menu principale:

1. selezionate Descrivi – Dati numerici – Analisi a più variabili, se utilizzate il menu classico;

2. selezionate Analyze – Variabili – Metodi multivariati – Analisi a più variabili, se utilizzate il menu Six Sigma.

L’analisi inizia con la seguente finestra di input dei dati:

Figura 13-1. Finestra di input dei dati della procedura Analisi a più variabili

Sono state selezionate sei possibili variabili esplicative, oltre a MPG City. Le potenziali variabili esplicative sono:


X1: Engine Size (litri) X2: Horsepower (valore massimo) X3: Length (inch o pollici) X4: Weight (pound o libbre) X5: Wheelbase (inch o pollici) X6: Width (inch o pollici)

Se fate clic su OK, vedrete prima il menu Opzioni, poi la finestra Tabelle e grafici e infine la seguente finestra di analisi:

Figura 13-2. La finestra di analisi della procedura Analisi a più variabili

Il pannello in alto a sinistra elenca le variabili di input, mentre quello centrale contiene le statistiche di sintesi. Ci sono in tutto 93 righe nel file 93cars.sf6 che contengono informazioni complete su tutte le variabili da analizzare. La matrice nel pannello a destra visualizza i grafici X-Y per ciascuna coppia di variabili:


Figura 13-3. La matrice dei grafici con l’aggiunta delle curve di smoothing

Per interpretare il grafico, identificate l’etichetta di una variabile, come MPG City. La variabile indicata viene rappresentata sull’asse verticale di ciascun grafico di quella riga e sull’asse orizzontale di ciascun grafico di quella colonna. Pertanto, ogni coppia di variabili è rappresentata due volte, una volta sopra e una volta sotto la diagonale.

A ciascun grafico della Figura 13-3 è stata aggiunta la versione livellata applicando il metodo di smoothing LOWESS. Per ottenere lo stesso risultato, ingrandite il pannello che contiene i grafici, fate clic sul pulsante Smussa/Ruota nella barra degli strumenti di analisi e selezionate l’opzione LOWESS robusto. I grafici più interessanti si trovano nella prima riga, perché rappresentano MPG City in funzione di ciascuna delle sei variabili esplicative. Tutte le variabili sono chiaramente correlate con il consumo di carburante (MPG City), alcune in modo non lineare. Si nota anche una significativa multicollinearità (correlazione tra variabili esplicative); questo significa che è possibile utilizzare varie combinazioni di variabili per fare delle buone previsioni di Y.

La tabella nel pannello in basso a sinistra mostra una matrice di coefficienti di correlazione stimati per ciascuna coppia di variabili dell’analisi:


Correlazioni

MPG City Engine Size Horsepower Length Weight Wheelbase Width

MPG City -0,7100 -0,6726 -0,6662 -0,8431 -0,6671 -0,7205

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Engine Size -0,7100 0,7321 0,7803 0,8451 0,7325 0,8671

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Horsepower -0,6726 0,7321 0,5509 0,7388 0,4869 0,6444

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Length -0,6662 0,7803 0,5509 0,8063 0,8237 0,8221

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Weight -0,8431 0,8451 0,7388 0,8063 0,8719 0,8750

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Wheelbase -0,6671 0,7325 0,4869 0,8237 0,8719 0,8072

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Width -0,7205 0,8671 0,6444 0,8221 0,8750 0,8072

(93) (93) (93) (93) (93) (93)

0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Correlazione

(dimensione del campione)

P-value

Figura 13-4. La matrice di correlazione

La tabella riporta il coefficiente di correlazione per ciascuna coppia di variabili, il numero di osservazioni utilizzato per ottenere la stima e un P-value. Un coefficiente di correlazione r è un numero compreso tra –1 e +1 e misura l’intensità della relazione lineare tra due variabili. Quanto più la correlazione è vicina a –1 o a +1, tanto più forte è la relazione. Il segno della correlazione indica la direzione della relazione. Un valore positivo significa che Y aumenta quando X aumenta. Un valore negativo significa che Y diminuisce quando X aumenta. Per determinare se due variabili sono significativamente correlate tra loro, si calcola un P-value per ciascun coefficiente di correlazione. Una coppia di variabili il cui P-value è minore di 0,05 presenta una correlazione lineare statisticamente significativa al livello di significatività del 5%. La prima riga mostra le correlazioni tra la variabile MPG City e le sei variabili esplicative. La correlazione più forte è con la variabile Weight, a –0,8431. Il segno meno significa che all’aumentare di Weight, MPG City diminuisce, e questo non è affatto sorprendente.


13.2 Regressione semplice Il primo modello statistico è una linea retta avente la forma:

MPG City = β0 + β1Weight + ε

In questa equazione, β1 è la pendenza della retta (in miglia per gallone per libbra), mentre βo è l’intercetta. Per trovare questo modello, selezionate:

1. Relazione – Un fattore – Regressione semplice, se utilizzate il menu classico;

2. Improve – Analisi della regressione – Un fattore – Regressione semplice, se utilizzate il menu Six Sigma.

La finestra di input dei dati dovrà essere completata in questo modo:

Figura 13-5. La finestra di input dei dati della procedura Regressione semplice

Dopo il menu Opzioni e la finestra Tabelle e grafici, sarà visualizzata la finestra di analisi con quattro pannelli che forniscono informazioni sul modello e sui residui:


Figura 13-6. La finestra di analisi della procedura Regressione semplice

Il pannello in alto a sinistra sintetizza il modello:


Regressione semplice - MPG City vs. Weight Variabile dipendente: MPG City (miles per gallon in city driving) Variabile indipendente: Weight (pounds) Modello lineare: Y = a + b*X Coefficienti

Minimi quadrati Standard T

Parametro Stima Errore Statistica P-value

Intercetta 47,0484 1,67991 28,0064 0,0000

Pendenza -0,00803239 0,000536985 -14,9583 0,0000

Analisi della varianza


Modello 2065,52 1 2065,52 223,75 0,0000

Residuo 840,051 91 9,23133

Totale (Corr.) 2905,57 92

Coefficiente di correlazione = -0,843139 R-quadrato = 71,0883 percento R-quadrato (adattato per g.l.) = 70,7705 percento Errore standard della stima = 3,03831 Errore assoluto medio = 1,99274 Statistica di Durbin-Watson = 1,64586 (P=0,0405) Autocorrelazione residua al lag 1 = 0,176433

Figura 13-7. Statistiche di sintesi della procedura Regressione semplice

Fra tutte le statistiche della precedente tabella queste sono le più importanti:

1. Coefficienti: i coefficienti stimati del modello. Il modello da utilizzare per fare le previsioni è:

MPG City = 47,0484 – 0,00803239Weight

2. R-quadrato: la percentuale della variabilità di Y che è spiegata dal modello. Nell’esempio in esame, una regressione lineare con Weight spiega il 71,1% circa della variabilità di MPG City.

3. P-value: verifica l’ipotesi nulla che il modello approssimato non sia migliore di

un modello che non include Weight. Un P-value minore di 0,05, come nell’esempio in esame, indica che Weight è un’utile variabile esplicativa di MPG City.

Il grafico nel pannello in alto a destra rappresenta il modello approssimato:


Figura 13-8. Il grafico del modello lineare

Il grafico mostra la retta di regressione dei minimi quadrati e due serie di limiti. I limiti interni rappresentano gli intervalli di confidenza al 95% per il valore medio di Y, per qualsiasi variabile X. Sono un indice dell’accuratezza con la quale è stata stimata la posizione della retta, supponendo che la relazione sia lineare. Quanto più è grande il campione, tanto più stretti sono i limiti. Le rette esterne rappresentano i limiti di previsione al 95% per le nuove osservazioni. Si stima che il 95% delle osservazioni aggiuntive, simili a quelle del campione, ricadrà entro questi limiti.

Notate che tre osservazioni, in corrispondenza di piccoli valori di Weight, cadono ben oltre i limiti di previsione al 95%. Questo potrebbe indicare la presenza di outlier o che il modello non tiene conto della non linearità della relazione effettiva tra MPG City e Weight.

13.3 Adattare un modello non lineare La procedura Regressione semplice è anche in grado di adattare vari modelli non lineari ai dati. Per valutare il miglioramento relativo che è possibile ottenere con i vari modelli, selezionate Confronto di modelli alternativi dalla finestra Tabelle e grafici. Il programma determinerà tutti i possibili modelli e li elencherà in ordine decrescente di R-quadrato:


Confronto dei modelli alternativi

Modello Correlazione R-quadrato

Curva S 0,9016 81,29%

Reciproco Y, Radice quadrata X 0,8995 80,92%

Reciproco Y, Log X 0,8995 80,90%

Radice quadrata Y, Reciproco X 0,8988 80,78%

Moltiplicativo -0,8981 80,65%

Reciproco Y 0,8969 80,44%

Log Y, Radice quadrata X -0,8919 79,54%

Doppio reciproco -0,8896 79,14%

Reciproco X 0,8888 79,00%

Radice quadrata Y, Log X -0,8879 78,83%

Reciproco Y, X quadrato 0,8852 78,35%

Esponenziale -0,8833 78,03%

Doppia radice quadrata -0,8784 77,16%

Log X -0,8705 75,78%

Radice quadrata Y -0,8668 75,14%

Log Y, X quadrato -0,8611 74,15%

Radice quadrata X -0,8577 73,56%

Y quadrato, Reciproco X 0,8472 71,77%

Lineare -0,8431 71,09%

Radice quadrata Y, X quadrato -0,8393 70,44%

Y quadrato, Log X -0,8146 66,35%

X quadrato -0,8106 65,71%

Y quadrato, Radice quadrata X -0,7957 63,31%

Y quadrato -0,7758 60,18%

Doppio quadrato -0,7346 53,96%

Logistico <nessun adattamento>

Log probit <nessun adattamento> Figura 13-9. Modelli non lineari alternativi

I modelli all’inizio della lista spiegano la percentuale più grande della variazione della variabile risposta. R-quadrato è soltanto un criterio che può essere utilizzato per facilitare la scelta di un modello. I modelli con valori di R-quadrato molto più piccoli di quello all’inizio della lista potrebbero essere preferiti se avessero più senso nel contesto dei dati. Nell’esempio in esame, un modello interessante tra i primi della lista è Reciproco Y. Questo modello ha la forma:

CityMPG

1= β0 + β1Weight + ε


Qui il reciproco delle miglia per gallone (galloni per miglia) è espresso come una funzione lineare del peso. A volte, le trasformazioni delle variabili Y e X possono portare a modelli migliori. Per trovare un modello Reciproco Y, fate clic sul pulsante Opzioni di analisi e selezionate l’opzione Reciproco Y nella successiva finestra. Il modello risultante è il seguente:

Figura 13-10. Il modello Reciproco Y

Sebbene lineare nel reciproco di MPG City, il modello è non lineare nella metrica originale. Notate inoltre che i limiti di previsione per Weight diventano più grandi al crescere dei valori previsti. Ciò ha senso nel contesto dei dati, perché significa che la variabilità tra le automobili più leggere è maggiore di quella delle automobili più pesanti.

13.4 Analisi dei residui Una volta trovato un modello soddisfacente, bisogna analizzare i suoi residui. In generale, un residuo può essere immaginato come la differenza tra il valore osservato di Y e il valore previsto dal modello:

residuo = Y osservato – Y previsto

La procedura Regressione semplice genera automaticamente il grafico dei residui in funzione della variabile X:


Figura 13-11. Grafico dei residui studentizzati

Utilizzando il pulsante Opzioni per il pannello, potete scegliere di rappresentare i residui semplici o quelli studentizzati; questi ultimi esprimono i residui ordinari precedentemente definiti dividendoli per i loro errori standard. Un residuo studentizzato quindi indica la distanza (espressa in numero di errori standard) del valore di un dato dal modello approssimato.

STATGRAPHICS Centurion XVI in effetti usa i residui studentizzati con esclusione. Questi residui sono calcolati escludendo un’osservazione alla volta, ricalcolando il modello e determinando la distanza (in numero di errori standard) dell’osservazione esclusa dal nuovo modello. Ciò permette di ridurre l’influenza degli outlier sul modello quando vengono calcolati i loro residui.

L’opzione Residui anomali nella finestra Tabelle elenca tutti i residui studentizzati che sono maggiori di 2 in valore assoluto:

Residui anomali

Previsto Residuo

Riga X Y Y Residuo studentizzato

5 3640,0 22,0 18,0808 3,91924 -2,38

36 3735,0 15,0 17,6366 -2,63658 2,41

42 2350,0 42,0 27,4778 14,5222 -3,11

57 2895,0 17,0 22,5306 -5,53064 3,60

91 2810,0 18,0 23,1816 -5,18157 3,04 Figura 13-12. La tabella dei residui anomali


I residui studentizzati maggiori di 3, come nella riga 57, sono potenziali outlier perché sono anomali rispetto agli altri dati. La riga 57 corrisponde a una Mazda RX-7, il cui record indica che può percorrere soltanto 17 miglia per gallone in città, nonostante il valore previsto dal modello sia 22.5 mpg. Poiché nel prossimo paragrafo saranno aggiunte altre variabili al modello, per migliorare la capacità di previsione per queste auto sportive, la riga 57 non sarà esclusa dai calcoli, sebbene richieda un’attenzione particolare.

13.5 Regressione multipla Per migliorare il modello, occorre aggiungere altre variabili esplicative. Questo può essere fatto agevolmente utilizzando la procedura Regressione multipla, che è accessibile dal menu principale:

1. selezionate Relazione – Più fattori – Regressione multipla, se utilizzate il menu classico;

2. selezionate Improve – Analisi della regressione – Più fattori – Regressione multipla, se utilizzate il menu Six Sigma.

La finestra di input dei dati ha la seguente forma:

Figura 13-13. La finestra di input della procedura Regressione multipla


Inizialmente, saranno utilizzate come variabili indipendenti tutte le variabili esplicative considerate nella procedura Analisi a più variabili, precedentemente descritta. La variabile dipendente è il reciproco di MPG City, che esprime il consumo in galloni per miglia. Prima viene visualizzato il menu Opzioni, poi appare la finestra Tabelle e grafici. I risultati dell’analisi sono elencati qui di seguito: Regressione multipla - 1/MPG City Variabile dipendente: 1/MPG City Variabili indipendenti: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches)

Errore Statistica

Parametro Stima standard T P-value

COSTANTE 0,0155897 0,0177088 0,880334 0,3811

Engine Size 0,00072849 0,000980504 0,742974 0,4595

Horsepower 0,0000132632 0,000014911 0,889485 0,3762

Length -0,000101355 0,0000608857 -1,66468 0,0996

Weight 0,0000149727 0,00000242804 6,1666 0,0000

Wheelbase -0,000148122 0,000163073 -0,908321 0,3662

Width 0,000223526 0,00028967 0,771658 0,4424



Modello 0,00705967 6 0,00117661 67,64 0,0000

Residuo 0,001496 86 0,0000173954

Totale (Corr.) 0,00855567 92

R-quadrato = 82,5145 percento R-quadrato (adattato per g.l.) = 81,2946 percento Errore standard della stima = 0,00417077 Errore assoluto medio = 0,00304978 Statistica di Durbin-Watson = 1,6264 (P=0,0306) Autocorrelazione residua al lag 1 = 0,186005

StatAdvisor

L'output mostra i risultati dell'adattamento di un modello di regressione lineare multipla per descrivere la relazione tra 1/MPG City e 6 variabili indipendenti. L'equazione del modello adattato è

1/MPG City = 0,0155897 + 0,00072849*Engine Size + 0,0000132632*Horsepower - 0,000101355*Length + 0,0000149727*Weight - 0,000148122*Wheelbase + 0,000223526*Width

Poiché il P-value nella tabella ANOVA è minore di 0,05, c'è una relazione statisticamente significativa tra le variabili al livello di confidenza del 95,0%.

Figura 13-14. Risultati della procedura Regressione multipla con 6 variabili esplicative


Notate che la statistica R-quadrato è aumentata all’82.5%. Tuttavia, il modello si è inutilmente complicato. Nella prima tabella c’è la colonna P-value. Questi valori P verificano l’ipotesi che il coefficiente corrispondente a una determinata variabile sia 0, supponendo che tutte le altre variabili restino nel modello. I P-value maggiori di 0,05 indicano che una variabile non contribuisce significativamente al processo di approssimazione del modello, in presenza di tutte le altre variabili.

Tranne Weight, tutte le altre variabili esplicative hanno P-value maggiori di 0,05. Questo significa che almeno una di queste variabili esplicative può essere esclusa senza danneggiare significativamente il modello.

NOTA: sarebbe sbagliato a questo punto pensare di potere escludere dal modello tutte le variabili esplicative che hanno un P-value maggiore di 0,05. A causa dell’elevata multicollinearità dei dati, tutti i P-value possono cambiare drasticamente anche se viene rimossa una sola variabile dal modello.

Un metodo efficace per semplificare il modello consiste nell’eseguire una regressione graduale. In una regressione graduale, le variabili vengono aggiunte o rimosse da un modello di regressione una alla volta, con l’obiettivo di ottenere un modello che contiene soltanto le variabili esplicative significative, senza escludere alcuna variabile utile. Per eseguire la regressione graduale, fate clic sul pulsante Opzioni di analisi:

Figura 13-15. La finestra con le opzioni della procedura Regressione multipla


Sono disponibili due opzioni per la regressione graduale:

1. Selezione in avanti – Inizia con un modello che contiene soltanto una costante e introduce le variabili una alla volta se migliorano significativamente il modello.

2. Selezione all’indietro – Inizia con un modello che contiene tutte le variabili e le esclude una alla volta finché non resteranno tutte le variabili statisticamente significative.

In entrambi i metodi, le variabili rimosse potranno essere reinserite successivamente, se dovessero rivelarsi utili, e le variabili inizialmente incluse nel modello potranno essere rimosse, se dovessero risultare poco significative.

Se scegliete l’opzione Selezione all’indietro, otterrete il seguente modello: Regressione multipla - 1/MPG City Variabile dipendente: 1/MPG City Variabili indipendenti: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches)

Errore Statistica

Parametro Stima standard T P-value

COSTANTE 0,0034427 0,00243602 1,41325 0,1610

Horsepower 0,0000260839 0,0000124356 2,09752 0,0388

Weight 0,0000129513 0,0000011041 11,7302 0,0000



Modello 0,00696044 2 0,00348022 196,35 0,0000

Residuo 0,00159524 90 0,0000177249

Totale (Corr.) 0,00855567 92

R-quadrato = 81,3546 percento R-quadrato (adattato per g.l.) = 80,9403 percento Errore standard della stima = 0,00421009 Errore assoluto medio = 0,00313061 Statistica di Durbin-Watson = 1,62892 (P=0,0338) Autocorrelazione residua al lag 1 = 0,184113

StatAdvisor

L'output mostra i risultati dell'adattamento di un modello di regressione lineare multipla per descrivere la relazione tra 1/MPG City e 6 variabili indipendenti. L'equazione del modello adattato è

1/MPG City = 0,0034427 + 0,0000260839*Horsepower + 0,0000129513*Weight

Poiché il P-value nella tabella ANOVA è minore di 0,05, c'è una relazione statisticamente significativa tra le variabili al livello di confidenza del 95,0%.

Figura 13-16. Output della procedura Regressione multipla con l’opzione Selezione all’indietro


Soltanto due variabili sono rimaste nel modello: Horsepower e Weight. Entrambe hanno un P-value minore di 0,05. Una volta trovata l’equazione matematica, è utile analizzare la sua rappresentazione grafica. Se il modello contiene due variabili esplicative, l’equazione rappresenta una superficie tridimensionale, detta anche superficie risposta. Nel caso in esame, l’equazione corrisponde a un piano, perché Horsepower e Weight entrano nel modello in modo lineare. Per rappresentare il modello, potete utilizzare la procedura Grafici a superficie e a contorno copiando la funzione da rappresentare e definire i titoli e le scale in uno dei seguenti modi:

1. Se state utilizzando il menu classico, selezionate Grafici – Grafici a superficie e a contorno. 2. Se state utilizzando il menu Six Sigma, selezionate Strumenti – Grafici a superficie e a contorno.

Nella finestra di input, digitate l’equazione del modello, indicando le due variabili esplicative con X e Y. Il modo più semplice per fare questo consiste nell’incollare l’equazione generata dalla procedura Regressione multipla, cambiando Horsepower in X e Weight in Y:

Figura 13-17 La finestra di input della procedura Grafici a superficie e a contorno


Dovrete modificare anche le scale degli assi X e Y per adattarle ai dati utilizzati per trovare il modello. Se fate clic su OK, sarà visualizzata la finestra Tabelle e grafici. Facendo di nuovo clic su OK, sarà generato un grafico a superficie. Il grafico iniziale assume la forma di una superficie a rete:

Figura 13-18. Il grafico a superficie con etichette e scale di default

Potete migliorare l’aspetto di questo grafico:

Utilizzate il pulsante Opzioni per il grafico nella barra degli strumenti di analisi e cambiate le etichette e le scale degli assi nelle schede Titolo principale, Asse X, Asse Y e Asse Z. In particolare:

• Cambiate il titolo dell’asse X in Horsepower. • Cambiate il titolo dell’asse Y in Weight.


• Cambiate la scala dell’asse Y in modo che vari da 1500 a 4500 con incrementi di 1000.

• Cambiate il titolo dell’asse Z in 1/MPG City.

Fate clic sul pulsante Opzioni per il pannello e modificate il tipo di grafico visualizzato:

Figura 13-19. Opzioni per il grafico a superficie

Impostate il campo Tipo in Contornata e il campo Contorni in Continui. Il risultato finale è il seguente:


Figura 13-20. Grafico del modello

Le auto che consumano più benzina si trovano nell’angolo posteriore destro del grafico: auto grandi con motori potenti.

219 Analisi dei dati qualitativi

Tutorial 5 – Analisi dei dati

qualitativi

Tabella delle frequenze, tabelle di contingenza e analisi di Pareto

I primi quattro tutorial trattano dati quantitativi, dove le osservazioni sono rappresentate da numeri variabili su scala continua. Questo tutorial esamina un insieme di dati qualitativi o attributi, dove ciascuna osservazione rappresenta una categoria nella quale è stato classificato un attributo, anziché una misura. Come esempio consideriamo i dati contenuti nel file defects.sgd. Una porzione di questo file è riportata qui di seguito:

Defect Facility

Misaligned Virginia Contaminated Texas Contaminated Virginia Contaminated Texas Missing parts Texas Misaligned Virginia Contaminated Texas Leaking Texas Damaged Virginia Contaminated Texas

Capitolo

14


I dati sono formati da n = 120 righe, ciascuna delle quali riporta il tipo di difetto che è stato osservato in un elemento prodotto nello stabilimento della Virginia o del Texas.

14.1 Sintetizzare i dati qualitativi Ignorando per il momento lo stabilimento dove ciascun elemento è stato prodotto, i dati sul tipo di difetto possono essere sintetizzati, selezionando:

1. Descrivi – Dati categoriali – Tabulazione, se utilizzate il menu classico; 2. Analyze – Attributi – Un fattore – Tabulazione, se utilizzate il menu Six Sigma.

La finestra di input richiede una sola colonna che contiene i dati qualitativi:

Figura 14-1. Finestra di input della procedura Tabulazione

La procedura esamina la colonna, identificando i valori unici. Dopo la finestra Tabelle e grafici, viene visualizzata una finestra di analisi simile alla seguente:


Figura 14-2. La finestra di analisi della procedura Tabulazione

Il pannello in alto a sinistra indica che sono stati trovati 9 valori unici nelle 120 righe. Nei pannelli a destra, i grafici a barre e a torta illustrano le frequenze osservate per i vari tipi di difetti, che sono riportati anche nel pannello in basso a sinistra. Il tipo di difetto più comune è “Contaminated”, che rappresenta il 44% circa di tutti i difetti.

14.2 Analisi di Pareto La procedura Tabulazione delle frequenze elenca i tipi di difetti in ordine alfabetico. Per ordinare i difetti dal tipo più frequente a quello meno frequente, utilizzate la procedura Analisi di Pareto. Per eseguire questa analisi, selezionate:

1. SPC – Stima della qualità – Analisi di Pareto, se utilizzate il menu classico. 2. Analyze – Attributi – Un fattore – Analisi di Pareto, se utilizzate il menu Six Sigma.


La finestra di input dovrà essere completata in questo modo:

Figura 14-3. La finestra di input della procedura Analisi di Pareto

La procedura Analisi di Pareto accetta i dati in due formati:

1. Osservazioni – Non tabulate, per i dati che richiedono di essere contati, come nell’esempio in esame.

2. Conteggi - Tabulati, per i dati che sono già stati raggruppati per tipo di difetto. Questo

formato si può applicare se i dati sono su due colonne, una che identifica i tipi di difetti e l’altra che contiene il numero di volte che si verifica ciascun difetto.

La finestra di analisi visualizza una tabella di sintesi e un diagramma di Pareto:


Figura 14-4. La finestra dell’analisi di Pareto

Particolarmente interessante è il diagramma di Pareto nel pannello a destra, che rappresenta le frequenze dei vari tipi di difetti, dal più comune al meno comune. Inizialmente, le etichette delle barre si sovrappongono perché troppo numerose e lunghe. Per risolvere questo problema:

1. Fate doppio clic in un punto del grafico per ingrandire il pannello che lo contiene. 2. Fate clic prima sul pulsante Opzioni per il grafico nella barra degli strumenti di analisi e poi

sulla scheda X-Axis; selezionate l’opzione Ruotare le etichette.

3. Una volta chiusa la finestra Opzioni per il grafico, se le etichette non si adattano perfettamente allo schermo, tenendo premuto il pulsante del mouse, trascinate la parte principale del grafico verso l’alto oppure trascinate l’asse X verso l’alto per ridurre la dimensione dell’asse verticale.

Alla fine, il diagramma di Pareto dovrebbe essere simile al seguente:


Figura 14-5. Il diagramma di Pareto ingrandito

Le barre verticali nel diagramma di Pareto hanno un’altezza che è proporzionale al numero di volte che si verifica un tipo di difetto. La poligonale sopra le barre rappresenta le frequenze cumulate da sinistra a destra. Sopra ogni barra è riportata la percentuale dei difetti che si verificano in una particolare classe o nelle classi a sinistra. Il principio di base dell’analisi di Pareto stabilisce che la grande maggioranza dei difetti di solito è dovuta a un piccolo numero di cause. In questo caso, i tre tipi di difetti più frequenti rappresentano oltre l’80% di tutti i difetti.

14.3 Tabulazione incrociata Il file defects.sgd contiene un’identificazione dello stabilimento dove è stato prodotto l’elemento difettoso. Per sintetizzare i dati per tipo di difetto e stabilimento, selezionate:

1. Descrivi – Dati categoriali – Tabulazione incrociata, se utilizzate il menu classico;

2. Analyze – Attributi – Più fattori – Tabulazione incrociata, se utilizzate il menu Six Sigma.


La finestra di input richiede due colonne di dati, una che definisce le righe di una tabella a doppia

entrata o tabella di contingenza e l’altra che definisce le colonne:

Figura 14-6. La finestra di input della procedura Tabulazione incrociata

Dopo le finestre Opzioni e Tabelle e grafici, sarà generata la seguente finestra di analisi:


Figura 14-7. La finestra di analisi della procedura Tabulazione incrociata

La tabella nel pannello in basso a sinistra riporta i dati per tipo di difetto e stabilimento:


Tabella delle frequenze per Defect per Facility

Texas Virginia Totale di riga

Contaminated 36 17 53

30,00% 14,17% 44,17%

Damaged 10 6 16

8,33% 5,00% 13,33%

Leaking 2 1 3

1,67% 0,83% 2,50%

Misaligned 8 20 28

6,67% 16,67% 23,33%

Misshapen 0 3 3

0,00% 2,50% 2,50%

Missing parts 2 1 3

1,67% 0,83% 2,50%

Poor color 6 2 8

5,00% 1,67% 6,67%

Rusted 2 3 5

1,67% 2,50% 4,17%

Wrong size 1 0 1

0,83% 0,00% 0,83%

Totale di colonna 67 53 120

55,83% 44,17% 100,00%

Contenuto delle celle: Frequenza osservata Percentuale di tabella

Figura 14-8. Tabella a doppia entrata con le percentuali di tabella

Ogni cella della tabella indica il numero delle righe nel file di dati che corrispondono a una particolare combinazione riga-colonna; ogni cella indica anche la percentuale dell’intera tabella che rappresenta. Per esempio, ci sono 36 elementi contaminati prodotti nello stabilimento del Texas, che rappresentano il 30% di tutti gli elementi difettosi nel campione. Il pulsante Opzioni per il pannello consente di selezionare altri elementi da visualizzare in ciascuna cella:


Figura 14-9. La finestra con le opzioni per la procedura Tabulazione incrociata

Una scelta interessante per i dati correnti è quella di visualizzare le Percentuali di riga, anziché quelle di tabella:

Tabella delle frequenze per Defect per Facility

Texas Virginia Totale di riga

Contaminated 36 17 53

67,92% 32,08% 44,17%

Damaged 10 6 16

62,50% 37,50% 13,33%

Leaking 2 1 3

66,67% 33,33% 2,50%

Misaligned 8 20 28

28,57% 71,43% 23,33%

Misshapen 0 3 3

0,00% 100,00% 2,50%

Missing parts 2 1 3

66,67% 33,33% 2,50%

Poor color 6 2 8

75,00% 25,00% 6,67%

Rusted 2 3 5

40,00% 60,00% 4,17%

Wrong size 1 0 1

100,00% 0,00% 0,83%

Totale di colonna 67 53 120

55,83% 44,17% 100,00%

Contenuto delle celle: Frequenza osservata Percentuale di riga

Figura 14-10. Tabella a doppia entrata con le percentuali di riga


Adesso la tabella riporta la percentuale che ciascuna cella rappresenta della propria riga. Per esempio, il 67,92% di tutti gli elementi contaminati sono stati prodotti in Texas, mentre il 71,43% di tutti gli elementi disallineati sono stati prodotti in Virginia. Questo indica che alcuni tipi di difetti possono verificarsi più frequentemente in uno stabilimento che in un altro, un’ipotesi che sarà verificata formalmente nel prossimo paragrafo. È utile esaminare anche varie rappresentazioni grafiche. Per esempio, il grafico a barre mostra i dati per tipo di difetto e stabilimento:

Figura 14-11. Il grafico a barre per tipo di difetto e stabilimento

La differenza tra i due stabilimenti è evidente. È interessante esaminare un altro tipo di grafico, detto grafico a mosaico:


Figura 14-12. Grafico a mosaico

In questo grafico l’altezza di una barra è proporzionale al numero totale di difetti di un particolare tipo. La larghezza delle barre è proporzionale alla percentuale relativa di un tipo di difetto in un determinato stabilimento. Di conseguenza, l’area totale di un rettangolo è proporzionale alla frequenza della corrispondente cella nella tabella a doppia entrata. Se necessario, le frequenze delle celle possono essere visualizzate anche in tre dimensioni, selezionando Grafico sky nella finestra Tabelle e grafici:


Figura 14-13. Il grafico sky tridimensionale

In un grafico sky l’altezza di ciascuna barra rappresenta la frequenza di una cella nella tabella di contingenza.

14.4 Confrontare due o più campioni Per determinare se le differenze apparenti tra gli stabilimenti del Texas e della Virginia sono statisticamente significative, selezionate Test di indipendenza nella finestra Tabelle e grafici. Per una tabella di queste dimensioni, la procedura visualizza i risultati di un test chi-quadrato:

Test di indipendenza

Test Statistica G.l. P-value

Chi-quadrato 18,438 8 0,0182

Attenzione: alcuni conteggi < 5.

Figura 14-14. Risultato del test chi-quadrato per la procedura Test di indipendenza

Il test chi-quadrato è utilizzato per verificare due ipotesi:

Ipotesi nulla: le classificazioni di righe e colonne sono indipendenti.

Ipotesi alternativa: le classificazioni di righe e colonne non sono indipendenti.


L’indipendenza implica che il tipo di difetto trovato in un elemento non ha nulla a che fare con lo stabilimento dove è stato fabbricato l’elemento. Per il test chi-quadrato, un piccolo P-value indica che le classificazioni di righe e colonne non sono indipendenti. In questo caso, il P-value è minore di 0,05, indicando al livello di significatività del 5% che la distribuzione dei tipi di difetti nello stabilimento del Texas è diversa da quella dello stabilimento della Virginia. Il programma visualizza anche un avvertimento, perché alcuni numeri nelle celle della tabella a doppia entrata sono minori di 5 (tecnicamente, il messaggio di avvertimento si verifica se il numero atteso in una cella è minore di 5, supponendo che l’ipotesi nulla sia vera). Con piccoli numeri nelle celle, il P-value potrebbe essere inaffidabile. Una soluzione di questo problema consiste nel raggruppare tutti i tipi di difetti meno frequenti in una singola classe e nel ripetere il test. Questo può essere fatto facilmente in STATGRAPHICS Centurion XVI nel modo seguente:

1. Ritornate al DataBook e fate clic sull’intestazione della colonna Defect per selezionarla. 2. Premete il pulsante destro del mouse e selezionate Ricodifica dati dal menu popup.

3. Completate la finestra Ricodifica dati come mostra la seguente illustrazione per combinare

i tipi di difetti meno comuni in un’unica classe chiamata “Altro”:


Figura 14-15. Ricodifica dei difetti meno frequenti

Le voci nella finestra Ricodifica dati indicano al programma di ricercare i valori nella colonna Defect che cadono all’interno di ciascun intervallo. Qualsiasi etichetta che cade alfabeticamente tra i limiti indicati in una data riga viene ricodificata con il valore specificato nella colonna Nuovo valore. Dopo avere eseguito l’operazione di ricodifica, ritornate alla finestra di analisi Tabulazione incrociata. L’analisi sarà automaticamente aggiornata conformemente alle modifiche del foglio. La nuova classe Altro adesso ha una frequenza relativamente elevata, come mostra il nuovo grafico a mosaico:


Figura 14-16. Il grafico a mosaico per i dati ricodificati

Dopo la ricodifica, il test chi-quadrato indica ancora una differenza statisticamente significativa tra gli stabilimenti del Texas e della Virginia:



Chi-quadrato 11,874 3 0,0078

StatAdvisor

Questa tabella mostra i risultati di un test di ipotesi eseguito per determinare se rifiutare o no l'ipotesi che le classificazioni di righe e colonne siano indipendenti. Poiché il P-value è minore di 0,05, possiamo rifiutare l'ipotesi che righe e colonne siano indipendenti al livello di confidenza del 95,0%. Quindi, il valore osservato di Defect per un particolare caso è in relazione con il suo valore per Facility.

Figura 14-17. Test chi-quadrato dopo la ricodifica dei dati

Sembra quindi che il tipo di difetto sia in relazione con lo stabilimento dove è stato prodotto l’elemento. È importante notare che il precedente test confronta la distribuzione dei tipi di difetti tra i due stabilimenti; non confronta i numeri o le percentuali degli elementi difettosi in ciascuno stabilimento. Tale confronto richiede un test differente, che è descritto nel prossimo paragrafo.


14.5 Tabelle di contingenza Per determinare se uno stabilimento produce più elementi difettosi di un altro, bisogna conoscere la produzione totale di ciascuno stabilimento. Supponete che il seguente prospetto riporti la produzione di un mese:

Stabilimento Numero di elementi difettosi

Numero di elementi prodotti

Texas 67 6,237 Virginia 53 7,343

Sia θ1 la proporzione degli elementi difettosi prodotti in Texas. Sia θ2 la proporzione degli elementi difettosi prodotti in Virginia. Le proporzioni stimate sono date da:

0107.06237

67ˆ1

==θ 0072.07343

53ˆ2

==θ

In base a questi dati, sembra che la percentuale degli elementi difettosi prodotti in Texas sia maggiore di quella degli elementi difettosi prodotti in Virginia. Per determinare se questa differenza apparente sia statisticamente significativa, create il seguente foglio:

Figura 14-18. Il foglio per confrontare due proporzioni

Le righe contengono il numero degli elementi difettosi e quello degli elementi senza difetti. Selezionate Tabelle di contingenza dallo stesso menu di Tabulazione incrociata; poi completate la finestra di input:


Figura 14-19. La finestra di input della procedura Tabelle di contingenza

L’analisi fornisce un test chi-quadrato della tabella 2 per 2:



Chi-quadrato 4,783 1 0,0287 Figura 14-20. Test chi-quadrato della tabella 2 per 2

Ricordiamo che il test chi-quadrato determina se le classificazioni di righe e colonne sono indipendenti. In questo caso, indipendenza significa che la presenza o l’assenza di difetti in un elemento non ha nulla a che fare con lo stabilimento dove l’elemento è stato prodotto. Poiché il P-value nella precedente tabella è minore di 0,05, l’ipotesi di indipendenza viene rifiutata al livello di significatività del 5%. Possiamo quindi concludere che le proporzioni dei difetti nei due stabilimenti sono significativamente differenti.

237 Analisi della capacità di un processo

Tutorial 6 – Analisi

della capacità di un processo

Determinare il valore dei difetti per milione o la percentuale di difetti oltre i limiti di specifica

STATGRAPHICS Centurion XVI è largamente utilizzato dalle persone che hanno la responsabilità di garantire che i loro prodotti e servizi siano di altissima qualità. Un tipico compito di queste persone è raccogliere i dati dal processo e verificare che siano entro i limiti imposti dalle specifiche. L’output di questo tipo di analisi della capacità è una stima di come il processo sia capace di soddisfare le specifiche. Six Sigma, che è una metodologia ampiamente adottata per raggiungere livelli di qualità eccellente, impone un limite di non conformità pari a 3,4 difetti per milione (DPM).

Come esempio, consideriamo un prodotto la cui resistenza deve essere compresa tra 190 e 230 psi. Supponiamo di estrarre n = 100 campioni da un processo di produzione e di misurare la loro resistenza, i cui valori sono riportati nella seguente tabella:

213,5 203,3 191,3 197,1 205,7 215,6 193,7 201,7 201,5 207,1 207,0 200,4 197,2 202,4 205,2 211,0 214,5 201,5 200,9 206,8 205,8 200,3 196,1 205,9 195,1 203,9 192,9 199,0 195,5 203,1 197,4 194,8 201,0 202,5 199,0 200,7 197,6 198,5 205,3 197,1 202,8 201,6 197,4 200,9 203,3 209,4 201,4 199,5 207,8 204,9 205,5 203,0 208,1 200,2 218,2 202,0 209,3 201,2 200,4 201,0 195,7 229,5 199,9 208,1 210,3 202,0 202,6 213,6 198,0 197,8 196,7 216,0 211,6 208,7 199,4 200,8 201,1 195,3 206,8 211,3 201,5 200,0 211,8 195,6 201,9 199,0 200,3 197,8 200,8 194,8 199,5 195,5 201,0 206,0 215,3 202,6 199,9 200,6 197,6 207,4

Capitolo

15


Questo capitolo descrive come eseguire una tipica analisi di capacità per questo tipo di dati quantitativi.

15.1 Rappresentazione dei dati Il primo passo per esaminare un insieme di dati consiste nel rappresentarli in un grafico. Per un insieme di dati come quello della precedente tabella, la procedura Analisi a una variabile descritta nel Capitolo 10 offre diversi strumenti di analisi. Per analizzare questi dati:

1. Aprite il file items.sgd.

2. Eseguite la procedura Analisi a una variabile utilizzando la colonna Strength.

La finestra di analisi iniziale è illustrata qui di seguito:


Molti fattori interessanti sono immediatamente evidenti:


1. I dati sono tutti entro i limiti della specifica, anche se per poco, perché variano da 191,3 a 229,5.

2. Il diagramma a scatola e baffi mostra un punto molto distante (un piccolo quadrato con un segno più all’interno). Punti come questo, di solito, vengono considerati outlier, se il resto dei dati appartiene a una distribuzione normale. Nell’esempio in esame, però, pur ignorando questo outlier sospetto, la forma della scatola non è molto simmetrica. Il baffo a destra è più lungo di quello a sinistra e la scatola si estende più a destra che a sinistra della mediana (la linea verticale all’interno della scatola).

3. Se ingrandite il pannello Statistiche di sintesi, noterete che l’asimmetria standardizzata è pari a 4,94. Se i dati provengono da una distribuzione normale, questo valore è compreso tra –2 e +2. Anche se si elimina il valore più grande, l’asimmetria standardizzata si riduce soltanto a 2,81.

È anche utile esaminare l’istogramma delle frequenze; per ottenerlo, fate clic sul pulsante Tabelle e grafici nella barra degli strumenti di analisi e selezionate Istogramma delle frequenze nella finestra Grafici; ingrandite il grafico e utilizzate Opzioni per il pannello per modificare il numero e i limiti delle classi, come indica la seguente figura:

Figura 15-2. Istogramma delle frequenze

I dati presentano un’evidente asimmetria positiva, in quanto si estendono più a destra che a sinistra del picco.


I dati non normali come quelli in esame sono comuni. Un semplice approccio per trattarli consiste nell’ignorare la non normalità e nel calcolare gli indici, come Cpk, utilizzando le formule progettate per i dati di una distribuzione normale. Come vedremo in questo tutorial, ignorando la non normalità, si possono ottenere risultati errati, sovrastimando o sottostimando la percentuale dei prodotti che cadono oltre i limiti della specifica.

15.2 Procedura di analisi della capacità STATGRAPHICS Centurion XVI include delle procedure che eseguono l’analisi della capacità sui dati raccolti uno alla volta (dati singoli) o in sottogruppi (5 osservazioni ogni ora, per esempio). Supponendo che i dati del campione siano individuali, l’analisi della capacità del processo può essere eseguita in questo modo:

1. Selezionate SPC – Analisi della capacità – Variabili – Dati singoli, se utilizzate il menu classico.

2. Selezionate Analyze – Variabili – Analisi della capacità – Dati singoli, se utilizzate il menu Six Sigma.

La finestra di input richiede il nome della colonna che contiene i dati da analizzare. La colonna Strength del file items.sgd contiene i dati del campione:

Figura 15-3. La finestra di input della procedura Analisi della capacità


Devono essere indicati anche il limite superiore (LSS), il valore nominale (o target) e il limite inferiore (LSI) della specifica. Se fate clic su OK, prima appare la finestra Opzioni e poi la finestra Tabelle e grafici. Per semplificare, accettate le impostazioni di default in entrambe le finestre. La finestra di analisi iniziale riporta una sintesi dei dati, una tabella di indici di capacità e un grafico della capacità:

Figura 15-4. La finestra di analisi della procedura Analisi della capacità

La prima volta che eseguite la procedura Analisi della capacità, il programma adatta ai dati una distribuzione normale. Il grafico della capacità mostra l’istogramma dei dati insieme alla distribuzione normale che si adatta meglio ai dati:


Figura 15-5. Il grafico della capacità con la distribuzione normale

In questo grafico le linee verticali più lunghe indicano la posizione dei limiti della specifica e del valore nominale. La prima delle due linee verticali più corte indica la media meno 3 deviazioni standard; la seconda indica la media più 3 deviazioni standard. È importante osservare che:

1. La distribuzione normale non approssima molto bene i dati. Sebbene la curva a campana abbia la stessa media e deviazione standard dei dati, l’asimmetria dei dati fa sì che la curva non possa adattarsi bene alle barre dell’istogramma.

2. La media del campione è 202,8, che è significativamente minore del valore

nominale (210). 3. Sebbene nessuna delle osservazioni sia più piccola del limite inferiore della specifica,

una buona parte della coda inferiore della distribuzione normale è sotto tale limite. 4. Le linee a più e meno 3 sigma sono abbastanza vicine da rientrare nei limiti della

specifica, anche se sono spostate a sinistra.

Il pannello in alto a sinistra quantifica l’approssimazione:


Analisi della capacità del processo (dati singoli) - Strength Variabile: Strength (specs are 190-230) Trasformazione: nessuno Distribuzione: Normale dimensione del campione = 100 media = 202,809 dev. std. = 6,23781 6,0 Limiti di sigma +3,0 sigma = 221,522 media = 202,809 -3,0 sigma = 184,096

Osservato Stimato Difetti

Specifiche Oltre le spec. Z-score Oltre le spec. Per milione

LSS = 230,0 0,000000% 4,36 0,000654% 6,54

Nominale = 210,0 1,15

LSI = 190,0 0,000000% -2,05 2,001465% 20014,65

Totale 0,000000% 2,002119% 20021,19 Figura 15-6. Sintesi della procedura Analisi della capacità

La tabella in basso è molto interessante, perché riporta la stima della percentuale del prodotto che probabilmente sarà oltre i limiti della specifica. In base alla distribuzione normale che approssima i dati, la percentuale stimata del prodotto oltre i limiti della specifica è il 2% circa, pari a 20021 difetti per milione (DPM).

15.3 Caso di dati non normali Il precedente valore stimato di DPM si basa sull’ipotesi che i dati provengano da una distribuzione normale. Un controllo formale di questa ipotesi può essere effettuato selezionando la procedura Test di normalità nella finestra Tabelle e grafici:

Test di normalità per Strength

Test Statistica P-Value

Shapiro-Wilk W 0,931784 0,0000321356

Figura 15-7. Output della procedura Test di normalità

A seconda delle impostazioni del vostro sistema, saranno visualizzati i risultati di uno o più test di normalità. I test disponibili si basano sulle seguenti ipotesi:

Ipotesi nulla: i dati provengono da una distribuzione normale.

Ipotesi alternativa: i dati non provengono da una distribuzione normale.


Un P-value minore di 0,05 porta a rifiutare l’ipotesi di distribuzione normale al livello di significatività del 5%. Nella precedente tabella, il test di Shapiro-Wilk indica chiaramente di rifiutare l’ipotesi che i dati provengano da una distribuzione normale. Di conseguenza, qualsiasi stima di DPM o indice di capacità basata sull’ipotesi di normalità non è valida. Se i dati non sono normali, applicate uno dei seguenti metodi:

1. Scegliete una distribuzione diversa da quella normale su cui basare l’analisi.

2. Trasformate i dati in modo che seguano una distribuzione normale nella metrica trasformata.

Per aiutarvi a scegliere un’altra distribuzione, STATGRAPHICS Centurion XVI include l’opzione Confronto di distribuzioni alternative nella finestra Tabelle e grafici. Questa opzione fornisce varie distribuzioni approssimate e le elenca in funzione della loro bontà di approssimazione. Utilizzando la selezione di default delle distribuzioni si ottiene il seguente output:

Confronto di distribuzioni alternative

Distribuzione Parametri stim. Log verosimiglianza KS D

Valore estremo massimo 2 -314,65 0,0675422

Laplace 2 -320,055 0,0920985

Loglogistica 2 -320,271 0,0913779

Logistica 2 -321,236 0,0941708

Lognormale 2 -322,763 0,13213

Gamma 2 -323,306 0,134136

Normale 2 -324,457 0,138628

Weibull 2 -348,002 0,177886

Valore estremo minimo 2 -351,782 0,189989

Esponenziale 1 -631,226 0,61064

Pareto 1 -798,174 0,628084 Figura 15-8. Distribuzioni ordinate in funzione della loro bontà di approssimazione

Le distribuzioni sono elencate in funzione del valore della statistica di Kolmogorov-Smirnov, che misura la distanza massima tra la distribuzione cumulata dei dati e quella approssimata. In questo caso, la migliore distribuzione approssimata è Valore estremo massimo. Per utilizzare la distribuzione Valore estremo massimo, fate clic sul pulsante Opzioni di analisi:


Figura 15-9. La finestra con le opzioni per la procedura Analisi della capacità

La distribuzione approssimata risultante è la seguente:

Figura 15-10. La distribuzione approssimata Valore estremo massimo


Notate che la distribuzione è asimmetrica a destra e approssima i dati osservati molto meglio della distribuzione normale. Le linee verticali più corte sono state posizionate nei limiti 3 sigma “equivalenti”, ovvero nei limiti entro i quali si trova lo stesso 99,73% della distribuzione approssimata, come nel caso della media più e meno 3 sigma di una distribuzione normale. Notate che questi limiti non sono simmetricamente distanti rispetto al picco, a causa dell’asimmetria positiva della distribuzione.

Il prospetto di sintesi mostra una differenza notevole tra la stima della percentuale del prodotto che probabilmente sarà oltre i limiti della specifica e quella della precedente distribuzione normale approssimata: Analisi della capacità del processo (dati singoli) - Strength Variabile: Strength (specs are 190-230) Trasformazione: nessuna Distribuzione: Valore estremo massimo dimensione del campione = 100 moda = 200,036 scala = 4,80179 (media = 202,808) (sigma = 6,15853) Equivalente 6,0 Limiti di sigma 99,865 percentile = 231,761 mediana = 201,796 0,134996 percentile = 190,969

Osservato Stimato Difetti

Specifiche Oltre le spec. Z-score Oltre le spec. Per milione

LSS = 230,0 0,000000% 2,89 0,194758% 1947,58

Nominale = 210,0 1,19

LSI = 190,0 0,000000% -3,42 0,030805% 308,05

Totale 0,000000% 0,225563% 2255,63 Figura 15-11. Sintesi della procedura Analisi della capacità con la distribuzione approssimata Valore estremo massimo

La percentuale stimata del prodotto oltre i limiti della specifica adesso è soltanto 0,23%, o 2256 DPM, un decimo di quella ottenuta utilizzando la distribuzione normale. In questo caso, supporre erroneamente che la distribuzione sia normale fa apparire il processo peggiore di quanto non sia effettivamente.

NOTA: a seconda dei limiti della specifica e della distribuzione reale, supponendo erro-neamente che la distribuzione sia normale, il processo può apparire significativamente peggiore o migliore di quando si usa la distribuzione appropriata.


Anziché scegliere una distribuzione diversa da quella normale, è possibile trasformare i dati. La finestra Opzioni di analisi offre vari tipi di trasformazione dei dati:

Figura 15-12. La finestra con le opzioni per scegliere una trasformazione dei dati

Le opzioni includono il logaritmo naturale, l’elevamento a potenza dei singoli valori e una trasformazione secondo i metodi di Box e Cox. Quest’ultimo approccio valuta diverse trasformazioni del tipo Yp utilizzando i metodi di Box e Cox e sceglie un valore ottimale per p. Se scegliete una trasformazione, il programma adatterà una distribuzione normale ai dati trasformati. Il seguente grafico mostra i risultati della trasformazione Box-Cox:


Figura 15-13. Il grafico della capacità dopo la trasformazione Box-Cox dei dati

A questo grafico è stata applicata una trasformazione inversa per mostrare la distribuzione approssimata nella metrica originale. La trasformazione ha avuto un effetto simile sulla forma della distribuzione, sebbene non così forte come nel caso della distribuzione Valore estremo massimo. Il valore stimato di DPM è 4169, che è circa due volte quello della distribuzione Valore

estremo massimo, ma ancora molto più piccolo di quello ottenuto nell’ipotesi di distribuzione normale.

NOTA: la media e la deviazione standard rappresentate nel grafico corrispondono ai dati trasformati e, in generale, non sono molto utili. STATGRAPHICS Centurion XVI converte automaticamente tutto nelle unità originali.

Per confrontare i due metodi, copiate il Grafico di probabilità nella finestra Tabelle e grafici di ciascun metodo e incollate i due grafici affiancandoli nella finestra di StatGallery:


Figura 15-14. I grafici della probabilità in StatGallery

Se la distribuzione ipotizzata è corretta, i punti dovrebbero disporsi lungo una diagonale quando sono rappresentati in questo grafico. Entrambi i metodi hanno interpretato bene la non normalità dei dati, quindi è difficile sceglierne uno. Indipendentemente dal metodo utilizzato, è importante stabilire un protocollo per gestire una particolare variabile (come Strength) e applicare lo stesso protocollo ogni volta che i dati vengono analizzati. Sarebbe un errore ripetere il tipo di analisi esplorativa che abbiamo descritto in questo capitolo ogni volta che viene raccolto un insieme di dati simile a quello in esame. Questo tipo di analisi dovrebbe essere eseguito una sola volta per determinare come deve essere elaborata una particolare variabile; poi dovrebbe essere applicato il metodo selezionato a tale variabile ogni volta che viene analizzata.


15.4 Indici di capacità L’essenza dell’analisi della capacità è stimare la percentuale del prodotto che cade oltre i limiti della specifica (o equivalentemente DPM, i difetti per milione). Per sintetizzare la capacità del processo, gli esperti hanno anche elaborato vari indici di capacità. L’indice più utilizzato è Cpk, così definito:

⎟⎠

⎞⎜⎝

⎛ −−=

σ

µ

σ

µ

ˆ3

ˆ,

ˆ3

ˆmin

USLLSLC pk

In sostanza, Cpk è la distanza tra la media stimata del processo e il limite di specifica più vicino, divisa per 3 volte il valore stimato di sigma per il processo. La procedura Analisi della capacità visualizza gli indici di capacità nel grafico Capacità del processo e anche nella tabella Indici di capacità. Se si suppone che la distribuzione sia normale, vengono calcolati gli indici a breve e a lungo termine:

Indici di capacità per Strength

Specifiche LSS = 230,0 Nom = 210,0 LSI = 190,0

Breve termine Lungo termine

Capacità Prestazioni

Sigma 5,75525 6,23781

Cp/Pp 1,15836 1,06875

Cpk/Ppk 0,741874 0,684481

Cpk/Ppk (superiore) 1,57485 1,45302

Cpk/Ppk (inferiore) 0,741874 0,684481

K -0,35955

DPM 13020,9 20021,2

Livello di Qualità Sigma 3,72559 3,55332

In base ai limiti di 6,0 sigma. Sigma di breve termine stimata dal range mobile medio. Il Livello di Qualità Sigma include una deriva di 1,5 sigma nella media. Intervalli di confidenza al 95,0%

Indice Limite inferiore Limite superiore

Cp 0,997149 1,31931

Pp 0,920008 1,21725

Cpk 0,619618 0,864129

Ppk 0,568904 0,800059 Figura 15-15. Tabella degli indici di capacità


Gli indici a breve termine, che sono calcolati utilizzando la stima del sigma ottenuta da osservazioni vicine nel tempo, descrivono che cosa il processo è “capace” di fare se la media resta costante. Gli indici a lungo termine, che sono calcolati utilizzando la stima del sigma ottenuta dalla variabilità totale delle osservazioni nel periodo di campionatura, descrivono le prestazioni effettive del processo. Un processo fuori controllo, la cui media si sposta significativamente nel corso della raccolta dei dati, può avere prestazioni considerevolmente peggiori di quelle che sarebbe in grado di fornire se fosse riportato sotto controllo. Per default, STATGRAPHICS Centurion XVI indica gli indici di capacità con la lettera “C” e gli indici delle prestazioni con la lettera “P”. La scheda Capacità nella finestra Preferenze, accessibile dal menu Modifica di STATGRAPHICS Centurion XVI, consente di specificare gli indici da calcolare e anche altre importanti opzioni:

Figura 15-16. Preferenze del sistema per gli indici di capacità

Nella parte sinistra della finestra sono elencati gli indici che possono essere calcolati. Oltre a Cpk, gli indici disponibili includono:


1. Cp – Indice di capacità bilaterale, così calcolato:

σ̂6

LSLUSLC

p

−

=

Questo indice misura la distanza tra i limiti di specifica rispetto alla distanza coperta da sei deviazioni standard. Cp è sempre maggiore o uguale a Cpk. Una sostanziale differenza tra i due indici indica che il processo non è centrato bene.

2. K – Misura la posizione del centro del processo; si calcola in questo modo:

2/)(

ˆ

LSLUSL

NOMK

−

−

=

µ

Dove NOM è il valore nominale o target. Un valore K prossimo a 0 indica un processo centrato bene.

3. Livello di Qualità Sigma – È utilizzato in Six Sigma per indicare il livello di qualità associato

al processo. Un Livello di Qualità Sigma pari a 6, di solito, è associato a un DPM pari a 3,4.

La finestra Preferenze consente anche di scegliere gli indici da visualizzare nel grafico Capacità del

processo e le loro etichette. Per maggiori dettagli sui vari indici, consultate il documento PDF Capability Analysis (Variable Data). Oltre agli indici di capacità, la tabella nella Figura 15-15 include gli intervalli di confidenza che rappresentano il margine di errore nella stima di tali indici. Per esempio, la precedente tabella indica un Cpk pari a 0,74; l’intervallo di confidenza al 95% varia da 0,62 a 0,86. Questo significa che il vero Cpk nel processo dal quale sono stati campionati i dati può variare da 0,62 a 0,86. Se i dati non seguono una distribuzione normale, gli indici di capacità devono essere modificati. L’opzione di default nella finestra Preferenze calcola gli indici non normali, determinando prima gli Z-score equivalenti per la distribuzione non normale approssimata. Per una distribuzione normale, Z-score misura il numero di deviazioni standard tra la media del processo e un limite di specifica ed è direttamente correlato alla probabilità che un’osservazione sia oltre quel limite. Per una distribuzione non normale, uno Z-score equivalente viene calcolato determinando prima la probabilità di superare il limite e poi trovando quel valore di Z-score che è pari a tale probabilità. Dopo avere calcolato gli Z-score equivalenti per i limiti inferiore e superiore della specifica, Cpk può essere calcolato con la seguente formula:

( )usllslpk ZZC ,min= /3


NOTA: sebbene la finestra Preferenze consenta di calcolare gli indici di capacità dai percentili, anziché dagli Z-score equivalenti, così facendo si distrugge la relazione usuale tra gli indici di capacità e DPM.

15.5 Calcolatrice Six Sigma L’indice Cpk è un utile elemento di sintesi della capacità del processo. Se calcolato correttamente, può essere correlato a DPM. Il menu Tools di STATGRAPHICS Centurion XVI permette di utilizzare una speciale calcolatrice, Calcolatrice Six Sigma, che è in grado di convertire Cpk in DMP e viceversa, a condizione che:

1. I dati provengano da una distribuzione normale.

2. Gli indici siano stati calcolati utilizzando gli Z-score equivalenti.

La finestra per i dati di input della Calcolatrice Six Sigma è illustrata qui di seguito:

Figura 15-17. La Calcolatrice Six Sigma


Per utilizzare la calcolatrice:

1. Selezionate uno dei pulsanti di input e digitate un valore nella corrispondente casella. 2. Se preferite calcolare i valori in base al limite di specifica più vicino, selezionate la casella

Limite inferiore soltanto o Limite superiore soltanto.

3. Indicate il valore che intendete assumere come spostamento a lungo termine (Shift di

sigma) della media del processo. In Six Sigma spesso si suppone che la media del processo oscilli attorno al suo valore di lungo termine di 1,5 sigma.

4. Fate clic sul pulsante Calcola per visualizzare i valori associati delle altre statistiche.

Figura 15-18. Valori equivalenti degli indici di qualità

Supponendo che la media del processo non si sposti, un Cpk di 1.33 corrisponde a circa 33 difetti per milione oltre il limite di specifica più vicino.

255 Disegno di esperimenti (DOE)

Tutorial 7 – Disegno

di esperimenti (DOE)

Disegnare un esperimento per migliorare un processo

I dati non vengono creati tutti uguali. Spesso, un piccolo, ma ben progettato, studio fornisce maggiori informazioni di un grande studio, mal progettato. Quest’ultimo tutorial esamina alcune delle capacità di STATGRAPHICS Centurion XVI per creare e analizzare esperimenti.

Consideriamo il caso di un ingegnere che vuole determinare quale delle numerose variabili di processo ha il maggiore impatto sul prodotto finale. In particolare, intende studiare l’impatto di 5 fattori: la temperatura, il flusso, la concentrazione, la velocità di agitazione e la percentuale del catalizzatore. Questo problema può essere risolto in vari modi:

1. Per tentativi: scegliere arbitrariamente una diversa combinazione di fattori ogni volta che viene eseguito un esperimento. Questo approccio raramente fornisce utili informazioni.

2. Provando un fattore alla volta: mantenere costanti tutti i fattori, tranne uno, per determinare l’effetto di quel fattore. Questo approccio è estremamente inefficiente e può portare a errate conclusioni se alcuni fattori interagiscono tra di loro.

3. Utilizzando un esperimento statisticamente disegnato: selezionando opportunamente la sequenza degli esperimenti da eseguire, si otterrà il maggior numero di informazioni sui fattori e le loro interazioni nel minor numero di esperimenti possibile.

Questo tutorial descrive come costruire un esperimento utilizzando il terzo approccio e come analizzare i dati risultanti.

Capitolo

16


16.1 Realizzare il disegno STATGRAPHICS Centurion XVI contiene un Wizard del disegno sperimentale (DOE Wizard) che guida gli utenti nella creazione e analisi di un disegno sperimentale. Per accedere a questo wizard:

1. selezionate DOE – Wizard del disegno sperimentale, se state utilizzando il menu classico;

2. selezionate Improve – Wizard del disegno sperimentale, se state utilizzando il menu Six Sigma.

Sarà visualizzata una nuova finestra che contiene una barra di strumenti che vi guiderà attraverso una sequenza di 12 passi:

Figura 16-1. La finestra iniziale del wizard per il disegno sperimentale con una barra di strumenti di 12 passi

I primi 7 passi della sequenza costruiscono il disegno sperimentale e vengono compiuti prima di eseguire l’esperimento. Gli ultimi 5 passi vengono compiuti dopo che l’esperimento è stato completato e riguardano l’analisi dei dati ottenuti.


Passo 1: Definire le risposte

Il primo passo per creare un disegno sperimentale è quello di specificare le variabili risposta che saranno misurate durante l’esecuzione dell’esperimento. Se fate clic sul pulsante 1) Definisci le risposte vedrete la seguente finestra:

Figura 16-2. Definizione delle variabili risposta

Nell’esempio in esame ci sono due variabili risposta: il rendimento in grammi e la resistenza in psi (pounds per square inch). L’obiettivo dell’esperimento è massimizzare il rendimento mantenendo il valore della resistenza quanto più possibile vicino a 250. Le quattro colonne più a destra servono a bilanciare i requisiti delle due risposte, che potrebbero essere in conflitto. La colonna Impatto specifica l’importanza di ciascuna risposta su una scala da 1 a 5, in ordine crescente di importanza. Le colonne Minimo e Massimo specificano l’intervallo desiderato per ciascuna risposta, mentre la colonna Sensibilità indica quanto sia importante che una risposta sia prossima alla migliore posizione all’interno di tale intervallo. In questo caso, la resistenza è più importante del rendimento, e quindi ha un Impatto maggiore. Entrambe le risposte sono impostate con un valore medio di sensibilità; ciò significa che la desiderabilità di ciascuna risposta aumenta in modo lineare nell’intervallo specificato.


Passo 2: Definire i fattori sperimentali

Il secondo passo consente di inserire le informazioni sui fattori sperimentali che saranno modificati durante il corso dell’esperimento. Se fate clic sul secondo pulsante, sarà visualizzata la seguente finestra:

Figura 16-3. Definizione dei fattori sperimentali

In questo esempio, sono stati impostati 5 fattori controllabili che varieranno durante l’esperimento. Digitate i nomi dei fattori, le loro unità di misura e gli intervalli di variazione. Tutti i fattori sono continui, in quanto possono assumere qualsiasi valore compreso tra gli estremi Basso e Alto.


Passo 3: Selezionare il disegno sperimentale

Il terzo passo per creare un esperimento consiste nel selezionare il tipo di disegno. Se fate clic sul terzo pulsante, sarà visualizzata la seguente finestra:

Figura 16-4. La finestra per scegliere il tipo di disegno

Per creare un disegno per i 5 fattori di processo, fate clic sul pulsante Opzioni. Sarà visualizzata la lista dei vari tipi di disegni che potrebbero essere appropriati ai 5 fattori continui:


Figura 16-5. La lista dei tipi di disegni disponibili

Poiché vogliamo creare un disegno di screening, fate clic su OK.

La successiva finestra permette di selezionare il disegno desiderato da un insieme di disegni di screening che sono appropriati per 5 fattori:

Figura 16-6. Scelta del disegno

Per vedere la lista dei disegni di screening disponibili per 5 fattori, fate clic sulla freccia rivolta in basso. La lista contiene:

1. Nome: il nome dei disegni disponibili. 2. Run: il numero di prove nel disegno base, prima di aggiungere punti centrali o repliche.


3. Risoluzione: la risoluzione del disegno. I disegni con Risoluzione V possono stimare tutti

gli effetti principali e tutte le interazioni a due fattori. I disegni con Risoluzione IV possono stimare tutti gli effetti principali, ma le interazioni a due fattori si confonderanno tra loro o con gli effetti dei blocchi. I disegni con Risoluzione III confondono le interazioni a due fattori con gli effetti principali.

4. G. l. dell’errore: il numero dei gradi di libertà disponibili per stimare l’errore sperimentale.

La potenza dei test statistici è correlata al numero dei gradi di libertà e anche al numero totale di prove nell’esperimento. Di solito, dovrebbero essere disponibili almeno 3 gradi di libertà, sebbene sia preferibile un numero maggiore.

5. Dimensione blocco: il numero di prove nel blocco più grande.

In questo caso, l’ingegnere ha scelto il disegno Frazione 1/2 in 2 blocchi di 8 prove ciascuno. La finestra finale è utilizzata per aggiungere punti centrali o repliche:

Figura 16-7. Opzioni del disegno di screening a blocchi


I campi di input specificano:

1. Punti centrali: il numero di prove eseguite nel centro della regione sperimentale. Aggiungere punti centrali è un buon metodo per aumentare i gradi di libertà per l’errore sperimentale.

2. Posizione: la posizione dei punti centrali. Le scelte più comuni sono Casuale, che distribuisce i punti centrali casualmente tra le altre prove, e Distanza uniforme, che distribuisce i punti centrali equamente in tutto il disegno.

3. Replica il disegno: il numero di volte aggiuntive che ciascuna serie di condizioni sperimentali deve essere eseguita. Replicando l’intero disegno in questo modo, potrebbe aumentare il numero di prove da eseguire molto rapidamente.

4. Randomizzare: le prove sono elencate in ordine casuale. Se possibile, questa opzione dovrebbe essere utilizzata sempre, per impedire che variabili esterne nascoste (come le variazioni nel tempo del processo) influiscano sui risultati.

Per l’esperimento in esame, sono stati richiesti 4 punti centrali, che portano il disegno finale a 20 prove. È stato richiesto anche che il disegno sia realizzato in ordine casuale, nel senso che l’ordine delle 10 prove all’interno di ciascun blocco sarà generato a caso.

A questo punto viene visualizzata la finestra con gli attributi del disegno:


Figura 16-8. La finestra per scegliere il disegno con i run da eseguire

Se queste impostazioni vi soddisfano, fate clic su OK per ritornare alla finestra del Wizard del

disegno sperimentale che riassume le scelte finora fatte:


Figura 16-9. La finestra del wizard dopo la scelta del disegno

Contemporaneamente, il disegno è stato caricato nel foglio A del DataBook di STATGRAPHICS Centurion XVI:


Figura 16-10. Il disegno finale

Il foglio contiene una colonna con i numeri dei blocchi, 5 colonne con le impostazioni dei fattori sperimentali e 2 colonne per inserire le risposte, una volta che le prove sperimentali sono state eseguite.


Passo 4: Specificare il modello

Il Wizard del disegno sperimentale valuta il disegno che avete creato rispetto a un modello statistico sperimentale. Se premete il pulsante 4) Specifica il modello, sarà visualizzata la seguente finestra:

Figura 16-11. La finestra per selezionare il modello statistico

Dovreste scegliere il modello più complicato che volete considerare per i vostri dati. Nel caso di un disegno fattoriale a due livelli, il modello più complicato che può essere adattato è il modello di interazione a due fattori, che è definito in questo modo:

Y = 5445533543345225422432235115

41143113211255443322110

xxxxxxxxxxxxxx

xxxxxxxxxxx

βββββββ

βββββββββ

+++++++

++++++++

È formato dai singoli fattori sperimentali (gli effetti principali) e da termini che riguardano le varie coppie di fattori (interazioni a due fattori). Potete escludere i singoli termini dal modello selezionato facendo doppio clic su di essi (i termini esclusi saranno visualizzati nel riquadro Escludi). Per l’esempio in esame, selezionate il modello Interazioni a 2 fattori.


Passo 5: Selezionare i run

Per disegni più complessi, potrebbe essere preferibile eseguire soltanto un sottoinsieme dei run che sono stati creati nel Passo 3. Se premete il pulsante 5) Seleziona i run, potrete accedere a un algoritmo di selezione che vi consente di creare un sottoinsieme di run che è D-ottimo. In questo caso, saranno eseguiti tutti i run e il Passo 5 può essere omesso.

Passo 6: Valutare il disegno

Se premete il pulsante 6) Valuta il disegno, sarà visualizzata una finestra che elenca le tabelle e i grafici che possono essere aggiunti alla finestra del wizard:

Figura 16-12. Tabelle e grafici per valutare il disegno sperimentale scelto

Un’utile opzione per i disegni di screening è la Matrice di correlazione, che mostra se ci sono eventuali confondimenti tra i termini nel modello da adattare:


Matrice di correlazione

blocco A B C D E AB AC AD AE BC BD BE CD

blocco 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,8944

A 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

B 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

C 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

D 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

E 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

AB 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

AC 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

AD 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000 0,0000

AE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000 0,0000

BC 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000 0,0000

BD 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000 0,0000

BE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000 0,0000

CD 0,8944 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 1,0000

CE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

DE 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

CE DE

blocco 0,0000 0,0000

A 0,0000 0,0000

B 0,0000 0,0000

C 0,0000 0,0000

D 0,0000 0,0000

E 0,0000 0,0000

AB 0,0000 0,0000

AC 0,0000 0,0000

AD 0,0000 0,0000

AE 0,0000 0,0000

BC 0,0000 0,0000

BD 0,0000 0,0000

BE 0,0000 0,0000

CD 0,0000 0,0000

CE 1,0000 0,0000

DE 0,0000 1,0000

Figura 16-13. Matrice di correlazione per il disegno sperimentale scelto

Un valore non nullo in qualsiasi cella fuori dalla diagonale della tabella indica che gli effetti della corrispondente riga e colonna si confondono e non possono essere distinti con chiarezza. Nel disegno in esame, l’interazione CD ha una grande correlazione con i blocchi. Notate che il disegno ha arbitrariamente sacrificato la capacità di stimare l’interazione tra i fattori C e D, che sono la concentrazione e la velocità di agitazione. Se l’ingegnere ritiene che questa interazione sia importante, dovrebbe modificare l’ordine delle variabili in modo che C e D corrispondano a due variabili che hanno poche probabilità di interagire.


Passo 7: Salvare l’esperimento

Il pulsante 7) Salva l’esperimento vi consente di salvare il disegno sperimentale in un file, tramite la seguente finestra:

Figura 16-14. La finestra per salvare il disegno sperimentale in un file

I disegni sperimentali creati con il wizard vengono salvati in file con estensione .sgx. Questi file sono simili ai file di dati standard, con la differenza che contengono informazioni aggiuntive sul disegno sperimentale e sul modello statistico selezionato.

16.2 Analizzare i risultati Dopo avere disegnato l’esperimento, l’ingegnere ha eseguito le 20 prove indicate; poi ha riavviato il programma, ha aperto il file dell’esperimento salvato e ha inserito i valori misurati dei campi yield e strength nel foglio dell’esperimento. Per replicare la sua analisi, caricate il file tutorial7.sgx come se fosse un file di dati di STATGRAPHICS, selezionando Apri Sorgente dati dal menu File. Quando aprite il file di un esperimento, viene automaticamente aperta la finestra del Wizard del disegno sperimentale.


Passo 8: Analizzare i dati

Per analizzare i dati sperimentali, fate clic sul pulsante 8) Analizza i dati. L’analisi inizia con la seguente finestra:

Figura 16-15. La finestra per analizzare i dati

Se necessario, è possibile specificare una trasformazione per una o più variabili. Poiché stiamo analizzando variabili risposta continue, le trasformazioni potrebbero essere necessarie se la varianza della risposta aumentasse con la media. Nell’esempio in esame, le trasformazioni non sono necessarie.

Se fate clic su OK, sarà visualizzata una nuova finestra di analisi per ogni risposta. La finestra di analisi per il Rendimento inizialmente presenta il seguente output:


Figura 16-16. La finestra di analisi dell’esperimento per la variabile Rendimento

La finestra presenta quattro pannelli:

1. Sintesi dell’analisi: elenca le stime degli effetti principali e delle loro interazioni. 2. Tabella ANOVA: contiene i P-value che possono essere utilizzati per verificare il

significato statistico di ciascun effetto.

3. Diagramma di Pareto standardizzato: visualizza gli effetti in ordine decrescente di significatività, con una linea che permette di determinare quali effetti sono statisticamente significativi.

4. Grafico degli effetti principali: rappresentazione grafica delle variazioni stimate della risposta

quando ciascuno dei fattori passa dal livello più basso a quello più alto.


Il diagramma di Pareto standardizzato può essere utilizzato per identificare rapidamente gli effetti più importanti:

Figura 16-17. Diagramma di Pareto standardizzato

La lunghezza di ciascuna barra è proporzionale al valore di una statistica t calcolata per il corrispondente effetto. Tutte le barre oltre la linea verticale sono statisticamente significative al livello di significatività selezionato (5%, per default). In questo caso, ci sono 3 effetti principali significativi: Temperatura, Concentrazione e Catalizzatore. C’è anche un’interazione significativa fra Temperatura e Flusso. Il grafico degli effetti principali nel pannello in basso a destra mostra come ciascun fattore influisce sul Rendimento:


Figura 16-18. Grafico degli effetti principali

Le linee indicano le stime delle variazioni del Rendimento quando ciascun fattore passa dal livello più basso a quello più alto, mentre tutti gli altri fattori restano costanti a un valore intermedio tra i loro minimi e massimi. Notate che i tre fattori con gli effetti principali significativi hanno un impatto sulla risposta maggiore degli altri. Per esempio, il valore medio del Rendimento a bassa temperatura è circa 82, mentre ad alta temperatura è circa 85,4. La differenza di 3,4 è detta “effetto principale” della temperatura. Per creare il grafico dell’interazione fra Temperatura e Flusso, selezionate Grafici delle interazioni dalla finestra Grafici; poi utilizzate il pulsante Opzioni per il pannello per selezionare soltanto questi due fattori:


Figura 16-19. La finestra con le opzioni per creare il grafico delle interazioni

Il grafico risultante mostra il valore medio del Rendimento al variare della Temperatura, per ciascun livello di Flusso:

Figura 16-20. Grafico delle interazioni per le variabili Flusso e Temperatura

Notate che a un basso Flusso, la Temperatura ha un piccolo effetto sul Rendimento. A un alto Flusso, la Temperatura è un fattore molto importante.


Prima di utilizzare il modello statistico che sta alla base di questa analisi, è importante eliminare gli effetti poco significativi:

1. Fate clic sul pulsante Opzioni di analisi nella barra degli strumenti di analisi. 2. Fate clic sul tasto Escludi nella finestra Opzioni per stimare gli effetti. 3. Nella finestra Opzioni per escludere gli effetti fate doppio clic sugli effetti da escludere; questi

effetti passeranno automaticamente dalla colonna Includi alla colonna Escludi:

Figura 16-21. La finestra per escludere gli effetti

Le regole da seguire per escludere gli effetti sono:

1. Escludere qualsiasi interazione poco significativa tra due fattori. 2. Escludere gli effetti principali poco significativi che non sono coinvolti in interazioni

significative. Nell’esempio in esame, questo significa eliminare tutto ciò che non era significativo nel diagramma di Pareto, tranne l’effetto principale di B. Questo effetto viene conservato perché è coinvolto in una interazione significativa con il fattore A. Una volta rimossi gli effetti, il diagramma di Pareto dovrebbe avere il seguente aspetto:


Figura 16-22. Diagramma di Pareto standardizzato dopo l’esclusione degli effetti poco significativi

Ad eccezione dell’effetto principale del fattore B, tutti gli altri effetti sono statisticamente significativi. Il modello finale può essere esaminato selezionando Coefficienti di regressione nella finestra Tabelle:

Coeff. di regressione per Rendimento - Tutorial 7

Coefficiente Stima

costante 250,074

A:Temperatura -1,0595

B:Flusso -17,4475

C:Concentrazione 0,555417

E:Catalizzatore 2,6175

AB 0,106625

StatAdvisor

Questo pannello visualizza l'equazione di regressione che è stata adattata ai dati. L'equazione del modello adattato è

Rendimento = 250,074 - 1,0595*Temperatura - 17,4475*Flusso + 0,555417*Concentrazione + 2,6175*Catalizzatore +

0,106625*Temperatura*Flusso

Figura 16-23. Il modello di regressione finale

Notate che il modello ha la forma di un modello di regressione lineare multipla. Ciascun effetto principale viene incluso separatamente nel modello, mentre l’interazione tra due fattori è rappresentata dal prodotto di Temperatura e Flusso.


Per capire bene il modello approssimato, è meglio rappresentarlo in un grafico. L’opzione Grafici di risposta nella finestra Tabelle e grafici consente di generare vari tipi di grafici. Per default, viene visualizzato un grafico a superficie:

Figura 16-24. Il grafico a superficie della variabile risposta

In questo grafico, l’altezza della superficie rappresenta il valore previsto del Rendimento nello spazio Temperatura-Flusso, con gli altri tre fattori che restano costanti ai loro valori intermedi. I valori più grandi del Rendimento si hanno per valori elevati di Temperatura e Flusso. Il tipo di grafico e i fattori utilizzati per rappresentare la variabile risposta possono essere cambiati tramite il pulsante Opzioni per il pannello:


Figura 16-25. Opzioni per il grafico della variabile risposta

I tipi di grafici che possono essere creati sono:

1. Superficie: rappresenta l’equazione approssimata come una superficie 3-D rispetto a due fattori sperimentali. La superficie può essere a rete, a un colore uniforme o mostrare i livelli dei contorni della variabile risposta. L’opzione Contorni sotto mostra i contorni nella base del grafico.

2. Contorno: crea un diagramma a contorno 2-D rispetto a due fattori sperimentali. I contorni possono essere rappresentati da Linee curve, come nelle mappe topografiche, da Aree colorate o da colori uniformi con una griglia (Continui con griglia).

3. Quadrato: rappresenta la regione sperimentale per due fattori sperimentali e visualizza la risposta prevista nei quattro angoli di un quadrato.


4. Cubo: rappresenta la regione sperimentale per tre fattori sperimentali e visualizza la risposta prevista negli angoli di un cubo. Prima di creare questo grafico, è necessario utilizzare il tasto Fattori e selezionare un terzo fattore.

5. Contorni 3-D: traccia i contorni per la risposta rispetto ai 3 fattori sperimentali.

6. Rete 3-D: crea un grafico a rete che mostra il valore della variabile risposta in una regione sperimentale tridimensionale.

Il tasto Fattori serve a selezionare i fattori che definiscono gli assi dei grafici e i valori costanti (Mantenere) che assumeranno gli altri fattori:

Figura 16-26. La finestra per i fattori del grafico della risposta

Per creare il prossimo grafico, impostate Continui nel campo Contorni, Contorni sotto e Uniforme nel campo Superficie; poi modificate la scala del campo Contorni da 81 a 86 con incrementi di 1:


Figura 16-27. Grafico a superficie della risposta con i contorni alla base

Lo stesso grafico può essere visualizzato come un diagramma a contorno:

Figura 16-28. Diagramma a contorno della risposta


I valori più grandi del Rendimento si trovano nell’angolo in alto a destra. La seconda variabile risposta misurata durante l’esperimento era resistenza. La finestra di analisi per questa variabile mostra il seguente diagramma di Pareto:

Figura 16-29. Diagramma standardizzato di Pareto per la variabile Resistenza

Dopo avere escluso gli effetti insignificanti, il modello adattato è il seguente:

resistenza = –317,288 + 1,02083*temperatura – 1,3125*flusso + 3,005*velocità di agitazione

Notate che la velocità di agitazione ha un impatto sulla resistenza, sebbene non abbia un effetto significativo sul rendimento. Il diagramma a contorno per i due fattori più importanti sono riportati qui di seguito:


Figura 16-30. Diagramma a contorno della superficie di risposta per la variabile Resistenza

Passo 9: Ottimizzare le risposte

Avendo costruito dei modelli statistici per entrambe le risposte, adesso è possibile determinare le impostazioni ottimali dei fattori. Ricordiamo che l’obiettivo dell’esperimento è quello di massimizzare il rendimento, mantenendo il valore della resistenza quanto più possibile vicino a 250 psi. Se fate clic sul pulsante 9) Ottimizza le risposte, sarà visualizzata la seguente finestra:

Figura 16-31. La finestra con le opzioni di ottimizzazione delle risposte


Poiché il programma utilizza una ricerca numerica per trovare la posizione migliore all’interno della regione sperimentale, è bene iniziare la ricerca da più punti per evitare di trovare una posizione ottimale locale.

Fate clic su OK per avviare la ricerca. Dopo alcuni istanti apparirà il seguente messaggio:

Figura 16-32. Il messaggio visualizzato dopo l’ottimizzazione delle risposte

Contemporaneamente, il seguente output sarà aggiunto alla finestra principale del wizard:

Passo 9: ottimizzare le risposte

Valori di risposta ottimale

Risposta Previsione Limite 95,0% inferiore Limite 95,0% superiore Desiderabilità

rendimento 88,7829 75,5887 101,977 0,878286

resistenza 250,0 187,508 312,492 1,0

Desiderabilità totale = 0,952497

Impostazioni dei fattori ottimali

Fattore Impostazione

temperatura 179,998

flusso 12,0

concentrazione 7,99995

velocità di agitazione 132,947

catalizzatore 1,5

Figura 16-33. Output dell’ottimizzazione delle risposte

Come potete notare dalle impostazioni dei fattori, si stima che il rendimento sarà pari a circa 88,7 grammi, quando la resistenza sarà 250 psi. Il rendimento risultante ha un quoziente di “desiderabilità” di 0,878, in quanto è pari all’87,8% dell’intervallo compreso tra 80 e 90 grammi. La resistenza ha un quoziente di desiderabilità pari a 1, in quanto è esattamente nel target. La desiderabilità totale è 0,952; essa viene calcolata prendendo la desiderabilità di ciascuna risposta, elevandola alla potenza specificata dal suo impatto, moltiplicando i risultati ed elevando il prodotto a una potenza pari a 1 diviso la somma degli impatti. Il risultato è un numero compreso tra 0 e 1, con un maggior peso dato alla risposta con l’impatto maggiore.

Se fate clic sul pulsante Tabelle e grafici, potrete creare due ulteriori grafici. I Grafici a contorno sovrapposti mostrano i contorni delle due variabili risposta sovrapposti uno sull’altro:


Figura 16-34. Grafico a contorno per le due risposte

Il punto ottimale si trova nell’angolo superiore destro, dove il rendimento è massimo lungo la linea con resistenza = 250. Il Grafico della desiderabilità può essere utilizzato per visualizzare la desiderabilità totale in funzione di due o tre fattori alla volta. Selezionate il Grafico a rete 3-D per ottenere il seguente risultato:

Figura 16-35. Grafico a rete 3-D della desiderabilità totale


La posizione migliore è illustrata in rosso, dove la temperatura e il flusso sono elevati, mentre la velocità di agitazione resta a un valore medio.

Passo 10: Salvare i risultati

Per salvare i risultati dell’analisi e dell’ottimizzazione in uno StatFolio, fate clic sul pulsante 10) Salva i risultati:

Figura 16-36. La finestra per salvare i risultati

16.3 Ulteriore sperimentazione

Se occorre un’ulteriore sperimentazione, STATGRAPHICS Centurion XVI può aiutarvi in due modi: ampliando il disegno esistente o generando dei punti lungo il cammino di massima pendenza.


Passo 11: Ampliare il disegno

Se fate clic sul pulsante 11) Amplia il disegno, potete aggiungere altri run all’esperimento corrente. Viene visualizzata la seguente finestra:

Figura 16-37. La finestra per ampliare il disegno

Sono disponibili le seguenti opzioni:

1. Aggiungi repliche: aggiunge al disegno altri 20 run, che sono identici ai primi 20. Questo creerà altri gradi di libertà per stimare l’errore sperimentale.

2. Aggiungi una frazione: aggiunge altri 20 run per rendere il disegno completamente fattoriale.


Passo 12: Estrapolare

Potete generare dei punti lungo il cammino di massima pendenza nel tentativo di spostarvi rapidamente verso regioni con valori più alti di rendimento. Questo cammino inizia da un punto specifico nella regione sperimentale e va nella direzione di massima variazione della risposta stimata per le variazioni più piccole dei fattori sperimentali. Seguendo tale cammino è possibile ottenere notevoli miglioramenti molto rapidamente. Se fate clic sul pulsante 12) Estrapola, sarà visualizzata la seguente finestra:

Figura 16-38. La finestra con le opzioni di estrapolazione

Le impostazioni di questa finestra indicano al programma di iniziare dall’ottimo derivato e di lasciare che i 5 fattori varino tra i valori Basso e Alto che raddoppiano le dimensioni della regione sperimentale. Viene anche specificato al programma di visualizzare le combinazioni dei fattori quando la desiderabilità stimata varia di almeno lo 0,5%. Se fate clic su OK, la seguente tabella sarà aggiunta alla finestra del wizard:


Passo 12: estrapolare il modello

Valori di risposta estrapolati

Passo Desiderabilità rendimento resistenza

0 0,948018 88,6734 250,001

1 0,953289 88,81 249,974

2 0,959294 88,9548 249,987

3 0,964593 89,0926 249,97

4 0,970278 89,2319 249,984

5 0,975933 89,3718 249,997

6 0,981395 89,5155 250,012

7 0,986799 89,6578 250,018

8 0,991955 89,7919 249,985

9 0,997518 89,9366 250,008

10 0,999936 90,0113 249,995

Impostazioni dei fattori per l'estrapolazione

Passo temperatura flusso concentrazione velocità di agitazione catalizzatore

0 179,999 12,0 8,0 132,875 1,5

1 180,037 12,05 8,04539 132,875 1,50594

2 180,114 12,1 8,08944 132,875 1,51171

3 180,162 12,15 8,13255 132,875 1,51735

4 180,239 12,2 8,16866 132,875 1,52208

5 180,317 12,25 8,20457 132,875 1,52678

6 180,396 12,3 8,24335 132,875 1,53186

7 180,466 12,35 8,28218 132,875 1,53694

8 180,497 12,4 8,32249 132,875 1,54222

9 180,585 12,45 8,3575 132,875 1,5468

10 180,585 12,46 8,41739 132,875 1,55572

Figura 16-39. Dati di riepilogo dell’estrapolazione aggiunti alla finestra del wizard

Il rendimento può essere aumentato al suo target di 90 grammi, mantenendo una resistenza di 250 psi con un incremento della temperatura fino a 180,6 gradi, aumentando il flusso a 12,46 litri/min, la concentrazione all’8,42% e il catalizzatore all’1,56%. Poiché questa è un’estrapolazione del modello statistico che avviene al di fuori della regione sperimentale originale, occorre eseguire dei run aggiuntivi per verificare questo risultato.

289 Libri consigliati

Libri consigliati

I seguenti libri sono eccellenti fonti di informazioni sulle tecniche statistiche descritte in questo manuale:

Statistica di base: Applied Statistics and Probability for Engineers, 4rd edition, Douglas C. Montgomery e George C. Runger (2006). John Wiley and Sons, New York.

Analisi della varianza: Applied Linear Statistical Models, 5th edition, Michael H. Kutner, Christopher J. Nachtsheim e John Neter (2004). McGraw-Hill.

Analisi della regressione: Applied Linear Regression, 3rd edition, Sanford Weisberg (2005). John Wiley and Sons, New York.

Controllo statistico dei processi: Introduction to Statistical Quality Control, 6th edition, Douglas C. Montgomery (2008). John Wiley and Sons, New York.

Disegno di esperimenti: Statistics for Experimenters: Design, Innovation and Discovery, 2nd edition, George E. P. Box, William G. Hunter e J. Stuart Hunter (2005). John Wiley and Sons, New York.

290 Dataset

Dataset

93cars.sgd

Questi dati sono stati scaricati dal Journal of Statistical Education Data Archive. Sono stati compilati da Robin Lock del Dipartimento di Matematica della St. Lawrence University e sono utilizzati con la sua autorizzazione. Un articolo associato al dataset appare nel Journal of Statistics

Education, Volume 1, Numero 1 (luglio 1993).

bodytemp.sgd

Anche questi dati sono stati scaricati dal Journal of Statistical Education Data Archive. Sono stati compilati da Allen Shoemaker del Dipartimento di Psicologia del Calvin College e sono utilizzati con la sua autorizzazione. I dati erano riportati in un articolo del Journal of the American Medical

Association (1992, vol. 268, pp. 1578-1580) intitolato “A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich” di P. A. Mackowiak, S. S. Wasserman e M. M. Levine. Un articolo associato al dataset appare nel Journal of Statistics Education, Volume 4, Numero 2 (luglio 1996).

Sito web del Journal of Statistical Education (JSE) Data Archive:

http://www.amstat.org/publications/jse/jse_data_archive.html

291 Indice analitico

Indice analitico

ABS; 44 Aggiorna formule; 43 ampliare il disegno; 286 analisi

aggiornamento automatico; 110 delle medie; 198 finestra di; 23 scegliere il tipo di; 132

Analisi a una variabile; 21; 148; 238 Analisi della capacità; 240 AND; 63 ANOM; 198 ANOVA; 190; 271

grafica; 191 ASCII, file; 36 AVG; 44 bibliografia; 289 booleana, espressione; 63 bootstrap, intervalli; 167 Box-Cox, trasformazione; 247 brushing; 95 BY, variabile; 135 Calcolatrice Six Sigma; 253 capacità, grafico della; 241 cifre significative, default; 142 colonna di dati

commento; 16; 33 modificare; 32 nome; 16; 33 tipo; 16; 33

Confronta due campioni; 173 Confronto di più campioni; 186

contingenza, tabella di; 225; 235 contorno, diagramma a; 278 correlazione, matrice di; 203 COUNT; 53 Cp; 252 Cpk; 250 DataBook; 31 date; 143 dati

cancellare; 39 combinare; 49 copiare; 39 foglio; 14 generare; 51 immettere; 14 incollare; 39 inserire; 39 ordinare; 46 qualitativi; 219 ricodificare; 48 strutture; 51 tagliare; 39 trasformare; 43

deviazione standard; 152 diagramma a scatola e baffi; 24; 154 Diagramma a scatola e baffi; 195 DIFF; 44 disegno di esperimenti; 255 disegno, ampliamento; 286 distribuzione

normale; 152 valore estremo massimo; 244


DPM; 246 effetti

escludere gli; 275 grafico degli; 271

Escludi; 73 eseguire il programma; 8 eteroschedasticità; 197 Excel, file; 36; 37 EXP; 44 F, test; 179 file di dati

lettura soltanto; 56 FIRST; 62 formule

conversione in valori Z; 44 differenze all’indietro; 44 funzione esponenziale; 44 logaritmo in base 10; 44 logaritmo naturale; 44 massimo; 44 media; 44 minimo; 44 radice quadrata; 44 ritardo di k periodi; 44 valore assoluto; 44

frequenze, istogramma delle; 26; 160; 239 Friedman, test; 194 FTP; 112 Genera dati; 45; 52 gestore licenze; 9 grafici

a mosaico; 229 a scatola e baffi; 154 a superficie; 278 aggiungere testi; 92 copiare in altre applicazioni; 102 degli effetti; 271 effetti 3D; 79 escludere i punti; 73

font; 90 modificare; 78 modificare l’aspetto di default; 144 rotazione; 97 ruotare le etichette degli assi; 89 scala degli assi; 89

grafico a barre; 229 Grubbs, test; 158 HSD, intervalli; 193 Imposta pagina; 74 Imposta stampante; 144 input, finestra di; 61 installazione; 1 interazione; 273 intervalli di confidenza

deviazione standard; 166 media; 166 mediana; 167

intestazioni di analisi; 143 jittering; 93; 189 K, indice; 252 Kolmogorov-Smirnov, test; 183; 244 Kruskal-Wallis, test; 194 LAG; 44 LAST; 62 Levene, test; 196 Limiti di tolleranza statistici; 170 livello di confidenza; 142 Livello di Qualità Sigma; 252 LOG; 44 LOG10; 44 LOWESS, metodo di smoothing; 98; 202 LSD, intervalli; 193 Mann-Whitney (Wilcoxon), test; 181; 194 massimo; 152 matrice di grafici; 101 MAX; 44 media; 152 mediana; 152


medie, grafico delle; 192 MIN; 44 minimo; 152 Modifica colonna; 32 non parametrici, metodi; 168; 181; 183; 194;

244 ODBC, interrogazione; 38 operatori algebrici

addizione; 44 divisione; 44 elevamento a potenza; 44 moltiplicazione; 44 sottrazione; 44

Opzioni di analisi; 65 Opzioni per il grafico; 28

scheda Griglia; 81 scheda Layout; 79 scheda Linee; 83 scheda Profili; 144 scheda Punti; 85 scheda Riempimenti; 91 scheda Titolo principale; 87 testi, etichette e legende; 92

Opzioni per il pannello; 26; 68 OR; 63 Ordina dati; 46 ordinare i nomi delle variabili; 143 outlier; 156; 197 Pareto

analisi; 221 diagramma di; 271

parsimonia; 199 percentili; 152; 166 Preferenze; 108; 141

scheda Capacità; 251 scheda EDA; 161 scheda Statistiche; 153

processo, analisi della capacità di un; 237

Proprietà DataBook; 55 punti centrali; 262 quantili, grafico dei; 165; 182 quantili-quantili, grafico; 184 quartili; 152 query SQL; 34 RANDOM; 62 regressione

analisi; 199 coefficienti; 276 graduale; 213 lineare; 207 multipla; 211 non lineare; 207

Regressione semplice; 61; 204 REP; 53 RESHAPE; 54 residui; 196; 209 ricerca di test e statistiche; 137 Ricodifica dati; 48 RNORMAL; 55 ROWS; 62 R-quadrato; 206; 208 Salva i risultati; 70 Salvataggio automatico; 71 SD; 44 sgcinstall.exe; 1 Shapiro-Wilks, test; 243 Six Sigma; 237

menu; 12; 142 sky, grafico; 230 smoothing; 98; 202 SQRT; 44 stampa

linee spesse; 75 margini; 75 risultati di un’analisi; 74

STANDARDIZE; 44


StatAdvisor, default; 143 StatFolio

pubblicare i dati; 111 salvare; 30; 105 script di avviamento; 106; 110; 143

StatGallery; 248 configurare; 115 copiare i grafici in; 117 modificare i grafici; 119 sovrapporre i grafici; 118

statistiche ricalcolo; 143 sintesi; 23

Statistiche di sintesi; 151; 175; 239 Statistiche per riga; 49 StatLink; 55; 110 StatPublish; 111 StatReporter; 123

copiare l’output in; 124 modificare; 125

StatWizard; 127 studentizzati

residui; 210 valori; 157

Sturges, regola di; 161 t, test; 168; 180 tabella a doppia entrata; 227 Tabulazione; 220 Tabulazione delle frequenze; 163 Tabulazione incrociata; 224 Test dei range multipli; 193 test per ranghi con segno; 168 verifica di ipotesi

coefficiente di correlazione; 203 confrontare le deviazioni standard; 179;

196 confrontare le distribuzioni; 183 confrontare le mediane; 181; 194 confrontare le medie; 180; 190 confrontare le proporzioni; 236 media; 168 mediana; 168 normalità; 243 outlier; 158 regressione; 206 tabella a doppia entrata; 231

XML, file; 36 Z-score; 252

SG XVI - Manuale Italiano

Documents

Transcript of SG XVI - Manuale Italiano