Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη...

37
ΣΤΑΤΙΣΤΙΚΗ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΟΡΓΑΝΙΣΜΩΝ, ΜΑΡΚΕΤΙΝΓΚ & ΤΟΥΡΙΣΜΟΥ

Transcript of Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη...

Page 1: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Σ ΤΑΤ Ι Σ Τ Ι Κ Η

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΟΡΓΑΝΙΣΜΩΝ, ΜΑΡΚΕΤΙΝΓΚ & ΤΟΥΡΙΣΜΟΥ

Page 2: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Αριθμητικά Περιγραφικά Μέτρα

Page 3: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Τα αριθμητικά περιγραφικά μέτρα (numerical descriptive measures) είναι αριθμοί που συμβάλουν στην περιγραφή της κατανομής μιας τυχαίας μεταβλητής. Ονομάζονται παράμετροι του πληθυσμού (parameters) όταν υπολογίζονται από τον πληθυσμό και τότε η τιμή τους είναι μοναδική. Κατά κανόνα, η τιμή μιας παραμέτρου στον πληθυσμό δεν μπορεί να υπολογιστεί. Και είναι ακριβώς αυτή η άγνωστη ποσότητα την οποία η Στατιστική προσπαθεί να «εντοπίσει» και για την οποία προσπαθεί να «μιλήσει». Ονομάζονται στατιστικά (statistics) όταν υπολογίζονται από ένα δείγμα του πληθυσμού. Προφανώς, από διαφορετικά δείγματα προκύπτουν διαφορετικές τιμές για ένα στατιστικό. Στις περισσότερες περιπτώσεις όμως, η τιμή του στατιστικού είναι η βέλτιστη εκτίμηση της αντίστοιχης παραμέτου στο πληθυσμό, ενώ η ορθή χρήση των μεθόδων της Στατιστικής μας επιτρέπει να εξάγουμε αξιόπιστα συμπεράσματα για την παράμετρο και, συνεπώς, για τον πληθυσμό.

Μαρίνα Σύρπη (2019) 3

Page 4: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Παράμετρος στον πληθυσμό – ο «στόχος» μας. Γνωστός, αλλά μακρινός και δισδιάκριτος. Τιμή μοναδική αλλά άγνωστη.

Στατιστικό δείγματος – το «όπλο» μας Από διαφορετικά δείγματα, προκύπτουν διαφορετικές τιμές. Οι περισσότρες θα βρίσκονται πολύ κοντά στον στόχο. (Πάντα υπάρχει η πιθανότητα να αστοχίσουμε!!) Τα «εργαλεία» της Στατιστικής κατασκευάζονται με τέτοιο τρόπο, ώστε η πιθανότητα αστοχίας (σφάλματος) να είναι όσο το δυνατόν μικρότερη.

Τα αριθμητικά περιγραφικά μέτρα ορίζονται στον πληθυσμό, αλλά υπολογίζονται (εκτιμώνται) από ένα δείγμα.

Μαρίνα Σύρπη (2019) 4

Page 5: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Μέτρα Κεντρικής Τάσης

Page 6: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Τα Μέτρα Κεντρικής Τάσης (Central Tendency Measures) μας πληροφορούν, το καθένα με διαφορετικό τρόπο, για το «κέντρο» της κατανομής. Προσπαθούν να αποτυπώσουν με τρόπο μαθηματικό, τις διαισθητικές αντιλήψεις που έχουμε όταν αναφέρουμε ή ακούμε τη λέξη «κέντρο». Τί δηλώνει, για παράδειγμα, κάποιος όταν λέει, «Η πλατεία Αριστοτέλους είναι το κέντρο της Θεσσαλονίκης»;

Την ποιό πολυσύχναστη πλατεία; Το μέρος που πρέπει να επισκεφτεί κάποιος για να αποκτήσει την ποιο σαφή εικόνα για την πόλη; Το γεωγραφικό της κέντρο;

Ταυτίζονται οι παραπάνω ιδιότητες, ή μπορούμε να μιλάμε για διαφορετικά «κέντρα;» . Και αν έχουμε διαφορετικά κέντρα ποιό είναι το καταλληλότερο, το ποιό αντιπροσωπευτικό του πληθυσμού;

Μαρίνα Σύρπη (2019) 6

Page 7: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ο Αριθμητικός Μέσος (Arithmetic Mean)

Ο αριθμητικός μέσος (arithmetic mean) ή απλά μέσος (mean) ή μέση τιμή της μεταβλητής Χ στον πληθυσμό συμβολίζεται με και ορίζεται να είναι το πηλίκο

όπου οι τιμές της μεταβλητής στον πληθυσμό και

το μέγεθος του πληθυσμού.

1 2 Nx x x

N

1 2, , , Nx x x

N

Εκτιμάται από τον δειγματικό αριθμητικό μέσο (sample arithmetic mean) ή δειγματική μέση τιμή της μεταβλητής Χ (sample mean value). Η δειγματική μέση τιμή συμβολίζεται με και υπολογίζεται από το στατιστικό όπου οι τιμές της μεταβλητής στον πληθυσμό και το μέγεθος του δείγματος.

X

1 2 nx x xX

n

1 2, , , nx x x

Μαρίνα Σύρπη (2019) 7

n

Page 8: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ο Αριθμητικός Μέσος και το είδος της πληροφορίας που μας δίνει

Μαρίνα Σύρπη (2019) 8

o Αντιπροσωπεύει τον πληθυσμό, και είναι εκείνη η τιμή που χρησιμοποιούμε για να αξιολογήσουμε την απόκλιση ενός τυχαίου αντικειμένου του πληθυσμού από τον «κανόνα».

Για παράδειγμα, αν το μέσο μηνιαίο εισόδημα των εργαζομένων εκτιμάται σε 1.000€, τότε θα χαρακτηρίσουμε ως υψηλόμισθο κάποιον που αμοίβεται με 1400 €.

o Υπολογίζει την αναμενόμενη (ή προσδοκόμενη) τιμή. Αυτό σημαίνει ότι αν επιλέξουμε τυχαία ένα αντικείμενο από τον πληθυσμό και μετρήσουμε κάποιο χαρακτηριστικό του, αναμένουμε (προσδοκούμε, ελπίζουμε) ότι η τιμή που θα βρούμε θα βρίσκεται κοντά στον αριθμητικό μέσο του χαρακτηριστικού.

Για παράδειγμα, αν έχουμε την πληροφορία ότι το μέσο κέρδος για ένα τυχερό παιχνίδι εκτιμάται σε 50€ τότε, στην περίπτωση που παίξουμε, προσδοκούμε σε κέρδος της τάξης των 40€ - 50€.

Page 9: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ο Αριθμητικός Μέσος ως σημείο ισορροπίας της Κατανομής

Μαρίνα Σύρπη (2019) 9

Μια ακόμη ερμηνεία του αριθμητικού μέσου είναι αυτή του σημείου ισοοροπίας μιας κατανομής. Δηλαδή, τοποθετώντας μοναδιαία βάρη στις θέσεις των τιμών της μεταβλητής πάνω σε μία βαθμονομημένη ράβδο αμελητέου βάρους, αυτή θα ισορροπίσει στην ένδειξη που συμπίπτει με τον αριθμητικό μέσο.

1 1 1

2 2

1

2 3 4 5 6 7 8 9 10 11

Αυτό σημαίνει ότι αν ο πληθυσμός μας γινόταν ξαφνικά απολύτως ομοιογενής ως προς το χαρακτηριστικό που μελετάμε, αν για κάποιο λόγο εξέλειπε η μεταβλητότητα, τότε, για όλα τα αντικείμενα του πληθυσμού η τιμή του αυτού του χαρακτηριστικού θα ταυτιζόταν με τον αριθμητικό μέσο. Στο παράδειγμά μας, όλες οι μετρήσεις θα στοιβάζονταν στο 7.

ΑΡΙΘΜΗΤΙΚΟΣ ΜΕΣΟΣ = 7

Page 10: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Πλεονεκτήματα και Μειονεκτήματα του Αριθμητικού Μέσου

Πλεονεκτήματα Μειονεκτήματα

Στον υπολογισμό του χρησιμοποιούνται όλες οι τιμές του δείγματος.

Παράγει μία μοναδική τιμή.

Υπολογίζεται εύκολα.

Χρησιμοποιείται για περεταίρω στατιστική ανάλυση.

Επηρεάζεται από ακραίες τιμές.

Όταν η κατανομή της μεταβλητής εμφανίζει έντονη θετική ή αρνητική ασυμμετρία, τότε ο μέσος είναι ακατάλληλος ως μέτρο κεντρικής τάσης – δηλαδή δεν μπορεί να θεωρηθεί ως κατάλληλος αντιπρόσωπος του πληθυσμού.

Σε κάποιες περιπτώσεις δεν αποτελεί τιμή της μεταβλητής.

Μαρίνα Σύρπη (2019) 10

Page 11: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η Επικρατούσα τιμή ή Τύπος (Mode)

Η επικρατούσα τιμή μιας μεταβλητής Χ στον πληθυσμό, είναι η τιμή που εμφανίζεται τις περισσότερες φορές. Θα τη συμβολίζουμε με

Εκτιμάται από την δειγματική επικρατούσα τιμή την οποία θα συμβολίζουμε με . Παρακάτω βλέπετε το γραφικό προσδιορισμό της επικρατούσας τιμής.

oM

Μαρίνα Σύρπη (2019) 11

Page 12: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η Επικρατούσα Τιμή και το είδος της πληροφορίας που μας δίνει

Μαρίνα Σύρπη (2019) 12

Όταν για μία συνεχή μεταβλητή Χ μας δίνεται η επικρατούσα τιμή, τότε γνωρίζουμε ότι το μεγαλύτερο ποσοστό του πληθυσμού συγκεντρώνεται γύρω από από αυτή την τιμή.

Αν, για παράδειγμα, μας δοθεί η πληροφορία ότι η επικρατούσα τιμή του μηνιαίου εισοδήματος των εργαζομένων εκτιμήθηκε σε 780 €, τότε γνωρίζουμε ότι στο μεγαλύτερο ποσοστό των εργαζομένων οι μηνιαίες αποδοχές είναι περίπου 780 €.

Η αξία βέβαια της παραπάνω πληροφορία εξαρτάται από τιμή του ποσοστού. Μια τιμή μπορεί να είναι επικρατούσα σε σχέση με τις υπόλοιπες αλλά αυτό δεν σημαίνει κατ’ ανάγκη ότι είναι και «ισχυρή». Έτσι, στα ομαδοποιημένα δεδομένα, είναι πολλές φορές προτιμότερο να αναφερόμαστε στην επικρατούσα κλάση και στο αντίστοιχο ποσοστό, λαμβάνοντας ως αντιπρόσωπο το κέντρο της. Για παράδειγμα, «στο μεγαλύτερο ποσοστό των εργαζομένων (≅ 35%) οι μηνιαίες αποδοχές είναι περίπου 750€»

Page 13: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Πλεονεκτήματα και Μειονεκτήματα της Επικρατούσας Τιμής

Πλεονεκτήματα Μειονεκτήματα

Σε μία συμμετρική μονοκόρυφη κατανομή είναι επίσης αμερόληπτη εκτιμήτρια του μέσου και της διαμέσου.

Υπολογίζεται εύκολα.

Στον υπολογισμό της δεν χρησιμοποιούνται όλες οι τιμές του δείγματος.

Δεν έχει πάντα μοναδική τιμή.

Δεν χρησιμοποιείται για περεταίρω στατιστική ανάλυση.

Μαρίνα Σύρπη (2019) 13

Page 14: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η Διάμεσος (Median)

Η διάμεσος τιμή της μεταβλητής Χ στον πληθυσμό, βρίσκεται σε εκείνη τη θέση που χωρίζει τον διατεταγμένο πληθυσμό σε δύο ίσα μέρη. Θα τη συμβολίζουμε

Εκτιμάται από την δειγματική διάμεσο την οποία θα συμβολίζουμε με και υπολογίζεται από τα παρακάτω στατιστικά όταν το πλήθος των παρατηρήσεων του δείγματος είναι περιττό όταν το πλήθος των παρατηρήσεων είναι άρτιο. Οι τύποι χρησιμοποιούνται αφού τα δεδομένα διαταχθούν σε αύξουσα σειρά, ενώ τα σύμβολα και δηλώνουν θέση στην παραπάνω σειρά κατάταξης.

12

ndM x

Μαρίνα Σύρπη (2019) 14

n

dM

12 2

2

n n

d

x xM

n

2

n

1

2

n

Page 15: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η Διάμεσος και το είδος της πληροφορίας που μας δίνει

Μαρίνα Σύρπη (2019) 15

Η διάμεσος χωρίζει τον διατεταγμένο πληθυσμό σε δύο ίσα, ως προς το πλήθος τους, μέρη.

50% του πληθυσμού 50% του πληθυσμού

dM

Επομένως, όταν για μία συνεχή μεταβλητή Χ μας δίνεται η διάμεσος γνωρίζουμε ότι στο μισό πληθυσμό η μεταβλητή έχει τιμές μικρότερες ή ίσες της διαμέσου και στον υπόλοιπο μισό έχει τιμές μεγαλύτερες ή ίσες της διαμέσου.

Αν, για παράδειγμα, μας δοθεί η πληροφορία ότι η διάμεσος του μηνιαίου εισοδήματος των εργαζομένων εκτιμήθηκε σε 1000 €, τότε ξέρουμε ότι στο 50 % των εργαζομένων οι μηνιαίες αποδοχές δεν υπερβαίνουν τα 1000 € το μήνα και, αντίστοιχα, στο 50 % των εργαζομένων οι μηνιαίες αποδοχές είναι τουλάχιστον 1000 € το μήνα.

Page 16: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Διάμεσος και Συνάρτηση Πυκνότητας

Μαρίνα Σύρπη (2019) 16

f(x)

Αν στο σημείο της διαμέσου φέρουμε μία κάθετη προς τον οριζόντιο άξονα ευθεία, τότε αυτή θα χωρίσει την καμπύλη της πυκνότητας σε δύο χωρία με εμβαδόν 0.5 το καθένα. Στο παραπάνω σχήμα, το κόκκινο βέλος σημειώνει το μέσο της έκτασης των τιμών της μεταβλητής και παρατηρούμε ότι η διάμεσος δεν συμπτίπτει με αυτό το σημείο. Είναι σημαντικό να κατανοήσουμε ο ορισμός της διαμέσου δεν έχει σχέση με το μέσο των τιμών της μεταβλητής, αλλά με διαχωρισμό του πληθυσμού σε δύο ίσα μέρη.

0.5 0.5

Page 17: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Πλεονεκτήματα και Μειονεκτήματα της Διαμέσου

Πλεονεκτήματα Μειονεκτήματα

Παράγει μία μοναδική τιμή.

Υπολογίζεται εύκολα.

Δεν επηρεάζεται από ακραίες τιμές.

Όταν η κατανομή εμφανίζει έντονη θετική ή αρντική ασυμμετρία, τότε η διάμεσος θεωρείται καταλληλότερη ως μέτρο κεντρικής τάσης από ότι ο μέσος

Στον υπολογισμό της δεν εισέρχονται όλες οι παρατηρήσεις του δείγματος

Δεν μπορεί να χρησιμοποιηθεί για περεταίρω στατιστική ανάλυση.

Μαρίνα Σύρπη (2019) 17

Page 18: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Μορφές Κατανομών και Μέτρα Κεντρικής Τάσης

Μαρίνα Σύρπη (2019) 18

Τα ιστογράμματα συχνοτήτων που προκύπτουν από την ομαδοποίηση των δεδομένων, συνεπώς και οι καμπύλες των συναρτήσεων πυκνότητας που προκύπτουν από αυτά, έχουν πολλές διαφορετικές μορφές. Κάθε καμπύλη συγκρίνεται και ταξινομείται έχοντας ως πρότυπο την καμπύλη της Κανονικής Κατανομής.

𝝁 = 𝝉 = 𝜹 = −𝟐

Όλες οι καμπύλες που προκύπτουν από Κανονικούς πληθυσμούς έχουν τα εξής κονινά χαρακτηριστικά: Μία κορυφή Σχήμα «καμπάνας» (κωδονοειδής καμπύλη - bell shaped curve) Μέση Τιμή = Διαμέσο Τιμή = Επικρατούσα Τιμή Συμμετρία ως προς τον άξονα που διέρχεται από την κορυφή της καμπύλης

𝝁 = 𝝉 = 𝜹 = 𝟐 𝝁 = 𝝉 = 𝜹 = 𝟒

Page 19: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ασυμμετρία ή Λοξότητα (Skewness)

Μαρίνα Σύρπη (2019) 19

Θετική Ασυμμετρία (ή Λοξότητα) (Positive or right skewed) Ωφείλεται στην παρουσία κάποιων μεγάλων τιμών της μεταβλητής. και

eoM M X eoM M X 0

Αρνητική Ασυμμετρία (ή Λοξότητα) (Negative or left skewed)

Ωφείλεται στην παρουσία κάποιων μικρών τιμών της μεταβλητής.

και oeX M M 0

oeX M M Συντελεστής Ασυμμετρίας Όταν υπάρχει συμμετρία

0

Όταν η ασυμμετρία είναι έντονη, ο μέσος είναι ακατάληλος ως μέτρο κεντρικής τάσης, και προτιμάται η διάμεσος.

Page 20: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Είδη Κύρτωσης (Kurtosis)

Μαρίνα Σύρπη (2019) 20

Λεπτόκυρτη (Leptokurtic) είναι η συμμετρική κατανομή, στην οποία εμφανίζεται αυξημένη πυκνότητα γύρω από το κέντρο της. Η καμπύλη δεν είναι πλέον κωδονοειδής και δεν έχουμε Κανονική Κατανομή.

0

Πλατύκυρτη (Platykurtic) είναι η συμμετρική κατανομή, στην οποία η πυκνότητα γύρω από το κέντρο της είναι πολύ χαμηλή. Η καμπύλη δεν είναι πλέον κωδονοειδής και δεν έχουμε Κανονική Κατανομή.

Συντελεστής Κύρτωσης Όταν η κατανομή είναι μεσόκυρτη (mesokurtic) και έχει την κωδονοειδή μορφή μιας Κανονικής Κατανομής.

0

0

Page 21: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Μέτρα Σχετικής Θέσης

Page 22: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Μαρίνα Σύρπη (2019) 22

Τα τεταρτημόρια

Τα τεταρτημόρια (quartiles) ενός δείγματος ή ενός πληθυσμού είναι εκείνες οι τιμές που χωρίζουν το δείγμα (αντίστοιχα τον πληθυσμό) σε τέσσερα ισοπληθή μέρη.

Page 23: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Μέτρα Μεταβλητότητας

Page 24: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Τα Μέτρα Μεταβλητότητας (Variability Measures) έχουν ως στόχο να παρουσιάσουν με τρόπο συνοπτικό τη μεταβλητότητα (ή διασπορά) των δεδομένων. Πρόκειται για δείκτες που στοχεύουν στη μέτρηση της ανομοιογένειας του πληθυσμού.

Μαρίνα Σύρπη (2019) 24

Στο σχήμα βλέπουμε δύο συμμετρικές κατανομές με το ίδιο κέντρο (επομένως ίδιο μέσο, ίδια διάμεσο και επικρατούσα τιμή) Διαφέρουν όμως πολύ ως προς τη διασπορά των τιμών τους. Παρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες γύρω από το μέσο από ότι στη δεύτερη. Και λέμε ότι έχουμε μικρότερη διασπορά των τιμών.

Page 25: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Εύρος (Range)

Το εύρος της κατανομής των τιμών μιας μεταβλητής Χ, είναι απλώς η διαφορά της μικρότερης από τη μεγαλύτερη τιμή.

Μαρίνα Σύρπη (2019) 25

max min R x x

Το εύρος μας δίνει μια εικόνα για την έκταση που καταλαμβάνουν τα δεδομένα, δεν μετρά όμως τη συνολική διασπορά, καθώς στον υπολογισμό του δεν εισέρχονται οι υπόλοιπες τιμές.

Τα παραπάνω σύνολα δεδομένων έχουν το ίδιο εύρος, όμως δεν έχουν την ίδια διασπορά. Παίρνοντας ως αρχή των μετρήσεων το κέντρο, είναι προφανές ότι στο άθροισμα των γεωμετρικών αποστάσεων των σημείων από το κέντρο, στο δεύτερο σύνολο είναι πολύ μεγαλύτερο από ότι στο πρώτο. Επίσης, η αναφορά μόνον της τιμής του εύρους δεν μας δίνει καμία πληροφορία για τη θέση των δεδομένων. Έτσι, είναι προτιμότερο αντί του εύρους να παρουσιάζουμε τη μέγιστη και την ελάχιστη τιμή.

Page 26: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η Διακύμανση ή Διασπορά (Variance)

Μαρίνα Σύρπη (2019) 26

Η διακύμανση ή διασπορά είναι ο σημαντικότερος από τους δείκτες μεταβλητότητας και, μαζί με τον αριθμητικό μέσο, χρησιμοποιείται πολύ στις μεθόδους της επαγωγικής στατιστικής. Η διακύμανση στον πληθυσμό, συμβολίζεται με και ορίζεται ως η μέση τιμή των τετραγώνων των αποκλίσεων όλων των τιμών της μεταβλητής από τον αριθμητικό μέσο

N

ii

XN

22

1

1

2

Εκτιμάται από τη δειγματική διακύμανση, η οποία συμβολίζεται με και υπολογίζεται από το στατιστικό

n

ii

s X Xn

22

1

1

1

s 2

Όσο περισσότερες είναι οι τιμές της μεταβλητής που βρίσκονται μακριά από τον αριθμητικό μέσο, τόσο μεγαλύτερη είναι η διασπορά.

Page 27: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Διακύμανση – Ερμηνεία και Προβλήματα

Μαρίνα Σύρπη (2019) 27

Όταν η τιμή της διακύμανσης μιας μεταβλητής Χ είναι μεγάλη, τότε ξέρουμε οι τιμές της είναι διασκορπισμένες σε μεγάλη έκταση γύρω από τη μέση τιμή. Ταυτόχρονα, αυτό μας δίνει τη δυνατότητα να χαρακτηρίσουμε τον πληθυσμό ως ανομοιογενή ή ευμετάβλητο, ως έναν πληθυσμό από τον οποίο λείπει η σταθερότητα. Θα λέγαμε ότι αντιστοιχεί σε εκφράσεις όπως «ή του ύψους ή του βάθους» , «ικανός για το καλύτερο και το χειρότερο».

Ένα πρόβλημα που αντιμετωπίζουμε με τη διακύμανση είναι οι μονάδες μέτρησής της. Καθώς για τον υπολογισμό της οι αποστάσεις υψώνονται στο τετράγωνο, υψώνονται μαζί τους στο τετράγωνο και οι μονάδες μέτρησης της μεταβλητής. Επιπλέον οι τιμές της διακύμανσης είναι κατά κανόνα πολύ μεγάλοι αριθμοί και αυτό καθιστά την ερμηνεία της, σχεδόν αδύνατη. Για παράδειγμα, τί μπορούμε να καταλάβουμε αν κάποιος μας πληροφορήσει ότι η διακύμανση του χρόνου που χρειάζεται για να πάει στη δουλειά του είναι . Είναι μικρή ή μεγάλη; Προφανώς, δεν καταλαβαίνουμε τίποτα !

2225 min

Page 28: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η Τυπική Απόκλιση (Standard Deviation)

Μαρίνα Σύρπη (2019) 28

Η επιστροφή στις μονάδες μέτρησης της μεταβλητής επιτυγχάνεται με την τυπική απόκλιση, η οποία ορίζεται ως η τετραγωνική ρίζα της διασποράς.

Η τυπική απόκλιση στον πληθυσμό, συμβολίζεται με και ορίζεται από τη σχέση

2

Εκτιμάται από τη δειγματική τυπική απόκλιση , η οποία συμβολίζεται με και υπολογίζεται από το στατιστικό

s s 2

s

Επομένως, εάν η διακύμανση του χρόνου που χρειάζεται για να πάει κάποιος στη δουλειά του είναι τότε η τυπική απόκλιση θα είναι

2325min

min min min s 2225 225 15

Αν υποθέσουμε ότι ο μέσος χρόνος για να πάει στη δουλειά του είναι 1h, τότε αποκτούμε μια πρώτη «εικόνα» για το χρόνο που χρειάζεται να φτάσει στη δουλειά του, δηλαδή 1 h ± 15 min. Και πάλι όμως, δεν είμαστε σε θέση να χαρακτηρίσουμε τη μεταβλητότητα ως μικρή ή μεγάλη.

Page 29: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ο Συντελεστής Μεταβλητότητας (Coefficient of Variation)

Μαρίνα Σύρπη (2019) 29

Για να μπορέσουμε, να χαρακτηρίσουμε μια διασπορά ως μικρή ή μεγάλη, αλλά και για να μπορέσουμε να συγκρίνουμε τη διασπορά μεταβλητών με διαφορετικές μονάδες μέτρησης (για παράδειγμα, να απαντήσουμε στο ερώτημα το βάρος ή το ύψος των ανθρώπων εμφανίζει μεγαλύτερη μεταβλητότητα), χρειαζόμαστε έναν δείκτη απαλλαγμένο από τις μονάδες μέτρησης. Ο δείκτης αυτός είναι ο συντελεστής μεταβλητότητας, ο οποίος ορίζεται ως το πηλίκο της τυπικής απόκλισης προς τον αριθμητικό μέσο.

% s

cvX

100

Για παράδειγμα, η μεταβλητότητα του χρόνου που χρειάζεται να πάει στη δουλειά του κάποιος, όταν η μέσος είναι 1h και η τυπική απόκλιση 15min, εκτιμάται σε

Ο % συντελεστής μεταβλητότητας στον πληθυσμό εκτιμάται από τον δειγματικό συντελεστή μεταβλητότητας και υπολογίζεται από το στατιστικό

% % s

cvX

15100 100 25

60

Page 30: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ο Συντελεστής Μεταβλητότητας – Ερμηνεία και χρήσεις.

Μαρίνα Σύρπη (2019) 30

Ο Συντελεστής Μεταβλητότητας, εκφράζει την τυπική απόκλιση ως ποσοστό της μέσης τιμής.

Χρησιμοποιείται για να συγκρίνουμε τη μεταβλητότητα διαφορετικών συνόλων δεδομένων όταν: o Οι τιμές στα δύο σύνολα δεν έχουν τις ίδιες μονάδες μέτρησης. o Οι τιμές στα δύο σύνολα έχουν τις ίδιες μονάδες μέτρησης, αλλά

οι αριθμητικοί τους μέσοι είναι διαφορετικοί.

Επίσης, χρησιμοποιείται ως μέτρο ομοιογένειας ενός σνόλου δεδομένων. Αν για ένα σύνολο δεδομένων cv% < 10%, το σύνολο θεωρείται ομοιογενές (μικρής μεταβλητότητας). Διαφορετικά θεωρείται ανομοιογενές (μεγάλης μεταβλητότητας)

Έτσι, αν η μεταβλητότητα του χρόνου που χρειάζεται κάποιος για να πάει στη δουλειά του εκτιμάται σε 25%, τότε καταλαβαίνουμε ότι χρόνοι παρουσιάζουν μεγάλη μεταβλητότητα, δηλαδή υπάρχουν ημέρες που φτάνει πολύ γρηγορότερα από τη μία ώρα αλλά και ημέρες που χρειάζεται πολύ περισσότερο από μία ώρα.

Page 31: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Ενδοτεταρτημοριακό Εύρος (Interquartile Range)

Μαρίνα Σύρπη (2019) 31

Η διαφορά ανάμεσα στο 1ο και 3ο τεταρτημόριο ονομάζεται Ενδοτεταρτημοριακό Εύρος (IQR)

Q Q3 1

Συγκεντρώνει το 50% των παρατρήσεων που βρίσκονται γύρω από τη διάμεσο.

Page 32: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Σχέση Ενδοτεταρτημοριακού Εύρους και Μεταβλητότητας

Μαρίνα Σύρπη (2019) 32

Στο διάστημα ανάμεσα στο 1ο και στο 3ο τεταρτημόριο περιέχεται το 50% των παρατηρήσεων.

Όταν το ενδοτεταρτημοριακά εύρος είναι μικρό, τότε γνωρίζουμε ότι το 50% των παρατηρήσεων συγκεντρώνεται σε ένα μικρό διάστημα και, επομένως, η μεταβλητότητα των δεδομένων είναι μικρή. Αντίθετα, όταν έχουμε μεγάλο ενδοτεταρτημοριακό εύρος, τότε γνωρίζουμε ότι η μεταβλητότητα των δεδομένων είναι μεγάλη.

Q Q3 1

Page 33: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Κριτήρια Κανονικότητας

Page 34: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Η αξία της Κανονικής Κατανομής

Μαρίνα Σύρπη (2019) 34

Όλη η ανάπτυξη της Στατιστικής, όπως η παραγωγή τύπων για την εκτίμηση αριθμητικών μέτρων, διαστημάτων εμπιστοσύνης, στατιστικών ελέγχων και πολλά άλλα στηρίζονται στην προϋπόθεση ότι οι τιμές της μεταβλητής στον πληθυσμό ακολουθούν την Κανονική Κατανομή. Παραβίαση αυτής της θεμελιώδους προϋπόθεσης ακυρώνει στην πράξη τις διαδικασίες και οδηγεί σε εσφαλμένα συμπεράσματα. Είναι λοιπόν σημαντικό, σε πάρα πολλές περιπτώσεις, προτού προχωρήσουμε στη χρήση των μεθόδων της Επαγωγικής Στατιστιστικής, να εξακριβώσουμε εάν τα δεδομένα μας προέρχονται από Κανονικό Πληθυσμό. Όταν η Κανονικότητα απουσιάζει, η Στατιστική επεξεργάζεται και προτείνει τις κατάλληλες, ανάλογα με την κάθε περίπτωση, μεθόδους για την επεξεργασία των δεδομένων.

Page 35: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Κριτήρια Κανονικότητας βάσει των δεικτών σχετικής θέσης και διασποράς.

Μαρίνα Σύρπη (2019) 35

Page 36: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες

Κριτήρια Κανονικότητας βάσει των δεικτών ασυμμετρίας και κύρτωσης

Μαρίνα Σύρπη (2019) 36

Κάθε Κανονική Κατανομή είναι συμμετρική και μεσόκυρτη

Page 37: Παρουσίαση του PowerPoint · eαρατηρούμε ότι στην πρώτη κατανομή οι παρατηρήσεις είναι περισσότερο συγκεντρωμένες