The Wayback Machine - https://web.archive.org/web/20260221150926/https://www.scribd.com/document/642721002/%CE%A3%CE%A4%CE%91%CE%A4%CE%99%CE%A3%CE%A4%CE%99%CE%9A%CE%97-%CE%9A%CF%85%CF%81%CE%B9%CE%B1%CE%BA%CE%AE-%CE%A3%CF%89%CF%84%CE%B7%CF%81%CE%AC%CE%BA%CE%BF%CE%B3%CE%BB%CE%BF%CF%85-%CE%93%CE%B5%CF%89%CF%80%CE%BF%CE%BD%CE%B9%CE%BA%CF%8C-%CE%A0%CE%B1%CE%BD%CE%B5%CF%80%CE%B9%CF%83%CF%84%CE%AE%CE%BC%CE%B9%CE%BF-%CE%91%CE%B8%CE%B7%CE%BD%CF%8E%CE%BD
0% found this document useful (0 votes)
445 views147 pages

ΣΤΑΤΙΣΤΙΚΗ Κυριακή Σωτηράκογλου Γεωπονικό Πανεπιστήμιο Αθηνών

Στατιστική

Uploaded by

mpilias
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
445 views147 pages

ΣΤΑΤΙΣΤΙΚΗ Κυριακή Σωτηράκογλου Γεωπονικό Πανεπιστήμιο Αθηνών

Στατιστική

Uploaded by

mpilias
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd

ΣΤΑΤΙΣΤΙΚΗ

Κυριακή Σωτηράκογλου

Γεωπονικό Πανεπιστήμιο
Αθηνών
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Περιγραφική στατιστική είναι ο κλάδος της στατιστικής που ασχολείται με την οργάνωση και τη
συνοπτική παρουσίαση των δεδομένων, την παράστασή τους με γραφήματα και τον υπολογισμό
περιγραφικών μέτρων.

Πληθυσμός είναι το σύνολο των τιμών μιας μεταβλητής. Ο πληθυσμός αποτελεί το άγνωστο μέρος της
Στατιστικής. Σκοπός της Στατιστικής είναι η εξαγωγή συμπερασμάτων για τον πληθυσμό βάσει του
δείγματος.

Το δείγμα ορίζεται ως ένα υποσύνολο του πληθυσμού. Τυχαίο δείγμα είναι το δείγμα που εκλέγεται
κατά τέτοιο τρόπο ώστε όλα τα μέλη του πληθυσμού να έχουν ίση πιθανότητα να συμπεριληφθούν στο
δείγμα.

Όπως ειπώθηκε και στη Θεωρία Πιθανοτήτων οι τυχαίες μεταβλητές συμβολίζονται με τα κεφαλαία
γράμματα X, Y, Z,…., ενώ οι τιμές που παίρνουν με τα μικρά γράμματα 𝑥1 , 𝑥2 , … , 𝑥𝜈 ή 𝑦1 , 𝑦2 , … , 𝑦𝜈 ή
𝑧1 , 𝑧2 , … , 𝑧𝑘 . Διακρίνονται σε ποιοτικές όταν εκφράζουν ποιοτικά χαρακτηριστικά ενός πληθυσμού (π.χ.
το χρώμα των ανθέων ενός φυτού, το φύλο, η εθνικότητα, το επάγγελμα ενός ατόμου, κ.λ.π.) και
ποσοτικές όταν μπορούν να μετρηθούν (π.χ. το ύψος ενός φυτού, ο αριθμός των σπόρων, το βάρος ενός
ζώου, κ.λ.π.). Επίσης μια ποσοτική μεταβλητή μπορεί να είναι διακριτή, εάν παίρνει
μεμονωμένες/διακριτές τιμές (π.χ. 1, 2, 3,…) και το σύνολο των τιμών της μπορεί να είναι πεπερασμένο
ή απείρως αριθμήσιμο ή συνεχής εάν παίρνει τιμές σε ένα υποσύνολο των πραγματικών αριθμών, δηλαδή
σε ένα διάστημα (𝛼, 𝛽) με −∞ ≤ 𝛼 < 𝛽 ≤ ∞. Το πλήθος των βακτηριδίων στη δειγματοληπτική πλάκα,
ο αριθμός των γεννήσεων ή των θανάτων που συμβαίνουν σε μια κτηνοτροφική μονάδα, ο αριθμός των
ημερών βροχής σε έναν μήνα ή σε ένα έτος σε μια συγκεκριμένη περιοχή είναι διακριτές ποσοτικές
μεταβλητές, ενώ το ύψος, το βάρος, η θερμοκρασία είναι συνεχείς ποσοτικές μεταβλητές.

Έστω 𝑥1 , 𝑥2 , … , 𝑥𝜈 οι παρατηρήσεις ενός δείγματος και 𝑦1 , 𝑦2 , … , 𝑦𝑘 (𝑘 ≤ 𝜈) οι διαφορετικές τιμές των


παρατηρήσεων που εμφανίστηκαν στο δείγμα. Στη συνέχεια για κάθε 𝑦𝑖 , 𝑖 = 1,2, … , 𝑘 θα συμβολίζουμε
με 𝛎𝐢 τη συχνότητά της (πόσες φορές εμφανίστηκε), με 𝒇𝒊 τη σχετική συχνότητά της, 𝑓𝑖 = 𝜈𝑖 ⁄𝜈 , με 𝑵𝒊
την αθροιστική συχνότητά της (το άθροισμα των συχνοτήτων των τιμών που είναι ≤ 𝑦𝑖 ) και με 𝑭𝒊 την
αθροιστική σχετική συχνότητά της (το άθροισμα των σχετικών συχνοτήτων των τιμών που είναι ≤ 𝑦𝑖 ).

1
Αριθμητικά περιγραφικά μέτρα

Α) Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή (δειγματική) μέση τιμή ή μέση τιμή του δείγματος 𝒙


̅
𝜈 𝜅
1 1
𝑥̅ = ∑ 𝑥𝑖 = ∑ 𝜈𝑖 𝑦𝑖
𝜈 𝜈
𝑖=1 𝑖=1

Όταν τα δεδομένα είναι ομαδοποιημένα σε k κλάσεις, τα 𝑦𝑖 είναι οι κεντρικές τιμές των κλάσεων.

Ο υπολογισμός του μέσου όρου είναι απλός, χρησιμοποιούνται όλες οι τιμές του δείγματος για τον
υπολογισμό του και επίσης αξιοποιείται στην στατιστική συμπερασματολογία. Τα μειονεκτήματά του
είναι ότι επηρεάζεται από ακραίες τιμές, ενδέχεται να μην αντιστοιχεί σε δυνατή τιμή της μεταβλητής και
δεν υπολογίζεται για ποιοτικά δεδομένα.

ii) Διάμεσος δ

Για να προσδιορίσουμε τη διάμεσο παρατάσσουμε το δείγμα σε αύξουσα διάταξη.


Εάν το δείγμα είναι περιττού πλήθους, η διάμεσος είναι η μεσαία παρατήρηση, ενώ εάν το δείγμα είναι
αρτίου πλήθους η διάμεσος ορίζεται ως το ημιάθροισμα των δύο μεσαίων παρατηρήσεων.

𝑥 𝜈+1 εάν το μέγεθος του δείγματος ν είναι περιττού πλήθους


( )
2
𝛿=
𝑥(𝜈) + 𝑥(𝜈+1)
2 2
{ εάν το μέγεθος του δείγματος ν είναι αρτίου πλήθους
2
Εάν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις, για τον υπολογισμό της διαμέσου προσδιορίζουμε
καταρχάς την κλάση μέσα στην οποία βρίσκεται η διάμεσος. Στη συνέχεια εφαρμόζοντας τον παρακάτω
τύπο υπολογίζουμε την τιμή της:

𝑐
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 )
𝜈𝑖
όπου:

𝐿𝑖 : το κάτω άκρο της κλάσης μέσα στην οποία βρίσκεται η διάμεσος


ν: το μέγεθος του δείγματος

𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται η διάμεσος

𝑐: το εύρος των κλάσεων

𝜈𝑖 : η συχνότητα της κλάσης μέσα στην οποία βρίσκεται η διάμεσος

2
Ο υπολογισμός της διαμέσου είναι απλός, δεν επηρεάζεται από ακραίες τιμές και η τιμή της είναι μοναδική.
Δεν χρησιμοποιούνται όλες οι τιμές του δείγματος για τον υπολογισμό της και δεν υπολογίζεται για
ποιοτικά δεδομένα.

iii) Επικρατούσα τιμή ή κορυφή Μ0

Είναι η τιμή με την μεγαλύτερη συχνότητα.

Εάν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις για τον υπολογισμό της επικρατούσας τιμής
προσδιορίζουμε καταρχάς την επικρατούσα κλάση, την κλάση δηλαδή με τη μεγαλύτερη συχνότητα και
στη συνέχεια υπολογίζουμε την επικρατούσα τιμή από τον τύπο:

𝛥1
𝛭0 = 𝐿𝑖 + ∙𝑐
𝛥1 + 𝛥2
όπου:

𝐿𝑖 : το κάτω άκρο της επικρατούσας κλάσης

𝛥1 = 𝜈𝑖 −𝜈𝑖−1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖−1 η συχνότητα της προηγούμενης
κλάσης

𝛥2 = 𝜈𝑖 −𝜈𝑖+1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖+1 η συχνότητα της επόμενης κλάσης

𝑐: το εύρος των κλάσεων

Ο υπολογισμός της επικρατούσας τιμής είναι απλός, δεν επηρεάζεται από ακραίες τιμές και υπολογίζεται
για ποιοτικά δεδομένα. Δεν χρησιμοποιούνται όλες οι τιμές του δείγματος για τον υπολογισμό της, δεν
είναι μοναδική και επίσης μπορεί να μην υπάρχει. Επιπλέον η σημασία της στην στατιστική
συμπερασματολογία είναι περιορισμένη.

Β) Μέτρα μεταβλητότητας

i) Δειγματική διασπορά ή δειγματική διακύμανση s2


𝜈 𝜈 𝑘 𝑘
1 1 1 1
2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1 𝜈−1 𝜈−1
𝑖=1 𝑖=1 𝑖=1 𝑖=1

Ένα από τα μειονεκτήματα της δειγματικής διακύμανσης είναι ότι δεν εκφράζεται στην ίδια μονάδα
μέτρησης με τα δεδομένα. Γι’ αυτό συνήθως ως μέτρο μεταβλητότητας χρησιμοποιούμε την τυπική
απόκλιση.

3
ii) Δειγματική τυπική απόκλιση 𝒔 = √𝒔𝟐

Για τον υπολογισμό της δειγματικής τυπικής απόκλισης χρησιμοποιούνται όλες οι τιμές του δείγματος,
εκφράζεται στην ίδια μονάδα μέτρησης με τα δεδομένα και έχει μεγάλη σημασία της στην στατιστική
συμπερασματολογία.

iii) Συντελεστής μεταβλητότητας CV


𝑠
𝐶𝑉 = ∙ 100%
𝑥̅
Εάν ο συντελεστής μεταβλητότητας CV < 10% το δείγμα θεωρείται ομοιογενές, δηλαδή έχει μικρή
μεταβλητότητα. Επίσης ο CV μπορεί να χρησιμοποιηθεί ως μέτρο σύγκρισης της μεταβλητότητας μεταξύ
δύο ή περισσοτέρων δειγμάτων με διαφορετικούς μέσους όρους.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

Για τον υπολογισμό του ενδοτεταρτημοριακού εύρους απαιτείται ο υπολογισμός των 𝑄1 και 𝑄3 , δηλαδή
των 25 και 75–ποσοστιαίων σημείων. Το 25–ποσοστιαίο σημείο (𝑄1 ) είναι το σημείο εκείνο, για το οποίο
ισχύει ότι το πολύ 25% των τιμών του δείγματος είναι μικρότερες από αυτό και το πολύ 75% των τιμών
του δείγματος είναι μεγαλύτερες από αυτό. Αντίστοιχα το 75–ποσοστιαίο σημείο (𝑄3 ) είναι το σημείο
εκείνο, για το οποίο ισχύει ότι το πολύ 75% των τιμών του δείγματος είναι μικρότερες από αυτό και το
πολύ 25% των τιμών του δείγματος είναι μεγαλύτερες από αυτό. Τα 𝑄1 , 𝑄2 = 𝛿 και 𝑄3 λέγονται και
τεταρτημόρια ή τεταρτοτόμοι, καθώς τέμνουν την κατανομή των δεδομένων σε τέσσερα μέρη. Εντός του
ενδοτεταρτημοριακού εύρους βρίσκονται τα μισά δεδομένα του δείγματος, που είναι πιο κοντά στην
κεντρική τιμή (διάμεσο), δηλαδή βρίσκεται το 50% των μεσαίων παρατηρήσεων.
Για να προσδιορίσουμε το 1ο τεταρτημόριο (𝑄1 ) και το 3ο τεταρτημόριο (𝑄3 ) παρατάσσουμε το δείγμα σε
αύξουσα διάταξη και στη συνέχεια δουλεύουμε όπως στη διάμεσο.
Για τον προσδιορισμό των 𝑄1 και 𝑄3 σε ομαδοποιημένα δεδομένα προσδιορίζουμε καταρχάς τις κλάσεις
μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 και στη συνέχεια με τους παρακάτω τύπους υπολογίζουμε τις
τιμές τους:

4
𝑐 𝑐
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) 𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 )
𝜈𝑖 𝜈𝑖

όπου:

𝐿𝑖 : το κάτω άκρο της κλάσης μέσα στην οποία βρίσκεται το 𝑄1 ή το 𝑄3 αντίστοιχα


ν: το μέγεθος του δείγματος

𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται το 𝑄1 ή το 𝑄3

𝑐: το εύρος των κλάσεων

𝜈𝑖 : η συχνότητα της κλάσης μέσα στην οποία βρίσκεται το 𝑄1 ή το 𝑄3 αντίστοιχα

Συμμετρική ή λοξή κατανομή δεδομένων

 Όταν σε κάποιο δείγμα 𝑥̅ = 𝛿 = 𝛭0 , η καμπύλη συχνοτήτων της κατανομής του δείγματος είναι
συμμετρική.
 Όταν σε κάποιο δείγμα 𝑥̅ > 𝛿 > 𝛭0 , η καμπύλη συχνοτήτων της κατανομής του δείγματος
παρουσιάζει θετική ασυμμετρία.
 Όταν σε κάποιο δείγμα 𝑥̅ < 𝛿 < 𝛭0 , η καμπύλη συχνοτήτων της κατανομής του δείγματος
παρουσιάζει αρνητική ασυμμετρία.

α) Συμμετρική κατανομή β) Λοξή κατανομή γ) Λοξή κατανομή


με θετική ασυμμετρία με αρνητική ασυμμετρία

5
Θηκόγραμμα

Στη συνέχεια δίνονται οι δύο τύποι του θηκογράμματος:

Α)

Στο θηκόγραμμα αναπαρίστανται η ελάχιστη τιμή του δείγματος (Min), το 1ο τεταρτημόριο (𝑄1 ), η
διάμεσος δ (μπλε κάθετη γραμμή), το 3ο τεταρτημόριο (𝑄3 ), η μέγιστη τιμή του δείγματος Max, καθώς και
ο μέσος όρος (+).

Β)

Στη 2η μορφή του θηκογράμματος καταγράφονται και οι ακραίες τιμές και / ή οι εξαιρετικά ακραίες τιμές
του δείγματος. Μια τιμή του δείγματος θεωρείται ακραία τιμή εάν είναι μικρότερη από 𝑄1 − 1.5𝑄 =
𝑄1 − 1.5(𝑄3 − 𝑄1 ) ή εάν είναι μεγαλύτερη από 𝑄3 + 1.5𝑄 = 𝑄3 + 1.5(𝑄3 − 𝑄1 ). Επίσης μια τιμή του
δείγματος θεωρείται εξαιρετικά ακραία τιμή εάν είναι μικρότερη από 𝑄1 − 3𝑄 = 𝑄1 − 3(𝑄3 − 𝑄1 ) ή
εάν είναι μεγαλύτερη από 𝑄3 + 3𝑄 = 𝑄3 + 3(𝑄3 − 𝑄1 ). Το αριστερό άκρο m είναι η μικρότερη τιμή του

6
δείγματος, που είναι μεγαλύτερη ή ίση με 𝑄1 − 1.5𝑄 = 𝑄1 − 1.5(𝑄3 − 𝑄1 ), ενώ το δεξιό άκρο M είναι η
μεγαλύτερη τιμή του δείγματος, που είναι μικρότερη ή ίση από 𝑄3 + 1.5𝑄 = 𝑄3 + 1.5(𝑄3 − 𝑄1 ).

Εμπειρικός κανόνας

Αν η κατανομή του δείγματος έχει κωδωνοειδή μορφή, δηλαδή προσομοιάζει με μια κανονική κατανομή:

i) στο διάστημα (𝑥̅ − 𝑠, 𝑥̅ + 𝑠) βρίσκεται περίπου το 68% των παρατηρήσεων

ii) στο διάστημα (𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠) βρίσκεται περίπου το 95% των παρατηρήσεων

iii) στο διάστημα (𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠) βρίσκεται περίπου το 99% των παρατηρήσεων

Μέτρα κεντρικής τάσης και μεταβλητότητας γραμμικού μετασχηματισμού των δεδομένων

Έστω 𝑥1 , 𝑥2 , … , 𝑥𝜈 οι τιμές ενός δείγματος, οι οποίες μετασχηματίζονται σε 𝑦1 , 𝑦2 , … , 𝑦𝜈 σύμφωνα με


τον γραμμικό μετασχηματισμό 𝑦𝑖 = 𝛼𝑥𝑖 + 𝛽, 𝑖 = 1,2, … , 𝜈. Τότε τα αριθμητικά περιγραφικά μέτρα
θέσης και μεταβλητότητας μετασχηματίζονται ως εξής:

 𝑦̅ = 𝛼𝑥̅ + 𝛽
 𝛿𝑦 = 𝛼𝛿𝑥 + 𝛽
 𝑀0𝑦 = 𝛼𝑀0𝑥 + 𝛽
 𝑠𝑦2 = 𝛼 2 𝑠𝑥2
 𝑠𝑦 = |𝛼|𝑠𝑥

7
Ειδικότερα εάν ο γραμμικός μετασχηματισμός είναι της μορφής:

𝑥𝑖 − 𝑥̅ 1 𝑥̅
𝑧𝑖 = = 𝑥𝑖 −
𝑠 𝑠 𝑠
όπου 𝑥̅ και s η μέση τιμή και η τυπική απόκλιση των αρχικών μετρήσεων 𝑥1 , 𝑥2 , … , 𝑥𝜈
1 𝑥̅
με 𝛼 = και 𝛽 = − 𝑠 , τότε η μέση τιμή 𝑧̅ και η τυπική απόκλιση 𝑠𝑧 των μετασχηματισμένων
𝑠
δεδομένων είναι:
1 𝑥̅ 1
𝑧̅ = 𝛼𝑥̅ + 𝛽 = 𝑥̅ − 𝑠 = 0 και 𝑠𝑧 = |𝛼|𝑠𝑥 = |𝑠 | 𝑠𝑥 = 1 , καθώς 𝑠 = 𝑠𝑥
𝑠

𝑥𝑖 −𝑥̅
Επομένως εάν έχουμε οποιαδήποτε δεδομένα 𝑥1 , 𝑥2 , … , 𝑥𝜈 και τα μετασχηματίσουμε ως εξής: 𝑧𝑖 = 𝑠

τότε για τη μέση τιμή και την τυπική απόκλιση των μετασχηματισμένων δεδομένων ισχύει: 𝑧̅ = 0 και
𝑠𝑧 = 1.

Λύσεις ασκήσεων από το φυλλάδιο 1 – Ασκήσεις περιγραφικής στατιστικής

1. Μετρήθηκε η ποσότητα νατρίου που περιέχεται στο κασέρι συνήθους τύπου που παράγει μια γνωστή
γαλακτοβιομηχανία. Τα αποτελέσματα εννέα σχετικών μετρήσεων που πήρε ένας φοιτητής του Γ.Π.Α.
σε κασέρι που επέλεξε τυχαία από εννέα παρτίδες παραγωγής της γαλακτοβιομηχανίας ήταν (σε
milligrams/100gr): 340 300 340 320 320 290 330 320 310. α) Να υπολογίσετε και να
ερμηνεύσετε τα μέτρα κεντρικής τάσης και μεταβλητότητας της κατανομής του δείγματος, β) Να
κατασκευάσετε το θηκόγραμμα της κατανομής του δείγματος.

Αριθμητικά περιγραφικά μέτρα

Α) Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή μέση τιμή 𝒙


̅
𝜈
1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝜈 340 + 300 + ⋯ + 310
𝑥̅ = ∑ 𝑥𝑖 = = = 318.89
𝜈 𝜈 9
𝑖=1

ii) Διάμεσος δ

Για να προσδιορίσουμε τη διάμεσο παρατάσσουμε το δείγμα σε αύξουσα διάταξη:

290 300 310 320


320 320 330 340 340

Επειδή ν=9 (περιττού πλήθους δείγμα), διάμεσος είναι η μεσαία παρατήρηση, δηλαδή

8
𝛿 = 𝑥(𝜈+1) = 𝑥(5) = 320
2
iii) Επικρατούσα τιμή ή κορυφή Μ0

Είναι η τιμή με την μεγαλύτερη συχνότητα, δηλαδή Μ0 = 320

Β) Μέτρα μεταβλητότητας

i) Διασπορά ή διακύμανση s2
𝜈 𝜈
1 1
2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1

𝜈
2
1 (340 − 318.89)2 + (300 − 318.89)2 + ⋯ + (310 − 318.89)2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = = 285.31
𝜈−1 9−1
𝑖=1

𝜈
1 1
𝑠2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = [(3402 + 3002 + ⋯ + 3102 ) − 9 ∙ 318.892 ]
𝜈−1 9−1
𝑖=1

917500 − 915217.5
= = 285.31 (mg/100gr)2
8

Ένα από τα μειονεκτήματα της διακύμανσης είναι ότι δεν εκφράζεται στην ίδια μονάδα μέτρησης με τα
δεδομένα. Γι’ αυτό συνήθως χρησιμοποιούμε την τυπική απόκλιση, που εκφράζεται στην ίδια μονάδα
μέτρησης.

ii) Τυπική απόκλιση 𝒔 = √𝒔𝟐

𝒔 = √𝒔𝟐 = √285.31=16.89 mg/100gr

iii) Συντελεστής μεταβλητότητας CV

𝑠 16.89
𝐶𝑉 = ∙ 100% = ∙ 100% = 5.30%
𝑥̅ 318.89
Καθώς ο CV < 10% το δείγμα θεωρείται ομοιογενές, δηλαδή έχει μικρή μεταβλητότητα.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

9
290 300 310 320 320 320 330 340 340
↔ ↑ ↔
Min 𝑄1 δ 𝑄3 Max

Επομένως

300 + 310 330 + 340


𝑄1 = = 305 , 𝑄3 = = 335 𝜅𝛼𝜄 𝑄 = 𝑄3 − 𝑄1 = 335 − 305 = 30
2 2

2. ( Συνέχεια της άσκησης 1). Ο φοιτητής μελέτησε την ποσότητα νατρίου στο κασέρι τύπου light της
ίδιας γαλακτοβιομηχανίας. Τα αποτελέσματα οκτώ μετρήσεων ήταν: 300 300 310 290 280
280 285 275. Να συγκρίνετε την κατανομή αυτού του δείγματος με την κατανομή του δείγματος της
προηγούμενης άσκησης (ως προς την κεντρική τάση, τη μεταβλητότητα και τη λοξότητα).

Θα υπολογίσουμε καταρχάς τα αριθμητικά περιγραφικά μέτρα και στη συνέχεια θα συγκρίνουμε τις
κατανομές των δύο δειγμάτων.

Α) Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή μέση τιμή 𝒙


̅
𝜈
1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝜈 300 + 300 + ⋯ + 275 2320
𝑥̅ = ∑ 𝑥𝑖 = = = = 290
𝜈 𝜈 8 8
𝑖=1

ii) Διάμεσος δ

Για να προσδιορίσουμε τη διάμεσο παρατάσσουμε το δείγμα σε αύξουσα διάταξη:

10
275 280 280 285 290 300 300 310

Επειδή ν=8 (αρτίου πλήθους δείγμα), η διάμεσος υπολογίζεται ως το ημιάθροισμα των δύο μεσαίων
παρατηρήσεων, δηλαδή:

𝑥(𝜈) + 𝑥(𝜈+1) 𝑥(4) + 𝑥(5) 285 + 290


2 2
𝛿= = = = 287.5
2 2 2

iii) Επικρατούσα τιμή ή κορυφή Μ0

Είναι η τιμή με την μεγαλύτερη συχνότητα. Το παραπάνω δείγμα έχει δύο επικρατούσες τιμές, τις

Μ0 = 280 και Μ0 = 300 με συχνότητα 2.

Β) Μέτρα μεταβλητότητας

i) Διασπορά ή διακύμανση s2
𝜈 𝜈
1 1
𝑠2 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1

𝜈
2
1 2
(300 − 290)2 + (300 − 290)2 + ⋯ + (275 − 290)2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ ) =
𝜈−1 8−1
𝑖=1
102 + 102 + ⋯ + (−15)2 1050
= = = 150 (mg/100gr)2
7 7
Όπως είπαμε και στην προηγούμενη άσκηση, ένα από τα μειονεκτήματα της διακύμανσης s2 είναι ότι δεν
εκφράζεται στην ίδια μονάδα μέτρησης με τα δεδομένα. Γι’ αυτό συνήθως χρησιμοποιούμε την τυπική
απόκλιση, που εκφράζεται στην ίδια μονάδα μέτρησης.

ii) Τυπική απόκλιση 𝒔 = √𝒔𝟐

𝒔 = √𝒔𝟐 = √150=12.25 mg/100gr

iii) Συντελεστής μεταβλητότητας CV

𝑠 12.25
𝐶𝑉 = ∙ 100% = ∙ 100% = 4.22%
𝑥̅ 290
Καθώς ο CV < 10% το δείγμα θεωρείται ομοιογενές, δηλαδή έχει μικρή μεταβλητότητα.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

Παρατάσσουμε το δείγμα σε αύξουσα διάταξη:

11
275 280 280 285 290 300 300 310
↔ ↔ ↔
Min 𝑄1 δ 𝑄3 Max

Επομένως

280 + 280 300 + 300


𝑄1 = = 280 , 𝑄3 = = 300 𝜅𝛼𝜄 𝑄 = 𝑄3 − 𝑄1 = 300 − 280 = 20
2 2

Παρατηρούμε ότι όλα τα αριθμητικά περιγραφικά μέτρα κεντρικής τάσης ή θέσης του 1ου δείγματος έχουν
μεγαλύτερες τιμές σε σχέση με τα αντίστοιχα μέτρα του 2ου δείγματος (κασέρι light). Επομένως το κασέρι
τύπου light έχει μικρότερη περιεκτικότητα νατρίου αναφορικά με το πλήρες κασέρι. Επιπλέον όλα τα
αριθμητικά περιγραφικά μέτρα μεταβλητότητας του 1ου δείγματος έχουν μεγαλύτερες τιμές σε σχέση με
τα αντίστοιχα μέτρα του 2ου δείγματος (κασέρι light), όπως και για τους συντελεστές μεταβλητότητας
ισχύει: CV1=5.30% > 4.22% = CV2. Συνεπώς το 2ο δείγμα (κασέρι light) έχει μικρότερη μεταβλητότητα.
Όσον αφορά τη λοξότητα των δύο δειγμάτων έχουμε:

1ο δείγμα (κασέρι πλήρες) 𝑥̅ = 318.89 < δ = Μ0 = 320 επομένως έχουμε μικρή αρνητική ασυμμετρία.

2ο δείγμα (κασέρι light) 𝑥̅ = 290 > δ =287.5 επομένως έχουμε μικρή θετική ασυμμετρία.

3. Για τα παρακάτω δεδομένα να υπολογιστούν η μέση τιμή, η διάμεσος, η επικρατούσα τιμή, η διασπορά,
η τυπική απόκλιση, ο συντελεστής μεταβλητότητας και το ενδοτεταρτημοριακό εύρος. Να κατασκευαστεί
επίσης το θηκόγραμμα της κατανομής του δείγματος.

12
6 6 7 7 3 6 6 6 7 7 7 3 6 5 7 7 1 7 7 7 6 6 5 7 7
6 7 4 7 6 6 5 6 7 6 5 7 4 7 5 7 5 7 4 7 5 7 7 7 5
7 7 2 7 4 7 7 7 5 7 7 7 7 4 7

Έστω 𝑦𝑖 , 𝑖 = 1, 2, … ,7 οι διαφορετικές τιμές του δείγματος. Τότε χρησιμοποιώντας τις συχνότητες 𝜈𝑖


έχουμε τον παρακάτω πίνακα :

𝐲𝐢 1 2 3 4 5 6 7 Άθροισμα

𝛎𝐢 1 1 2 5 9 13 34 65

𝝂 𝒊 𝒚𝒊 1 2 6 20 45 78 238 390

𝑵𝒊 1 2 4 9 18 31 65

𝝂𝒊 𝒚𝟐𝒊 1 4 18 80 225 468 1666 2462

Αριθμητικά περιγραφικά μέτρα

Α) Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή μέση τιμή 𝒙


̅
𝑘
1 390
𝑥̅ = ∑ 𝜈𝑖 𝑦𝑖 = =6
𝜈 65
𝑖=1

ii) Διάμεσος δ

Εφόσον ν=65 (περιττού πλήθους δείγμα) η διάμεσος θα είναι η μεσαία παρατήρηση, 𝛿 = 𝑥(𝜈+1) = 𝑥(33)
2
όταν το δείγμα παραταχθεί σε αύξουσα διάταξη. Για τον προσδιορισμό της διαμέσου μας βοηθάει η
αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα βέβαια εύκολα καταλαβαίνουμε ότι η διάμεσος είναι
𝛿 = 𝑥(33) = 7, εφόσον οι 31 πρώτες τιμές είναι ≤ 6 και από την 32η και μετά είναι όλα 7.

iii) Επικρατούσα τιμή ή κορυφή Μ0

Είναι η τιμή με την μεγαλύτερη συχνότητα, δηλαδή Μ0 = 7 με συχνότητα 34.

Β) Μέτρα μεταβλητότητας

i) Διασπορά ή διακύμανση s2
𝜈 𝜈 𝑘 𝑘
1 1 1 1
2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1 𝜈−1 𝜈−1
𝑖=1 𝑖=1 𝑖=1 𝑖=1

13
Αφού έχουμε τις συχνότητες 𝜈𝑖 , για τον υπολογισμό της διακύμανσης μπορούμε να χρησιμοποιήσουμε
τους δύο τελευταίους τύπους. Επομένως:
𝑘
2
1 (1 − 6)2 ∙ 1 + (2 − 6)2 ∙ 1 + ⋯ + (7 − 6)2 ∙ 34 122
𝑠 = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = = = 1.91 ή
𝜈−1 65 − 1 64
𝑖=1

𝑘
2
1 2 2
2462 − 65 ∙ 62 122
𝑠 = (∑ 𝜈𝑖 𝑦𝑖 − 𝜈𝑥̅ ) = = = 1.91
𝜈−1 64 64
𝑖=1

ii) Τυπική απόκλιση 𝒔 = √𝒔𝟐

𝒔 = √𝒔𝟐 = √1.91 = 1.38

iii) Συντελεστής μεταβλητότητας CV

𝑠 1.38
𝐶𝑉 = ∙ 100% = ∙ 100% = 23%
𝑥̅ 6
Καθώς ο CV > 10% το δείγμα δεν θεωρείται ομοιογενές.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

Για τον προσδιορισμό των 𝑄1 και 𝑄3 μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα
εύκολα καταλαβαίνουμε ότι:
𝑥(15)+𝑥(16) 5+5 𝑥(48)+𝑥(49) 7+7
𝑄1 = = = 5 και 𝑄3 = = = 7.
2 2 2 2

Επομένως 𝑄 = 𝑄3 − 𝑄1 = 7 − 5 = 2

Στη συνέχεια κατασκευάζουμε το θηκόγραμμα, στο οποίο η ελάχιστη τιμή 1 του δείγματος καταγράφεται
ως ακραία τιμή, καθώς είναι μικρότερη από: 𝑄1 − 1.5𝑄 = 5 − 1.5 ∙ 2 = 5 − 3 = 2

14
5. Μετρήσαμε με ηλεκτρονικό μετρητή τον αριθμό των βακτηρίων σε 1cm3 ενός υγρού. Πήραμε 100cm3
του υγρού και είχαμε τις ακόλουθες μετρήσεις:

Αριθμός βακτηρίων 0 1 2 3 4

Πλήθος cm3 12 21 32 25 10

Να υπολογιστούν η μέση τιμή, η διάμεσος, η επικρατούσα τιμή, η διασπορά, η τυπική απόκλιση, ο


συντελεστής μεταβλητότητας και το ενδοτεταρτημοριακό εύρος των μετρήσεων.

Έστω 𝑦𝑖 , 𝑖 = 1, 2, … ,5 οι διαφορετικές τιμές του δείγματος (αριθμός βακτηρίων) και 𝜈𝑖 οι αντίστοιχες


συχνότητες (πλήθος cm3). Ο παρακάτω πίνακας θα μας βοηθήσει στον υπολογισμό των αριθμητικών
περιγραφικών μέτρων:

𝐲𝐢 0 1 2 3 4 Άθροισμα

𝛎𝐢 12 21 32 25 10 100

𝝂 𝒊 𝒚𝒊 0 21 64 75 40 200

𝑵𝒊 12 33 65 90 100

𝝂𝒊 𝒚𝟐𝒊 0 21 128 225 160 534

15
Α) Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή μέση τιμή 𝒙


̅
𝑘
1 200
𝑥̅ = ∑ 𝜈𝑖 𝑦𝑖 = =2
𝜈 100
𝑖=1

ii) Διάμεσος δ

Εφόσον ν=100 (αρτίου πλήθους δείγμα) η διάμεσος θα είναι το ημιάθροισμα των δύο μεσαίων
παρατηρήσεων, όταν το δείγμα παραταχθεί σε αύξουσα διάταξη, δηλαδή:
𝑥(𝜈) + 𝑥(𝜈+1) 𝑥(50) + 𝑥(51) 2 + 2
2 2
𝛿= = = =2
2 2 2

Για τον προσδιορισμό της διαμέσου μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα
εύκολα καταλαβαίνουμε ότι 𝑥(50) = 𝑥(51) = 2.

iii) Επικρατούσα τιμή ή κορυφή Μ0

Είναι η τιμή με την μεγαλύτερη συχνότητα, δηλαδή Μ0 = 2 με συχνότητα 32.

Παρατηρούμε ότι 𝑥̅ = 𝛿 = 𝑀0 = 2, επομένως η κατανομή του δείγματος είναι συμμετρική.

Β) Μέτρα μεταβλητότητας

i) Διασπορά ή διακύμανση s2
𝜈 𝜈 𝑘 𝑘
1 1 1 1
𝑠 = 2
∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1 𝜈−1 𝜈−1
𝑖=1 𝑖=1 𝑖=1 𝑖=1

Αφού έχουμε τις συχνότητες 𝜈𝑖 , για τον υπολογισμό της διακύμανσης μπορούμε να χρησιμοποιήσουμε
κάποιον από τους δύο τελευταίους τύπους. Επομένως:
𝑘
2
1 (0 − 2)2 ∙ 12 + (1 − 2)2 ∙ 21 + ⋯ + (4 − 2)2 ∙ 10 134
𝑠 = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = = = 1.35 ή
𝜈−1 100 − 1 99
𝑖=1

𝑘
1 534 − 100 ∙ 22 134
2
𝑠 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 ) = = = 1.35
𝜈−1 100 − 1 99
𝑖=1

ii) Τυπική απόκλιση 𝒔 = √𝒔𝟐

16
𝒔 = √𝒔𝟐 = √1.35 = 1.16

iii) Συντελεστής μεταβλητότητας CV

𝑠 1.16
𝐶𝑉 = ∙ 100% = ∙ 100% = 50%
𝑥̅ 2
Καθώς ο CV > >10% το δείγμα έχει μεγάλη μεταβλητότητα.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

Για τον προσδιορισμό των 𝑄1 και 𝑄3 μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα
των 100 παρατηρήσεων εύκολα καταλαβαίνουμε ότι:
𝑥(25)+𝑥(26) 1+1 𝑥(75)+𝑥(76) 3+3
𝑄1 = = = 1 και 𝑄3 = = = 3.
2 2 2 2

Επομένως 𝑄 = 𝑄3 − 𝑄1 = 3 − 1 = 2

α) Θηκόγραμμα β) Ραβδόγραμμα

Η κατανομή του δείγματος είναι συμμετρική και δεν έχουμε ακραίες τιμές.

6. Η απόδοση σε γάλα (lt/24h) μιας προβατίνας που έχει γεννήσει, υπολογίζεται ζυγίζοντας το νεογνό
πριν και μετά τον θηλασμό. Πήραμε 19 δείγματα γάλακτος και τα αποτελέσματα ήταν:

2.4 2.7 1.8 3.2 3.4 2.6 3.2 3.4 4.1 2.8 2.9 3.9 4.2 3.6 2.8 3.4 3.7 3.5 2.7

17
α) Να ομαδοποιήσετε τις παρατηρήσεις σε 5 κλάσεις με πλάτος 0.5 η κάθε μία και αριστερό άκρο της
πρώτης κλάσης το 1.75. β) Να υπολογίσετε τη μέση τιμή, τη διάμεσο, την επικρατούσα τιμή, τη διασπορά,
την τυπική απόκλιση, τον συντελεστή μεταβλητότητας και το ενδοτεταρτημοριακό εύρος των
ομαδοποιημένων μετρήσεων, γ) Να κατασκευάσετε επίσης το ιστόγραμμα συχνοτήτων και το
θηκόγραμμα των μετρήσεων.

α)

Κλάσεις Κέντρο κλάσης Συχνότητα 𝜈𝑖 𝜈𝑖 𝑦𝑖 𝜈𝑖 𝑦𝑖 2 Αθροιστική


𝑦𝑖 συχνότητα 𝛮𝑖

1.75 – 2.25 2 1 2 4 1

2.25 – 2.75 2.5 4 10 25 5

2.75 – 3.25 3 5 15 45 10

3.25 – 3.75 3.5 6 21 73.5 16

3.75 – 4.25 4 3 12 48 19

Άθροισμα 19 60 195.5

β) Αριθμητικά περιγραφικά μέτρα (για δεδομένα ομαδοποιημένα)

1. Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή μέση τιμή 𝒙


̅
𝑘
1 60
𝑥̅ = ∑ 𝜈𝑖 𝑦𝑖 = = 3.16
𝜈 19
𝑖=1

ii) Διάμεσος δ

Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την κλάση μέσα στην οποία
βρίσκεται η διάμεσος. Σε αυτό μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα των
19 παρατηρήσεων (περιττό πλήθος δείγματος) εύκολα καταλαβαίνουμε ότι 𝛿 = 𝑥(𝜈+1) = 𝑥(10) .
2

Προσδιορίζουμε την κλάση μέσα στην οποία βρίσκεται η 𝑥(10) , δηλαδή η 10η παρατήρηση, όταν το δείγμα
είναι σε αύξουσα διάταξη. Με τη βοήθεια της αθροιστικής συχνότητας 𝑁𝑖 βλέπουμε ότι η διάμεσος
βρίσκεται στην 3η κλάση (2.75 – 3.25). Στη συνέχεια εφαρμόζοντας τον παρακάτω τύπο υπολογίζουμε
την τιμή της:

18
𝑐
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 )
𝜈𝑖
όπου:

𝐿𝑖 : το κάτω άκρο της κλάσης μέσα στην οποία βρίσκεται η διάμεσος


ν: το μέγεθος του δείγματος

𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται η διάμεσος

𝑐: το εύρος των κλάσεων

𝜈𝑖 : η συχνότητα της κλάσης μέσα στην οποία βρίσκεται η διάμεσος


Επομένως :
𝑐 0.5
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 ) = 2.75 + (0.5 ∙ 19 − 5) = 2.75 + 0.45 = 3.2
𝜈𝑖 5
iii) Επικρατούσα τιμή ή κορυφή Μ0

Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την επικρατούσα κλάση,
την κλάση δηλαδή με τη μεγαλύτερη συχνότητα και στη συνέχεια υπολογίζουμε την επικρατούσα τιμή
από τον τύπο:

𝛥1
𝛭0 = 𝐿𝑖 + ∙𝑐
𝛥1 + 𝛥2
όπου:

𝐿𝑖 : το κάτω άκρο της επικρατούσας κλάσης

𝛥1 = 𝜈𝑖 −𝜈𝑖−1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖−1 η συχνότητα της προηγούμενης

κλάσης

𝛥2 = 𝜈𝑖 −𝜈𝑖+1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖+1 η συχνότητα της επόμενης κλάσης

𝑐: το εύρος των κλάσεων

Η επικρατούσα κλάση, δηλαδή η κλάση με τη μεγαλύτερη συχνότητα είναι η 4η κλάση (3.25-3.75) με


συχνότητα 6. Εφαρμόζοντας τον παραπάνω τύπο υπολογίζουμε την επικρατούσα τιμή 𝛭0 :

𝛥1 6−5 0.5
𝛭0 = 𝐿𝑖 + ∙ 𝑐 = 3.25 + ∙ 0.5 = 3.25 + = 3.25 + 0.125 = 3.375
𝛥1 + 𝛥2 (6 − 5) + (6 − 3) 4

19
2. Μέτρα μεταβλητότητας

i) Διασπορά ή διακύμανση s2

Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις η διασπορά υπολογίζεται από τον τύπο:
𝑘
1 195.5 − 19 ∙ 3.162 5.77
2
𝑠 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 ) = = = 0.32
𝜈−1 19 − 1 18
𝑖=1

ii) Τυπική απόκλιση 𝒔 = √𝒔𝟐

𝒔 = √𝒔𝟐 = √0.32 = 0.566

iii) Συντελεστής μεταβλητότητας CV

𝑠 0.566
𝐶𝑉 = ∙ 100% = ∙ 100% = 17.91%
𝑥̅ 3.16
Καθώς ο CV > 10% το δείγμα δεν θεωρείται ομοιογενές.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

Για τον προσδιορισμό των 𝑄1 και 𝑄3 σε ομαδοποιημένα δεδομένα δουλεύουμε όπως στη διάμεσο.
Δηλαδή προσδιορίζουμε καταρχάς τις κλάσεις μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 και στη συνέχεια
με τους παρακάτω τύπους υπολογίζουμε τις τιμές τους.
𝑐 𝑐
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) 𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 )
𝜈𝑖 𝜈𝑖

όπου:

𝐿𝑖 : το κάτω άκρο της κλάσης μέσα στην οποία βρίσκεται το 𝑄1 ή το 𝑄3 αντίστοιχα


ν: το μέγεθος του δείγματος

𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται το 𝑄1 ή το 𝑄3

𝑐: το εύρος των κλάσεων

𝜈𝑖 : η συχνότητα της κλάσης μέσα στην οποία βρίσκεται το 𝑄1 ή το 𝑄3 αντίστοιχα

20
Στο συγκεκριμένο δείγμα των 19 παρατηρήσεων εύκολα καταλαβαίνουμε ότι 𝑄1 = 𝑥(5) και 𝑄3 = 𝑥(15) .

(0.25 ∙ 19 = 4.75 → 5η → 𝑄1 = 𝑥(5) και 0.75 ∙ 19 = 14.25 → 15η → 𝑄3 = 𝑥(15) )

Για τον προσδιορισμό των κλάσεων μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 μας βοηθάει η αθροιστική
συχνότητα 𝑁𝑖 . Το 𝑄1, δηλαδή η 5η παρατήρηση βρίσκεται στην 2η κλάση (2.25 – 2.75), ενώ το 𝑄3 , δηλαδή
η 15η παρατήρηση βρίσκεται στην 4η κλάση (3.25 – 3.75). Στη συνέχεια εφαρμόζοντας τους αντίστοιχους
τύπους υπολογίζουμε τις τιμές τους:
𝑐 0.5
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) = 2.25 + (0.25 ∙ 19 − 1) = 2.25 + 0.47 = 2.72
𝜈𝑖 4

𝑐 0.5
𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 ) = 3.25 + (0.75 ∙ 19 − 10) = 3.25 + 0.35 = 3.60
𝜈𝑖 6

Επομένως 𝑄 = 𝑄3 − 𝑄1 = 3.6 − 2.72 = 0.88

γ)

i) Ιστόγραμμα συχνοτήτων ii) Θηκόγραμμα

7. Σε ένα πείραμα, μετρήθηκε το μήκος 100 φύλλων ενός φυτού. Οι μετρήσεις είχαν ως εξής:

Μήκος (cm) (0-4] (4-8] (8-12] (12-16] (16-20]

Πλήθος φύλλων 51 20 16 4 9

21
α) Υπολογίστε τη μέση τιμή, τη διάμεσο, τη διασπορά, την τυπική απόκλιση και το ενδοτεταρτημορικό
εύρος των παραπάνω μετρήσεων. Κατασκευάστε πρόχειρα το ιστόγραμμα συχνοτήτων. Είναι συμμετρική
η κατανομή των παραπάνω δεδομένων;
β) Οι παραπάνω μετρήσεις 𝑥1 , 𝑥2, … , 𝑥100 κατόπιν μετασχηματίστηκαν ως εξής: 𝑦𝑖 = 0.2𝑥𝑖 + 6. Nα
βρεθούν η μέση τιμή, η διασπορά και ο συντελεστής μεταβλητότητας των μετασχηματισμένων
παρατηρήσεων 𝑦𝑖 .
𝑥𝑖 −𝑥̅
γ) Εάν οι αρχικές μετρήσεις 𝑥1 , 𝑥2, … , 𝑥100 μετασχηματιστούν ως εξής: 𝑧𝑖 = , όπου 𝑥̅ και s η μέση
𝑠
τιμή και η τυπική απόκλιση των αρχικών μετρήσεων, να υπολογιστούν η μέση τιμή, η διασπορά και η
τυπική απόκλιση των 𝑧𝑖 .

Κλάσεις Κέντρο κλάσης Συχνότητα 𝜈𝑖 𝜈𝑖 𝑦𝑖 𝜈𝑖 𝑦𝑖 2 Αθροιστική


𝑦𝑖 συχνότητα 𝛮𝑖

(0-4] 2 51 102 204 51

(4-8] 6 20 120 720 71

(8-12] 10 16 160 1600 87

(12-16] 14 4 56 784 91

(16-20] 18 9 162 2916 100

Άθροισμα 100 600 6224

Αριθμητικά περιγραφικά μέτρα (για δεδομένα ομαδοποιημένα)

Α) Μέτρα κεντρικής τάσης ή θέσης

i) Μέσος όρος ή μέση τιμή 𝒙


̅
𝑘
1 600
𝑥̅ = ∑ 𝜈𝑖 𝑦𝑖 = =6
𝜈 100
𝑖=1

ii) Διάμεσος δ

Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την κλάση μέσα στην οποία
βρίσκεται η διάμεσος. Σε αυτό μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα των
𝑥(50) +𝑥(51)
100 παρατηρήσεων (άρτιο πλήθος δείγματος) εύκολα καταλαβαίνουμε ότι 𝛿 = . Επειδή στην
2

1η κλάση βρίσκονται οι 51 μικρότερες μετρήσεις, η διάμεσος θα βρίσκεται στην 1η κλάση (0-4].

22
Στη συνέχεια εφαρμόζοντας τον παρακάτω τύπο υπολογίζουμε την τιμή της:

𝑐 4 200
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 ) = 0 + (0.5 ∙ 100 − 0) = 0+ = 3.92
𝜈𝑖 51 51
iii) Επικρατούσα τιμή ή κορυφή Μ0

Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την επικρατούσα κλάση,
την κλάση δηλαδή με τη μεγαλύτερη συχνότητα. Εδώ είναι η 1η κλάση (0-4] με συχνότητα 51. Στη
συνέχεια υπολογίζουμε την επικρατούσα τιμή από τον τύπο:

𝛥1 51 − 0
𝛭0 = 𝐿𝑖 + ∙𝑐 = 0+ ∙ 4 = 2.49
𝛥1 + 𝛥2 (51 − 0) + (51 − 20)

Παρατηρούμε ότι: 𝑥̅ = 6 > δ =3.92 > 𝛭0 =2.49 επομένως έχουμε έντονη θετική ασυμμετρία.

Β) Μέτρα μεταβλητότητας

i) Διασπορά ή διακύμανση s2

Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις η διασπορά υπολογίζεται από τον τύπο:
𝑘
1 6224 − 100 ∙ 62 2624
2
𝑠 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 ) = = = 26.5
𝜈−1 100 − 1 99
𝑖=1

Όπως έχουμε ξαναπεί ένα μειονέκτημα της διακύμανσης είναι ότι δεν εκφράζεται στην ίδια μονάδα
μέτρησης με τα δεδομένα. Γι’ αυτό συνήθως χρησιμοποιούμε την τυπική απόκλιση, που εκφράζεται στην
ίδια μονάδα μέτρησης.

ii) Τυπική απόκλιση 𝒔 = √𝒔𝟐

𝒔 = √𝒔𝟐 = √26.5 = 5.15

iii) Συντελεστής μεταβλητότητας CV

𝑠 5.15
𝐶𝑉 = ∙ 100% = ∙ 100% = 85.83%
𝑥̅ 6
Καθώς ο CV >> 10% το δείγμα έχει πολλή μεγάλη μεταβλητότητα.

iv) Ενδοτεταρτημοριακό εύρος 𝑸 = 𝑸𝟑 − 𝑸𝟏

23
Για τον προσδιορισμό των 𝑄1 και 𝑄3 σε ομαδοποιημένα δεδομένα δουλεύουμε όπως στη διάμεσο.
Δηλαδή προσδιορίζουμε καταρχάς τις κλάσεις μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 και στη συνέχεια
με τους παρακάτω τύπους υπολογίζουμε τις τιμές τους.
𝑐 𝑐
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) 𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 )
𝜈𝑖 𝜈𝑖

Στο συγκεκριμένο δείγμα των 100 παρατηρήσεων (αρτίου πλήθους δείγμα) εύκολα καταλαβαίνουμε ότι:
𝑥(50) + 𝑥(51) 𝑥(25) + 𝑥(26) 𝑥(75) + 𝑥(76)
𝛿= , 𝑄1 = , 𝑄3 =
2 2 2
Με τη βοήθεια της αθροιστικής συχνότητας 𝑁𝑖 παρατηρούμε ότι το 𝑄1 βρίσκεται στην 1η κλάση (0 – 4],
ενώ το 𝑄3 βρίσκεται στην 3η κλάση (8 – 12]. Στη συνέχεια εφαρμόζοντας τους αντίστοιχους τύπους
υπολογίζουμε τις τιμές τους των 𝑄1 και 𝑄3 :

𝑐 4 100
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) = 0 + (0.25 ∙ 100 − 0) =0+ = 1.96
𝜈𝑖 51 51

𝑐 4
𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 ) = 8 + (0.75 ∙ 100 − 71) = 8+1= 9
𝜈𝑖 16

Επομένως 𝑄 = 𝑄3 − 𝑄1 = 9 − 1.96 = 7.04

Ιστόγραμμα και πολύγωνο συχνοτήτων

24
Στη συνέχεια παραθέτουμε ένα ενδεικτικό θηκόγραμμα παρόμοιου δείγματος με αυτό της άσκησης,
καθώς δεν μας δίνονται οι 100 μετρήσεις, αλλά μόνο ο πίνακας συχνοτήτων. Δεν γνωρίζουμε επακριβώς
την ελάχιστη και την μέγιστη μέτρηση, έτσι ώστε να μπορούμε να κατασκευάσουμε το ακριβές
θηκόγραμμα.

Και στα δύο διαγράμματα (ιστόγραμμα & θηκόγραμμα) είναι ολοφάνερη η έντονη θετική ασυμμετρία
της κατανομής του δείγματος.

β) 𝑦̅ = 𝛼𝑥̅ + 𝛽 = 0.2 𝑥̅ + 6 = 0.2 ∙ 6 + 6 = 7.2

𝑠𝑦2 = 𝛼 2 𝑠𝑥2 = 0.22 ∙ 26.5 = 1.06 και 𝑠𝑦 = |𝛼|𝑠𝑥 = |0.2| ∙ 5.15 = 1.03

Τότε:

𝑠𝑦 1.03
𝐶𝑉𝑦 = 100% = 100% = 14.31%
𝑦̅ 7.2

γ) Για τον μετασχηματισμό:


𝑥𝑖 − 𝑥̅ 1 𝑥̅
𝑧𝑖 = = 𝑥𝑖 −
𝑠 𝑠 𝑠
όπου 𝑥̅ και s η μέση τιμή και η τυπική απόκλιση των αρχικών μετρήσεων 𝑥1 , 𝑥2 , … , 𝑥100 έχουμε:
1 𝑥̅
𝛼=𝑠 και 𝛽 = − 𝑠 και τότε η μέση τιμή 𝑧̅ και η τυπική απόκλιση 𝑠𝑧 των μετασχηματισμένων
δεδομένων είναι:

25
1 𝑥̅
𝑧̅ = 𝛼𝑥̅ + 𝛽 = 𝑥̅ − 𝑠 = 0
𝑠

1
𝑠𝑧2 = 𝛼 2 𝑠𝑥2 = (𝑠 )2 𝑠𝑥2 = 1, καθώς 𝑠 2 = 𝑠𝑥2

1
και 𝑠𝑧 = |𝛼|𝑠𝑥 = |𝑠 | 𝑠𝑥 = 1 , καθώς 𝑠 = 𝑠𝑥

26
Στοιχεία από την Συνδυαστική

Πολλαπλασιαστική αρχή

Αν το στοιχείο Α1 μπορεί να επιλεγεί με 𝜈1 διαφορετικούς τρόπους και για κάθε επιλογή


του Α1, το στοιχείο Α2 μπορεί να επιλεγεί με 𝜈2 διαφορετικούς τρόπους, …. και για κάθε
επιλογή των στοιχείων Α1, Α2, … Ακ-1, το στοιχείο Ακ μπορεί να επιλεγεί με 𝜈𝜅
διαφορετικούς τρόπους, τότε όλα τα στοιχεία Α1, Α2,…, Ακ μπορούν να επιλεγούν
διαδοχικά και με αυτή τη συγκεκριμένη σειρά κατά 𝜈1 ∙ 𝜈2 ∙ … ∙ 𝜈𝜅 τρόπους.

Διατάξεις

Όταν έχουμε ν διαφορετικά στοιχεία και τοποθετούμε στη σειρά κ από τα αυτά, έχουμε
μία διάταξη των ν στοιχείων ανά κ. Το πλήθος όλων των διαφορετικών διατάξεων των ν
στοιχείων ανά κ συμβολίζεται με (𝜈)𝑘 και είναι:

𝜈!
(𝜈)𝑘 = 𝜈(𝜈 − 1) … (ν − κ + 1) = , 1≤𝜅≤𝜈
(𝜈 − 𝜅)!

όπου 𝜈! = 1 ∙ 2 ∙ 3 ∙ … ∙ ν, 1! = 1, 3! = 1 ∙ 2 ∙ 3 = 6 και 0! = 1

Όταν 𝜅 = 𝜈 έχουμε τις μεταθέσεις των ν στοιχείων, των οποίων το πλήθος είναι:

(𝜈)𝜈 = 𝜈(𝜈 − 1) … 2 ∙ 1 = ν! , ν≥1

Για παράδειγμα με τα ψηφία 1, 3, 7, 8 μπορούμε να σχηματίσουμε 4! = 24 διαφορετικούς


τετραψήφιους αριθμούς, ενώ με τα ίδια ψηφία μπορούμε να έχουμε (4)2 = 12
διαφορετικούς διψήφιους αριθμούς.

Επαναληπτικές διατάξεις

Όταν από τα ν στοιχεία επιλέγουμε κ, αλλά κάθε ένα από αυτά μπορεί να επιλεγεί όσες
φορές θέλουμε, τότε έχουμε τις επαναληπτικές διατάξεις των ν στοιχείων ανά κ και το
πλήθος τους είναι:

𝜈 ∙ 𝜈 ∙ … ∙ ν = 𝜈𝜅, 𝜈 ≥ 1, 𝜅 ≥ 1

1
Μεταθέσεις με όμοια στοιχεία

Αν τα ν στοιχεία δεν είναι όλα διαφορετικά μεταξύ τους, αλλά υπάρχουν κάποια όμοια
στοιχεία. Εάν τα 𝜈1 είναι ενός είδους Α1, τα 𝜈2 είναι ενός άλλου είδους Α2, ….. και τα 𝜈𝜅
είναι κάποιου άλλου είδους Ακ, όπου 𝜈1 + 𝜈2 + … +𝜈𝜅 = ν, τότε οι διαφορετικές μεταθέσεις
των ν στοιχείων είναι:

𝜈 𝜈!
( )=
𝜈1 , 𝜈2, … , 𝜈𝜅 𝜈1 ! ∙ 𝜈2 ! ∙ … ∙ 𝜈𝜅 !

Συνδυασμοί

Αν από τα ν διαφορετικά στοιχεία πάρουμε κ χωρίς να μας ενδιαφέρει η διάταξή τους, αλλά
μόνο ποια στοιχεία πήραμε, τότε έχουμε τους συνδυασμούς των ν στοιχείων ανά κ, που
συμβολίζονται με (𝜈𝜅) και το πλήθος τους είναι:

𝜈 𝜈(𝜈 − 1) … (ν − κ + 1) 𝜈!
( )= = , 1≤𝜅≤𝜈
𝜅 𝜅! 𝜅! (𝜈 − 𝜅)!

Δειγματοληψία

Όταν έχουμε ν στοιχεία και θέλουμε να πάρουμε από αυτά ένα δείγμα μεγέθους κ,
μπορούμε να το πραγματοποιήσουμε με τους εξής τρόπους:

i) Παίρνουμε ένα-ένα στοιχείο, το εξετάζουμε και το επανατοποθετούμε εκεί από


όπου το πήραμε, πριν πάρουμε το επόμενο στοιχείο. Συνεχίζουμε κατ’ αυτόν
τον τρόπο μέχρι να πάρουμε κ στοιχεία. Τότε έχουμε δειγματοληψία με
επανάθεση και υπάρχουν 𝜈 𝜅 διαφορετικά τέτοια δείγματα.
ii) Παίρνουμε ένα-ένα στοιχείο, το εξετάζουμε και δεν το επανατοποθετούμε.
Συνεχίζουμε κατ’ αυτόν τον τρόπο μέχρι να πάρουμε κ στοιχεία. Σε αυτή την
περίπτωση έχουμε δειγματοληψία χωρίς επανάθεση και τότε υπάρχουν
(𝜈)𝑘 = 𝜈(𝜈 − 1) … (ν − κ + 1) διαφορετικά τέτοια δείγματα.
iii) Παίρνουμε κ από τα ν στοιχεία μαζί. Σε αυτή την περίπτωση δεν μας ενδιαφέρει
η σειρά με την οποία τα πήραμε, αλλά μόνο ποια στοιχεία πήραμε. Τότε έχουμε
(𝜈𝜅) δείγματα.

2
Στην περίπτωση i) το ίδιο στοιχείο μπορεί να εμφανιστεί μέχρι κ φορές, ενώ στις ii) και
iii) όλα τα στοιχεία του δείγματος είναι διαφορετικά.

Όταν λέμε ότι παίρνουμε ένα τυχαίο δείγμα μεγέθους κ θα εννοούμε ότι η δειγματοληψία
γίνεται με τέτοιο τρόπο, ώστε όλα τα δείγματα μεγέθους κ έχουν την ίδια πιθανότητα
επιλογής.

Λύσεις ασκήσεων από το φυλλάδιο 3 - Προβλήματα απαρίθμησης

1. Μια πόλη Α συνδέεται με την πόλη Β μέσω τριών δρόμων, η πόλη Β συνδέεται με την
πόλη Γ μέσω πέντε δρόμων και τέλος η πόλη Γ συνδέεται με την πόλη Δ μέσω οκτώ
δρόμων. Από πόσες διαφορετικές διαδρομές μπορεί να επιλέξει κάποιος για να ταξιδέψει:
α) από την πόλη Α στην πόλη Γ
β) από την πόλη Β στην πόλη Δ
γ) από την πόλη Α στην πόλη Δ
δ) από την πόλη Α στην πόλη Δ και στη συνέχεια να επιστρέψει στην πόλη Β.

Εφαρμόζοντας την πολλαπλασιαστική αρχή έχουμε:


α) 3 ∙ 5 = 15 διαφορετικές διαδρομές για να πάμε από τη πόλη Α στην πόλη Γ.

β) 5 ∙ 8 = 40 διαφορετικές διαδρομές για να πάμε από τη πόλη Β στην πόλη Δ.

γ) 3 ∙ 5 ∙ 8 = 120 διαφορετικές διαδρομές για να πάμε από τη πόλη Α στην πόλη Δ.

δ) 3 ∙ 5 ∙ 8 ∙ 8 ∙ 5 = 4800 διαφορετικές διαδρομές για να πάμε από τη πόλη Β στην Δ και

στη συνέχεια να επιστρέψουμε στην πόλη Β.

7. Πόσοι ακέραιοι με διαφορετικά ψηφία μεταξύ 3000 και 4000 σχηματίζονται από τα
ψηφία 1, 2, 3, 4, 5, 6, 7, 8, 9.

Για να σχηματίσουμε ακεραίους αριθμούς μεταξύ των 3000 και 4000 θα πρέπει το 1ο το
πρώτο ψηφίο να είναι το 3 (μία επιλογή). Για το 2 ο ψηφίο έχουμε 8 επιλογές (κάποιο από
τα ψηφία 1, 2, 4, 5, 6, 7, 8, 9 που απέμειναν, καθώς θέλουμε όλα τα ψηφία των αριθμών
να είναι διαφορετικά), για το 3ο ψηφίο έχουμε 7 επιλογές (αφαιρώντας από τα 9 ψηφία που
είχαμε τα δύο πρώτα ψηφία που έχουν επιλεγεί) και για το 4ο ψηφίο έχουμε 6 επιλογές.

3
Εφαρμόζοντας την πολλαπλασιαστική αρχή θα έχουμε 1 ∙ 8 ∙ 7 ∙ 6 = 336 αριθμούς με
διαφορετικά ψηφία.
Αλλιώς, εκτός από την μοναδική επιλογή του 1ου ψηφίου για τα υπόλοιπα τρία έχουμε
(8)3 = 8 ∙ 7 ∙ 6 = 336 αριθμούς, όσες και οι διατάξεις των 8 ψηφίων ανά 3.

2. Οι αριθμοί κυκλοφορίας των αυτοκινήτων δημιουργούνται από τρία γράμματα και ένα
τετραψήφιο αριθμό. Για το πρώτο τμήμα του αριθμού χρησιμοποιούνται τα 14 γράμματα
του ελληνικού αλφαβήτου, τα οποία συμπίπτουν με λατινικούς χαρακτήρες (Α, Β, Ε, Ζ, Η,
Ι, Κ, Μ, Ν, Ο, Π, Τ, Υ, Χ) ενώ στην πρώτη θέση του δευτέρου δεν χρησιμοποιείται ο
αριθμός 0.
α) Πόσοι διαφορετικοί αριθμοί κυκλοφορίας μπορούν να δημιουργηθούν.
β) Πόσοι από τους διαφορετικούς αριθμούς που μπορούν να δημιουργηθούν: i) έχουν και
τα τρία γράμματα του πρώτου μέρους διαφορετικά μεταξύ τους ii) έχουν ως πρώτο γράμμα
φωνήεν iii) έχουν στην πρώτη και στην τρίτη θέση φωνήεντα και iv) δεν περιέχουν στο
δεύτερο τμήμα τους ίδια ψηφία.

Για το 1ο τμήμα του αριθμού κυκλοφορίας επιλέγονται 3 γράμματα από τα 14 με


επανάθεση (εάν κάποιο γράμμα επιλεγεί μπορεί να ξαναεπιλεγεί και 2η ή 3η φορά), ενώ
για το 2ο τμήμα του αριθμού επιλέγονται 4 ψηφία από τα 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 με
επανάθεση (μόνο το 0 δεν μπορεί να επιλεγεί ως 1ο ψηφίο).

α) 14 ∙ 14 ∙ 14 ∙ 9 ∙ 10 ∙ 10 ∙ 10 = 24.696.000 αριθμοί κυκλοφορίας

ή 143 ∙ 9 ∙ 103 = 24.696.000 (επαναληπτικές διατάξεις)

β) i) 14 ∙ 13 ∙ 12 ∙ 9 ∙ 10 ∙ 10 ∙ 10 = 19.656.000 αριθμοί κυκλοφορίας

Επομένως έχουμε 14 επιλογές για το 1ο γράμμα (που έστω ότι είναι το Α), 13 επιλογές για
το 2ο γράμμα (14 επιλογές εκτός του Α, που έχει ήδη επιλεγεί), 12 επιλογές για το 3ο
γράμμα…..

ii) Έχουμε 6 επιλογές για το 1ο γράμμα (Α, Ε, Η, Ι, Ο, Υ), 14 επιλογές για το 2ο γράμμα….
6 ∙ 14 ∙ 14 ∙ 9 ∙ 10 ∙ 10 ∙ 10 = 10.584.000 αριθμοί κυκλοφορίας
iii) 6 ∙ 14 ∙ 6 ∙ 9 ∙ 10 ∙ 10 ∙ 10 = 4.536.000 αριθμοί κυκλοφορίας

iv) 14 ∙ 14 ∙ 14 ∙ 9 ∙ 9 ∙ 8 ∙ 7 = 12.446.784 αριθμοί κυκλοφορίας

4
8. Πόσοι αναγραμματισμοί της λέξης «ΣΥΝΔΥΑΣΤΙΚΗ» υπάρχουν.

Η λέξη ΣΥΝΔΥΑΣΤΙΚΗ έχει 11 γράμματα, εκ των οποίων κάποια είναι διπλά (Σ:2, Y:2).
Χρησιμοποιώντας τον τύπο των μεταθέσεων με όμοια στοιχεία έχουμε:

11 11! 1 ∙ 2 ∙ … ∙ 11
( )= = = 9.979.000
2, 2, 1, … ,1 2! ∙ 2! ∙ 1! … ∙ 1! 1 ∙ 2 ∙ 1 ∙ 2 … 1

9. Πέντε όμοιες λεύκες, δύο όμοια πεύκα και τρία όμοια έλατα πρόκειται να
χρησιμοποιηθούν για να δημιουργηθεί μια δενδροστοιχία. Με πόσους διαφορετικούς
τρόπους μπορεί να γίνει αυτό.

Έχουμε 10 δένδρα, εκ των οποίων κάποια είναι όμοια (5Λ, 2Π, 3Ε). Χρησιμοποιώντας τον
τύπο των μεταθέσεων με όμοια στοιχεία έχουμε:

10 10! 1 ∙ 2 ∙ … ∙ 10
( )= = = 2520
5, 2, 3 5! ∙ 2! ∙ 3! 1 ∙ 2 ∙ 3 ∙ 4 ∙ 5 ∙ 1 ∙ 2 ∙ 1 ∙ 2 ∙ 3

12. Ένα δελτίο ΠΡΟΠΟ περιλαμβάνει 13 αγώνες καταχωρημένους σε μία στήλη και δίπλα
σε κάθε αγώνα σημειώνεται 1, Χ, 2. α) Πόσες διαφορετικές στήλες μπορούν να
σχηματιστούν. β) Αν για 6 συγκεκριμένους αγώνες χρησιμοποιήσουμε 1 σύμβολο, για 5
άλλους συγκεκριμένους αγώνες 2 σύμβολα και για τους υπόλοιπους 2 αγώνες 3 σύμβολα,
πόσες διαφορετικές στήλες θα προκύψουν.

α) Έχουμε 3 επιλογές για τον 1ο αγώνα (1, Χ, 2), 3 επιλογές για τον 2ο αγώνα (1, Χ, 2),
κ.ο.κ. 3 επιλογές για τον 13ο αγώνα (1, Χ, 2). Συνολικά (πολλαπλασιαστική αρχή) έχουμε:

3 ∙ 3 ∙ … ∙ 3 = 313 =1.594.323 διαφορετικές στήλες (επαναληπτικές διατάξεις)

β) 2 ∙ 2 ∙ 2 ∙ 2 ∙ 2 ∙ 3 ∙ 3 = 25 ∙ 32 = 288 διαφορετικές στήλες (επαναληπτικές διατάξεις)

15. Από 8 άτομα, πόσες διαφορετικές τριμελείς επιτροπές μπορούν να σχηματιστούν.

Από τα 8 άτομα επιλέγουμε 3, χωρίς να μας ενδιαφέρει η σειρά επιλογής, αλλά μόνο ποια
άτομα έχουν επιλεγεί. Επομένως έχουμε συνδυασμούς των 8 ατόμων ανά 3.

8 8! 1 ∙ 2∙ …∙ 8
( )= = = 56
3 3! (8 − 3)! 1 ∙ 2 ∙ 3 ∙ 1 ∙ 2 ∙ 3 ∙ 4 ∙ 5

5
17. Από οκτώ φοιτητές και τέσσερις καθηγητές πόσες ομάδες των έξι ατόμων στις οποίες
συμμετέχει τουλάχιστον ένας καθηγητής μπορούν να σχηματιστούν.

Στις ομάδες των 6 ατόμων μπορεί να συμμετέχει 1 καθηγητής (Κ) και 5 φοιτητές (Φ) ή 2Κ
και 4Φ ή 3Κ και 3Φ ή 4Κ και 2Φ. Δεν να μας ενδιαφέρει η σειρά επιλογής, αλλά μόνο
ποια άτομα έχουν επιλεγεί. Το πλήθος των ομάδων των 6 ατόμων είναι:

4 8 4 8 4 8 4 8
( )∙( ) +( )∙( )+( )∙( )+( )∙( )=
1 5 2 4 3 3 4 2

4! 8! 4! 8! 4! 8! 4! 8!
= ∙ + ∙ + ∙ + ∙ = 896
1! ∙ 3! 5! ∙ 3! 2! ∙ 2! 4! ∙ 4! 3! ∙ 1! 3! ∙ 5! 4! ∙ 0! 2! ∙ 6!

0! = 1 εξ ορισμού.

18. Μια επιτροπή αποτελείται από 2 Γεωπόνους και 3 Μηχανικούς που επιλέγονται από 5
Γεωπόνους και 7 Μηχανικούς. Με πόσους διαφορετικούς τρόπους μπορεί να σχηματισθεί
αυτή η επιτροπή, α) χωρίς άλλους περιορισμούς, β) έτσι ώστε ένας συγκεκριμένος
Μηχανικός να συμμετέχει οπωσδήποτε, γ) έτσι ώστε 2 συγκεκριμένοι Γεωπόνοι να μην
συμμετέχουν.

Από 5 Γεωπόνους (Γ) και 7 Μηχανικούς (Μ) επιλέγουμε 2Γ και 3Μ. Δεν να μας ενδιαφέρει
η σειρά επιλογής, αλλά μόνο ποια άτομα έχουν επιλεγεί. Το πλήθος των επιτροπών είναι:

5 7 5! 7!
𝛼) ( ) ∙ ( ) = ∙ = 350
2 3 2! ∙ 3! 3! ∙ 4!

𝛽) Ένας Μηχανικός συμμετέχει οπωσδήποτε, οπότε μένει να επιλεγούν 2Γ και 2Μ από 5Γ


και 6Μ.

5 6 5! 6!
( )∙( )= ∙ = 150
2 2 2! ∙ 3! 2! ∙ 4!

𝛾) Δύο Γεωπόνοι δεν συμμετέχουν, οπότε επιλέγονται 2Γ και 3Μ από 3Γκαι 7Μ.

3 7 3! 7!
( )∙( )= ∙ = 105
2 3 2! ∙ 1! 3! ∙ 4!

6
ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ
Σύντομη ανασκόπηση εννοιών, τύπων και λύση προβλημάτων

Πείραμα τύχης είναι οτιδήποτε μπορεί να επαναληφθεί με τις ίδιες συνθήκες όσες φορές
θέλουμε και το αποτέλεσμά του δεν μπορεί να προβλεφθεί με βεβαιότητα. Μπορούμε όμως
να καταγράψουμε όλα τα δυνατά αποτελέσματά του.

Δειγματικός χώρος Ω ενός πειράματος τύχης είναι το σύνολο των δυνατών


αποτελεσμάτων του πειράματος. Ένας δειγματικός χώρος μπορεί να είναι πεπερασμένος,
απείρως αριθμήσιμος ή συνεχής.
Για παράδειγμα ρίχνουμε ένα ζάρι δύο φορές. Ο δειγματικός χώρος του πειράματος
περιλαμβάνει 62 = 36 σημεία (όσες και οι επαναληπτικές διατάξεις).

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)


(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
𝛺={
……………………………………..….
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Κάθε δυνατό αποτέλεσμα ενός πειράματος τύχης, δηλαδή κάθε σημείο του δειγματικού
χώρου, λέγεται απλό ενδεχόμενο, ενώ ένα σύνολο απλών ενδεχομένων λέγεται (σύνθετο)
ενδεχόμενο.

Βέβαιο ενδεχόμενο είναι το ενδεχόμενο που πραγματοποιείται πάντοτε (Ω).

Αδύνατο ενδεχόμενο είναι το ενδεχόμενο που δεν πραγματοποιείται ποτέ (∅).

Η τομή δύο ενδεχομένων πραγματοποιείται, όταν πραγματοποιείται και το Α και το Β


(𝜜 ∩ 𝜝 ή 𝜜𝜝).

Η ένωση δύο ενδεχομένων πραγματοποιείται, όταν πραγματοποιείται το Α ή το Β (ή και


τα δύο) ή αλλιώς λέμε όταν πραγματοποιείται τουλάχιστον ένα από τα Α και Β (𝜜 ∪ 𝜝).

Συμπλήρωμα Α΄ ενός ενδεχομένου Α, είναι το ενδεχόμενο που πραγματοποιείται, όταν


δεν πραγματοποιείται το Α.

Ξένα ενδεχόμενα είναι τα ενδεχόμενα, τα οποία δεν έχουν κοινά σημεία, δηλαδή η τομή
τους είναι το κενό σύνολο (𝜜 ∩ 𝜝 = ∅).

Η διαφορά δύο ενδεχομένων πραγματοποιείται, όταν πραγματοποιείται το Α και όχι το


Β (𝜜 − 𝜝 ή 𝜜𝜝′ ).

Η συμμετρική διαφορά δύο ενδεχομένων πραγματοποιείται, όταν πραγματοποιείται


ακριβώς ένα από αυτά (𝜜𝜝′ ∪ 𝜜′𝜝).

1
Παράσταση ενδεχομένων με διαγράμματα

Κλασικός ορισμός της πιθανότητας (Laplace, 1812)

Αν ο δειγματικός χώρος Ω είναι πεπερασμένος και όλα τα απλά ενδεχόμενά του έχουν την
ίδια πιθανότητα επιλογής (ισοπίθανα), τότε η πιθανότητα να συμβεί το ενδεχόμενο Α
είναι:

𝑁(𝐴) 𝜋𝜆ή𝜃𝜊𝜍 𝜏𝜔𝜈 𝜎𝜏𝜊𝜄𝜒𝜀ί𝜔𝜈 𝜏𝜊𝜐 𝛢 𝜋𝜆ή𝜃𝜊𝜍 𝜀𝜐𝜈𝜊𝜄𝜅ώ𝜈 𝜋𝜀𝜌𝜄𝜋𝜏ώ𝜎𝜀𝜔𝜈


𝑃(𝐴) = = =
𝑁(𝛺) 𝜋𝜆ή𝜃𝜊𝜍 𝜏𝜔𝜈 𝜎𝜏𝜊𝜄𝜒𝜀ί𝜔𝜈 𝜏𝜊𝜐 𝛺 𝜋𝜆ή𝜃𝜊𝜍 𝛿𝜐𝜈𝛼𝜏ώ𝜈 𝜋𝜀𝜌𝜄𝜋𝜏ώ𝜎𝜀𝜔𝜈

Στατιστικός ορισμός της πιθανότητας (Richard von Mises, 1919)

Αν στις Ν επαναλήψεις ενός πειράματος τύχης ένα ενδεχόμενο Α εμφανίσθηκε 𝛮𝛢 φορές,


τότε το πηλίκο 𝛮𝛢 ⁄𝛮 ονομάζεται σχετική συχνότητα του ενδεχομένου Α. Όσο το 𝛮
μεγαλώνει τόσο η σχετική συχνότητα σταθεροποιείται γύρω από έναν αριθμό που
ονομάζεται πιθανότητα του ενδεχομένου Α και συμβολίζεται με 𝑷(𝑨).

Αξιωματικός ορισμός της πιθανότητας (Kolmogorov, 1930)

Σε κάθε ενδεχόμενο Α ενός πειράματος τύχης αντιστοιχίζουμε έναν αριθμό 𝑷(𝑨) τέτοιον
ώστε:

i) 𝑃(𝐴) ≥ 0 για κάθε ενδεχόμενο 𝛢 του δειγματικού χώρου 𝛺


ii) 𝑃(𝛺) = 1
iii) 𝑃(𝐴1 ∪ 𝐴2 ∪ … . . ) = 𝑃(𝐴1 ) + 𝑃(𝐴2 ) + ⋯,
εάν τα ενδεχόμενα 𝛢1 , 𝛢2 , …. είναι ξένα ανά δύο ενδεχόμενα.

2
Ιδιότητες της πιθανότητας

Από τα τρία αξιώματα προκύπτουν οι παρακάτω ιδιότητες των πιθανοτήτων:

𝑃(∅) = 0, 𝑃(𝛺) = 1, 0 ≤ 𝑃(𝐴) ≤ 1 για κάθε ενδεχόμενο Α

𝑃(𝐴′ ) = 1 − 𝑃(𝐴), 𝑃(𝐴𝐵 ′ ) = 𝑃(𝐴) − 𝑃(𝐴𝐵)

𝛢𝜈 𝐴 ⊆ 𝐵 𝜏ό𝜏𝜀 𝑃(𝐴) ≤ 𝑃(𝐵)

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝐵)

𝑃(𝛢 ∪ 𝛣 ∪ 𝛤) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝛤) − 𝑃(𝐴𝐵) − 𝑃(𝐴𝛤) − 𝑃(𝐵𝛤) + 𝑃(𝐴𝐵𝛤)

Δεσμευμένη πιθανότητα

Ορίζουμε ως δεσμευμένη πιθανότητα του ενδεχομένου Α δοθέντος του Β την πιθανότητα:

𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) = , ό𝜏𝛼𝜈 𝑃(𝐵) > 0 (𝛿𝜂𝜆. 𝑃(𝐵) ≠ 0)
𝑃(𝐵)

Πολλαπλασιαστικός τύπος

Από τον ορισμό της δεσμευμένης πιθανότητας προκύπτει:

𝑃(𝐴𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵⁄𝐴) = 𝑃(𝐵) ⋅ 𝑃(𝐴⁄𝐵 ) όταν 𝑃(𝐴) > 0, 𝑃(𝐵) > 0

Γενικεύοντας:

𝑃(𝐴1 𝐴2 … 𝐴𝜈 ) = 𝑃(𝐴1 ) ⋅ 𝑃(𝐴2 ⁄𝐴1 ) … 𝑃(𝐴𝜈 ⁄𝛢1 𝐴2 … 𝐴𝜈−1 )

Όταν 𝑃(𝐴1 𝐴2 … 𝐴𝜈−1 ) > 0

Ανεξαρτησία ενδεχομένων

Δύο ενδεχόμενα 𝐴 και 𝐵 ονομάζονται ανεξάρτητα αν και μόνο αν:

𝑃(𝐴𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)

Τρία ενδεχόμενα 𝐴, 𝐵, 𝛤 ονομάζονται ανεξάρτητα αν ισχύουν και οι 4 παρακάτω σχέσεις:

i) 𝑃(𝐴𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)


3
ii) 𝑃(𝛢𝛤) = 𝑃(𝛢) ⋅ 𝑃(𝛤)

iii) 𝑃(𝐵𝛤) = 𝑃(𝐵) ⋅ 𝑃(𝛤)

iv) 𝑃(𝐴𝐵𝛤) = 𝑃(𝐴) ⋅ 𝑃(𝐵) ⋅ 𝑃(𝛤)

Δηλαδή εάν είναι ανά δύο ανεξάρτητα i), ii), iii) και ανά τρία ανεξάρτητα iv).
Γενικεύοντας τα ν ενδεχόμενα 𝐴1 , 𝐴2 , … , 𝐴𝜈 ονομάζονται ανεξάρτητα αν και μόνο αν:
i) Είναι ανά δύο ανεξάρτητα (οπότε θα πρέπει να εξεταστούν (𝜈2) σχέσεις)
ii) Είναι ανά τρία ανεξάρτητα (οπότε θα πρέπει να εξεταστούν (𝜈3) σχέσεις)
………………………………………………………………………

Είναι ανά ν ανεξάρτητα, δηλαδή 𝑃(𝐴1 𝐴2 … 𝐴𝜈 ) = 𝑃(𝐴1 ) ⋅ 𝑃(𝐴2 ) ⋅ … . . 𝑃(𝐴𝜈 )

Θεώρημα της ολικής πιθανότητας


Έστω 𝛣1 , 𝛣2 , … , 𝛣𝜈 ν ξένα μεταξύ τους ενδεχόμενα τα οποία καλύπτουν όλο το δειγματικό
χώρο 𝛺 ενός πειράματος τύχης (δηλ. 𝛣1 ∪ 𝛣2 ∪ … ∪ 𝛣𝜈 = 𝛺) και 𝑃(𝐵𝑖 ) > 0, για 𝑖 =
1, 2, … , 𝜈. Τότε για κάθε ενδεχόμενο 𝛢 του 𝛺 έχουμε:

𝑷(𝑨) = 𝑃(𝐴𝐵1 ∪ 𝐴𝐵2 ∪ … ∪ 𝐴𝐵𝜈 ) = 𝑃(𝐴𝐵1 ) + 𝑃(𝐴𝐵2 ) + ⋯ + 𝑃(𝐴𝐵𝜈 ) =

= 𝑷(𝑨⁄𝑩𝟏 ) 𝑷(𝑩𝟏 ) + 𝑷(𝑨⁄𝑩𝟐 ) 𝑷(𝑩𝟐 ) + ⋯ + 𝑷(𝑨⁄𝑩𝝂 ) 𝑷(𝑩𝝂 )

4
Θεώρημα Bayes
Έστω 𝛣1 , 𝛣2 , … , 𝛣𝜈 ν ξένα μεταξύ τους ενδεχόμενα τα οποία καλύπτουν όλο το δειγματικό
χώρο 𝛺 ενός πειράματος τύχης (δηλ. 𝛣1 ∪ 𝛣2 ∪ … ∪ 𝛣𝜈 = 𝛺) και 𝑃(𝐵𝑖 ) > 0 για 𝑖 =
1, 2, … , 𝜈. Τότε για κάθε ενδεχόμενο 𝛢 του 𝛺 με 𝑃(𝐴) > 0, έχουμε:

𝑃(𝐴𝐵𝑖 ) 𝑷(𝑨⁄𝑩𝒊 ) ⋅ 𝑷(𝑩𝒊 )


𝑷(𝑩𝒊 ⁄𝑨) = = , 𝑖 = 1, 2, … , 𝜈
𝑃(𝐴) 𝑷(𝑨)
ή
𝑃(𝐴⁄𝐵𝑖 ) ⋅ 𝑃(𝐵𝑖 )
𝑃(𝐵𝑖 ⁄𝐴) =
𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 ) + 𝑃(𝐴⁄𝐵2 ) 𝑃(𝐵2 ) + ⋯ + 𝑃(𝐴⁄𝐵𝜈 ) 𝑃(𝐵𝜈 )

Λύσεις ασκήσεων από το φυλλάδιο 4 - Προβλήματα πιθανοτήτων

1. Από εξετάσεις που έγιναν σε 5000 ζώα μιας κτηνοτροφικής μονάδας,


διαπιστώθηκε ότι 1000 είχαν προσβληθεί από μία ασθένεια Α, 800 είχαν
προσβληθεί από μια ασθένεια Β, ενώ 200 από αυτά είχαν προσβληθεί και από την
ασθένεια Α και από την ασθένεια Β. Θεωρώντας ότι οι 5000 επαναλήψεις είναι
αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών συχνοτήτων, να
υπολογιστεί η πιθανότητα, σε ένα ζώο της κτηνοτροφικής μονάδας που επιλέγεται
τυχαία να διαπιστωθεί ότι έχει προσβληθεί: i) από την ασθένεια Α, ii) από την
ασθένεια Β, iii) και από τις δύο ασθένειες, iv) από την ασθένεια Α, όχι όμως από
την ασθένεια Β, v) από την ασθένεια Β, όχι όμως από την ασθένεια Α, vi) ακριβώς
από μία από τις δύο ασθένειες.

Σύμφωνα με τον στατιστικό ορισμό της πιθανότητας και θεωρώντας ότι οι 5000
επαναλήψεις είναι αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών
συχνοτήτων έχουμε:

1000 800 200


i) 𝑃(𝐴) = = 0.2 ii) 𝑃(𝐵) = = 0.16 iii) 𝑃(𝐴𝐵) = = 0.04
5000 5000 5000

1000−200 800−200
iv) 𝑃(𝐴𝐵′) = = 0.16 v) 𝑃(𝐵𝐴′) = = 0.12
5000 5000

vi) 𝑃(𝐴𝐵′ ∪ 𝐵𝐴′) = 𝑃(𝐴𝐵 ′ ) + 𝑃(𝐵𝐴′ ) = 0.16 + 0.12 = 0.28

5
2. Εξετάστηκαν 800 ζώα για να διαπιστωθεί εάν είναι υγιή ή άρρωστα. Επίσης για
κάθε ζώο καταγράφηκε το φύλο του. Τα αποτελέσματα των εξετάσεων φαίνονται
στον πίνακα που ακολουθεί.
Υγιή Άρρωστα
Αρσενικά 150 350
Θηλυκά 80 220
Θεωρούμε τα εξής ενδεχόμενα, τα οποία αναφέρονται στο πείραμα της επιλογής
τυχαία ενός ζώου από τον πληθυσμό που μελετάμε:
Α: το ζώο που επιλέχθηκε είναι υγιές
Β: το ζώο που επιλέχθηκε είναι αρσενικό
Με βάση τα δεδομένα του πίνακα και θεωρώντας ότι οι 800 επαναλήψεις είναι
αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών συχνοτήτων, να
υπολογισθούν οι πιθανότητες των ενδεχομένων: Α, Β, ΑΒ, Α΄, Β΄, Α΄ Β΄, Α΄Β, ΑΒ΄,
Α΄Β ∪ ΑΒ΄, ΑΒ ∪ Α΄Β΄.

Σύμφωνα με τον στατιστικό ορισμό της πιθανότητας και θεωρώντας ότι οι 800
επαναλήψεις είναι αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών
συχνοτήτων έχουμε:
150+80 150+350 150
𝑃(𝐴) = = 0.2875, 𝑃(𝐵) = = 0.625, 𝑃(𝐴𝐵) = 800 = 0.1875,
800 800

350+220
𝑃(𝐴′) = = 0.7125 ή 𝑃(𝐴′) = 1 − 𝑃(𝐴) = 1 − 0.2875 = 0.7125,
800
80+220
𝑃(𝐵′) = = 0.375
800

220 350 80
𝑃(𝐴′ 𝐵 ′ ) = 800 = 0.275, 𝑃(𝐴′ 𝐵) = 800 = 0.4375, 𝑃(𝐴𝐵 ′ ) = 800 = 0.1
350+80
𝑃(𝐴′𝐵 ∪ 𝐴𝐵′) = = 0.5375 ή 𝑃(𝐴′𝐵 ∪ 𝐴𝐵′) = 𝑃(𝐴′ 𝐵) + 𝑃(𝐴𝐵 ′ ) =
800
0.4375 + 0.1 = 0.5375

150+220
𝑃(𝐴𝐵 ∪ 𝐴′𝐵′) = = 0.4625 ή 𝑃(𝐴𝐵 ∪ 𝐴′𝐵′) = 𝑃(𝐴𝐵) + 𝑃(𝐴′𝐵 ′ ) =
800
0.1875 + 0.275 = 0.4625

3. Η πιθανότητα σε ένα έτος να συμβεί σεισμός έντασης πάνω από 6 βαθμούς της
κλίμακας ρίχτερ σε μια συγκεκριμένη περιοχή είναι 0.005. Η αντίστοιχη
πιθανότητα να πληγεί η περιοχή από έντονες βροχοπτώσεις είναι 0.02, ενώ υπάρχει
πιθανότητα 0.001 σε διάρκεια ενός έτους να εμφανιστούν και τα δύο φαινόμενα.
Να υπολογιστούν οι πιθανότητες, σε ένα έτος η περιοχή να πληγεί: α) μόνο από
σεισμό, β) μόνο από βροχοπτώσεις, γ) τουλάχιστον από ένα από τα δύο φαινόμενα
και δ) από κανένα από τα δύο φαινόμενα.

6
Έστω Α={το ενδεχόμενο να συμβεί σεισμός έντασης μεγαλύτερης από 6 βαθμούς
σε ένα έτος}
και Β={το ενδεχόμενο να συμβεί έντονη βροχόπτωση σε ένα έτος}
Τότε 𝑃(𝐴) = 0.005, 𝑃(𝐵) = 0.02, 𝑃(𝐴𝐵) = 0.001
α) 𝑃(𝐴𝐵 ′ ) = 𝑃(𝐴) − 𝑃(𝐴𝐵) = 0.005 − 0.001 = 0.004
β) 𝑃(𝐵𝐴′) = 𝑃(𝐵) − 𝑃(𝐴𝐵) = 0.02 − 0.001 = 0.019
γ) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝐵) = 0.005 + 0.02 − 0.001 = 0.024
δ) 𝑃(𝐴′𝐵 ′ ) = 1 − 𝑃(𝐴 ∪ 𝐵) = 1 − 0.024 = 0.976

4. Το 15% από τα δένδρα ενός δάσους πάσχουν από κάποια ασθένεια Α, το 8% από
κάποια ασθένεια Β και το 20% από κάποια ασθένεια Γ. Επίσης, ποσοστό 3%
πάσχει και από την Α και από την Β, ποσοστό 2% και από την Α και από τη Γ και
ποσοστό 4% και από την Β και από την Γ. Τέλος, το ποσοστό των δένδρων που
πάσχει και από τις τρεις ασθένειες είναι 1% . Αν επιλεγεί ένα δένδρο από αυτό το
δάσος στην τύχη, ποια η πιθανότητα: i) να πάσχει μόνο από την Β ή μόνο από την
Γ ασθένεια, ii) να πάσχει από τουλάχιστον μία ασθένεια, iii) να μην πάσχει από
καμία από τις τρεις ασθένειες και iv) να πάσχει από την Α, δεδομένου ότι πάσχει
από (τουλάχιστον) μία από τις τρεις ασθένειες.

i) 𝑃(𝛣𝛢΄𝛤΄ ∪ 𝛤𝛢′ 𝛣 ′ ) = 𝑃(𝛣𝛢′ 𝛤 ′ ) + 𝑃(𝛤𝛢′ 𝛣 ′ ) = 0.02 + 0.15 = 0.17 ή 17%

7
ii) 𝑃(𝛢 ∪ 𝛣 ∪ 𝛤) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝛤) − 𝑃(𝐴𝐵) − 𝑃(𝐴𝛤) − 𝑃(𝐵𝛤) +
𝑃(𝐴𝐵𝛤) = 0.15 + 0.08 + 0.20 − 0.03 − 0.02 − 0.04 + 0.01 = 0.35

iii) 𝑃(𝐴′ 𝐵 ′ 𝛤 ′ ) = 𝑃(𝐴 ∪ 𝐵 ∪ 𝛤)′ = 1 − 𝑃(𝐴 ∪ 𝐵 ∪ 𝛤) = 1 − 0.35 = 0.65

𝑃(𝐴∩(𝐴∪𝐵∪𝛤)) 𝑃(𝐴) 0.15


iv) 𝑃(𝐴 ∕ (𝐴 ∪ 𝐵 ∪ 𝛤)) = = 𝑃(𝐴∪𝐵∪𝛤) = 0.35 = 0.4286
𝑃(𝛢∪𝛣∪𝛤)

5. Ρίχνουμε ένα νόμισμα 10 φορές. Να βρεθεί η πιθανότητα να φέρνουμε κάθε φορά


διαφορετική ένδειξη από την προηγούμενη.

Έστω Α={το ενδεχόμενο να φέρνουμε κάθε φορά διαφορετική ένδειξη από την
προηγούμενη}
Σύμφωνα με τον κλασικό ορισμό της πιθανότητας έχουμε:

𝑁(𝐴) 2 2
𝑃(𝐴) = = 10 = = 0.00195
𝑁(𝛺) 2 1024

όπου 𝛮(𝛢) = {𝛫𝛤𝛫𝛤𝛫𝛤𝛫𝛤𝛫𝛤, 𝛤𝛫𝛤𝛫𝛤𝛫𝛤𝛫𝛤𝛫} το πλήθος των ευνοϊκών


περιπτώσεων και
𝛮(𝛺) = 210 το πλήθος των δυνατών περιπτώσεων (όλα τα σημεία του δειγματικού
χώρου), τα οποία είναι όσα και οι επαναληπτικές διατάξεις των 2 στοιχείων (Κ, Γ)
ανά 10.

6. Το πρόβλημα του Chevalier de Méré. Ποιο είναι πιο πιθανό, να φέρουμε ένα
τουλάχιστον «έξι» ρίχνοντας ένα ζάρι 4 φορές ή να φέρουμε μία τουλάχιστον φορά
«εξάρες» ρίχνοντας δύο ζάρια 24 φορές.

Έστω 𝐴={το ενδεχόμενο να φέρουμε τουλάχιστον ένα «έξι» ρίχνοντας ένα ζάρι 4
φορές} και
Β={ το ενδεχόμενο να φέρουμε μία τουλάχιστον φορά «εξάρες» ρίχνοντας δύο
ζάρια 24 φορές}
Τότε 𝐴′ ={το ενδεχόμενο να φέρουμε κανένα «έξι» ρίχνοντας ένα ζάρι 4 φορές}
και Β΄={ το ενδεχόμενο να φέρουμε καμιά φορά «εξάρες» ρίχνοντας δύο ζάρια 24
φορές}

8
′)
54
𝑃(𝐴) = 1 − 𝑃(𝐴 = 1 − 4 = 1 − 0.48225 = 0.51775
6
′)
3524
𝑃(𝐵) = 1 − 𝑃(𝐵 = 1 − 24 = 1 − 0.5086 = 0.4914
36

7. Μια επιτροπή αποτελείται από 2 Γεωπόνους και 3 Μηχανικούς που επιλέγονται


από 5 Γεωπόνους και 7 Μηχανικούς. Αν όλες οι συνθέσεις της επιτροπής που
μπορεί να προκύψουν είναι εξίσου πιθανές, ποια η πιθανότητα: α) ένας
συγκεκριμένος Μηχανικός να συμμετέχει οπωσδήποτε στην επιτροπή, β) δύο
συγκεκριμένοι Γεωπόνοι να μην συμμετέχουν στην επιτροπή.

Το πλήθος των επιτροπών που αποτελούνται από 2 Γεωπόνους (Γ) και 3


Μηχανικούς (Μ) που επιλέγονται από 5Γ και 7Μ είναι όσοι και οι συνδυασμοί (δεν
να μας ενδιαφέρει η σειρά επιλογής, αλλά μόνο ποια άτομα έχουν επιλεγεί):
5 7 5! 7!
( )∙( )= ∙ = 350
2 3 2! ∙ 3! 3! ∙ 4!
α) Το πλήθος των επιτροπών που ένας συγκεκριμένος Μηχανικός συμμετέχει
οπωσδήποτε στην επιτροπή
είναι:
5 6 5! 6!
( )∙( )= ∙ = 150
2 2 2! ∙ 3! 2! ∙ 4!

Τότε:
5 6
𝑁(𝐴) (2) ∙ (2) 150
𝑃(𝐴) = = = = 0.42857
𝑁(𝛺) (5) ∙ (7) 350
2 3

β) Το πλήθος των επιτροπών όταν δύο συγκεκριμένοι Γεωπόνοι δεν συμμετέχουν


στην επιτροπή:
3 7 3! 7!
( )∙( )= ∙ = 105
2 3 2! ∙ 1! 3! ∙ 4!
Τότε:
3 7
𝑁(𝐵) (2) ∙ (3) 105
𝑃(𝐵) = = = = 0.3
𝑁(𝛺) (5) ∙ (7) 350
2 3

8. Σε μια χώρα η πιθανότητα να ζήσει ένας άνδρας τουλάχιστον 70 χρόνια είναι 0.85,
ενώ η πιθανότητα να ζήσει τουλάχιστον 75 χρόνια είναι 0.80. Αν διαλέξουμε

9
τυχαία έναν 70χρονο άνδρα από τη χώρα αυτή, ποια είναι η πιθανότητα να ζήσει
τουλάχιστον άλλα 5 χρόνια.
Έστω 𝐴={το ενδεχόμενο ένας άνδρας να ζήσει τουλάχιστον 75 χρόνια} και
Β={ το ενδεχόμενο ένας άνδρας να ζήσει τουλάχιστον 70 χρόνια }

𝐴⊆𝐵
Τότε η ζητούμενη πιθανότητα είναι:
𝑃(𝐴𝐵) 𝑃(𝐴) 0.80
𝑃(𝐴⁄𝐵) = = = = 0.94
𝑃(𝐵) 𝑃(𝐵) 0.85

Επειδή 𝐴 ⊆ 𝐵 𝜏ό𝜏𝜀 𝐴 ∩ 𝐵 = 𝐴 𝜅𝛼𝜄 𝑃(𝐴𝐵) = 𝑃(𝐴)

9. Από επτά όμοια κλειδιά ένα μόνο ανοίγει μια κλειδαριά. Δοκιμάζουμε χωρίς
επανάθεση ένα-ένα τα κλειδιά μέχρι να ανοίξει η κλειδαριά. Ποια η πιθανότητα να
συμβεί αυτό στην τρίτη δοκιμή; Γενικότερα στην κ δοκιμή; (όπου κ = 1, 2, 3, 4, 5,
6, 7).

Έστω 𝐴𝑖 ={η κλειδαριά ανοίγει στην i δοκιμή} 𝑖 = 1,2, … ,7


Η πιθανότητα να ανοίξει η κλειδαριά στην τρίτη δοκιμή είναι:
6 5 1 1
𝑃(𝐴′1 𝐴′ 2 𝐴3 ) = 𝑃(𝐴′1 ) ∙ 𝑃(𝐴′ 2 / 𝐴′1 ) ∙ 𝑃(𝐴3 / 𝐴′1 𝐴′ 2 ) = ∙ ∙ =
7 6 5 7

Για κάθε δοκιμή κ = 1, 2, 3, 4, 5, 6, 7 προκύπτει η ίδια πιθανότητα 1⁄7.

10. Σε ένα αγρόκτημα υπάρχουν 10 κουνέλια από τα οποία τα 3 είναι θηλυκά. Για τον
έλεγχο του πληθυσμού των κουνελιών κρίθηκε σκόπιμο να απομακρυνθούν δύο
από τα θηλυκά. Έτσι στήθηκε μια παγίδα όπου πιάνονταν τα κουνέλια το ένα μετά
το άλλο, έως ότου πιαστούν δύο θηλυκά. Ποια η πιθανότητα να συμβεί αυτό, όταν
πιαστεί το τέταρτο στη σειρά κουνέλι.

Έστω 𝐴𝑖 ={το ενδεχόμενο να πιάνεται θηλυκό κουνέλι στην i προσπάθεια}


𝑖 = 1, 2, 3, 4
Τότε η ζητούμενη πιθανότητα είναι:

10
𝑃(𝐴′1 𝐴′ 2 𝐴3 𝐴4 ∪ 𝐴′1 𝐴2 𝐴′ 3 𝐴4 ∪ 𝐴1 𝐴′ 2 𝐴′ 3 𝐴4 ) =
= 𝑃(𝐴′1 𝐴′ 2 𝐴3 𝐴4 ) + 𝑃(𝐴′1 𝐴2 𝐴′ 3 𝐴4 ) + 𝑃(𝐴1 𝐴′ 2 𝐴′ 3 𝐴4 )
= 𝑃(𝐴′1 ) ∙ 𝑃(𝐴′ 2 ⁄𝐴′1 ) ⋅ 𝑃(𝐴3 ⁄𝐴′1 𝐴′ 2 ) ⋅ 𝑃(𝐴4 ⁄𝐴′1 𝐴′ 2 𝐴3 )
+ 𝑃(𝐴′1 ) ∙ 𝑃(𝐴2 ⁄𝐴′1 ) ⋅ 𝑃(𝐴′ 3 ⁄𝐴′1 𝐴2 ) ⋅ 𝑃(𝐴4 ⁄𝐴′1 𝐴2 𝐴′ 3 )
+ 𝑃(𝐴1 ) ∙ 𝑃(𝐴′ 2 ⁄𝐴1 ) ⋅ 𝑃(𝐴′ 3 ⁄𝐴1 𝐴′ 2 ) ⋅ 𝑃(𝐴4 ⁄𝐴1 𝐴′ 2 𝐴′ 3 ) =
7 6 3 2 7 3 6 2 3 7 6 2
= ∙ ∙ ∙ + ∙ ∙ ∙ + ∙ ∙ ∙ =
10 9 8 7 10 9 8 7 10 9 8 7
= 0.05 + 0.05 + 0.05 = 0.15

11. Μια οικογένεια έχει τρία παιδιά. Ζητούνται οι πιθανότητες των ενδεχομένων:
Ε1 = { Το 1ο παιδί είναι κορίτσι}
Ε2 = { Στα δύο πρώτα παιδιά τουλάχιστον ένα είναι κορίτσι}
Ε3 = { Τα δύο πρώτα παιδιά είναι του ίδιου φύλου}
Επίσης να βρεθούν οι δεσμευμένες πιθανότητες: Ρ(Ε1 / Ε2), Ρ(Ε3 / Ε1), Ρ(Ε2 / Ε1)
και να εξεταστεί εάν τα Ε1, Ε2, Ε3 είναι ανεξάρτητα ενδεχόμενα.

Ο δειγματικός χώρος έχει 23 = 8 σημεία:


𝛺 ={𝛫𝛫𝛫, 𝛫𝛫𝛢, 𝛢𝛫𝛫, 𝛫𝛢𝛫, 𝛢𝛢𝛫, 𝛢𝛫𝛢, 𝛫𝛢𝛢, 𝛢𝛢𝛢}
𝑃(𝐸1 ) = 4⁄8 = 0.5, 𝑃(𝐸2 ) = 6⁄8 = 0.75, 𝑃(𝐸3 ) = 4⁄8 = 0.5
και
𝑃(𝐸1 𝐸2 ) 𝑃(𝐸1 ) 4⁄8
𝑃(𝐸1 ⁄𝐸2 ) = = = = 2⁄3
𝑃(𝐸2 ) 𝑃(𝐸2 ) 6⁄8

𝑃(𝐸3 𝐸1 ) 2⁄8
𝑃(𝐸3 ⁄𝐸1 ) = = = 1⁄2
𝑃(𝐸1 ) 4⁄8

𝑃(𝐸2 𝐸1 ) 4⁄8
𝑃(𝐸2 ⁄𝐸1 ) = = =1
𝑃(𝐸1 ) 4⁄8

Τα Ε1, Ε2, Ε3 είναι ανεξάρτητα ενδεχόμενα εάν ισχύουν και οι 4 επόμενες σχέσεις:

i) 𝑃(𝐸1 𝐸2 ) = 𝑃(𝐸1 ) ⋅ 𝑃(𝐸2 )

ii) 𝑃(𝐸1 𝐸3 ) = 𝑃(𝐸1 ) ⋅ 𝑃(𝐸3 )

iii) 𝑃(𝐸2 𝐸3 ) = 𝑃(𝐸2 ) ⋅ 𝑃(𝐸3 )

iv) 𝑃(𝐸1 𝐸2 𝐸3 ) = 𝑃(𝐸1 ) ⋅ 𝑃(𝐸2 ) ⋅ 𝑃(𝐸3 )

11
Επειδή όμως 𝑃(𝐸1 𝐸2 ) = 4⁄8 𝜅𝛼𝜄 𝑃(𝐸1 ) ⋅ 𝑃(𝐸2 ) = 4⁄8 × 6⁄8 = 6⁄16 τα Ε1,
Ε2, Ε3 δεν είναι ανεξάρτητα ενδεχόμενα.

12. Σε κάποιο εργαστήριο υπάρχουν 3 φάρμακα Φ1, Φ2, Φ3 που έχουν όμοια εμφάνιση.
Υπάρχουν 2 φιάλες με το φάρμακο Φ1, 3 φιάλες με το φάρμακο Φ2, 1 φιάλη με το
Φ3 και κάποιος ξεκόλλησε τις αντίστοιχες ετικέτες από τις φιάλες. Αν κάνουμε
ένεση σε ινδικά χοιρίδια, τότε αναπτύσσεται μια αντιτοξίνη σε ποσοστό 25% αν
χρησιμοποιηθεί το φάρμακο Φ1, 12% αν χρησιμοποιηθεί το Φ2 και 30% αν
χρησιμοποιηθεί το Φ3. Παίρνουμε τυχαία μια φιάλη και κάνουμε ένεση σε ένα
ινδικό χοιρίδιο. i) Ποια η πιθανότητα να αναπτυχθεί αντιτοξίνη στο χοιρίδιο, ii) Αν
διαπιστωθεί ότι στο ινδικό χοιρίδιο αναπτύχθηκε αντιτοξίνη, ποια η πιθανότητα να
πήραμε το φάρμακο Φ1, iii) Αν δεν αναπτύχθηκε αντιτοξίνη, ποια η πιθανότητα να
κάναμε ένεση με το φάρμακο Φ2.

Ορίζουμε τα ενδεχόμενα:
Α = {αναπτύσσεται αντιτοξίνη στο χοιρίδιο}
𝐵𝑖 = {γίνεται ένεση με το φάρμακο Φi}, i=1, 2, 3

𝑃(𝐵1 ) = 2⁄6 , 𝑃(𝐵2 ) = 3⁄6, 𝑃(𝐵3 ) = 1⁄6,


𝑃(𝐴⁄𝐵1 ) = 0.25, 𝑃(𝐴⁄𝐵2 ) = 0.12, 𝑃(𝐴⁄𝐵3 ) = 0.30

𝑃(𝐴) = 𝑃(𝐴𝐵1 ∪ 𝐴𝐵2 ∪ 𝐴𝐵3 ) = 𝑃(𝐴𝐵1 ) + 𝑃(𝐴𝐵2 ) + 𝑃(𝐴𝐵3 ) =


= 𝑷(𝑨⁄𝑩𝟏 ) 𝑷(𝑩𝟏 ) + 𝑷(𝑨⁄𝑩𝟐 ) 𝑷(𝑩𝟐 ) + 𝑷(𝑨⁄𝑩𝟑 ) 𝑷(𝑩𝟑 ) =
= 0.25 × 2⁄6 + 0.12 × 3⁄6 + 0.30 × 1⁄6 = 0.1933 ή 19.33%
ii)
𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 ) 0.25 × 2⁄6
𝑃(𝐵1⁄𝐴) = = = 0.4311 ή 43.11%
𝑃(𝐴) 0.1933

iii) Έστω Α΄ το συμπλήρωμα του ενδεχομένου Α, δηλαδή


Α΄ = {δεν αναπτύσσεται αντιτοξίνη στο χοιρίδιο}

12
τότε 𝑃(𝐴′ ) = 1 − 𝑃(𝐴) = 1 − 0.1933 = 0.8067 και
𝑃(𝐴′ ∕ 𝐵2 ) = 1 − 𝑃(𝐴⁄𝐵 ) = 1 − 0.12 = 0.88

Επομένως η ζητούμενη πιθανότητα είναι:

𝑃(𝐴′⁄𝐵2 ) 𝑃(𝐵2 ) (1 − 0.12) × 3⁄6


𝑃(𝐵2⁄𝐴′) = = = 0.5454 ή 54.54%
𝑃(𝐴′) 1 − 0.1933

13. Το 2% ενός πληθυσμού πάσχει από AIDS. Η εξέταση που εφαρμόζεται για τη
διάγνωση της ασθένειας δίνει σωστή διάγνωση στο 90% των περιπτώσεων, όταν
το εξεταζόμενο άτομο πάσχει από AIDS και στο 95% των περιπτώσεων, όταν δεν
πάσχει από AIDS. Επιλέγεται ένα άτομο τυχαία και υποβάλλεται στην εξέταση. α)
Ποια η πιθανότητα η εξέταση να βγει θετική, δηλαδή να δείξει ότι πάσχει από
AIDS. β) Ποια η πιθανότητα λανθασμένης διάγνωσης. γ) Ποια η πιθανότητα να
πάσχει πράγματι από AIDS ένα άτομο, για το οποίο η εξέταση ήταν θετική. δ) Ποια
είναι η πιθανότητα να είναι υγιές ένα άτομο για το οποίο η εξέταση ήταν θετική.

Ορίζουμε τα ενδεχόμενα:
Α = {το διαγνωστικό τεστ είναι θετικό}
Β = {το άτομο πάσχει από AIDS} Β΄ = {το άτομο δεν πάσχει από AIDS}
Γ = {το τεστ δίνει λάθος διάγνωση}

α) Από το θεώρημα της ολικής πιθανότητας έχουμε:

𝑃(𝐴) = 𝑃(𝐴⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝐴⁄𝛣′) 𝑃(𝛣′) = 0.90 × 0.02 + 0.05 × 0.98 = 0.067

13
β) 𝑃(𝛤) = 𝑃(𝛤 ⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝛤 ⁄𝛣 ′ ) 𝑃(𝛣 ′ ) = 0.10 × 0.02 + 0.05 × 0.98 =

= 0.051 ή 5.1%

γ) Εφαρμόζοντας το θεώρημα του Bayes έχουμε:


𝑃(𝐴⁄𝐵 ) 𝑃(𝐵) 0.90 × 0.02
𝑃(𝐵⁄𝐴) = = = 0.2687
𝑃(𝐴) 0.067

δ)

𝑃(𝐴⁄𝐵′) 𝑃(𝐵′) 0.05 × 0.98


𝑃(𝐵′⁄𝐴) = = = 0.7313
𝑃(𝐴) 0.067

ή 𝑃(𝐵′⁄𝐴) = 1 − 𝑃(𝐵⁄𝐴) = 1 − 0.2687 = 0.7313 ή 73.13%

14. Έστω ένα ζευγάρι, του οποίου η γυναίκα έχει ομάδα αίματος Ο και ο άνδρας έχει
ομάδα αίματος ΑΒ. Είναι γνωστό ότι: i) όταν οι ομάδες αίματος Ο και ΑΒ
διασταυρώνονται, το 50% των απογόνων έχουν ομάδα αίματος Α και το 50% ομάδα
αίματος Β, ii) δίδυμα που προέρχονται από το ίδιο ωάριο έχουν την ίδια ομάδα
αίματος, ενώ δίδυμα από διαφορετικά ωάρια μπορεί να έχουν ίδια ή διαφορετική
ομάδα αίματος, iii) το ένα τέταρτο των διδύμων προέρχεται από το ίδιο ωάριο.
Δεδομένου ότι το ζευγάρι αποκτά δίδυμα αγόρια με ομάδα αίματος Β, ποια η
πιθανότητα τα δίδυμα να προέρχονται από το ίδιο ωάριο;

Τα δίδυμα αγόρια μπορεί να προέρχονται από το ίδιο ωάριο ή από διαφορετικά


ωάρια.

Έστω 𝐵1 ={ τα δίδυμα αγόρια προέρχονται από το ίδιο ωάριο }


𝐵2 ={ τα δίδυμα αγόρια προέρχονται από διαφορετικά ωάρια } και
A = {τα δίδυμα αγόρια έχουν ομάδα αίματος Β}

14
Η ζητούμενη πιθανότητα είναι:
P (τα δίδυμα αγόρια να προέρχονται από το ίδιο ωάριο / τα δίδυμα αγόρια έχουν
ομάδα αίματος Β) = 𝑃(𝐵1 ⁄𝐴)
Από το τύπο του Bayes έχουμε:
𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 )
𝑃(𝐵1⁄𝐴) =
𝑃(𝐴)
Αλλά εφαρμόζοντας τον τύπο της ολικής πιθανότητας βρίσκουμε το 𝑃(𝐴):

𝑃(𝐴) = 𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 ) + 𝑃(𝐴⁄𝐵2 ) 𝑃(𝐵2 )

Από τα ενδεχόμενα του προβλήματος έχουμε:

𝑃(𝐵1 ) = 1⁄4, 𝑃(𝐵2 ) = 3⁄4

𝑃(𝐴⁄𝐵1 ) = 1⁄2 (πιθανές ομάδες αίματος ΒΒ ή ΑΑ για τα δίδυμα που


προέρχονται από το ίδιο ωάριο)

Τα δίδυμα που προέρχονται από διαφορετικά ωάρια, το κάθε ένα θα έχει πιθανότητα
1⁄2 να έχει ομάδα αίματος Β και:
𝑃(𝐴⁄𝐵2 ) = 1⁄2 × 1⁄2 = 1⁄4 (πιθανές ομάδες αίματος ΒΒ, ΑΒ, ΒΑ, ΑΑ για τα
δίδυμα που προέρχονται από διαφορετικά ωάρια)
Επομένως

𝑃(𝐴) = 𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 ) + 𝑃(𝐴⁄𝐵2 ) 𝑃(𝐵2 ) = 1⁄2 × 1⁄4 + 1⁄4 × 3⁄4 = 5⁄16

και

𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 ) 1⁄2 × 1⁄4


𝑃(𝐵1⁄𝐴) = = = 2⁄5 = 0.4 ή 40%
𝑃(𝐴) 5⁄16

15. Σε μια εξέταση δίνονται τέσσερις απαντήσεις σε κάθε ερώτηση και σωστή είναι
μόνο μία από τις τέσσερις. Η πιθανότητα να γνωρίζει ο εξεταζόμενος την απάντηση
μιας ερώτησης είναι 70%. Στις περιπτώσεις που ο εξεταζόμενος δεν γνωρίζει την
απάντηση σε μια ερώτηση, απαντάει εντελώς τυχαία διαλέγοντας μια από τις
τέσσερις που δίδονται. Αν ο εξεταζόμενος απαντήσει σωστά σε μια ερώτηση, ποια
είναι η πιθανότητα να γνώριζε την απάντηση;

Ορίζουμε τα ενδεχόμενα:
Α = {ο εξεταζόμενος απαντά σωστά} και
Β = {ο εξεταζόμενος γνωρίζει την απάντηση}

15
τότε Β΄ = {ο εξεταζόμενος δεν γνωρίζει την απάντηση}
Εφαρμόζοντας το θεώρημα του Bayes έχουμε:
𝑃(𝐴⁄𝐵 )𝑃(𝐵)
𝑃(𝐵⁄𝐴) =
𝑃(𝐴)
Την πιθανότητα 𝑃(𝐴) θα την υπολογίσουμε από το θεώρημα της ολικής
πιθανότητας:
𝑃(𝐴) = 𝑃(𝐴⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝐴⁄𝛣′) 𝑃(𝛣′) = 1 × 0.70 + 0.25 × 0.30 = 0.775
Τότε
𝑃(𝐴⁄𝐵 )𝑃(𝐵) 1 × 0.70
𝑃(𝐵⁄𝐴) = = = 0.9032 ή 90.32%
𝑃(𝐴) 0.775

16. Το 45% του πληθυσμού μιας χώρας είναι καπνιστές. Από μια ασθένεια των
πνευμόνων πάσχει το 80% των καπνιστών και το 30% των μη καπνιστών. α) Ποιο
ποσοστό του πληθυσμού πάσχει από την ασθένεια των πνευμόνων. β) Αν ένα
άτομο από τον πληθυσμό πάσχει από αυτήν την ασθένεια, ποια η πιθανότητα να
είναι καπνιστής. Ερμηνεύστε την πιθανότητα αυτή ως ποσοστό. γ) Τα ενδεχόμενα
«ένα άτομο να είναι καπνιστής» και το «ένα άτομο να πάσχει από τη συγκεκριμένη
ασθένεια» είναι μεταξύ τους ανεξάρτητα ή εξαρτημένα ενδεχόμενα;

Ορίζουμε τα ενδεχόμενα:
𝛢 = {το άτομο πάσχει από ασθένεια των πνευμόνων}
𝛣 = {το άτομο είναι καπνιστής} τότε 𝛣 ′ = {το άτομο δεν είναι καπνιστής}
α) 𝑃(𝐴) = 𝑃(𝐴⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝐴⁄𝛣′) 𝑃(𝛣′) = 0.80 × 0.45 + 0.30 × 0.55 =
= 0.525 ή 52.5%
β)
𝑃(𝐴⁄𝐵 )𝑃(𝐵) 0.80 × 0.45
𝑃(𝐵⁄𝐴) = = = 0.6857 ή 68.57%
𝑃(𝐴) 0.525
γ) Τα ενδεχόμενα Α και Β είναι ανεξάρτητα εάν: 𝑃(𝐴𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
Αλλά 𝑃(𝐴𝐵) = 𝑃(𝐴⁄𝐵 )𝑃(𝐵)= 0.80 × 0.45 = 0.36 ,
𝑃(𝐴) = 0.525, 𝑃(𝐵) = 0.45
Επομένως 𝑃(𝐴𝐵) ≠ 𝑃(𝐴) ⋅ 𝑃(𝐵) και τα ενδεχόμενα 𝛢 και 𝛣 είναι εξαρτημένα
ενδεχόμενα.

16
Τυχαίες μεταβλητές
Τυχαία μεταβλητή (τ.μ.) λέγεται κάθε συνάρτηση που απεικονίζει το σύνολο των
δυνατών αποτελεσμάτων ενός πειράματος τύχης στο σύνολο των πραγματικών αριθμών.

Οι τυχαίες μεταβλητές συμβολίζονται με τα κεφαλαία γράμματα X, Y, Z,…., ενώ οι τιμές


που παίρνουν με τα μικρά γράμματα 𝑥1 , 𝑥2 , … , 𝑥𝜈 ή 𝑦1 , 𝑦2 , … , 𝑦𝜈 ή 𝑧1 , 𝑧2 , … , 𝑧𝑘 . Διακρίνονται
σε ποιοτικές όταν εκφράζουν ποιοτικά χαρακτηριστικά ενός πληθυσμού (π.χ. το χρώμα των
ανθέων ενός φυτού, το φύλο, η εθνικότητα, το επάγγελμα ενός ατόμου, κ.λ.π.) και ποσοτικές όταν
μπορούν να μετρηθούν (π.χ. το ύψος ενός φυτού, ο αριθμός των σπόρων, το βάρος ενός ζώου,
κ.λ.π.).
Επίσης μια τυχαία μεταβλητή μπορεί να είναι διακριτή (ή απαριθμητή) εάν το σύνολο
των τιμών της είναι πεπερασμένο ή απείρως αριθμήσιμο ή συνεχής εάν παίρνει τιμές σε ένα
υποσύνολο των πραγματικών αριθμών, δηλαδή σε ένα διάστημα (𝛼, 𝛽) με −∞ ≤ 𝛼 < 𝛽 ≤ ∞. Το
πλήθος των βακτηριδίων στη δειγματοληπτική πλάκα, ο αριθμός των γεννήσεων ή των θανάτων
που συμβαίνουν σε μια κτηνοτροφική μονάδα, ο αριθμός των ημερών βροχής σε έναν μήνα ή σε
ένα έτος σε μια συγκεκριμένη περιοχή είναι διακριτές τ.μ., ενώ ο χρόνος λειτουργίας ενός
λαμπτήρα, το ύψος, το βάρος, η θερμοκρασία είναι συνεχείς τ.μ.
Αν η τυχαία μεταβλητή Χ είναι διακριτή, τότε η συνάρτηση με πεδίο ορισμού τις τιμές
που παίρνει η τ.μ. Χ και πεδίο τιμών τις πιθανότητες των τιμών αυτών λέγεται συνάρτηση
πιθανότητας της τ.μ. Χ, συμβολίζεται με 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) και έχει τις εξής ιδιότητες:

i) 𝒑(𝒙) ≥ 𝟎, για κάθε 𝒙,

ii) ∑𝒙 𝒑(𝒙) = 𝟏

Αν η τυχαία μεταβλητή Χ είναι συνεχής, τότε υπάρχει μια μη αρνητική συνάρτηση 𝑓(𝑥),
τέτοια ώστε:

𝑃(𝑋 ∈ 𝐴) = ∫ 𝑓(𝑥)𝑑𝑥
𝐴

1
για κάθε διάστημα Α του πεδίου τιμών της Χ , τότε η 𝑓(𝑥) λέγεται συνάρτηση πυκνότητας
πιθανότητας και έχει τις εξής ιδιότητες:

i) 𝒇(𝒙) ≥ 𝟎, για κάθε 𝒙 ∈ 𝓡



ii) ∫−∞ 𝒇(𝒙)𝒅𝒙 = 𝟏

Εάν Χ μία τυχαία μεταβλητή, τότε η μέση ή αναμενόμενη τιμή της τ.μ. Χ συμβολίζεται
με 𝑬(𝑿) ή 𝑬𝑿 ή μ και ορίζεται από τη σχέση:

∑ 𝑥 ∙ 𝑝(𝑥) 𝜀ά𝜈 𝜂 𝜏. 𝜇. 𝛸 𝜀ί𝜈𝛼𝜄 𝛿𝜄𝛼𝜅𝜌𝜄𝜏ή


𝑥
𝐸(𝑋) = ∞

∫ 𝑥 ∙ 𝑓(𝑥)𝑑𝑥 𝜀ά𝜈 𝜂 𝜏. 𝜇. 𝛸 𝜀ί𝜈𝛼𝜄 𝜎𝜐𝜈𝜀𝜒ή𝜍


{−∞

Γενικότερα μέση ή αναμενόμενη τιμή της 𝑔(𝑋) ορίζεται η:

∑ 𝑔(𝑥) ∙ 𝑝(𝑥) 𝜀ά𝜈 𝜂 𝜏. 𝜇. 𝛸 𝜀ί𝜈𝛼𝜄 𝛿𝜄𝛼𝜅𝜌𝜄𝜏ή


𝑥
𝐸𝑔(𝑋) = ∞

∫ 𝑔(𝑥) ∙ 𝑓(𝑥)𝑑𝑥 𝜀ά𝜈 𝜂 𝜏. 𝜇. 𝛸 𝜀ί𝜈𝛼𝜄 𝜎𝜐𝜈𝜀𝜒ή𝜍


{−∞

Εάν Χ μία τυχαία μεταβλητή, τότε η διασπορά ή διακύμανση της τ.μ. Χ συμβολίζεται με
𝑽𝒂𝒓(𝑿) ή 𝑽(𝑿) ή 𝝈𝟐 και ορίζεται από τη σχέση:

∑(𝑋 − 𝜇)2 ∙ 𝑝(𝑥) 𝜀ά𝜈 𝜂 𝜏. 𝜇. 𝛸 𝜀ί𝜈𝛼𝜄 𝛿𝜄𝛼𝜅𝜌𝜄𝜏ή


𝑥
2
𝑉(𝑋) = 𝐸(𝑋 − 𝜇) = ∞

∫ (𝑋 − 𝜇)2 ∙ 𝑓 (𝑥)𝑑𝑥 𝜀ά𝜈 𝜂 𝜏. 𝜇. 𝛸 𝜀ί𝜈𝛼𝜄 𝜎𝜐𝜈𝜀𝜒ή𝜍


{−∞

Ιδιότητα (για τον υπολογισμό) της διασποράς:

𝑽(𝑿) = 𝑬(𝑿𝟐 ) − [𝑬(𝑿)]𝟐

2
Η τυπική απόκλιση της τ.μ. 𝛸 συμβολίζεται με 𝜎(𝛸) και ορίζεται από τη σχέση:

𝜎(𝛸) = √𝑉(𝑋)

Η μέση ή αναμενόμενη τιμή μιας τ.μ. Χ είναι κατά κάποιο τρόπο το κέντρο της
πιθανότητας της Χ (αντίστοιχο του κέντρου βάρους) και δίνει το σημείο εκείνο γύρω από το οποίο
παίρνει τιμές η τ.μ. Χ. Υπολογίζεται εύκολα, είναι εύχρηστη, αλλά έχει το μειονέκτημα να
επηρεάζεται από ακραίες τιμές. Η διασπορά ή διακύμανση είναι ένας δείκτης που μας λέει πόσο
συγκεντρωμένες είναι οι τιμές της τ.μ. Χ γύρω από τη μέση τιμή. Αν η διασπορά είναι μικρή, τότε
οι τιμές της Χ κυμαίνονται γύρω τη μέση τιμή, ενώ αν η διασπορά είναι μεγάλη τότε υπάρχουν
μεγάλες αποκλίσεις από τη μέση τιμή.

Παράδειγμα: Σε ένα δοχείο υπάρχουν 4 άσπρες και 3 κόκκινες σφαίρες. Παίρνουμε χωρίς
επανάθεση μία-μία τρεις σφαίρες. i) Να βρεθεί η συνάρτηση πιθανότητας της τ.μ. Χ, που ορίζεται
ως εξής: 𝑋 = { ο αριθμός των κόκκινων σφαιρών που επιλέγονται} ii) Να βρεθεί η μέση τιμή και
η τυπική απόκλιση της τ.μ. Χ.

i) Η τ.μ. Χ παίρνει τις τιμές 𝛸 = 0, 1, 2, 3 με τις αντίστοιχες πιθανότητες:

4! 3!
𝜀𝜐𝜈𝜊𝜄𝜅έ𝜍 𝜋𝜀𝜌𝜄𝜋𝜏ώ𝜎𝜀𝜄𝜍 (43)(30) 3! 1! ∙ 0! 3! 4
𝑃(𝑋 = 0) = = 7 = =
𝛿𝜐𝜈𝛼𝜏έ𝜍 𝜋𝜀𝜌𝜄𝜋𝜏ώ𝜎𝜀𝜄𝜍 (3) 7! 35
3! 4!
4! 3!
(42)(31)
2! 2! ∙ 1! 2! 6 ∙ 3 18
𝑃(𝑋 = 1) = 7 = = =
(3) 7! 35 35
3! 4!
4! 3!
(41)(32)
1! 3! ∙ 2! 1! 4 ∙ 3 12
𝑃(𝑋 = 2) = 7 = = =
(3) 7! 35 35
3! 4!
4! 3!
(40)(33)
0! 4! ∙ 3! 0! 1 ∙ 1 1
𝑃(𝑋 = 3) = 7 = = =
(3) 7! 35 35
3! 4!
Επομένως η συνάρτηση πιθανότητας της διακριτής τ.μ. Χ είναι:

𝑥 0 1 2 3
𝑝(𝑥) 4⁄35 18⁄35 12⁄35 1⁄35

3
ii) Μέση τιμή της τ.μ. Χ:

𝐸(𝑋) = ∑ 𝑥 ∙ 𝑝(𝑥) = 0 ∙ 4⁄35 + 1 ∙ 18⁄35 + 2 ∙ 12⁄35 + 3 ∙ 1⁄35 = 45⁄35 = 1.29


𝑥

Για τον υπολογισμό της τυπικής απόκλισης θα πρέπει πρώτα να υπολογίσουμε τη διασπορά της
Χ. Θα την υπολογίσουμε χρησιμοποιώντας την ιδιότητα:

𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)]2 όμως:

𝐸(𝑋 2 ) = ∑ 𝑥 2 ∙ 𝑝(𝑥) = 02 ∙ 4⁄35 + 12 ∙ 18⁄35 + 22 ∙ 12⁄35 + 32 ∙ 1⁄35 = 75⁄35


𝑥

Επομένως:

75 45 2
𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)]2 = − ( ) = 0.49
35 35

𝜎(𝛸) = √𝑉(𝑋) = √0.49 = 0.7 η τυπική απόκλιση της Χ.

Λύσεις ασκήσεων από το φυλλάδιο 5 – Ασκήσεις σε Τυχαίες Μεταβλητές και Κατανομές

1. Μια διακριτή τυχαία μεταβλητή Χ έχει συνάρτηση πιθανότητας

𝑥 0 1 2 3 4
𝑝(𝑥) 1⁄16 4⁄16 6⁄16 𝑐 1⁄16

Να βρεθούν η σταθερά c, η πιθανότητα 𝑃(0 ≤ 𝑋 < 3), η δεσμευμένη πιθανότητα


𝑃(𝑋 ≥ 3⁄1 < 𝑋 < 4), η μέση τιμή 𝐸(𝑋) και η διασπορά 𝑉(𝑋) της 𝑋.

Σύμφωνα με την ιδιότητα της συνάρτησης πιθανότητας έχουμε:

∑ 𝑝(𝑥) = 1 ⇒ 𝑝(0) + 𝑝(1) + ⋯ + 𝑝(4) = 1 ⇒ 1⁄16 + 4⁄16 + 6⁄16 + 𝑐 + 1⁄16 = 1


𝑥
⇒ 12⁄16 + 𝑐 = 1 ⇒ 𝒄 = 𝟒⁄𝟏𝟔 και 𝒑(𝟑) = 𝟒⁄𝟏𝟔

𝑃(0 ≤ 𝑋 < 3) = 𝑝(0) + 𝑝(1) + 𝑝(2) = 1⁄16 + 4⁄16 + 6⁄16 = 11⁄16

4
Για τον υπολογισμό της δεσμευμένης πιθανότητας που ακολουθεί υπενθυμίζουμε ότι:
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) =
𝑃(𝐵)
Επομένως:
𝑃((𝑋 ≥ 3) ∩ (1 < 𝑋 < 4)) 𝑝(3) 4⁄16 2
𝑃(𝑋 ≥ 3⁄1 < 𝑋 < 4) = = = =
𝑃(1 < 𝑋 < 4) 𝑝(2) + 𝑝(3) 6⁄16 + 4⁄16 5

καθώς: 𝑋 ≥ 3 = {3, 4}, 1 < 𝑋 < 4 = {2, 3}, επομένως (𝑋 ≥ 3) ∩ (1 < 𝑋 < 4) = {3}

𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑝(𝑥) = 0 ⋅ 𝑝(0) + 1 ⋅ 𝑝(1) + ⋯ + 4 ⋅ 𝑝(4) = 0 ⋅ 1⁄16 + 1 ⋅ 4⁄16 + ⋯ + 4 ⋅ 1⁄16


𝑥
=2

𝑉(𝑋) = 𝐸(𝑋 − 𝜇)2 = ∑𝑥(𝑥 − 𝜇)2 ⋅ 𝑝(𝑥) ή 𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)2 ]

Αλλά
𝐸(𝑋 2 ) = ∑ 𝑥 2 ⋅ 𝑝(𝑥) = 02 ⋅ 𝑝(0) + 12 ⋅ 𝑝(1) + ⋯ + 42 ⋅ 𝑝(4) = 5
𝑥

Τότε 𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)2 ] = 5 − 22 = 1

2. Μια διακριτή τυχαία μεταβλητή Χ έχει συνάρτηση πιθανότητας

𝑥 10 20 30 40 50
𝑝(𝑥) 𝑐 ⁄8 𝑐 ⁄2 3𝑐 ⁄4 𝑐 ⁄2 𝑐 ⁄8

Αφού υπολογιστεί η σταθερά c, να βρεθούν οι πιθανότητες 𝑃(𝑋 = 40),


𝑃(𝑋 ≥ 30⁄𝛸 < 40), καθώς επίσης και η μέση τιμή 𝐸(𝑋) και η διασπορά 𝑉(𝑋) της 𝑋.

Σύμφωνα με την ιδιότητα της συνάρτησης πιθανότητας έχουμε:

∑ 𝑝(𝑥) = 1 ⇒ 𝑝(10) + 𝑝(20) + ⋯ + 𝑝(50) = 1 ⇒ 𝑐 ⁄8 + 𝑐 ⁄2 + 3𝑐 ⁄4 + 𝑐 ⁄2 + 𝑐⁄8 = 1


𝑥
⇒ 2𝑐 = 1 ⇒ 𝑐 = 1⁄2

Τότε η συνάρτηση πιθανότητας είναι:

𝑥 10 20 30 40 50
𝑝(𝑥) 1⁄16 4⁄16 6⁄16 4⁄16 1⁄16

5
Επομένως 𝑃(𝑋 = 40) = 4⁄16

𝑃(𝑋 ≥ 30 ∩ 𝑋 < 40) 𝑃(𝑋 = 30)


𝑃(𝑋 ≥ 30⁄𝑋 < 40) = =
𝑃(𝑋 < 40) 𝑃(𝑋 = 10) + 𝑃(𝑋 = 20) + 𝑃(𝑋 = 30)

6⁄16 6⁄16 6
= = =
1⁄16 + 4⁄16 + 6⁄16 11⁄16 11

{𝑋 ≥ 30 ∩ 𝑋 < 40} = {𝑋 = 30} καθώς 𝑋 ≥ 30 = {30, 40, 50}, 𝑋 < 40 = {10, 20, 30}

𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑝(𝑥) = 10 ⋅ 𝑝(10) + 20 ⋅ 𝑝(20) + ⋯ + 50 ⋅ 𝑝(50) =


𝑥
= 10 ⋅ 1⁄16 + 20 ⋅ 4⁄16 + 30 ⋅ 6⁄16 + 40 ⋅ 4⁄16 + 50 ⋅ 1⁄16 = 30

𝑉(𝑋) = 𝐸(𝑋 − 𝜇)2 = ∑𝑥(𝑥 − 𝜇)2 ⋅ 𝑝(𝑥) ή 𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)2 ]

Αλλά
𝐸(𝑋 2 ) = ∑ 𝑥 2 ⋅ 𝑝(𝑥) = 102 ⋅ 𝑝(10) + 202 ⋅ 𝑝(20) + ⋯ + 502 ⋅ 𝑝(50) =
𝑥
= 100 ⋅ 1⁄16 + 400 ⋅ 4⁄16 + ⋯ + 2500 1⁄16 = 1000

Τότε 𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)2 ] = 1000 − 302 = 100 η διασπορά της 𝑋.

και 𝜎(𝛸) = √𝑉(𝑋) = √100 =10 η τυπική απόκλιση της 𝑋.

3. Ο αριθμός των προσκλήσεων ενός κτηνιάτρου από μια κτηνοτροφική μονάδα ανά μήνα είναι
διακριτή τυχαία μεταβλητή Χ με συνάρτηση πιθανότητας:

x 0 1 2 3 4 5
p (x) 0.1 0.4 0.2 c 0.1 0.05

α) Βρείτε την πιθανότητα ο κτηνίατρος σε ένα μήνα να προσκληθεί από την κτηνοτροφική μονάδα
3 φορές ακριβώς.
β) Βρείτε την πιθανότητα ο κτηνίατρος σε ένα μήνα να προσκληθεί από την κτηνοτροφική μονάδα
το πολύ 3 φορές, όταν είναι γνωστό ότι προσκλήθηκε τουλάχιστον μία φορά.
γ) Βρείτε τη μέση τιμή και τη διασπορά της X .

6
α)
∑ 𝑝(𝑥) = 1 ⇒ 𝑝(0) + 𝑝(1) + ⋯ + 𝑝(5) = 1 ⇒ 0.1 + 0.4 + 0.2 + 𝑐 + 0.1 + 0.05 = 1
𝑥
⇒ 0.85 + 𝑐 = 1 ⇒ 𝒄 = 𝟎. 𝟏𝟓 και 𝒑(𝟑) = 𝟎. 𝟏𝟓

β)
𝑃(𝑋 ≤ 3 ∩ 𝑋 ≥ 1) 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3)
𝑃(𝑋 ≤ 3⁄𝑋 ≥ 1) = =
𝑃(𝑋 ≥ 1) 1 − 𝑃(𝑋 = 0)

0.4 + 0.2 + 0.15 0.75


= = = 0.833
1 − 0.1 0.9

καθώς 𝑋 ≤ 3 = {0, 1, 2, 3}, 𝑋 ≥ 1 = {1, 2, 3, 4, 5} επομένως (𝑋 ≤ 3 ∩ 𝑋 ≥ 1) = {1, 2, 3}

𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑝(𝑥) = 0 ⋅ 𝑝(0) + 1 ⋅ 𝑝(1) + ⋯ + 5 ⋅ 𝑝(5) =


𝑥
= 0 ⋅ 0.1 + 1 ⋅ 0.4 + 2 ⋅ 0.2 + 3 ⋅ 0.15 + 4 ⋅ 0.1 + 5 ⋅ 0.05 = 1.9

𝑉(𝑋) = 𝐸(𝑋 − 𝜇)2 = ∑𝑥(𝑥 − 𝜇)2 ⋅ 𝑝(𝑥) ή 𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)2 ]

Αλλά
𝐸(𝑋 2 ) = ∑ 𝑥 2 ⋅ 𝑝(𝑥) = 02 ⋅ 𝑝(0) + 12 ⋅ 𝑝(1) + ⋯ + 52 ⋅ 𝑝(5) = 02 ⋅ 0.1 + 12 ⋅ 0.4
𝑥
+ 22 ⋅ 0.2 + 32 ⋅ 0.15 + 42 ⋅ 0.1 + 52 ⋅ 0.05 = 5.4

Τότε 𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)2 ] = 5.4 − 1.92 = 1.79 η διασπορά της 𝑋 .

7
Κατανομές τυχαίων μεταβλητών
Κανονική κατανομή

Η κανονική κατανομή θεωρείται η σπουδαιότερη κατανομή της Θεωρίας Πιθανοτήτων και


της Στατιστικής, καθώς τα περισσότερα φαινόμενα περιγράφονται ικανοποιητικά από μεταβλητές
που ακολουθούν την κανονική κατανομή ή κάτω από προϋποθέσεις οι περισσότερες κατανομές
μπορούν να προσεγγιστούν ικανοποιητικά από την κανονική κατανομή. Έχει μοναδικές
μαθηματικές, πιθανοθεωρητικές και στατιστικές ιδιότητες, οι οποίες αξιοποιούνται στη
στατιστική συμπερασματολογία. Αποτελεί τη θεμελιώδη κατανομή για τη στατιστική
συμπερασματολογία.

Η κανονική κατανομή 𝛮(𝜇, 𝜎) έχει συνάρτηση πυκνότητας πιθανότητας:

1 (𝑥−𝜇)2

𝑓(𝑥) = 𝑒 2𝜎2 − ∞ < 𝑥 < +∞, − ∞ < 𝜇 < +∞, 𝜎>0
𝜎√2𝜋

όπου μ και σ είναι οι παράμετροι της κατανομής, για τις οποίες ισχύει:

𝐸(𝑋) = 𝜇, 𝑉𝑎𝑟(𝑋) = 𝜎 2 , και 𝜎(𝛸) = 𝜎

Γραφικές παραστάσεις κανονικής κατανομής για διαφορετικές τιμές των παραμέτρων 𝜇 και 𝜎 2 .

Ειδική περίπτωση της κανονικής κατανομής είναι η τυπική κανονική κατανομή Ν(0, 1) με μέση
τιμή 𝜇 = 0, τυπική απόκλιση 𝜎 = 1 και συνάρτηση πυκνότητας πιθανότητας:

1 𝑧2
𝑓(𝑧) = 𝑒− 2 − ∞ < 𝑧 < +∞,
√2𝜋

1
Γραφική παράσταση της τυπικής κανονικής κατανομής Ν(0, 1).

Η κανονική κατανομή έχει την ιδιότητα να τυποποιείται. Δηλαδή:


Αν η τυχαία μεταβλητή Χ ακολουθεί κανονική κατανομή Ν(μ, σ), τότε η τυχαία μεταβλητή

𝑿−𝝁
𝒁= (𝟏)
𝝈
ακολουθεί την τυπική κανονική κατανομή Ν(0, 1).

Η ιδιότητα αυτή είναι ιδιαίτερα ενδιαφέρουσα διότι υπάρχουν πίνακες που δίνουν την πιθανότητα
𝑥
1 𝑥2
𝑃(𝑍 ≤ 𝑧) = 𝛷(𝑧) = 𝑓(𝑧) = ∫ 𝑒 − 2 𝑑𝑥
√2𝜋
−∞

𝑃(𝛧 ≤ 𝛼) = 𝛷(𝛼) 𝑃(𝛧 ≥ 𝛼) = 1 − 𝑃(𝑍 < 𝑎) = 1 − 𝛷(𝛼)

2
𝑃(𝛼 ≤ 𝑍 ≤ 𝛽) = 𝛷(𝛽) − 𝛷(𝛼) 𝛷(−𝛼) = 1 − 𝛷(𝛼)

Με βάση την ιδιότητα (1) που μετατρέπει οποιαδήποτε κανονική κατανομή Ν(μ, σ) στην τυπική
κανονική κατανομή Ν(0, 1), τις παρακάτω σχέσεις και τον πίνακα της τυπικής κανονικής
κατανομής (σελ. 19) μπορούμε να υπολογίσουμε πιθανότητες οποιασδήποτε κανονικής
κατανομής Ν(μ, σ) σε οποιοδήποτε διάστημα (α, β) (άσκηση 5, σελ. 6):
i) 𝑷(𝜡 ≤ 𝜶) = 𝜱(𝜶)
ii) 𝑷(𝜡 ≥ 𝜶) = 𝟏 − 𝜱(𝜶)
iii) 𝑷(𝜶 ≤ 𝒁 ≤ 𝜷) = 𝜱(𝜷) − 𝜱(𝜶)
iv) 𝜱(−𝜶) = 𝟏 − 𝜱(𝜶)

Πρόταση: Αν 𝛸1 , 𝛸2 , … , 𝛸𝜈 ανεξάρτητες τυχαίες μεταβλητές που ακολουθούν κανονική


κατανομή με μέση τιμή μ και τυπική απόκλιση σ, δηλαδή 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … , 𝜈 τότε:

𝑆𝜈 = 𝛸1 + 𝛸2 + ⋯ + 𝛸𝜈 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈) 𝜅𝛼𝜄


𝑖=1

𝑋1 + 𝑋2 + ⋯ + 𝑋𝜈 𝜎
𝑋̅ = ~ 𝑁 (𝜇, )
𝜈 √𝜈
Κεντρικό Οριακό Θεώρημα

Αν 𝛸1 , 𝛸2 , … , 𝛸𝜈 ανεξάρτητες τυχαίες μεταβλητές που ακολουθούν την ίδια κατανομή με μέση


τιμή 𝐸(𝑋𝑖 ) = 𝜇, 𝛿𝜄𝛼𝜎𝜋𝜊𝜌ά 𝑉𝑎𝑟(𝑋𝑖 ) = 𝜎 2 𝜅𝛼𝜄 𝜏𝜐𝜋𝜄𝜅ή 𝛼𝜋ό𝜅𝜆𝜄𝜎𝜂 𝜎(𝑋𝑖 ) = 𝜎, τότε για μεγάλα ν
(θεωρητικά για ν⟶ ∞), κατά προσέγγιση έχουμε:

𝜈
𝑋1 + 𝑋2 + ⋯ + 𝑋𝜈 𝜎
𝑋̅ = ~ 𝑁 (𝜇, ) 𝜅𝛼𝜄 𝑆𝜈 = 𝛸1 + 𝛸2 + ⋯ + 𝛸𝜈 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈)
𝜈 √𝜈 𝑖=1

3
Διωνυμική κατανομή 𝑩(𝝂, 𝒑)

Εκτελούμε ένα πείραμα με δύο δυνατά αποτελέσματα. Το ένα το θεωρούμε ως επιτυχία και το
άλλο ως αποτυχία. Έστω p η πιθανότητα επιτυχίας, τότε 1 − 𝑝 είναι η πιθανότητα αποτυχίας. Το
πείραμα εκτελείται ν φορές. Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών
στις ν επαναλήψεις του πειράματος. Τότε θα λέμε ότι η τ.μ. Χ ακολουθεί διωνυμική κατανομή,
𝑿~𝑩(𝝂, 𝒑) και η πιθανότητα να έχουμε x επιτυχίες δίνεται από τη σχέση:

𝝂
(𝑿 = 𝒙) = ( ) 𝒑𝒙 (𝟏 − 𝒑)𝝂−𝒙 , 𝒙 = 𝟎, 𝟏, 𝟐, … , 𝝂
𝒙
Η μέση τιμή, η διασπορά και η τυπική απόκλιση της διωνυμικής κατανομής δίνονται από τις σχέσεις:

𝑬(𝑿) = 𝝁 = 𝝂𝒑 , 𝑽𝒂𝒓(𝑿) = 𝝈𝟐 = 𝝂𝒑(𝟏 − 𝒑) και 𝝈 = √𝝂𝒑(𝟏 − 𝒑) .

Παράδειγμα: Μια μεγάλη ποσότητα μήλων περιέχει 2% χαλασμένα μήλα. Παίρνουμε 4 μήλα
τυχαία. Να βρεθούν οι πιθανότητες: i) Ακριβώς ένα μήλο να είναι χαλασμένο, ii) Κανένα μήλο
δεν είναι χαλασμένο, iii) Τουλάχιστον ένα μήλο να είναι χαλασμένο.

Θεωρούμε ως επιτυχία {ένα μήλο να είναι χαλασμένο} με πιθανότητα επιτυχίας 𝑝 = 0.02. Τότε
η πιθανότητα αποτυχίας είναι 1 − 𝑝 = 1 − 0.02 = 0.98.
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (χαλασμένων μήλων), όταν
επιλέγουμε τυχαία 𝜈 = 4 μήλα. Τότε η τ.μ. X θα ακολουθεί διωνυμική κατανομή,
𝑋~𝐵(𝜈 = 4, 𝑝 = 0.02) και η πιθανότητα να έχουμε x επιτυχίες δίνεται από τη σχέση:
𝝂
και (𝑿 = 𝒙) = ( ) 𝒑𝒙 (𝟏 − 𝒑)𝝂−𝒙 , 𝒙 = 𝟎, 𝟏, 𝟐, … , 𝝂
𝒙

4 4!
i) 𝑃(𝑋 = 1) = ( ) 0.021 (1 − 0.02)4−1 = 1!3! 0.02 ∙ 0.983 = 0.0753 ή 7.53%
1
4 4!
ii) 𝑃(𝑋 = 0) = ( ) 0.020 (1 − 0.02)4−0 = 0!4! 1 ∙ 0.984 = 0.92 ή 92%
0

iii) 𝑃(𝑋 ≥ 1) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4) ή

4
𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = 1 − ( ) 0.020 (1 − 0.02)4−0 = 1 − 0.92 = 0.08 ή 8%
0

4
Προσέγγιση της κατανομής Διωνυμικής κατανομής από την Κανονική κατανομή
Για μεγάλα ν η διωνυμική κατανομή προσεγγίζεται ικανοποιητικά από μια κανονική κατανομή με
την ίδια μέση τιμή και την ίδια διακύμανση. Δηλαδή, αν 𝑋~𝐵(𝜈, 𝑝) τότε για μεγάλες τιμές του ν,
(στην πράξη όταν 𝜈𝑝 ≥ 5 και 𝜈(1 − 𝑝) ≥ 5), η κατανομή της Χ προσεγγίζεται από την Ν(μ, σ)
με 𝝁 = 𝝂𝒑 και 𝝈 = √𝝂𝒑(𝟏 − 𝒑).

Κατανομή Poisson 𝑷(𝝀)

Έστω ότι θέλουμε να μετρήσουμε τον αριθμό των συμβάντων στη μονάδα μέτρησης. Τα συμβάντα
μπορεί να είναι ο αριθμός των γεννήσεων ή των θανάτων σε μια κτηνοτροφική μονάδα μέσα σε
ένα μήνα, ο αριθμός των σωματιδίων που εκπέμπονται από μια ραδιενεργό ουσία μέσα σε ένα
χρονικό διάστημα, ο αριθμός των βακτηριδίων σε 1cm2 ενός τρυβλίου Petri, ο αριθμός των
αυτοκινήτων ή πελατών που φθάνουν σε ένα σταθμό διοδίων ή super market σε μια χρονική
περίοδο κ.ά. Ο αριθμός των συμβάντων Χ είναι μια διακριτή τυχαία μεταβλητή με δυνατές τιμές
0, 1, 2, … που ακολουθεί την κατανομή του Poisson (από τον γάλλο μαθηματικό S. D. Poisson
(1781-1840)) με παράμετρο λ, 𝑿~𝑷(𝝀) και συνάρτηση πιθανότητας:
𝒆−𝝀 𝝀𝒙
𝑷(𝑿 = 𝒙) = 𝒙 = 𝟎, 𝟏, 𝟐, …
𝒙!
Η κατανομή Poisson δημιουργήθηκε ως οριακή κατανομή της διωνυμικής κατανομής για μεγάλο
ν (θεωρητικά ν⟶ +∞), έτσι ώστε η μέση τιμή της να συγκλίνει σε μια θετική σταθερά 𝜆 = 𝜈𝑝.
Η μέση τιμή, η διασπορά και η τυπική απόκλιση της κατανομής Poisson δίνονται από τις σχέσεις:
𝑬(𝒙) = 𝝁 = 𝝀, 𝑽𝒂𝒓(𝑿) = 𝝈𝟐 = 𝝀 και 𝝈 = √𝝀

Προσέγγιση της κατανομής Poisson από την Κανονική κατανομή


Με εφαρμογή του Κεντρικού Οριακού Θεωρήματος αποδεικνύεται ότι και η κατανομή Poisson
μπορεί να προσεγγισθεί ικανοποιητικά από μια κανονική κατανομή με την ίδια μέση τιμή και την
ίδια διακύμανση. Δηλαδή αν 𝑋~𝑃(𝜆), για μεγάλες τιμές της παραμέτρου λ (στην πράξη για λ>10),
η κατανομή της Χ προσεγγίζεται από την Ν(μ, σ) με 𝝁 = 𝝀 και 𝝈 = √𝝀.

5
Λύσεις ασκήσεων από το φυλλάδιο 5 – Ασκήσεις σε Τυχαίες Μεταβλητές και Κατανομές

5. Σε έναν πληθυσμό (ας πούμε γυναίκες ηλικίας 30 - 40 ετών στην Ελλάδα), η μέση συστολική
πίεση είναι 120 mmHg, με τυπική απόκλιση 20 mmHg και ο πληθυσμός (των πιέσεων) ακολουθεί
κανονική κατανομή. (α) Τι ποσοστό του πληθυσμού έχει πίεση: (i) Μικρότερη από 150 mmHg,
(ii) Μεγαλύτερη από 135 mmHg, (iii) Μεταξύ 110 και 125 mmHg, (β) Ποια είναι εκείνη η πίεση
πάνω από την οποία βρίσκεται μόνο το 1% του πληθυσμού; (γ) Η συστολική πίεση ενός ατόμου
κρίνεται ως φυσιολογική εάν βρίσκεται στο διάστημα εκείνο γύρω από τον μέσο όρο (συμμετρικό
διάστημα γύρω από τον μέσο) που περιέχει το 95% των πιέσεων του πληθυσμού. Να βρεθεί εκείνη
η τιμή πίεσης, πάνω από την οποία ένα άτομο κρίνεται ως υπερτασικό. Να βρεθεί επίσης εκείνη η
τιμή της πίεσης, κάτω από την οποία ένα άτομο κρίνεται ως υποτασικό.

(α) (i)
𝑋 − 𝜇 150 − 120
𝑃(𝑋 < 150) = 𝑃 ( < ) = 𝑃(𝑍 < 1.5) = 𝛷(1.5) = 0.9332 ή 93.32%
𝜎 20
(ii)
𝑋 − 𝜇 135 − 120
𝑃(𝑋 > 135) = 𝑃 ( > ) = 𝑃(𝑍 > 0.75) = 1 − 𝑃(𝑍 ≤ 0.75) = 1 − 𝛷(0.75)
𝜎 20
= 1 − 0.7734 = 0.2266 ή 22.66%
(iii)
110 − 120 𝑋 − 𝜇 125 − 120
𝑃(110 ≤ 𝑋 ≤ 125) = 𝑃 ( ≤ ≤ ) = 𝑃(−0.5 ≤ 𝑍 ≤ 0.25)
20 𝜎 20
= 𝛷(0.25) − 𝛷(−0.5) = 𝛷(0.25) − [1 − 𝛷(0.5)] = 𝛷(0.25) − 1 + 𝛷(0.5)
= 0.5987 − 1 + 0.6915 = 0.2902 ή 29.02%
(β) Έστω 𝑥0 η ζητούμενη πίεση. Τότε:
𝑋 − 𝜇 𝑥0 − 120 𝑥0 − 120
𝑃(𝑋 > 𝑥0 ) = 0.01 ⟺ 𝑃 ( > ) = 0.01 ⟺ 𝑃 (𝑍 > ) = 0.01
𝜎 20 20

𝑥0 − 120 𝑥0 − 120 𝑥0 − 120


⟺ 1 − 𝑃 (𝑍 ≤ ) = 0.01 ⟺ 1 − 𝛷 ( ) = 0.01 ⟺ 𝛷 ( )
20 20 20

= 0.99 (1)

Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(2.33) = 0.99 (2)

6
Από τις σχέσεις (1) & (2) έχουμε:

𝑥0 − 120
= 2.33 ⟹ 𝑥0 = 166.6mmHg
20

γ) Αναζητούμε δύο συστολικές πιέσεις συμμετρικές ως προς την μέση τιμή μ=120, έστω τις 120-ε

και 120+ε, τέτοιες ώστε ανάμεσα σε αυτές να βρίσκεται το 95% των πιέσεων του πληθυσμού.

120 − 𝜀 − 120 𝑋 − 𝜇 120 + 𝜀 − 120


𝑃(120 − 𝜀 ≤ 𝑋 ≤ 120 + 𝜀) = 0.95 ⟺ 𝑃 ( ≤ ≤ ) = 0.95
20 𝜎 20
−𝜀 𝜀 𝜀 −𝜀 𝜀 𝜀
⟺ 𝑃( < 𝛧 < ) = 0.95 ⟺ 𝛷 ( ) − 𝛷 ( ) = 0.95 ⟺ 𝛷 ( ) − [1 − 𝛷 ( )]
20 20 20 20 20 20
𝜀 𝜀
= 0.95 ⟺ 2𝛷 ( ) = 1.95 ⟺ 𝛷 ( ) = 0.975
20 20

Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(1.96) = 0.975 Άρα

𝜀
= 1.96 ⟺ 𝜀 = 39.2
20

Επομένως ένα άτομο κρίνεται ως υποτασικό, όταν έχει πίεση μικρότερη ή ίση από
120 − 𝜀 = 120 − 39.2 = 80.8𝑚mHg.
Ενώ ένα άτομο κρίνεται ως υπερτασικό, όταν έχει πίεση μεγαλύτερη ή ίση από
120 + 𝜀 = 120 + 39.2 = 159.2𝑚mHg.

6. Μία γέφυρα χωράει το πολύ 100 αυτοκίνητα και το μέγιστο βάρος που σηκώνει είναι 365 τόνοι.
Αν υποθέσουμε ότι τα βάρη των αυτοκινήτων ακολουθούν κανονική κατανομή με μέσο βάρος 3.5
τόνους και τυπική απόκλιση 0.5 τόνο, (α) ποια η πιθανότητα, εάν κάποια στιγμή βρεθούν στη
γέφυρα 100 αυτοκίνητα, να έχουμε υπέρβαση του ανώτατου επιτρεπτού βάρους; (β) Ποιο είναι

7
εκείνο το βάρος που θα έπρεπε να σηκώνει η γέφυρα, αν απαιτούσαμε η πιθανότητα να έχουμε
υπέρβαση αυτού του βάρους από 100 αυτοκίνητα να είναι 0.1%;

Έστω 𝛸1 , 𝛸2 , … , 𝛸100 τα βάρη των 100 αυτοκινήτων, τα οποία αποτελούν ανεξάρτητες τ.μ. που
ακολουθούν κανονική κατανομή με 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … ,100, με 𝜇 = 3.5 𝜅𝛼𝜄 𝜎 = 0.5.
Τότε για το συνολικό βάρος 𝑆100 των 100 αυτοκινήτων θα ισχύει:

100 100

𝑆100 = 𝛸1 + 𝛸2 + ⋯ + 𝛸100 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈) ή ∑ 𝑋𝑖 ∼ 𝑁(350, 5)


𝑖=1 𝑖=1
(α) Τότε η ζητούμενη πιθανότητα είναι:
𝑆100 − 𝜈𝜇 365 − 350
𝑃(𝛸1 + 𝛸2 + ⋯ + 𝛸100 > 365) = 𝑃 ( > ) = 𝑃(𝑍 > 3) = 1 − 𝑃(𝑍 ≤ 3)
𝜎 √𝜈 5

= 1 − 𝛷(3) = 1 − 0.9987 = 0.0013 ή 0.13%

(β) Έστω 𝑥0 το ζητούμενο βάρος. Τότε:

𝑆100 − 𝜈𝜇 𝑥0 − 350
𝑃(𝛸1 + 𝛸2 + ⋯ + 𝛸100 > 𝑥0 ) = 0.001 ⟺ 𝑃 ( > ) = 0.001
𝜎 √𝜈 5

𝑥0 − 350 𝑥0 − 350
⟺ 𝑃 (𝑍 > ) = 0.001 ⟺ 1 − 𝑃 (𝑍 ≤ ) = 0.001
5 5

𝑥0 − 350 𝑥0 − 350
⟺ 1−𝛷( ) = 0.001 ⟺ 𝛷 ( ) = 0.999 (1)
5 5

Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(3.09) = 0.999 (2)
Από τις σχέσεις (1)& (2) έχουμε:
𝑥0 − 350
= 3.09 ⟹ 𝑥0 = 365.45 𝜏ό𝜈𝜊𝜄
5

7. Ένα ηλεκτρονικό σύστημα αποτελείται από δέκα εξαρτήματα. Κάθε ένα από τα εξαρτήματα
έχει πιθανότητα 0.2 να υποστεί βλάβη και το να πάθει βλάβη κάποιο εξάρτημα είναι ανεξάρτητο
από το αν άλλα εξαρτήματα έχουν υποστεί βλάβη ή όχι. (α) Αν το σύστημα λειτουργεί, εφόσον
τουλάχιστον οκτώ από τα δέκα εξαρτήματά του λειτουργούν, ποια η πιθανότητα το σύστημα να

8
λειτουργεί; (β) Ποια η πιθανότητα να υποστούν βλάβη τουλάχιστον δύο εξαρτήματα, δεδομένου
ότι έχει υποστεί βλάβη τουλάχιστον ένα.

(α) Θεωρούμε ως επιτυχία το ενδεχόμενο {ένα εξάρτημα να λειτουργεί} με πιθανότητα επιτυχίας


𝑝 = 0.8. Τότε η πιθανότητα αποτυχίας είναι 1 − 𝑝 = 0.2.
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (εξαρτημάτων σε λειτουργία)
στα 𝜈 = 10 εξαρτήματα του ηλεκτρονικού συστήματος. Τότε η τ.μ. X θα ακολουθεί διωνυμική
κατανομή 𝐵(𝜈 = 10, 𝑝 = 0.8).
𝝂
και (𝑿 = 𝒙) = (𝒙) 𝒑𝒙 (𝟏 − 𝒑)𝝂−𝒙 , 𝒙 = 𝟎, 𝟏, 𝟐, … , 𝝂

𝑃(𝜏𝜊 𝜎ύ𝜎𝜏𝜂𝜇𝛼 𝜈𝛼 𝜆𝜀𝜄𝜏𝜊𝜐𝜌𝛾𝜀ί) = 𝑃(𝑋 ≥ 8) = 𝑃(𝑋 = 8) + 𝑃(𝑋 = 9) + 𝑃(𝑋 = 10) =

10 10 10
=( ) 0.88 (1 − 0.8)10−8 + ( ) 0.89 (1 − 0.8)10−9 + ( ) 0.810 (1 − 0.8)10−10 =
8 9 10

= 45 ∙ 0.88 ∙ 0.22 + 10 ∙ 0.89 ∙ 0.21 + 1 ∙ 0.810 ∙ 0.20 = 0.676

(β) Θεωρούμε ως επιτυχία το ενδεχόμενο {ένα εξάρτημα να έχει βλάβη} με πιθανότητα επιτυχίας

𝑝′ = 0.2. Έστω Y η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (εξαρτημάτων σε

βλάβη) στα 𝜈 = 10 εξαρτήματα του ηλεκτρονικού συστήματος. Τότε η τ.μ. Y θα ακολουθεί

διωνυμική κατανομή 𝐵(𝜈 = 10, 𝑝′ = 0.2).

𝑃(𝑌 ≥ 2 ∩ 𝑌 ≥ 1) 𝑃(𝑌 ≥ 2) 1 − 𝑃(𝑌 < 2) 1 − 𝑃(𝑌 = 0) − 𝑃(𝑌 = 1)


𝑃(𝑌 ≥ 2⁄𝑌 ≥ 1) = = = = =
𝑃(𝑌 ≥ 1) 𝑃(𝑌 ≥ 1) 1 − 𝑃(𝑌 < 1) 1 − 𝑃(𝑌 = 0)

10 10
1 − ( ) 0.20 (1 − 0.2)10−0 − ( ) 0.21 (1 − 0.2)10−1
= 0 1 =
10
1 − ( ) 0.20 (1 − 0.2)10−0
0

1 − 1 ⋅ 1 ⋅ 0.810 − 10 ⋅ 0.2 ⋅ 0.89 0.6242


= = = 0.699
1 − 1 ⋅ 1 ⋅ 0.810 0.8926
𝑃(𝐴𝐵)
Καθώς ο τύπος της δεσμευμένης πιθανότητας είναι: 𝑃(𝐴⁄𝐵 ) = 𝑃(𝐵)

{ 𝑌 ≥ 2 ∩ 𝑌 ≥ 1} = {𝑌 ≥ 2}

9
8. Ένα καινούριο εμβόλιο έχει πιθανότητα 80% ανοσοποίησης των κουνελιών από μία ασθένεια.
Ένας μεγάλος αριθμός κουνελιών εμβολιάζεται και στη συνέχεια ορισμένα κουνέλια επιλέγονται
τυχαία για εργαστηριακή παρακολούθηση. (α) Ποια η πιθανότητα να έχουμε τουλάχιστον 9
ανοσοποιημένα κουνέλια, όταν επιλέξουμε 10 κουνέλια. (β) Εάν επιλέξουμε 100 κουνέλια, ποια
η πιθανότητα ο αριθμός των ανοσοποιημένων κουνελιών να κυμαίνεται μεταξύ του 72 και του 88.

(α) Θεωρούμε ως επιτυχία το ενδεχόμενο {ένα εμβολιασμένο κουνέλι να είναι ανοσοποιημένο}


με πιθανότητα επιτυχίας 𝑝 = 0.8. Τότε η πιθανότητα αποτυχίας είναι 1 − 𝑝 = 0.2.
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (ανοσοποιημένων κουνελιών),
όταν επιλέγουμε τυχαία 𝜈 = 10 κουνέλια. Τότε η τ.μ. X θα ακολουθεί διωνυμική κατανομή
𝜈
𝐵(𝜈 = 10, 𝑝 = 0.8) με 𝑃(𝑋 = 𝑥) = ( ) 𝑝𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, 2, … , 𝜈
𝑥
10 10
𝑃(𝑋 ≥ 9) = 𝑃(𝑋 = 9) + 𝑃(𝑋 = 10) = ( ) 0.89 (1 − 0.8)10−9 + ( ) 0.810 (1 − 0.8)10−10 = 0.3758
9 10
όπου
10 10! 10 10!
( )= = 10 και ( )= =1
9 9! (10 − 9)! 10 10! (10 − 10)!
(β) Έστω Υ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (ανοσοποιημένων

κουνελιών), όταν επιλέγουμε τυχαία 𝜈 = 100 κουνέλια. Τότε η τ.μ. Y θα ακολουθεί διωνυμική

κατανομή 𝐵(𝜈 = 100, 𝑝 = 0.8). Για μεγάλες τιμές του ν όμως (πρακτικά όταν 𝜈𝑝 ≥ 5 και

𝜈(1 − 𝑝) ≥ 5) η διωνυμική κατανομή προσεγγίζεται ικανοποιητικά από κανονική κατανομή με

μέση τιμή 𝜇 = 𝐸(𝑌) = 𝜈𝑝 και διασπορά 𝜎 2 = 𝜈𝑝(1 − 𝑝).

𝜇 = 𝐸(𝑌) = 𝜈𝑝 = 100 ⋅ 0.8 = 80, 𝜎 2 = 𝜈𝑝(1 − 𝑝) = 100 ⋅ 0.8 ⋅ (1 − 0.8) = 16

Επομένως 𝜎 = √16 = 4

72 − 80 𝑌 − 𝜈𝑝 88 − 80
𝑃(72 ≤ 𝑌 ≤ 88) = 𝑃 ( ≤ ≤ ) = 𝑃(−2 ≤ 𝑍 ≤ 2) = 𝛷(2) − 𝛷(−2) =
4 √𝜈𝑝(1 − 𝑝) 4

= 𝛷(2) − [1 − 𝛷(2)] = 2𝛷(2) − 1 = 2 ⋅ 0.9772 − 1 = 0.9544

10
9. Μια μηχανή συσκευασίας τόνου σε κονσέρβες έχει ρυθμισθεί έτσι ώστε το βάρος του
περιεχομένου ανά κονσέρβα, έστω Χ, να ακολουθεί κανονική κατανομή με μέση τιμή 250gr και
τυπική απόκλιση 10gr.
α) Επιλέγουμε τυχαία μια κονσέρβα από την παραγωγή της συγκεκριμένης μηχανής. Ποια είναι η
πιθανότητα το βάρος του περιεχομένου της κονσέρβας i) να βρίσκεται μεταξύ 245gr και 255gr ii)
να είναι μεγαλύτερο από 265gr.
β) Επιλέγουμε τυχαία 9 κονσέρβες από την παραγωγή της συγκεκριμένης μηχανής. Ποια είναι η
πιθανότητα i) το πολύ 2 από τις 9 κονσέρβες να περιέχουν ποσότητα μεγαλύτερη από 265gr ii) το
μέσο βάρος του περιεχομένου των 9 κονσερβών να είναι μεγαλύτερο από 265gr iii) το συνολικό
βάρος του περιεχομένου των 9 κονσερβών να είναι μεγαλύτερο από 2265gr.
γ) Να προσδιορίσετε την τιμή x 0 της Χ για την οποία ισχύει ότι: το 90% των κονσερβών που
παράγονται από τη συγκεκριμένη μηχανή έχουν βάρος (περιεχομένου) μικρότερο από αυτήν την
τιμή ( x 0 ).

α) i)
245 − 250 𝑋 − 𝜇 255 − 250
𝑃(245 < 𝑋 < 255) = 𝑃 ( < < ) = 𝑃(−0.5 < 𝑍 < 0.5) =
10 𝜎 10
= 𝛷(0.5) − 𝛷(−0.5) = 𝛷(0.5) − [1 − 𝛷(0.5)] = 𝛷(0.5) − 1 + 𝛷(0.5)
= 2𝛷(0.5) − 1 = 2 ⋅ 0.6915 − 1 = 0.383 ή 38.3%
ii)
𝑋 − 𝜇 265 − 250
(𝑋 > 265) = 𝑃 ( > ) = 𝑃(𝑍 > 1.5) = 1 − 𝛷(1.5) = 1 − 0.9332 =
𝜎 10
= 0.0668
β) i) Θεωρούμε ως επιτυχία το ενδεχόμενο {μια κονσέρβα που επιλέγεται τυχαία να περιέχει
ποσότητα μεγαλύτερη από 265gr} με πιθανότητα επιτυχίας 𝑝 = 0.0668. Τότε η πιθανότητα
αποτυχίας είναι 1 − 𝑝 = 0.9332.
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (κονσέρβες που περιέχουν
ποσότητα μεγαλύτερη από 265gr), όταν επιλέγονται τυχαία 𝜈 = 9 κονσέρβες. Τότε η τ.μ. X θα
ακολουθεί διωνυμική κατανομή 𝐵(𝜈 = 9, 𝑝 = 0.0668) με συνάρτηση πιθανότητας:
𝜈
𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, 2, … , 𝜈
𝑥

11
9
𝑃(𝑋 ≤ 2) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = ( ) 0.06680 (1 − 0.0668)9−0 +
0
9 9
( ) 0.06681 (1 − 0.0668)9−1 + ( ) 0.06682 (1 − 0.0668)9−2 = 0.9816
1 2
καθώς
9 9! 9 9! 9 9!
( )= = 1, ( )= = 9, ( )= = 36
0 0! (9 − 0)! 1 1! (9 − 1)! 2 2! (9 − 2)!

ii) Έστω 𝛸1 , 𝛸2 , … , 𝛸9 τα βάρη των 9 κονσερβών, τα οποία αποτελούν ανεξάρτητες τ.μ. που
ακολουθούν κανονική κατανομή με 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … ,9 με 𝜇 = 250𝑔 𝜅𝛼𝜄 𝜎 = 10𝑔.
Τότε για το μέσο βάρος 𝑋̅ των 9 κονσερβών θα ισχύει:

𝑋1 + 𝑋2 + ⋯ + 𝑋9 𝜎 10
𝑋̅ = ~𝑁 (𝜇, ) ή 𝑋̅~𝛮 (250, ) ή 𝑋̅~𝛮(250, 3.33)
9 √𝜈 √9
Επομένως:

𝑋̅ − 𝜇 265 − 250
𝑃(𝑋̅ > 265) = 𝑃 ( 𝜎 > ) = 𝑃(𝑍 > 4.5) = 1 − 𝑃(𝑍 ≤ 4.5) = 1 − 𝛷(4.5)
3.33
√𝜈
≃1−1≃0
iii) Για το συνολικό βάρος των 9 κονσερβών θα ισχύει:

𝑆9 = 𝛸1 + 𝛸2 + ⋯ + 𝛸9 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈) ή 𝑆9 ∼ 𝑁(9 ⋅ 250, 10√9) ή 𝑆9 ∼ 𝑁(2250, 30)


𝑖=1
Επομένως:
𝑆9 − 𝜈𝜇 2265 − 2250
𝑃(𝑆9 > 2265) = 𝑃 ( > ) = 𝑃(𝑍 > 0.5) = 1 − 𝑃(𝑍 ≤ 0.5) =
𝜎 √𝜈 30

= 1 − 𝛷(0.5) = 1 − 0.6915 = 0.3085 ή 30.85%

γ) Έστω 𝑥0 το ζητούμενο βάρος. Τότε:


𝑋 − 𝜇 𝑥0 − 250 𝑥0 − 250
𝑃(𝑋 < 𝑥0 ) = 0.90 ⟺ 𝑃 ( < ) = 0.90 ⟺ 𝑃 (𝑍 < ) = 0.90
𝜎 10 10

𝑥0 − 250
⟺ 𝛷( ) = 0.90 (1)
10

12
Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(1.28) ≃ 0.90 (2)
Από τις σχέσεις (1)& (2) έχουμε:
𝑥0 − 250
= 1.28 ⟹ 𝑥0 = 262.8𝑔𝑟
10

10. Ο αριθμός των επισκεπτών σε μια ιστοσελίδα στο διαδίκτυο είναι τυχαία μεταβλητή που
ακολουθεί κατανομή Poisson με μέση τιμή 5 άτομα ανά ώρα. Βρείτε την πιθανότητα να
επισκεφθούν την ιστοσελίδα: (α) ακριβώς δύο άτομα στη διάρκεια μιας ώρας, (β) τουλάχιστον
δύο άτομα κατά τη διάρκεια δύο ωρών, (γ) από τουλάχιστον ένα άτομο κάθε ώρα σε δύο ώρες,
(δ) μεταξύ 100 και 150 άτομα στη διάρκεια ενός 24ώρου. Επίσης βρείτε την πιθανότητα (ε)
τουλάχιστον δύο επισκέψεων στη διάρκεια μιας ώρας, δεδομένου ότι είχαμε τουλάχιστον μία
επίσκεψη.

(α) Έστω Χ η τ.μ. που μετρά τον αριθμό των επισκεπτών στην ιστοσελίδα. Η Χ ακολουθεί την
κατανομή Poisson με παράμετρο 𝜆 = 5, τον μέσο αριθμό επισκεπτών ανά ώρα στην ιστοσελίδα.

𝑒 −5 ∙ 52 0.0067 ∙ 25
𝑃(𝑋 = 2) = = = 0.084
2! 1∙2

(β) Στη διάρκεια δύο ωρών αναμένουμε κατά μέσον όρο 2 ⋅ 5 = 10 επισκέπτες στην ιστοσελίδα.
Άρα λ΄=10.

𝑃(𝑋′ ≥ 2) = 1 − 𝑃(𝑋 ′ < 2) = 1 − [𝑃(𝑋 ′ = 0) + 𝑃(𝑋 ′ = 1)] = 1 − 𝑃(𝑋 ′ = 0) − 𝑃(𝑋 ′ = 1)

𝑒 −10 ∙ 100 𝑒 −10 ∙ 101


=1− − = 1 − 𝑒 −10 (1 + 10) = 1 − 11𝑒 −10 =
0! 1!

= 1 − 11 ∙ 0.00005 = 0.99945

(γ) Θα πρέπει να έχουμε τουλάχιστον έναν επισκέπτη την 1η ώρα και τουλάχιστον έναν επισκέπτη
την 2η ώρα. Δηλαδή: 𝑃(𝑋 ≥ 1) ∙ 𝑃(𝑋 ≥ 1)
Καθώς λ=5 έχουμε:

13
𝑒 −5 ∙ 50
𝑃(𝑋 ≥ 1) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + ⋯ = 1 − 𝑃(𝑋 = 0) = 1 − = 1 − 𝑒 −5
0!
= 1 − 0.0067 = 0.9933
Επομένως 𝑃(𝑋 ≥ 1) ∙ 𝑃(𝑋 ≥ 1) = 0.9933 ∙ 0.9933 = 0.9866

(δ) Εντός 24 ωρών αναμένουμε κατά μέσον όρο 5 ∙ 24 = 120 επισκέπτες στην ιστοσελίδα. Άρα
λ΄΄=120. Όταν η παράμετρος λ της Poisson είναι μεγαλύτερη του 10, η Poisson συγκλίνει στην
Κανονική κατανομή με μέση τιμή 𝜇 = 𝜆 και διασπορά 𝜎 2 = 𝜆, άρα τυπική απόκλιση 𝜎 = √𝜆.
Επομένως εάν 𝛸΄΄ ο αριθμός των επισκεπτών εντός 24 ωρών τότε 𝛸 ′′ ~𝑃(𝜆′′ ). Όμως επειδή 𝜆′′ =
120 > 10 η Poisson συγκλίνει στην Κανονική 𝑋′′~𝑁(𝜇 = 𝜆′′ = 120, 𝜎 = √𝜆′′ = √120 ).
Τότε η ζητούμενη πιθανότητα είναι:
100 − 120 𝑋′′ − 𝜆′′ 150 − 120
𝑃(100 ≤ 𝑋′′ ≤ 150) = 𝑃 ( ≤ ≤ ) = 𝑃(−1.83 ≤ 𝑍 ≤ 2.74) =
√120 √𝜆′′ √120

= 𝛷(2.74) − 𝛷(−1.83) = 𝛷(2.74) − [1 − 𝛷(1.83)] =

= 𝛷(2.74) − 1 + 𝛷(1.83) = 0.9969 − 1 + 0.9664 = 0.9633

(ε) Έχουμε 5 επισκέπτες την ώρα στην ιστοσελίδα. Άρα 𝜆 = 5.

𝑃(𝑋 ≥ 2 ∩ 𝑋 ≥ 1) 𝑃(𝑋 ≥ 2) 1 − 𝑃(𝑋 < 2)


𝑃(𝑋 ≥ 2⁄𝑋 ≥ 1) = = = =
𝑃(𝑋 ≥ 1) 𝑃(𝑋 ≥ 1) 1 − 𝑃(𝑋 < 1)

𝑒 −5 50 𝑒 −5 51
1 − 𝑃(𝑋 = 0) − 𝑃(𝑋 = 1) 1 − 0! − 1! 1 − 𝑒 −5 (1 + 5)
= = 𝑒 −5 50
=
1 − 𝑃(𝑋 = 0) 1− 1 − 𝑒 −5
0!

1 − 6 ⋅ 0.0067
= = 0.9663
1 − 0.0067

Καθώς:
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) =
𝑃(𝐵)

{ 𝑌 ≥ 2 ∩ 𝑌 ≥ 1} = {𝑌 ≥ 2}

14
11. Ένας εντομολόγος μελετά τον αριθμό των ζωυφίων στα φύλλα ενός συγκεκριμένου τύπου
δένδρου. Ο αριθμός αυτός ακολουθεί την κατανομή Poisson με μέση τιμή 4 ζωύφια ανά φύλλο.
α) Ποια η πιθανότητα να πάρει τυχαία ένα φύλλο με τουλάχιστον 2 ζωύφια; β) Ποια η πιθανότητα
να πάρει τυχαία 2 φύλλα που να έχουν συνολικά το πολύ δύο ζωύφια; γ) Ο εντομολόγος επιλέγει
3 φύλλα. Ποια η πιθανότητα τα 2 μόνο από αυτά να έχουν από τουλάχιστον 2 ζωύφια το καθένα.
δ) Ποια η πιθανότητα στα 36 φύλλα να υπάρχουν συνολικά τουλάχιστον 150 ζωύφια; ε) Ποια η
πιθανότητα στα 36 φύλλα να υπάρχουν συνολικά το πολύ 168 ζωύφια, όταν είναι γνωστό ότι
υπάρχουν τουλάχιστον 150 ζωύφια.

α) Έστω Χ η τ.μ. που μετρά τον αριθμό των ζωυφίων σε ένα φύλλο του δένδρου. Η Χ ακολουθεί
την κατανομή Poisson με παράμετρο 𝜆 = 4, τον μέσο αριθμό ζωυφίων ανά φύλλο.

𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + ⋯ = 1 − 𝑃(𝑋 < 2) = 1 − 𝑃(𝑋 = 0) − 𝑃(𝑋 = 1)

𝑒 −4 ∙ 40 𝑒 −4 ∙ 41
=1− − = 1 − 𝑒 −4 (1 + 4) = 1 − 5𝑒 −4 = 1 − 5 ⋅ 0.0183
0! 1!

= 0.9085

β) Στα 2 φύλλα αναμένουμε κατά μέσον όρο 2 ⋅ 4 = 8 ζωύφια. Εάν Χ΄ η τ.μ. που μετρά τον αριθμό
των ζωυφίων σε δύο φύλλα του δένδρου. Τότε 𝑋′ ∼ 𝑃(𝜆′ ) 𝜇𝜀 𝜆′ = 8.
𝑒 −8 80 𝑒 −8 81 𝑒 −8 82
(𝑋′ ≤ 2) = 𝑃(𝑋′ = 0) + 𝑃(𝑋′ = 1) + 𝑃(𝑋′ = 2) = + +
0! 1! 2!

= 𝑒 −8 (1 + 8 + 32) = 41𝑒 −8 = 41 ⋅ 0.0003 = 0.0123

γ) Θεωρούμε ως επιτυχία το ενδεχόμενο {ένα φύλλο που επιλέγεται τυχαία να έχει τουλάχιστον 2
ζωύφια} με πιθανότητα επιτυχίας 𝑝 = 0.9085 (από το α) ερώτημα).
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (φύλλα που έχουν τουλάχιστον
2 ζωύφια), όταν επιλέγονται τυχαία 𝜈 = 3 φύλλα. Τότε η τ.μ. Χ θα ακολουθεί διωνυμική
𝜈
κατανομή 𝐵(𝜈 = 3, 𝑝 = 0.9085) και 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, 2, … , 𝜈
𝑥
3
𝑃(𝑋 = 2) = ( ) 0.90852 (1 − 0.9085)3−2 = 3 ⋅ 0.90852 ⋅ 0.0915 = 0.2266 ή 22.66%
2
καθώς

15
3 3!
( )= =3
2 2! (3 − 2)!
δ) Στα 36 φύλλα αναμένουμε κατά μέσον όρο 36 ⋅ 4 = 144 ζωύφια. Έστω Χ΄΄ η τ.μ. που μετρά
τον αριθμό των ζωυφίων σε 36 φύλλα του δένδρου. Τότε 𝑋΄΄ ∼ 𝑃(𝜆′′ ) 𝜇𝜀 𝜆′ ′ = 144. Όμως επειδή
λ΄΄=144 >10, η Poisson συγκλίνει στην Κανονική, δηλ. 𝑋′′~𝑁(𝜇 = 𝜆′′ = 144, 𝜎 = √𝜆′′ = √144).
Τότε η ζητούμενη πιθανότητα είναι:
𝑋′′ − 𝜆′′ 150 − 144
𝑃(𝑋′′ ≥ 150) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 0.5) = 1 − 𝑃(𝑍 ≤ 0.5) = 1 − 𝛷(0.5) =
√𝜆′′ √144

= 1 − 0.6915 = 0.3085

ε) Η ζητούμενη δεσμευμένη πιθανότητα είναι:

′′
𝑃(𝑋 ′′ ≤ 168 ∩ 𝑋 ′′ ≥ 150) 𝑃(150 ≤ 𝑋 ′′ ≤ 168)
𝑃(𝛸 ≤ 168 ∕ 𝑋′′ ≥ 150) = =
𝑃(𝛸 ′′ ≥ 150) 𝑃(𝛸 ′′ ≥ 150)

Όμως:
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) =
𝑃(𝐵)

Επομένως:

′′
150 − 144 𝑋 ′′ − 𝜆′′ 168 − 144
𝑃(150 ≤ 𝑋 ≤ 168) = 𝑃 ( ≤ ≤ ) = 𝑃(0.5 ≤ 𝑍 ≤ 2) =
√144 √𝜆′′ √144

= 𝛷(2) − 𝛷(0.5) = 0.9772 − 0.6915 = 0.2857

Άρα:

𝑃(150 ≤ 𝑋 ′′ ≤ 168) 0.2857


𝑃(𝛸 ′′ ≤ 168 ∕ 𝑋′′ ≥ 150) = = = 0.9261
𝑃(𝛸 ′′ ≥ 150) 0.3085

12. Ο αριθμός των σωματιδίων που εκπέμπει μια πηγή ακολουθεί κατανομή Poisson με μέση τιμή
ένα σωματίδιο ανά δευτερόλεπτο. Ζητούνται οι πιθανότητες: α) Σε διάστημα 3 δευτερολέπτων να
έχουμε το πολύ 2 σωματίδια, β) σε διάστημα 4 δευτερολέπτων να έχουμε τουλάχιστον 3

16
σωματίδια. γ) σε διάστημα 15 λεπτών να έχουμε τουλάχιστον 930 σωματίδια. δ) Επιλέγουμε
τυχαία 4 διαστήματα των 3 δευτερολέπτων. Ποια η πιθανότητα σε ακριβώς 3 από τα 4 διαστήματα
να έχουμε το πολύ 2 σωματίδια.

α) Σε διάστημα 3 δευτερολέπτων η πηγή εκπέμπει κατά μέσον όρο 3 ⋅ 1 = 3 σωματίδια. Έστω Χ


η τ.μ. που μετρά τον αριθμό των σωματιδίων που εκπέμπονται από την πηγή σε 3 δευτερόλεπτα.
Τότε η τ.μ. Χ ακολουθεί την κατανομή Poisson με παράμετρο 𝜆 = 3, δηλαδή 𝑋 ∼ 𝑃(𝜆 = 3) .
𝑒 −3 ∙ 30 𝑒 −3 ∙ 31 𝑒 −3 ∙ 32
𝑃(𝑋 ≤ 2) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃 (𝑋 = 2) = + +
0! 1! 2!
9
= 𝑒 −3 (1 + 3 + ) = 8.5𝑒 −3 = 8.5 ∙ 0.05 = 0.425
2

β) Σε διάστημα 4 δευτερολέπτων η πηγή εκπέμπει κατά μέσον όρο 4 ⋅ 1 = 4 σωματίδια. Έστω Χ΄


η τ.μ. που μετρά τον αριθμό των σωματιδίων που εκπέμπονται από την πηγή σε 4 δευτερόλεπτα.
Τότε η τ.μ. Χ ακολουθεί την κατανομή Poisson με παράμετρο 𝜆′ = 4, δηλαδή 𝑋 ∼ 𝑃(𝜆′ = 4).
𝑃(𝑋′ ≥ 3) = 𝑃(𝑋′ = 3) + 𝑃(𝑋′ = 4) + ⋯ = 1 − 𝑃(𝑋′ < 3) =

= 1 − [𝑃(𝑋′ = 0) + 𝑃(𝑋′ = 1) + 𝑃(𝑋′ = 2)] =

𝑒 −4 ∙ 40 𝑒 −4 ∙ 41 𝑒 −4 ∙ 42
= 1 − 𝑃(𝑋′ = 0) − 𝑃(𝑋′ = 1) − 𝑃(𝑋′ = 2) = 1 − − −
0! 1! 2!

= 1 − 𝑒 −4 (1 + 4 + 8) = 1 − 13𝑒 −4 = 1 − 13 ⋅ 0.018 = 0.766

γ) Σε διάστημα 15 λεπτών η πηγή εκπέμπει κατά μέσον όρο 15∙ 60 ⋅ 1 = 900 σωματίδια. Έστω
Χ΄΄ η τ.μ. που μετρά τον αριθμό των σωματιδίων που εκπέμπονται από την πηγή. Τότε 𝑋΄΄ ∼
𝑃(𝜆′′ ) 𝜇𝜀 𝜆′ ′ = 900. Όμως επειδή λ΄΄=900 >10, η Poisson συγκλίνει στην Κανονική, δηλ.
𝑋′′~𝑁(𝜇 = 𝜆′′ = 900, 𝜎 = √𝜆′′ = √900).
Τότε η ζητούμενη πιθανότητα είναι:
𝑋′′ − 𝜆′′ 930 − 900
𝑃(𝑋′′ ≥ 930) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 1) = 1 − 𝑃(𝑍 < 1) = 1 − 𝛷(1) =
√𝜆′′ √900

= 1 − 0.8413 = 0.1587

17
δ) Θεωρούμε ως επιτυχία το ενδεχόμενο {σε διάστημα 3 δευτερολέπτων η πηγή να εκπέμπει το
πολύ 2 σωματίδια} με πιθανότητα επιτυχίας 𝑝 = 0.425 (από το α) ερώτημα).
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (διαστήματα των 3
δευτερολέπτων, στα οποία εκπέμπονται το πολύ 2 σωματίδια), όταν επιλέγονται τυχαία 𝜈 = 4
διαστήματα των 3 δευτερολέπτων. Τότε η τ.μ. Χ θα ακολουθεί διωνυμική κατανομή
𝜈
𝐵(𝜈 = 4, 𝑝 = 0.425) με 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, … , 𝜈
𝑥
4
𝑃(𝑋 = 3) = ( ) 0.4253 (1 − 0.425)4−3 = 4 ⋅ 0.4253 ⋅ 0.575 = 0.1766 ή 17.66%
3
καθώς
4 4!
( )= =4
3 3! (4 − 3)!

13. Μια μηχανή κατασκευάζει λαμπτήρες που συσκευάζονται σε κουτιά των 100. Ο αριθμός των
ελαττωματικών λαμπτήρων σε ένα τυχαίο κουτί είναι τυχαία μεταβλητή Poisson με παράμετρο
λ=1.1 και ένα κουτί απορρίπτεται ως ελαττωματικό αν περιέχει τουλάχιστον τρεις ελαττωματικούς
λαμπτήρες. (α) Να βρεθεί η πιθανότητα ένα τυχαίο κουτί να απορριφθεί ως ελαττωματικό. (β)
Επιλέγουμε τυχαία 5 κουτιά από την παραγωγή της συγκεκριμένης μηχανής. Ποια η πιθανότητα
τουλάχιστον ένα από αυτά να απορριφθεί ως ελαττωματικό. (γ) Επιλέγουμε τυχαία 100 κουτιά
από την παραγωγή της συγκεκριμένης μηχανής. Ποια η πιθανότητα τουλάχιστον 13, αλλά όχι
περισσότερα από 19 να απορριφθούν ως ελαττωματικά.

(α) Έστω Χ η τ.μ. που μετρά τον αριθμό των ελαττωματικών λαμπτήρων σε ένα τυχαίο κουτί των

100. Τότε η τ.μ. Χ ακολουθεί την κατανομή Poisson με παράμετρο 𝜆 = 1.1. Ένα κουτί

απορρίπτεται ως ελαττωματικό αν περιέχει τουλάχιστον τρεις ελαττωματικούς λαμπτήρες.

(𝑋 ≥ 3) = 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4) + ⋯ = 1 − 𝑃(𝑋 < 3) =

18
= 1 − [𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2)] = 1 − 𝑃(𝑋 = 0) − 𝑃(𝑋 = 1) − 𝑃(𝑋 = 2)

𝑒 −1.1 ∙ 1.10 𝑒 −1.1 ∙ 1.11 𝑒 −1.1 ∙ 1.12


= 1− − − = 1 − 𝑒 −1.1 (1 + 1.1 + 0.605)
0! 1! 2!

= 1 − 2.705 ∙ 0.333 = 1 − 0.9 = 0.1

(β) Θεωρούμε ως επιτυχία το ενδεχόμενο { ένα τυχαίο κουτί να απορριφθεί ως ελαττωματικό} με


πιθανότητα επιτυχίας 𝑝 = 0.1 (από το α) ερώτημα).
Έστω Χ΄ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (ελαττωματικά κουτιά), όταν
επιλέγονται τυχαία 𝜈 = 5 κουτιά. Τότε η τ.μ. Χ ΄ θα ακολουθεί διωνυμική κατανομή
𝜈
𝐵(𝜈 = 5, 𝑝 = 0.1) με συνάρτηση πιθανότητας 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, 2, … , 𝜈
𝑥
5
𝑃(𝑋′ ≥ 1) = 1 − 𝑃(𝑋′ = 0) = 1 − ( ) 0.10 (1 − 0.1)5−0 = 1 − 0.59 = 0.41
0
καθώς
5 5!
( )= =1
0 0! (5 − 0)!
(γ) Θεωρούμε ως επιτυχία το ενδεχόμενο { ένα τυχαίο κουτί να απορριφθεί ως ελαττωματικό} με
πιθανότητα επιτυχίας 𝑝 = 0.1 (από το α) ερώτημα).
Έστω Χ΄΄ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (ελαττωματικά κουτιά), όταν
επιλέγονται τυχαία 𝜈 = 100 κουτιά. Τότε η τ.μ. Χ ΄΄ θα ακολουθεί διωνυμική κατανομή
𝐵(𝜈 = 100, 𝑝 = 0.1). Για μεγάλες τιμές του ν όμως (πρακτικά όταν 𝜈𝑝 ≥ 5 και 𝜈(1 − 𝑝) ≥ 5)

η διωνυμική κατανομή προσεγγίζεται ικανοποιητικά από κανονική κατανομή με μέση τιμή 𝜇 =

𝐸(𝑋) = 𝜈𝑝 και διασπορά 𝜎 2 = 𝜈𝑝(1 − 𝑝).

𝜇 = 𝐸(𝑋′′) = 𝜈𝑝 = 100 ⋅ 0.1 = 10, 𝜎 2 = 𝜈𝑝(1 − 𝑝) = 100 ⋅ 0.1 ⋅ (1 − 0.1) = 9

Επομένως 𝜎 = √9 = 3

13 − 10 𝑋′′ − 𝜈𝑝 19 − 10
𝑃(13 ≤ 𝑋′′ ≤ 19) = 𝑃 ( ≤ ≤ ) = 𝑃(1 ≤ 𝑍 ≤ 3) = 𝛷(3) − 𝛷(1)
3 √𝜈𝑝(1 − 𝑝) 3

= 0.9987 − 0.8413 = 0.1574

19
14. Η ποσότητα νικοτίνης που περιέχεται σε ένα τσιγάρο συγκεκριμένης μάρκας είναι τυχαία
μεταβλητή με μέση τιμή μ = 0.8mg και τυπική απόκλιση σ = 0.1mg. Αν ένα άτομο καπνίζει 100
τσιγάρα την εβδομάδα ποια η πιθανότητα: α) Η συνολική ποσότητα νικοτίνης στην οποία θα
εκτεθεί να είναι τουλάχιστον 82mg. β) Η μέση ποσότητα νικοτίνης (των 100 τσιγάρων) να είναι
μεταξύ των 0.78 και 0.83mg.

Έστω 𝛸1 , 𝛸2 , … , 𝛸100 η ποσότητα νικοτίνης στην οποία εκτίθεται ένα άτομο για κάθε ένα από τα
100 τσιγάρα που καπνίζει σε μια εβδομάδα. Οι ποσότητες αυτές αποτελούν ανεξάρτητες τ.μ. που
ακολουθούν την ίδια κατανομή με μέση τιμή 𝜇 = 0.8 𝑚𝑔 και τυπική απόκλιση 𝜎 = 0.1 𝑚𝑔.

Τότε σύμφωνα με το Κεντρικό Οριακό Θεώρημα (Κ. Ο. Θ) θα ισχύει:

100

𝑆100 = 𝛸1 + 𝛸2 + ⋯ + 𝛸100 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈) ή 𝑆100 ∼ 𝑁(100 ⋅ 0.8, 0.1√100) ή


𝑖=1

𝑆100 ∼ 𝑁(80, 1)

και

𝑋1 + 𝑋2 + ⋯ + 𝑋100 𝜎 0.1
𝑋̅ = ~ 𝑁 (𝜇, ) ή 𝑋̅ ~ 𝛮 (0.8, ) ή 𝑋̅~𝛮(0.8, 0.01)
100 √𝜈 √100
Επομένως:
α)
𝑆100 − 𝜈𝜇 82 − 80
𝑃(𝑆100 ≥ 82) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 2) = 1 − 𝑃(𝑍 < 2) = 1 − 𝛷(2) =
𝜎 √𝜈 1

= 1 − 0.9772 = 0.0228 ή 2.28%

β)

0.78 − 0.8 𝑋̅ − 𝜇 0.83 − 0.8


𝑃(0.78 ≤ 𝑋̅ ≤ 0.83) = 𝑃 ( ≤ 𝜎 ≤ ) = 𝑃(−2 ≤ 𝑍 ≤ 3)
0.01 0.01
√𝜈

= 𝛷(3) − 𝛷(−2) = 𝛷(3) − [1 − 𝛷(2)] = 𝛷(3) − 1 + 𝛷(2) =

= 0.9987 − 1 + 0.9772 = 0.9759.

20
15. Η ποσότητα φυτικών ινών που περιέχεται ανά μερίδα (των 100gr) τραγανών δημητριακών
είναι τυχαία μεταβλητή, έστω Χ, η οποία σύμφωνα με την εταιρεία παραγωγής έχει μέση τιμή 5gr
και τυπική απόκλιση 0.81gr. Σε ένα διαιτολόγιο δύο εβδομάδων σκέφτεστε να εντάξετε 40 μερίδες
από τα συγκεκριμένα δημητριακά. Ποια είναι η πιθανότητα α) η μέση ποσότητα φυτικών ινών σε
40 τέτοιες μερίδες να είναι τουλάχιστον 4.5gr, β) η συνολική ποσότητα φυτικών ινών σε 40
τέτοιες μερίδες να είναι τουλάχιστον 215gr.

Έστω 𝛸1 , 𝛸2 , … , 𝛸40 η ποσότητα φυτικών ινών ανά μερίδα του διαιτολογίου. Οι ποσότητες αυτές
αποτελούν ανεξάρτητες τ.μ. που ακολουθούν την ίδια κατανομή με μέση τιμή μ=5gr και τυπική
απόκλιση σ=0.81gr.
Τότε σύμφωνα με το Κεντρικό Οριακό Θεώρημα (Κ. Ο. Θ.) ισχύει:

𝑋1 + 𝑋2 + ⋯ + 𝑋40 𝜎 𝜎 0.81
𝑋̅ = ~ 𝑁 (𝜇, ) ή 𝑋̅ ~𝑁 (𝜇 = 5, = = 0.128)
40 √𝜈 √𝜈 √40
και
40

𝑆40 = 𝛸1 + 𝛸2 + ⋯ + 𝛸40 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈)


𝑖=1

ή 𝑆40 ~𝑁(𝜈𝜇 = 40 ∙ 5 = 200, 𝜎√𝜈 = 0.81√40 = 5.12)

α)
𝑋̅ − 𝜇 4.5 − 5
𝑃(𝑋̅ ≥ 4.5) = 𝑃 ( 𝜎 ≥ ) = 𝑃(𝑍 ≥ −3.9) = 1 − 𝑃(𝑍 < −3.9) =
0.128
√𝜈

= 1 − 𝛷(−3.9) = 1 − [1 − 𝛷(3.9)] = 𝛷(3.9) ≃ 1

β)
𝑆40 − 𝜈𝜇 215 − 200
𝑃(𝑆40 ≥ 215) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 2.93) = 1 − 𝑃(𝑍 < 2.93) =
𝜎 √𝜈 5.12

= 1 − 𝛷(2.93) = 1 − 0.9983 = 0.0017

21
Πίνακας Τυπικής Κανονικής κατανοµής

Παράδειγμα: Φ(0.82)=0.7939, Φ(1.28)=0.8997

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

22
ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ – ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

Στη στατιστική συμπερασματολογία προσπαθούμε να εξάγουμε συμπεράσματα για όλο τον πληθυσμό
βασιζόμενοι σε ένα δείγμα. Ο πληθυσμός αποτελεί το άγνωστο μέρος, ενώ το δείγμα αποτελεί το γνωστό
μέρος. Η στατιστική είναι επαγωγική επιστήμη, η οποία προσπαθεί να βγάλει συμπεράσματα από τα επί μέρους,
το γνωστό τμήμα του πληθυσμού, το δείγμα, για το καθολικό μέρος, ολόκληρο τον πληθυσμό.

Παράδειγμα. Μια ποικιλία αραβοσίτου καλλιεργείται σε ένα κάμπο και τα προηγούμενα χρόνια είχε μέση
απόδοση 750 κιλά/στρέμμα και τυπική απόκλιση 50 κιλά/στρέμμα. Φέτος χρησιμοποιήθηκε δοκιμαστικά ένα
καινούριο λίπασμα. 36 αγροί καλλιεργήθηκαν με το νέο λίπασμα και είχαμε απόδοση 765 κιλά/στρέμμα.
Μπορούμε να ισχυριστούμε σε επίπεδο σημαντικότητας 𝛼 = 0.05 ότι το νέο λίπασμα αυξάνει την απόδοση
της καλλιέργειας;
Θέτουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 750 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇 > 750 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)

Γενικεύοντας, οι παραπάνω υποθέσεις μπορεί να έχουν τη μορφή:

𝛨0 : 𝜇 = 𝜇0 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇 > 𝜇0 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)

Όταν βασιζόμαστε σε ένα δείγμα, πάντοτε υπάρχει κάποια πιθανότητα (ελπίζουμε μικρή) να πάρουμε μια
λάθος απόφαση. Σε έναν έλεγχο υποθέσεων μπορούν να γίνουν δύο ειδών σφάλματα:
i) Ονομάζεται σφάλμα τύπου Ι η απόρριψη της μηδενικής υπόθεσης 𝛨0 , ενώ είναι σωστή. Η πιθανότητα
αυτού του σφάλματος συμβολίζεται με α και είναι:
𝜶 = 𝑷(𝜶𝝅ό𝝆𝝆𝜾𝝍𝜼𝝇 𝝉𝜼𝝇 𝜢𝟎 ⁄𝜢𝟎 𝝈𝝎𝝈𝝉ή)
ii) Ονομάζεται σφάλμα τύπου ΙΙ η αποδοχή της μηδενικής υπόθεσης 𝛨0 , ενώ είναι λάθος. Η πιθανότητα του
σφάλματος τύπου ΙΙ συμβολίζεται με β και είναι:
𝜷 = 𝑷(𝜶𝝅𝝄𝜹𝝄𝝌ή𝝇 𝝉𝜼𝝇 𝜢𝟎 ⁄𝜢𝟎 𝝀ά𝜽𝝄𝝇)

Είναι γνωστό ότι ένας σημειακός εκτιμητής της μέσης τιμής μ είναι η δειγματική μέση τιμή 𝑥̅ . Αναζητούμε
λοιπόν κάποιο στατιστικό κριτήριο και πιο συγκεκριμένα κάποια κριτική τιμή κ τέτοια ώστε, εάν 𝑥̅ > 𝜅 τότε
απορρίπτουμε την Η0, ενώ εάν 𝑥̅ ≤ 𝜅 να μην μπορούμε να την απορρίψουμε.

1
Εάν το δείγμα 𝛸1 , 𝛸2 , … , 𝛸𝜈 προέρχεται από κανονικό πληθυσμό, δηλαδή 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … , 𝜈 τότε
𝑋1 +𝑋2 +⋯+𝑋𝜈 𝜎
̅=
η τ.μ. 𝑋 ~ 𝑁 (𝜇, ) ανεξάρτητα από το μέγεθος του δείγματος. Η ίδια σχέση ισχύει,
𝜈 √𝜈
σύμφωνα με το Κεντρικό Οριακό θεώρημα (Κ.Ο.Θ.) και στην περίπτωση που το δείγμα δεν προέρχεται από
κανονικό πληθυσμό, αλλά είναι μεγάλο, δηλαδή ν ≥ 30.
Προσπαθώντας λοιπόν να προσδιορίσουμε κάποιο στατιστικό κριτήριο για τις στατιστικές υποθέσεις που
θέσαμε έχουμε:
𝛼 = 𝑃(𝜈𝛼 𝛼𝜋𝜊𝜌𝜌ί𝜓𝜊𝜐𝜇𝜀 𝜏𝜂𝜈 𝛨0 ⁄𝛨0 𝜀ί𝜈𝛼𝜄 𝜎𝜔𝜎𝜏ή) = 𝑃(𝑥̅ > 𝜅⁄𝜇 = 𝜇0 ) ⟺

𝑥̅ − 𝜇0 𝜅 − 𝜇0 𝜅 − 𝜇0 𝜅 − 𝜇0 𝜅 − 𝜇0
⟺ 𝑎 = 𝑃( > ) = 1 − 𝑃 (𝑍 ≤ ) = 1−𝛷( ) ⟺ 𝛷( )=1−𝛼
𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈
𝜅 − 𝜇0 𝜎
⟺ = 𝑧𝛼 ⟺ 𝜅 = 𝜇0 + 𝑧𝛼
𝜎 ⁄ √𝜈 √𝜈

Επομένως προσδιορίσαμε την κριτική τιμή κ, τέτοια ώστε:


𝜎
Εάν 𝑥̅ > 𝜅 = 𝜇0 + 𝑧𝛼 απορρίπτουμε την 𝛨0
√𝜈

̅−𝝁𝟎
𝒙
ή εάν > 𝒛𝜶 απορρίπτουμε την 𝜢𝟎 (στατιστικό κριτήριο)
𝝈⁄√𝝂

Ελέγχουμε τώρα εάν θα απορρίψουμε την αρχική υπόθεση 𝛨0 : 𝜇0 = 750 του αρχικού παραδείγματος.
𝑥̅ − 𝜇0 765 − 750 15√36
= = = 1.8 > 𝑧𝛼 = 𝑧0.05 = 1.645
𝜎⁄√𝜈 50⁄√36 50

2
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς μπορούμε να συμπεράνουμε ότι το νέο λίπασμα αυξάνει την απόδοση της
καλλιέργειας.
Στον παρακάτω πίνακα παραθέτουμε συνοπτικά τα στατιστικά κριτήρια (απορριπτικές περιοχές της
𝛨0 ) για στατιστικούς ελέγχους υποθέσεων για τη μέση τιμή μ ενός πληθυσμού, όταν η διασπορά του
πληθυσμού 𝜎 2 είναι γνωστή ή άγνωστη, για μικρά ή μεγάλα δείγματα, καθώς επίσης και για ελέγχους
υποθέσεων για το ποσοστό 𝑝 ενός πληθυσμού.

(Α) Στατιστικοί έλεγχοι υποθέσεων που αναφέρονται σε ένα δείγμα που προέρχεται από ένα πληθυσμό

Απορριπτική περιοχή της 𝛨0 όταν Προϋποθέσεις

𝛨0 : 𝜇 = 𝜇0 𝛨1 : 𝜇 ≠ 𝜇0 𝛨1 : 𝜇 > 𝜇0 𝛨1 : 𝜇 < 𝜇0
𝜎 2 γνωστό και
ή
|𝑥̅ − 𝜇0 | 𝑥̅ − 𝜇0 𝑥̅ − 𝜇0 α) πληθυσμός
> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈 κανονικός ή
β) 𝜈 ≥ 30
𝜎 2 άγνωστο
και 𝜈 ≥ 30
|𝑥̅ − 𝜇0 | 𝑥̅ − 𝜇0 𝑥̅ − 𝜇0 (οτιδήποτε
> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
𝑠⁄√𝜈 𝑠⁄√𝜈 𝑠⁄√𝜈 πληθυσμός)

𝜎 2 άγνωστο
και πληθυσμός
|𝑥̅ − 𝜇0 | 𝑥̅ − 𝜇0 𝑥̅ − 𝜇0 κανονικός
> 𝑡𝜈−1,𝛼⁄2 > 𝑡𝜈−1,𝛼 < −𝑡𝜈−1,𝛼
𝑠⁄√𝜈 𝑠⁄√𝜈 𝑠⁄√𝜈 (𝜈 < 30)

𝛨0 : 𝑝 = 𝑝0 𝛨1 : 𝑝 ≠ 𝑝0 𝛨1 : 𝑝 > 𝑝0 𝛨1 : 𝑝 < 𝑝0
ν𝑝0 ≥ 5 και
|𝑝̂ − 𝑝0 | 𝑝̂ − 𝑝0 𝑝̂ − 𝑝0 ν(1 − 𝑝0 ) ≥ 5
> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
√𝑝0 (1 − 𝑝0 )/𝜈 √𝑝0 (1 − 𝑝0 )/𝜈 √𝑝0 (1 − 𝑝0 )/𝜈 𝑝̂ το ποσοστό
στο δείγμα

Στη συνέχεια παραθέτουμε συνοπτικά τα στατιστικά κριτήρια (απορριπτικές περιοχές της 𝛨0 ) για
στατιστικούς ελέγχους υποθέσεων για τη σύγκριση των μέσων τιμών 𝜇1 και 𝜇2 δύο πληθυσμών ανάλογα εάν
τα δείγματα είναι ανεξάρτητα ή εξαρτημένα (ζευγαρωτές παρατηρήσεις), εάν είναι μικρά ή μεγάλα ή τέλος
εάν οι διασπορές των δύο πληθυσμών είναι γνωστές ή άγνωστες. Επίσης παρατίθενται και τα στατιστικά
κριτήρια για ελέγχους υποθέσεων για τη σύγκριση των ποσοστών 𝑝1 και 𝑝2 δύο πληθυσμών.

3
Πριν προχωρήσουμε θα θέλαμε να αναφερθούμε στα εξαρτημένα δείγματα ή τις λεγόμενες ζευγαρωτές
παρατηρήσεις. Πολλές φορές το πείραμά μας πρέπει να γίνει κάτω από τις ίδιες συνθήκες. Για παράδειγμα εάν
ένας γεωπόνος επιθυμεί να συγκρίνει τις αποδόσεις δύο ποικιλιών σιταριού Α και Β και διαθέτει ν αγρούς,
καλύτερα είναι να σχεδιάσει το πείραμά του ως εξής: τους ν αγρούς να τους χωρίσει στη μέση και στο μισό
μέρος του αγρού να καλλιεργήσει την ποικιλία Α και στο άλλο μισό την ποικιλία Β, έτσι ώστε να
καλλιεργηθούν και οι δύο ποικιλίες κάτω από τις ίδιες συνθήκες (σε ίδιας γονιμότητας αγρούς, με τις ίδιες
καιρικές συνθήκες, ίδια λίπανση, ίδιος τρόπος άρδευσης, κ.λ.π.). Σε αυτές τις περιπτώσεις οι μετρήσεις μας
(αποδόσεις των ποικιλιών Α και Β) είναι εξαρτημένες, έχουμε δηλαδή ζευγαρωτές παρατηρήσεις. Ένα άλλο
παράδειγμα ζευγαρωτών παρατηρήσεων θα μπορούσαμε να έχουμε, εάν θέλαμε να συγκρίνουμε δύο
σιτηρέσια Α και Β. Θα είχαμε καλύτερο σχεδιασμό του πειράματός μας, εάν παίρναμε δίδυμα ζώα και στο
ένα δίναμε το σιτηρέσιο Α και στο δίδυμό του το σιτηρέσιο Β. Έτσι θα είχαμε πάλι ίδιες συνθήκες στο πείραμά
μας (ζώα της ίδιας φυλής, ίδιας ηλικίας, με το ίδιο γενετικό υλικό, κ.λ.π.). Επίσης έχουμε ζευγαρωτές
παρατηρήσεις όταν έχουμε μετρήσεις στο ίδιο άτομο, ίδιο ζώο, ίδιο φυτό πριν και μετά από κάποια επέμβαση
ή θεραπεία. Σε αυτές τις περιπτώσεις το στατιστικό τεστ που χρησιμοποιούμε αναφέρεται στις διαφορές των
ζευγαρωτών παρατηρήσεων (βλέπε ασκήσεις 8 και 12).

(Β) Στατιστικοί έλεγχοι υποθέσεων που αναφέρονται σε δύο δείγματα που προέρχονται από δύο πληθυσμούς

Απορριπτική περιοχή της 𝛨0 όταν Προϋποθέσεις

𝛨0 : 𝜇1 − 𝜇2 = 𝛿 𝛨1 : 𝜇1 − 𝜇2 ≠ 𝛿 𝛨1 : 𝜇1 − 𝜇2 > 𝛿 𝛨1 : 𝜇1 − 𝜇2 < 𝛿

|𝑥̅1 − 𝑥̅2 − 𝛿| 𝑥̅1 − 𝑥̅2 − 𝛿 𝑥̅1 − 𝑥̅ 2 − 𝛿 𝜎1 2 , 𝜎2 2 γνωστά και / ή


> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
𝜎 2 𝜎2 2 𝜎 2 𝜎2 2 𝜎 2 𝜎2 2 α) πληθυσμοί κανονικοί ή
√ 𝜈1 + √ 𝜈1 + √ 𝜈1 +
1 𝜈2 1 𝜈2 1 𝜈2 β) 𝜈1 , 𝜈2 ≥ 30

|𝑥̅1 − 𝑥̅2 − 𝛿| 𝑥̅1 − 𝑥̅2 − 𝛿 𝑥̅1 − 𝑥̅ 2 − 𝛿 𝜎1 2 , 𝜎2 2 άγνωστα και 𝜈1 , 𝜈2 ≥ 30


> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
𝑠 2 𝑠2 2 𝑠 2 𝑠2 2 𝑠 2 𝑠2 2 (οτιδήποτε πληθυσμοί)
√ 𝜈1 + √ 𝜈1 + 𝜈2
√ 𝜈1 + 𝜈2
1 𝜈2 1 1

𝜎1 2 , 𝜎2 2 άγνωστα, 𝜎1 2 = 𝜎2 2 ,
|𝑥̅1 − 𝑥̅2 − 𝛿| 𝑥̅1 − 𝑥̅ 2 − 𝛿 𝑥̅1 − 𝑥̅2 − 𝛿 𝜈1 ή 𝜈2 < 30, πληθυσμοί κανονικοί,
> 𝑡𝜈,𝛼⁄2 > 𝑡𝜈,𝑎 < −𝑡𝜈,𝑎
1 1 1 1 1 1 όπου 𝜈 = 𝜈1 +𝜈2 −2 και
𝑠∙√ + 𝑠∙√ + 𝑠∙√ +
𝜈1 𝜈2 𝜈1 𝜈2 𝜈1 𝜈2 (𝜈1 − 1)𝑠1 2 + (𝜈2 − 1)𝑠2 2
𝑠2 =
𝜈1 + 𝜈2 − 2
Ζευγαρωτές παρατηρήσεις, 𝜈 < 30*,
𝑑̅ και 𝑠𝑑 μέσος και τυπική απόκλιση
|𝑑̅ − 𝛿| 𝑑̅ − 𝛿 𝑑̅ − 𝛿 των διαφορών 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
> 𝑡𝜈−1,𝛼 ⁄2 > 𝑡𝜈−1,𝛼 < −𝑡𝜈−1,𝛼
𝑠𝑑 ⁄√𝜈 𝑠𝑑 ⁄√𝜈 𝑠𝑑 ⁄√𝜈 *αν 𝜈 ≥ 30 ίδιοι τύποι με 𝑧
𝛼 αντί
𝑡𝜈−1,𝛼
𝛨0 : 𝑝1 = 𝑝2 𝛨1 : 𝑝1 ≠ 𝑝2 𝛨1 : 𝑝1 > 𝑝2 𝛨1 : 𝑝1 < 𝑝2
𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5 (𝑖 =1, 2)
|𝑝̂1 − 𝑝̂2 | 𝑝̂1 − 𝑝̂2 𝑝̂1 − 𝑝̂2 𝑝̂1 =
𝑥1
το ποσοστό στο 1ο δείγμα,
> 𝑧𝛼⁄2 > 𝑧𝑎 < −𝑧𝑎 𝜈1
1 1 1 1 1 1 𝑥2
√𝑝̂ (1 − 𝑝̂ )(𝜈 + 𝜈 ) √𝑝̂ (1 − 𝑝̂ )(𝜈 + 𝜈 ) √𝑝̂ (1 − 𝑝̂ )(𝜈 + 𝜈 ) 𝑝̂2 = το ποσοστό στο 2ο δείγμα,
1 2 1 2 1 2 𝜈2
𝑥1 +𝑥2
𝑝̂ = το μέσο ποσοστό στα δύο
𝜈1 +𝜈2
δείγματα

4
Διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού
Όπως έχει αναφερθεί και παραπάνω, ένας εκτιμητής της μέσης τιμής μ ενός πληθυσμού είναι η μέση τιμή του
δείγματος 𝛸̅, η οποία ακολουθεί κανονική κατανομή:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝜈 𝜎
𝑋̅ = ~ 𝑁 (𝜇, )
𝜈 √𝜈
Αναζητούμε ένα 100(1-α)% διάστημα εμπιστοσύνης για την άγνωστη μέση τιμή μ ενός πληθυσμού, όταν η
διασπορά του πληθυσμού 𝜎 2 είναι γνωστή. Έστω (𝑥1 , 𝑥2 ) το διάστημα που ψάχνουμε να βρούμε. Τότε:
𝑥1 − 𝜇 𝑋̅ − 𝜇 𝑥2 − 𝜇
𝑃(𝑥1 < 𝑋̅ < 𝑥2 ) = 1 − 𝑎 ⟺ 𝑃 ( < < ) = 1 − 𝛼 ⟺ 𝑃(𝑧1 < 𝑍 < 𝑧2 ) = 1 − 𝑎
𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈

Σύμφωνα με το παραπάνω σχήμα της Ν(0, 1) θα πρέπει 𝑧1 = −𝑧𝑎⁄2 και 𝑧2 = 𝑧𝑎⁄2 . Συνεπώς θα έχουμε:
𝑋̅ − 𝜇 𝜎 𝜎
𝑃(−𝑧𝑎⁄2 < 𝑍 < 𝑧𝑎⁄2 ) = 𝑃 (−𝑧𝑎⁄2 < < 𝑧𝑎⁄2 ) = 𝑃 (𝑋̅ − 𝑧𝑎⁄2 < 𝜇 < 𝑋̅ + 𝑧𝑎⁄2 )=1−𝛼
𝜎⁄√𝜈 √𝜈 √𝜈
Επομένως βρήκαμε ένα 100(1-α)% διάστημα εμπιστοσύνης για τη μέση τιμή μ ενός πληθυσμού, όταν η
διασπορά του πληθυσμού 𝜎 2 είναι γνωστή:
𝜎 𝜎 𝜎
𝑥̅ ± 𝑧𝛼⁄2 ή (𝑥̅ − 𝑧𝑎⁄2 , 𝑥̅ + 𝑧𝑎⁄2 )
√𝜈 √𝜈 √𝜈

Στον παρακάτω πίνακα παραθέτουμε συνοπτικά τα 100(1-α)% διαστήματα εμπιστοσύνης για τη μέση
τιμή μ ενός πληθυσμού, όταν η διασπορά του πληθυσμού 𝜎 2 είναι γνωστή ή άγνωστη, για μικρά ή μεγάλα
δείγματα, καθώς επίσης και τα 100(1-α)% διαστήματα εμπιστοσύνης για τη διαφορά 𝜇1 − 𝜇2 των μέσων
τιμών δύο πληθυσμών, ανάλογα εάν τα δείγματα είναι ανεξάρτητα ή εξαρτημένα (ζευγαρωτές παρατηρήσεις),
εάν είναι μικρά ή μεγάλα ή τέλος εάν οι διασπορές των δύο πληθυσμών είναι γνωστές ή άγνωστες. Επίσης
παρατίθενται και τα 100(1-α)% διαστήματα εμπιστοσύνης για το ποσοστό 𝑝 ενός πληθυσμού ή για τη διαφορά
𝑝1 − 𝑝2 των ποσοστών δύο πληθυσμών.

5
(Γ) 100(𝟏 − 𝜶)% Διαστήματα Εμπιστοσύνης

Παράμετρος Προϋποθέσεις 100(1 − 𝛼)% διάστημα εμπιστοσύνης


πληθυσμού (ων)

(Α) Ένας πληθυσμός


μ 𝜎 2 γνωστό και / ή 𝜎
𝑥̅ ± 𝑧𝛼⁄2
α) πληθυσμός κανονικός ή √𝜈
β) 𝜈 ≥ 30
𝜎 2 άγνωστο, 𝜈 ≥ 30 𝑠
𝑥̅ ± 𝑧𝛼⁄2
(οτιδήποτε πληθυσμός) √𝜈
𝜎 2 άγνωστο και 𝑠
𝑥̅ ± 𝑡𝜈−1,𝛼⁄2
πληθυσμός κανονικός √𝜈
(𝜈 < 30)
p ν𝑝̂ ≥ 5 και ν(1 − 𝑝̂ ) ≥ 5
𝑝̂ (1 − 𝑝̂ )
(ποσοστό) 𝑝̂ το ποσοστό στο δείγμα 𝑝̂ ± 𝑧𝛼⁄2 √
𝜈
(Β) Δύο πληθυσμοί
𝜇1 − 𝜇2 𝜎1 2 , 𝜎2 2 γνωστά και / ή
𝜎1 2 𝜎2 2
α) πληθυσμοί κανονικοί ή 𝑥̅1 − 𝑥̅2 ± 𝑧𝛼⁄2 √ +
𝜈1 𝜈2
β) 𝜈1 , 𝜈2 ≥ 30

𝜎1 2 , 𝜎2 2 άγνωστα και 𝜈1 , 𝜈2 ≥ 30
𝑠1 2 𝑠2 2
(οτιδήποτε πληθυσμοί) 𝑥̅1 − 𝑥̅2 ± 𝑧𝛼⁄2 √ +
𝜈1 𝜈2

𝜎1 2 , 𝜎2 2 άγνωστα, 1 1
𝜎1 2 = 𝜎2 2 , 𝑥̅1 − 𝑥̅2 ± 𝑡𝜈1 +𝜈2 −2,𝛼⁄2 ∙ 𝑠 ∙ √ +
𝜈1 𝜈2
πληθυσμοί κανονικοί,
𝜈1 ή 𝜈2 < 30
(𝜈1 − 1)𝑠1 2 + (𝜈2 − 1)𝑠2 2
𝑠2 =
𝜈1 + 𝜈2 − 2

ζευγαρωτές παρατηρήσεις, 𝜈 < 30 𝑠𝑑


𝑑̅ ± 𝑡𝜈−1,𝛼⁄2
√𝜈
Αν 𝜈 ≥ 30 οι ίδιοι τύποι, αλλά με
𝑧𝛼⁄2 αντί 𝑡𝜈−1,𝛼⁄2 𝑑̅ και 𝑠𝑑 2 μέσος και διασπορά των 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖

𝑝1 − 𝑝2 𝜈𝑖 𝑝̂ 𝑖 ≥ 5 και
𝑝̂1 (1 − 𝑝̂1 ) 𝑝̂2 (1 − 𝑝̂ 2 )
(ποσοστά) 𝜈𝑖 (1 − 𝑝̂ 𝑖 ) ≥ 5, 𝑖 =1, 2 𝑝̂1 − 𝑝̂2 ± 𝑧𝛼⁄2 √ +
𝜈1 𝜈2

6
Λύσεις ασκήσεων από το φυλλάδιο 6 – Ασκήσεις σε Στατιστικούς Ελέγχους Υποθέσεων και Διαστήματα
Εμπιστοσύνης

1. Το όριο αντοχής ενός τύπου καλωδίων έχει μέση τιμή 1800 κιλά και τυπική απόκλιση 100 κιλά. Η εταιρεία
που φτιάχνει τα καλώδια ισχυρίζεται ότι μια βελτίωση στη μέθοδο κατασκευής αύξησε το όριο αντοχής. Για
να το επαληθεύσουμε, δοκιμάζουμε 50 νέα καλώδια. Εάν το μέσο όριο αντοχής τους βρέθηκε 1850 κιλά, είναι
σωστός ο ισχυρισμός της εταιρείας σε επίπεδο σημαντικότητας α = 0.01;

Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού (όριο αντοχής ενός τύπου
καλωδίων)
𝛨0 : 𝜇0 = 1800 (αρχική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇 > 1800 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
Από τα πειραματικά δεδομένα έχουμε: ν=50 το μέγεθος του δείγματος, 𝑥̅ =1850 ο μέσος όρος του δείγματος
και σ =100 η τυπική απόκλιση του πληθυσμού. Επειδή η διακύμανση του πληθυσμού είναι γνωστή 𝜎 2 =
1002 και επιπλέον έχουμε μεγάλο δείγμα ν=50 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν > 𝑧𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝜎 ⁄√ 𝜈

1850−1800 50√50
Αντικαθιστώντας έχουμε: = = 3.53 > 𝑧𝑎 = 𝑧0.01 = 2.33
100⁄√50 100

Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 1%. Συνεπώς μπορούμε να συμπεράνουμε ότι η βελτίωση στη μέθοδο κατασκευής αύξησε
το μέσο όριο αντοχής των καλωδίων.

2. Ένας κατασκευαστής συρματόσχοινων ισχυρίζεται ότι κάθε συρματόσχοινο ενός ορισμένου τύπου αντέχει
σε μέγιστο φορτίο 8000 κιλών. Δοκιμάζουμε 6 τέτοια συρματόσχοινα και βρίσκουμε μέσο φορτίο 7750 κιλά
με τυπική απόκλιση 145 κιλά. Μπορούμε να υποστηρίξουμε τον ισχυρισμό του κατασκευαστή σε επίπεδο
σημαντικότητας (α) 0.05, (β) 0.01;

Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού. Διατυπώνουμε τις υποθέσεις:
𝛨0 : 𝜇0 = 8000 (αρχική υπόθεση)
𝛨1 : 𝜇 < 8000 (εναλλακτική υπόθεση)
7
Από τα πειραματικά δεδομένα έχουμε: ν=6 (μικρό δείγμα), 𝑥̅ =7750 ο μέσος όρος του δείγματος και s=145
η τυπική απόκλιση του δείγματος. Επειδή η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε
μικρό δείγμα ν=6 <30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν < − 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠 ⁄√ 𝜈

(α) Αντικαθιστώντας σε επίπεδο σημαντικότητας α = 0.05 έχουμε:


7750−8000
= - 4.22 < −𝑡𝜈−1,𝑎 = −𝑡5,0.05 = -2.015
145⁄√6

Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς δεν ισχύει ο ισχυρισμός του κατασκευαστή.
(β) Σε επίπεδο σημαντικότητας α = 0.01 έχουμε:
- 4.22 < −𝑡𝜈−1,𝑎 = −𝑡5,0.01 = -3.365
Επομένως και σε επίπεδο σημαντικότητας 1%, η 𝛨0 απορρίπτεται και δεν μπορούμε να δεχτούμε ότι ισχύει
ο ισχυρισμός του κατασκευαστή.

3. Σε ένα πείραμα που πρόκειται να εκτελεστεί, εικάζεται ότι το pH του εδάφους μπορεί να επηρεάζει σε
σημαντικό βαθμό τα αποτελέσματα του πειράματος. Για το λόγο αυτό, πάρθηκαν 10 δείγματα χώματος από
ένα αγροτεμάχιο, υποψήφιο για τη διεξαγωγή του πειράματος και προσδιορίστηκε το pH σε κάθε δείγμα:

6.5 5.9 6.8 6.1 5.7 5.8 6.6 6.5 6.4 6.7

α) Δώστε 98% διάστημα εμπιστοσύνης για το μέσο pH του αγροτεμαχίου. β) Αν έχει αποφασιστεί ότι το
πείραμα θα εκτελεστεί σε αγροτεμάχιο του οποίου το μέσο pH είναι μεγαλύτερο από 6, τι απόφαση πρέπει να
ληφθεί για το εν λόγω αγροτεμάχιο σε επίπεδο σημαντικότητας 5%; Διατυπώστε κατάλληλες στατιστικές
υποθέσεις και κάντε κατάλληλο έλεγχο.

Προσδιορίζουμε καταρχάς τη μέση τιμή και την τυπική απόκλιση του δείγματος:

∑𝜈𝑖=1 𝑥𝑖 𝑥1 + 𝑥2 + ⋯ + 𝑥10 6.5 + 5.9 + ⋯ + 6.7


𝑥̅ = = = = 6.3
𝜈 10 10
𝜈
1
2
(6.5 − 6.3)2 + (5.9 − 6.3)2 + ⋯ + (6.7 − 6.3)2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = = 0.155
𝜈−1 10 − 1
𝑖=1

Επομένως 𝑠 = √𝑠 2 = √0.155 = 0.39


α) Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=10 <30, το
ζητούμενο 98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠
𝑥̅ ± 𝑡𝜈−1,𝛼⁄2
√𝜈

8
Όμως όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α = 0.02, επομένως
𝑡𝜈−1,𝛼⁄2 = 𝑡10−1, 0.02⁄2 = 𝑡9,0.01 =2.821
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
0.39
6.3 ± ⋅ 2.821 ή 6.3 ± 0.35 ή (5.95, 6.65)
√10

Επομένως με 98% βεβαιότητα μπορούμε να ισχυριστούμε ότι το μέσο pH του αγροτεμαχίου κυμαίνεται από 5.95
έως 6.65.
β) Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 6 (αρχική υπόθεση)
𝛨1 : 𝜇 > 6 (εναλλακτική υπόθεση)
Επειδή η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=10 <30, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν > 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠⁄√𝜈
Αντικαθιστώντας σε επίπεδο σημαντικότητας α = 0.05 έχουμε:
6.3−6
= 2.4 > 𝑡𝜈−1,𝑎 = 𝑡10−1,0.05 = 𝑡9,0.05 = 1.833
0.39⁄√10
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε στάθμη
σημαντικότητας 5%. Συνεπώς βασιζόμενοι στα πειραματικά δεδομένα μπορούμε να συμπεράνουμε ότι το
μέσο pH του αγροτεμαχίου είναι μεγαλύτερο από 6.

4. Οι κάτοικοι μιας περιοχής ανησυχούν για τη συγκέντρωση μονοξειδίου του άνθρακα στην ατμόσφαιρα
κατά τις μεσημεριανές ώρες. Η αρμόδια κρατική υπηρεσία, μετά από διαμαρτυρία των κατοίκων, επέλεξε
σύμφωνα με ένα σχέδιο τυχαίας δειγματοληψίας, 16 σημεία της περιοχής και έκανε 16 μετρήσεις (μια
μέτρηση σε κάθε σημείο). Οι μετρήσεις αυτές έδωσαν μέση συγκέντρωση μονοξειδίου του άνθρακα
55.9mg/m3 με τυπική απόκλιση 6.5mg/m3. Το επιτρεπτό για την υγεία των κατοίκων όριο μονοξειδίου του
άνθρακα είναι 55mg/m3. α) Με βάση τα ευρήματα στο δείγμα, και σε επίπεδο σημαντικότητας 5%, τι πρέπει
να ανακοινώσει η κρατική υπηρεσία στους κατοίκους; β) Δώστε 98% διάστημα εμπιστοσύνης για τη μέση
συγκέντρωση μονοξειδίου του άνθρακα. γ) Μια περιβαλλοντική οργάνωση πίεσε την κρατική υπηρεσία να
επαναλάβει τον έλεγχο με μεγαλύτερο δείγμα. Η κρατική υπηρεσία δέχθηκε και ένα νέο τυχαίο δείγμα
μεγέθους 60 που πήρε, έδωσε μέση συγκέντρωση μονοξειδίου του άνθρακα 56.2mg/m3 με τυπική απόκλιση
5.2mg/m3. Τι πρέπει να ανακοινώσει η κρατική υπηρεσία στους κατοίκους με βάση τα ευρήματα στο νέο
δείγμα σε επίπεδο σημαντικότητας 5%.

α) Διατυπώνουμε τις στατιστικές υποθέσεις:


𝛨0 : 𝜇0 = 55 (αρχική υπόθεση)
𝛨1 : 𝜇 > 55 (εναλλακτική υπόθεση)
9
Από τα πειραματικά δεδομένα έχουμε: ν=16 (μικρό δείγμα), 𝑥̅ =55.9mg/m3 ο μέσος όρος του δείγματος και
s=6.5mg/m3 η τυπική απόκλιση του δείγματος. Επειδή η διακύμανση του πληθυσμού είναι άγνωστη και
επιπλέον έχουμε μικρό δείγμα ν=16 <30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν > 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠⁄√𝜈
Αντικαθιστώντας σε επίπεδο σημαντικότητας α = 0.05 έχουμε:
55.9−55
= 0.55 < 𝑡𝜈−1,𝑎 = 𝑡15,0.05 = 1.753
6.5⁄√16
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς η κρατική υπηρεσία θα πρέπει να ανακοινώσει στους κατοίκους ότι με
βάση τα πειραματικά δεδομένα δεν υπάρχει υπέρβαση του επιτρεπτού για την υγεία των κατοίκων ορίου του
μονοξειδίου του άνθρακα.
β) Ζητείται 98% διάστημα εμπιστοσύνης για την άγνωστη μέση τιμή ενός πληθυσμού (συγκέντρωση του
μονοξειδίου του άνθρακα). Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό
δείγμα ν=16 <30, το ζητούμενο 98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠
𝑥̅ ± 𝑡𝜈−1,𝛼⁄2
√𝜈
Όμως όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι
α = 0.02, επομένως 𝑡𝜈−1,𝛼⁄2 = 𝑡16−1, 0.02⁄2 = 𝑡15,0.01 =2.602
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
6.5
55.9 ± ⋅ 2.602 ή 55.9 ± 4.23 ή (51.67, 60.13)
√16

γ) Οι στατιστικές υποθέσεις παραμένουν οι ίδιες:


𝛨0 : 𝜇0 = 55 (αρχική υπόθεση)
𝛨1 : 𝜇 > 55 (εναλλακτική υπόθεση)
Από τα νέα πειραματικά δεδομένα έχουμε ν=60 (μεγάλο δείγμα), 𝑥̅ =56.2mg/m3 ο μέσος όρος του νέου
δείγματος και s=5.2mg/m3 η τυπική του απόκλιση. Επειδή η διακύμανση του πληθυσμού είναι άγνωστη, αλλά
σε αυτήν την περίπτωση έχουμε μεγάλο δείγμα ν=60 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη
σχέση:
𝑥̅ −𝜇0
Εάν > 𝑧𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠⁄√𝜈
Αντικαθιστώντας σε επίπεδο σημαντικότητας α = 0.05 έχουμε:
56.2−55
= 1.788 > 𝑧𝑎 = 𝑧0.05 = 1.645
5.2⁄√60

10
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς η κρατική υπηρεσία θα πρέπει να ανακοινώσει στους κατοίκους ότι με βάση
τα νέα πειραματικά δεδομένα υπάρχει υπέρβαση του επιτρεπτού για την υγεία των κατοίκων ορίου του
μονοξειδίου του άνθρακα.

5. Σε δύο Τμήματα του Γ.Π.Α. δόθηκαν σε μια εξέταση για το μάθημα της Στατιστικής τα ίδια θέματα. Από
το 1ο Τμήμα πήραν μέρος στην εξέταση 40 φοιτητές και η μέση τους βαθμολογία ήταν 74 μονάδες (με άριστα
το 100) με τυπική απόκλιση 8, ενώ από το 2ο Τμήμα προσήλθαν στην εξέταση 50 φοιτητές, οι οποίοι πέτυχαν
μέση βαθμολογία 78, με τυπική απόκλιση 7. Ήταν στατιστικά σημαντική η διαφορά στην απόδοση των δύο
τμημάτων σε επίπεδο σημαντικότητας (α) 0.05, (β) 0.01.

(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇1 = 𝜇2 ή 𝛨0 : 𝜇1 − 𝜇2 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇1 ≠ 𝜇2 𝛨1 : 𝜇1 − 𝜇2 ≠ 0 (εναλλακτική υπόθεση)
Από τα πειραματικά δεδομένα έχουμε:
1ο Τμήμα : 𝜈1 = 40, 𝑥̅1 = 74, 𝑠1 = 8
2ο Τμήμα : 𝜈2 = 50, 𝑥̅2 = 78, 𝑠2 = 7
Επειδή οι διακυμάνσεις των δύο πληθυσμών είναι άγνωστες και επιπλέον έχουμε μεγάλα δείγματα ν1 =40 >30
και ν2 =50 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
Εάν
|𝑥̅ 1 − 𝑥̅ 2 −𝛿|
> 𝑧𝛼⁄2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠2 𝑠2
√ 1 + 𝜈2
𝜈1 2

Αντικαθιστώντας, με δ=0 και σε επίπεδο σημαντικότητας α = 0.05 έχουμε:


|74−78|
2 2
= 2.5 > 𝑧𝛼⁄2 = 𝑧0.025 =1.96
√8 + 7
40 50

11
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς υπάρχει στατιστικά σημαντική διαφορά στις βαθμολογίες των δύο τμημάτων.
(β) Εάν το επίπεδο σημαντικότητας του στατιστικού τεστ είναι α = 0.01, τότε 𝑧𝛼⁄2 = 𝑧0.005 = 2.58
και η ανισότητα του στατιστικού κριτηρίου δεν ισχύει, καθώς:
2.5 < 𝑧𝛼⁄2 = 𝑧0.005 = 2.58
Συνεπώς σε αυτήν την περίπτωση δεν μπορούμε να απορρίψουμε την 𝛨0 και επομένως δεν μπορούμε να
ισχυριστούμε ότι υπάρχει στατιστικά σημαντική διαφορά στις βαθμολογίες των δύο τμημάτων σε επίπεδο
σημαντικότητας 1% .

6. Προκειμένου να μετρηθεί η περιεκτικότητα κάποιας ουσίας στα νερά ενός ποταμού, ελήφθησαν 25 υδάτινα
δείγματα από τον ποταμό. Η μέση περιεκτικότητα της ουσίας στο δείγμα των 25 μετρήσεων ήταν 50 mg/lt με
τυπική απόκλιση 3.5 mg/lt. Για να συγκριθεί η περιεκτικότητα της ουσίας αυτής στον ποταμό με την
περιεκτικότητα της ίδιας ουσίας σε έναν παραπόταμό του, ελήφθησαν και 22 δείγματα νερού από τον
παραπόταμο, που είχαν μέση περιεκτικότητα 55.3 mg/lt και τυπική απόκλιση 3.2 mg/lt. (α) Σε επίπεδο
σημαντικότητας 1% αποδεικνύουν τα δεδομένα αυτά ότι η μέση συγκέντρωση της ουσίας στον παραπόταμο
είναι αυξημένη σε σχέση με τον ποταμό; (β) Σε επίπεδο σημαντικότητας 5% αποδεικνύουν τα δεδομένα αυτά
ότι η μέση συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον κύριο ποταμό κατά
περισσότερο από 3 mg/lt; (γ) Δώστε 98% διάστημα εμπιστοσύνης για τη μέση συγκέντρωση της ουσίας στον
κύριο ποταμό. (δ) Δώστε 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων συγκεντρώσεων της ουσίας
μεταξύ παραποτάμου και κύριου ποταμού.

(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών. Έστω 𝜇1
η μέση συγκέντρωση της ουσίας στον ποταμό και 𝜇2 η μέση συγκέντρωση της ουσίας στον παραπόταμο.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇1 = 𝜇2 ή 𝛨0 : 𝜇1 − 𝜇2 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇1 < 𝜇2 𝛨1 : 𝜇1 − 𝜇2 < 0 (εναλλακτική υπόθεση)

Από τα πειραματικά δεδομένα έχουμε:

12
Δείγματα από τον ποταμό: 𝜈1 = 25, 𝑥̅1 = 50mg/lt, 𝑠1 = 3.5mg/lt
Δείγματα από τον παραπόταμο: 𝜈2 = 22, 𝑥̅2 = 55.3mg/lt, 𝑠2 = 3.2mg/lt
Από τη διατύπωση του προβλήματος είναι προφανές ότι τα δείγματα έχουν ληφθεί το ένα ανεξάρτητα από το
άλλο. Επιπλέον κάνοντας τις παραδοχές ότι προέρχονται από κανονικούς πληθυσμούς με άγνωστες αλλά ίσες
διακυμάνσεις και λαμβάνοντας υπόψιν ότι έχουμε μικρά δείγματα ν1 =25 < 30 και ν2 =22 < 30, οδηγούμαστε
στην παρακάτω περιοχή απόρριψης της 𝛨0 :
𝑥̅1 − 𝑥̅2 − 𝛿
< −𝑡𝜈1+𝜈2−2,𝛼
1 1
𝑠∙√ +
𝜈1 𝜈2

όπου

2
(𝜈1 − 1)𝑠12 + (𝜈2 − 1)𝑠22
𝑠 =
𝜈1 + 𝜈2 − 2
η εκτίμηση της κοινής διασποράς. Υπολογίζουμε καταρχάς το 𝑠 2 και στη συνέχεια ελέγχουμε εάν ισχύει το
στατιστικό κριτήριο:
(25 − 1) 3.52 + (22 − 1) 3.22
𝑠2 = = 11.31 επομένως 𝑠 = √𝑠 2 = √11.31 = 3.36
25 + 22 − 2
Αντικαθιστώντας και με δ = 0, η περιοχή απόρριψης της 𝛨0 είναι:
50 − 55.3
= −5.4 < −𝑡𝜈1 +𝜈2 −2,𝛼 = −𝑡25+22−2,0.01 = −𝑡45,0.01 = −2.33
1 1
3.36 ∙ √25 + 22

Ισχύει η ανισότητα, επομένως απορρίπτουμε την 𝛨0 . Επομένως σε επίπεδο σημαντικότητας 1% μπορούμε να


συμπεράνουμε ότι η μέση συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον
ποταμό.
(β) 𝛨0 : 𝜇2 − 𝜇1 = 3 ή ισοδύναμα 𝛨0 : 𝜇1 − 𝜇2 = −3 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇2 − 𝜇1 > 3 𝛨1 : 𝜇1 − 𝜇2 < −3 (εναλλακτική υπόθεση)
Εάν πάρουμε το 1ο ζεύγος στατιστικών υποθέσεων έχουμε την παρακάτω περιοχή απόρριψης της 𝛨0 :
𝑥̅2 − 𝑥̅1 − 𝛿
> 𝑡𝜈1+𝜈2 −2,𝛼
1 1
𝑠∙√ +
𝜈1 𝜈2

ενώ εάν πάρουμε το ισοδύναμο 2ο ζεύγος στατιστικών υποθέσεων η περιοχή απόρριψης της 𝛨0 θα είναι:
𝑥̅1 − 𝑥̅2 − 𝛿
< −𝑡𝜈1+𝜈2−2,𝛼
1 1
𝑠∙√ +
𝜈1 𝜈2

όπου

2
(𝜈1 − 1)𝑠12 + (𝜈2 − 1)𝑠22
𝑠 =
𝜈1 + 𝜈2 − 2

13
Παίρνοντας το 1ο ζεύγος στατιστικών υποθέσεων έχουμε:
55.3 − 50 − 3
= 2.34 > 𝑡𝜈1 +𝜈2−2,𝛼 = 𝑡25+22−2,0.05 = 𝑡45,0.05 = 1.646
1 1
3.36 ∙ √25 + 22

Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Επομένως σε επίπεδο σημαντικότητας 5%, μπορούμε να ισχυριστούμε ότι η μέση
συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον κύριο ποταμό κατά περισσότερο
από 3 mg/lt. Στο ίδιο συμπέρασμα θα καταλήγαμε εάν παίρναμε το 2ο ζεύγος στατιστικών υποθέσεων και την
αντίστοιχη περιοχή απόρριψης της 𝛨0 .
(γ) Ζητείται 98% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (μέση συγκέντρωση της ουσίας
στον κύριο ποταμό).
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=25 <30, το
ζητούμενο 98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠
𝑥̅ ± 𝑡𝜈−1,𝛼⁄2
√𝜈
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από τον ποταμό: 𝜈1 = 25, 𝑥̅1 = 50mg/lt, 𝑠1 = 3.5mg/lt
Όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α = 0.02, επομένως 𝑡𝜈−1,𝛼⁄2 =
𝑡25−1, 0.02⁄2= 𝑡24,0.01=2.492
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
3.5
50 ± ⋅ 2.492 ή 50 ± 1.74 ή (48.26, 51.74)
√25

(δ) Ζητείται 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων συγκεντρώσεων της ουσίας μεταξύ
παραποτάμου και κύριου ποταμού, δηλαδή ζητείται ένα 95% διάστημα εμπιστοσύνης για τη διαφορά των
μέσων τιμών δύο πληθυσμών (παραπόταμος – ποταμός).

Καθώς οι διακυμάνσεις των δύο πληθυσμών 𝜎1 2 και 𝜎1 2 είναι άγνωστες και επιπλέον έχουμε μικρά δείγματα
ν1 =25 < 30 και ν2 =22 < 30, το ζητούμενο 95% διάστημα εμπιστοσύνης για τη διαφορά 𝜇2 − 𝜇1 θα δίνεται
από τη σχέση:

1 1
𝑥̅2 − 𝑥̅1 ± 𝑡𝜈1 +𝜈2 −2,𝛼⁄2 ∙ 𝑠 ∙ √ +
𝜈1 𝜈2
όπου
(𝜈1 − 1)𝑠1 2 + (𝜈2 − 1)𝑠2 2
𝑠2 =
𝜈1 + 𝜈2 − 2
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από τον ποταμό: 𝜈1 = 25, 𝑥̅1 = 50mg/lt, 𝑠1 = 3.5mg/lt
Δείγματα από τον παραπόταμο: 𝜈2 = 22, 𝑥̅2 = 55.3mg/lt, 𝑠2 = 3.2mg/lt
14
Η κοινή διακύμανση 𝑠 2 έχει ήδη υπολογιστεί από το (α) ερώτημα και είναι: 𝑠 2 =11.31, επομένως 𝑠 = √𝑠 2 =
√11.31 =3.36. Όταν ζητείται 95% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα είναι 𝛼 = 0.05, επομένως
το: 𝑡𝜈1 +𝜈2−2,𝛼⁄2 = 𝑡25+22−2, 0.05⁄2 = 𝑡45,0.025 = 1.96
Αντικαθιστώντας υπολογίζουμε το ζητούμενο 95% διάστημα εμπιστοσύνης για τη διαφορά 𝜇2 − 𝜇1 :
1 1
55.3 – 50 ± 1.96 ∙ 3.36 ∙ √25 + 22 = 5.3 ± 1.93 και τελικά το ζητούμενο διάστημα εμπιστοσύνης είναι:

(3.37, 7.23). Επομένως με 95% βεβαιότητα μπορούμε να ισχυριστούμε ότι η διαφορά των μέσων
συγκεντρώσεων της ουσίας μεταξύ παραποτάμου και κύριου ποταμού κυμαίνεται από 3.37 έως 7.23 mg/lt.

8. Για να ελέγξουμε την αποτελεσματικότητα δύο σιτηρεσίων Α και Β στην γαλακτοπαραγωγή των προβάτων
κάποιας φυλής, πήραμε εννέα ζεύγη δίδυμων προβατινών της φυλής αυτής και εφαρμόσαμε το σιτηρέσιο Α
στη μια προβατίνα του ζεύγους και το Β στην άλλη. Η ημερήσια γαλακτοπαραγωγή σε λίτρα φαίνεται στον
επόμενο πίνακα.

Σιτηρέσιο Α 9.1 8.2 7.1 9.5 8.4 7.7 7.2 7.8 9.3
Σιτηρέσιο Β 10.2 10.1 9.1 8.3 8.4 7.8 7.8 9.4 10.7

α) Να ελεγχθεί σε επίπεδο σημαντικότητας 5%, αν το σιτηρέσιο Β είναι καλύτερο από το Α.


β) Να ελεγχθεί σε επίπεδο σημαντικότητας 5%, αν με το σιτηρέσιο Β επιτυγχάνεται μέση παραγωγή γάλακτος
μεγαλύτερη από 9 λίτρα.
γ) Να δοθεί 95% διάστημα εμπιστοσύνης για τη μέση γαλακτοπαραγωγή των προβατινών που έλαβαν το
σιτηρέσιο Β.

α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών. Έστω 𝜇𝛢
η μέση γαλακτοπαραγωγή του σιτηρεσίου Α και 𝜇𝛣 η μέση γαλακτοπαραγωγή του σιτηρεσίου Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇𝛢 = 𝜇𝛣 ή 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢 < 𝜇𝛣 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < 0 (εναλλακτική υπόθεση)
Τα δείγματα είναι εξαρτημένα, δηλαδή έχουμε ζευγαρωτές παρατηρήσεις, καθώς τα δύο σιτηρέσια
εφαρμόζονται σε δίδυμες προβατίνες (ζώα της ίδιας φυλής, ίδιας ηλικίας, με το ίδιο γενετικό υλικό) και
επομένως το πείραμα γίνεται κάτω από τις ίδιες συνθήκες. Σε αυτήν την περίπτωση οι στατιστικές υποθέσεις
διατυπώνονται ως εξής:
𝛨0 : 𝜇𝛢−𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢−𝛣 < 0 (εναλλακτική υπόθεση)
και η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:

15
Εάν
𝑑̅ −𝛿
< − 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈

όπου 𝑑̅ και 𝑠𝑑 η μέση τιμή και η τυπική απόκλιση αντίστοιχα των διαφορών 𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 9
Επομένως για να ελέγξουμε τις στατιστικές υποθέσεις μας θα πρέπει να βρούμε τις διαφορές
𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 9 και στη συνέχεια να υπολογίσουμε τη μέση τιμή και την τυπική απόκλιση (𝑑̅
και 𝑠𝑑 ) των διαφορών. Επομένως:
Σιτηρέσιο Α (𝑥𝐴𝑖 ) 9.1 8.2 7.1 9.5 8.4 7.7 7.2 7.8 9.3

Σιτηρέσιο Β (𝑥𝐵𝑖 ) 10.2 10.1 9.1 8.3 8.4 7.8 7.8 9.4 10.7

𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 -1.1 -1.9 -2 1.2 0 -0.1 -0.6 -1.6 -1.4

Στη συνέχεια υπολογίζουμε τα 𝑑̅ και 𝑠𝑑 από τους γνωστούς τύπους της μέσης τιμής και της διασποράς:
𝜈
1
𝑑̅ = ∑ 𝑑𝑖
𝜈
𝑖=1
𝜈 𝜈
1 2 1
𝑠𝑑 2 = ∑(𝑑𝑖 − 𝑑̅ ) = (∑ 𝑑𝑖2 − 𝜈𝑑̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1

Αντικαθιστώντας έχουμε:
𝜈
1 (−1.1) + (−1.9) + ⋯ + (−1.4)
𝑑̅ = ∑ 𝑑𝑖 = = −0.83
𝜈 9
𝑖=1
𝜈
1 [(−1.1)2 + (−1.9)2 + ⋯ + (−1.4)2] − 9 ∙ (−0.83)2
𝑠𝑑 2 = (∑ 𝑑𝑖2 − 𝜈𝑑̅2 ) = = 1.11
𝜈−1 9−1
𝑖=1

και η τυπική απόκλιση των διαφορών 𝑑𝑖 είναι: 𝑠𝑑 = √𝑠𝑑 2 = √1.11 = 1.05

Αντικαθιστούμε στην παρακάτω σχέση του στατιστικού κριτηρίου, με δ=0 και έχουμε:
Εάν
𝑑̅ −𝛿
< − 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈

−0.83
= −2.37 < − 𝑡𝜈−1,𝑎 = − 𝑡9−1,0.05 = − 𝑡8,0.05 = −1.86
1.05⁄√9
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς το σιτηρέσιο Β αυξάνει τη γαλακτοπαραγωγή σε σχέση με το σιτηρέσιο Α.
β) Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 9 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛣 > 9 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
16
Καταρχάς υπολογίζουμε την μέση τιμή και την τυπική απόκλιση του δείγματος:
∑𝜈𝑖=1 𝑥𝛣𝑖 𝑥𝛣1 + 𝑥𝛣2 + ⋯ + 𝑥𝛣9 10.2 + 10.1 + ⋯ + 10.7
𝑥̅𝛣 = = = = 9.09
𝜈𝛣 9 9
𝜈 𝜈
1 1
𝑠𝐵2 = ∑(𝑥𝛣𝑖 − 𝑥̅ 𝛣 )2 = 2
(∑ 𝑥𝛣𝑖 − 𝜈𝛣 𝑥̅𝛣 2 ) =
𝜈𝛣 − 1 𝜈𝛣 − 1
𝑖=1 𝑖=1
1
= [(10.22 + 10.12 + ⋯ + 10.72 ) − 9 ∙ (9.09)2 ] = 1.17
9−1
Επομένως 𝑠𝐵 = √𝑠𝐵2 = √1.17 = 1.08
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=9<30, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ 𝛣 −𝜇0
Εάν > 𝑡𝜈𝛣−1,𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝐵 ⁄√𝜈𝛣

Αντικαθιστώντας σε επίπεδο σημαντικότητας α = 0.05 έχουμε:


9.09−9
= 0.25 < 𝑡𝜈−1,𝛼 = 𝑡9−1,0.05 = 𝑡8,0.05 =1.86
1.08⁄√9
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς δεν μπορούμε να ισχυριστούμε ότι η μέση γαλακτοπαραγωγή των
προβατινών που έλαβαν το σιτηρέσιο Β είναι μεγαλύτερη από 9 λίτρα.
γ) Ζητείται 95% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (γαλακτοπαραγωγή των
προβατινών που έλαβαν το σιτηρέσιο Β).
Από τα πειραματικά δεδομένα υπολογίσαμε: 𝑥̅𝛣 = 9.09 και 𝑠𝛣 =1.08
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα 𝜈𝛣 = 9 < 30, το
ζητούμενο 95% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:

𝑠𝛣
̅𝛣 ±
𝑥 𝑡𝜈𝛣 −1, 𝛼⁄2
√𝜈 𝛣
Όμως όταν ζητείται 95% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα θα είναι α=0.05, επομένως
𝛼⁄2 =0.025 και 𝑡𝜈𝛣 −1, 𝛼⁄2 = 𝑡9−1,0.025 = 𝑡8,0.025 = 2.306

Επομένως το ζητούμενο 95% διάστημα εμπιστοσύνης θα είναι:


1.08
9.09 ± ⋅2.306 ή 9.09 ± 0.83 ή (8.26, 9.92)
√9

Επομένως με 95% βεβαιότητα μπορούμε να ισχυριστούμε ότι η μέση γαλακτοπαραγωγή των προβατινών που
έλαβαν το σιτηρέσιο Β κυμαίνεται από 8.26 έως 9.92.

9. Σε μια απογραφή που έγινε πριν από πέντε χρόνια, βρέθηκε ότι το 10% των προβάτων της χώρας πάσχουν
από κάποια ασθένεια. Για να ελεγχθεί αν το ποσοστό αυτό άλλαξε, πάρθηκε τυχαίο δείγμα από 500 πρόβατα

17
και σε 47 από αυτά παρατηρήθηκε η συγκεκριμένη ασθένεια. α) Διαφέρει το ποσοστό των άρρωστων ζώων
σήμερα, από αυτό που βρέθηκε στην απογραφή πριν από πέντε χρόνια, σε επίπεδο σημαντικότητας 5%;
β) Δώστε 95% διάστημα εμπιστοσύνης για το σημερινό μέσο ποσοστό των άρρωστων ζώων.

Πρόκειται για στατιστικό έλεγχο υποθέσεων για το άγνωστο ποσοστό ενός πληθυσμού (ποσοστό των
προβάτων της χώρας που πάσχουν από κάποια ασθένεια).
𝛨0 : 𝑝0 = 0.10 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝑝 ≠ 0.10 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)

Από τα πειραματικά δεδομένα έχουμε ν=500 το μέγεθος του δείγματος και 𝑝̂ = 47⁄500 = 0.094 το ποσοστό
στο δείγμα. Επειδή έχουμε μεγάλο δείγμα ν=500 >30 και επιπλέον ισχύουν οι προϋποθέσεις:
𝜈𝑝0 =500 ∙ 0.10=50 ≥ 5 και ν(1 − 𝑝0 ) =500 ∙ (1 − 0.10)=450 ≥ 5, η απορριπτική περιοχή της 𝛨0 δίνεται
από τη σχέση:
|𝑝̂−𝑝0 |
Εάν > 𝑧𝛼⁄2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼⁄2 = 𝑧0.05⁄2 = 𝑧0.025 = 1.96 έχουμε:

|0.094 − 0.10| 0.006


= = 0.45 < 𝑧𝛼⁄2 = 𝑧0.05⁄2 = 𝑧0.025 = 1.96
√0.10(1 − 0.10)/500 0.0134

Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς (με βεβαιότητα 95%) δεν μπορούμε να ισχυριστούμε ότι το ποσοστό
των προβάτων της χώρας που πάσχουν από τη συγκεκριμένη ασθένεια διαφοροποιήθηκε.

β) Ζητείται 95% διάστημα εμπιστοσύνης για το σημερινό μέσο ποσοστό των προβάτων που πάσχουν από τη
συγκεκριμένη ασθένεια, δηλαδή ζητείται ένα 95% διάστημα εμπιστοσύνης για το άγνωστο ποσοστό ενός
πληθυσμού. Από τα δειγματοληπτικά δεδομένα έχουμε ν=500 το μέγεθος του δείγματος και 𝑝̂ =
47⁄500 =0.094 το ποσοστό στο δείγμα. Επειδή ισχύουν οι προϋποθέσεις: ν𝑝0 = 500 ∙ 0.10 = 50 ≥ 5 και
ν(1 − 𝑝0 ) = 500 ∙ (1 − 0.10) = 450 ≥ 5, το ζητούμενο 95% διάστημα εμπιστοσύνης είναι το:

18
𝑝̂ (1 − 𝑝̂ ) 0.094(1 − 0.094)
𝑝̂ ± 𝑧𝛼⁄2 √ = 0.094 ± 1.96√ = 0.094 ± 0.026 ή (0.068, 0.120) ή 6.8% − 12%
𝜈 500

Επομένως σε επίπεδο σημαντικότητας 5%, δηλαδή με βεβαιότητα 95% μπορούμε να ισχυριστούμε ότι το
σημερινό ποσοστό των προβάτων που πάσχουν από τη συγκεκριμένη ασθένεια κυμαίνεται από 6.8% έως
12%.

10. Το Journal of fish biology δημοσίευσε μια μελέτη που έκανε σύγκριση των παράσιτων που βρέθηκαν στα
είδη ψαριών στη Μεσόγειο και στον Ατλαντικό. Στη Μεσόγειο από τα 588 ψάρια που πιάστηκαν και
εξετάστηκαν, βρέθηκαν μολυσμένα από παράσιτα τα 211. Στον Ατλαντικό ωκεανό, από τα 123 ψάρια που
εξετάστηκαν βρέθηκαν μολυσμένα τα 26. α) Συγκρίνετε την αναλογία των μολυσμένων ψαριών από παράσιτα
στις δύο θάλασσες (α=0.05). β) Δώστε 98% διαστήματα εμπιστοσύνης για τα μέσα ποσοστά των μολυσμένων
ψαριών στη Μεσόγειο και στον Ατλαντικό ωκεανό. γ) Δώστε 95% διάστημα εμπιστοσύνης για τη διαφορά
των μέσων ποσοστών των μολυσμένων ψαριών στη Μεσόγειο και τον Ατλαντικό ωκεανό.

α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των άγνωστων ποσοστών δύο πληθυσμών
(ποσοστά μολυσμένων ψαριών από παράσιτα στη Μεσόγειο και στον Ατλαντικό). Έστω 𝑝1 το ποσοστό
μολυσμένων ψαριών από παράσιτα στη Μεσόγειο και 𝑝2 το αντίστοιχο ποσοστό Ατλαντικό. Διατυπώνουμε
τις στατιστικές υποθέσεις:
𝛨0 : 𝑝1 = 𝑝2 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝑝1 ≠ 𝑝2 (εναλλακτική υπόθεση)

Από τα πειραματικά δεδομένα έχουμε:


Δείγματα από τη Μεσόγειο: 𝜈1 = 588 το μέγεθος δείγματος και 𝑝̂1 =211/588=0.359 το ποσοστό στο δείγμα
Δείγματα από τον Ατλαντικό: 𝜈2 = 123 το μέγεθος δείγματος και 𝑝̂ 2 =26/123=0.211 το ποσοστό στο δείγμα
Καθώς ισχύουν οι προϋποθέσεις: 𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5, 𝑖 =1, 2 η απορριπτική περιοχή της 𝛨0 είναι:
Εάν
|𝑝̂1 −𝑝̂2 |
1 1
> 𝑧𝛼⁄2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝̂(1−𝑝̂)(𝜈 +𝜈 )
1 2

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼⁄2 = 𝑧0.05⁄2 = 𝑧0.025 = 1.96 και
211+26 237
𝑝̂ = = =0.33 έχουμε:
588+123 711

|0.359 − 0.211| 0.148


= = 3.17 > 𝑧𝛼⁄2 = 𝑧0.05⁄2 = 𝑧0.025 = 1.96
1 1 0.0467
√0.33(1 − 0.33)( + 123)
588

19
Επομένως ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Άρα υπάρχει στατιστικά σημαντική διαφορά στα ποσοστά των μολυσμένων ψαριών από
παράσιτα στις δύο θάλασσες.
β) Ζητούνται 98% διαστήματα εμπιστοσύνης για τα άγνωστα ποσοστά των μολυσμένων ψαριών από
παράσιτα στη Μεσόγειο και στον Ατλαντικό. Τα ζητούμενα διαστήματα εμπιστοσύνης δίνονται από τις
παρακάτω σχέσεις, καθώς και στις δύο περιπτώσεις ισχύουν οι προϋποθέσεις: 𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5 για
𝑖 =1, 2. Επιπλέον όταν ζητούνται 98% διαστήματα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α=0.02,
επομένως 𝑧𝛼⁄2 = 𝑧0.02⁄2 = 𝑧0.01 = 2.33

Εκτίμηση του ποσοστού των μολυσμένων ψαριών από παράσιτα στη Μεσόγειο:

𝑝̂1 (1 − 𝑝̂1 ) 0.359(1 − 0.359)


𝑝̂1 ± 𝑧𝛼⁄2 √ = 0.359 ± 2.33√ =
𝜈1 588

= 0.359 ± 0.046 ή (0.313, 0.405) ή 31.3% − 40.5%

Εκτίμηση του ποσοστού των μολυσμένων ψαριών από παράσιτα στον Ατλαντικό:

𝑝̂2 (1 − 𝑝̂ 2 ) 0.211(1 − 0.211)


𝑝̂ 2 ± 𝑧𝛼⁄2 √ = 0.211 ± 2.33√ =
𝜈2 123

= 0.211 ± 0.037 ή (0.174, 0.248) ή 17.4% − 24.8%


γ) Ζητείται 95% διάστημα εμπιστοσύνης για τη διαφορά των ποσοστών των μολυσμένων ψαριών στη
Μεσόγειο και τον Ατλαντικό ωκεανό. Το διάστημα εμπιστοσύνης δίνεται από την παρακάτω σχέση, καθώς
ισχύει η προϋπόθεση: 𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂ 𝑖 ) ≥ 5 για 𝑖 =1, 2, όπου 𝑝̂1 = 0.359 και 𝑝̂ 2 = 0.211. Επιπλέον όταν
ζητείται 95% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα θα είναι α=0.05, επομένως 𝑧𝛼⁄2 = 𝑧0.05⁄2 =
𝑧0.025 = 1.96.

𝑝̂1 (1 − 𝑝̂1 ) 𝑝̂2 (1 − 𝑝̂ 2 ) 0.359(1 − 0.359) 0.211(1 − 0.211)


𝑝̂1 − 𝑝̂2 ± 𝑧𝛼⁄2 √ + = 0.359 − 0.211 ± 1.96√ +
𝜈1 𝜈2 588 123

= 0.148 ± 0.082 ή (0.066, 0.230) ή 6.6% − 23%

20
Επομένως με πιθανότητα 0.95, η διαφορά των ποσοστών των μολυσμένων ψαριών στη Μεσόγειο και τον
Ατλαντικό ωκεανό κυμαίνεται από 6.6% - 23%.

11. Η αποτελεσματικότητα ενός φυτοφαρμάκου για την αντιμετώπιση κάποιας ασθένειας είναι γνωστό ότι
είναι 60%, δηλαδή το 60% των άρρωστων φυτών στα οποία χορηγείται το εν λόγω φάρμακο θεραπεύονται.
Για να ελέγξει την αποτελεσματικότητα ενός νέου φυτοφαρμάκου που καταπολεμά την ίδια ασθένεια, ένας
γεωπόνος χορήγησε το νέο φάρμακο σε 15 άρρωστα φυτά και από αυτά θεραπεύθηκαν τα 12. α) Σε επίπεδο
σημαντικότητας 5% υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι το νέο φάρμακο είναι πιο
αποτελεσματικό από αυτό που ήδη χρησιμοποιεί ο αγρότης; β) Αν ο γεωπόνος είχε εκτελέσει το πείραμα με
150 άρρωστα φυτά και είχε βρει ότι θεραπεύτηκαν 120 από αυτά, τι έπρεπε να έχουμε συμπεράνει; γ) Βρείτε
98% διάστημα εμπιστοσύνης για την αποτελεσματικότητα του νέου φαρμάκου με τα δεδομένα από τα 15
φυτά και ένα αντίστοιχο με τα δεδομένα από τα 150 φυτά. Σχολιάστε τα πλάτη των δύο διαστημάτων.

Πρόκειται για στατιστικό έλεγχο υποθέσεων για το άγνωστο ποσοστό ενός πληθυσμού (αποτελεσματικότητα
ενός φυτοφαρμάκου ή αλλιώς το ποσοστό των φυτών που πάσχουν από κάποια ασθένεια, στα οποία
χορηγείται το εν λόγω φάρμακο και θεραπεύονται).
𝛨0 : 𝑝0 = 0.60 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝑝 > 0.60 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)

Από τα πειραματικά δεδομένα έχουμε ν=15 το μέγεθος του δείγματος και 𝑝̂ = 12⁄15 = 0.8 το ποσοστό στο
δείγμα. Επειδή ισχύουν οι προϋποθέσεις: ν𝑝0 = 15 ∙ 0.6 = 9 ≥ 5 και ν(1 − 𝑝0 ) = 15(1 − 0.6) = 6 ≥ 5, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑝̂−𝑝0
Εάν > 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼 = 𝑧0.05 = 1.645 έχουμε:

0.8 − 0.6 0.2


= = 1.58 < 𝑧𝛼 = 𝑧0.05 = 1.645
√0.6(1 − 0.6)/15 0.1265

Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς δεν μπορούμε να ισχυριστούμε ότι το νέο φυτοφάρμακο έχει
μεγαλύτερη αποτελεσματικότητα, δηλαδή ότι το νέο φυτοφάρμακο αυξάνει το ποσοστό των φυτών που
θεραπεύονται.
β) Στο β) ερώτημα έχουμε να κάνουμε τον ίδιο ακριβώς στατιστικό έλεγχο με τις ίδιες στατιστικές υποθέσεις:
𝛨0 : 𝑝0 = 0.60 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝑝 > 0.60 (εναλλακτική υπόθεση)

21
Το μόνο που αλλάζει είναι το μέγεθος του δείγματος, δηλαδή τώρα ν=150 με 𝑝̂ = 120⁄150 = 0.8. Ισχύουν
ξανά οι προϋποθέσεις: ν𝑝0 = 150 ∙ 0.6 = 90 ≥ 5 και ν(1 − 𝑝0 ) = 150(1 − 0.6) = 60 ≥ 5, και έχουμε την
ίδια απορριπτική περιοχή της 𝛨0 :
𝑝̂−𝑝0
Εάν > 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼 = 𝑧0.05 = 1.645 έχουμε:

0.8 − 0.6 0.2


= = 5 > 𝑧𝛼 = 𝑧0.05 = 1.645
√0.6(1 − 0.6)/150 0.04

Επομένως όταν έχουμε μεγαλύτερο δείγμα ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς η 𝛨0
απορρίπτεται σε επίπεδο σημαντικότητας 5%. Άρα σε αυτήν την περίπτωση μπορούμε να ισχυριστούμε ότι το
νέο φυτοφάρμακο έχει μεγαλύτερη αποτελεσματικότητα, δηλαδή ότι το νέο φυτοφάρμακο αυξάνει το
ποσοστό των φυτών που θεραπεύονται.
γ) Ζητούνται 95% διαστήματα εμπιστοσύνης για το άγνωστο ποσοστό ενός πληθυσμού (αποτελεσματικότητα
του νέου φαρμάκου ή αλλιώς το ποσοστό των φυτών που θεραπεύονται όταν τους χορηγείται το νέο
φάρμακο), όταν έχουμε δεδομένα από 15 φυτά (1ο πείραμα) ή 150 φυτά (2ο πείραμα). Τα ζητούμενα 98%
διαστήματα εμπιστοσύνης δίνονται από τις παρακάτω σχέσεις, καθώς και στις δύο περιπτώσεις ισχύουν οι
προϋποθέσεις: ν𝑝̂ ≥ 5 και ν(1 − 𝑝̂ ) ≥ 5. Επιπλέον όταν ζητούνται 98% διαστήματα εμπιστοσύνης το
στατιστικό σφάλμα θα είναι α=0.02, επομένως 𝑧𝛼⁄2 = 𝑧0.02⁄2 = 𝑧0.01 = 2.33

Όταν έχουμε δεδομένα από 15 φυτά (1ο πείραμα):

𝑝̂ (1 − 𝑝̂ ) 0.8(1 − 0.8)
𝑝̂ ± 𝑧𝛼⁄2 √ = 0.8 ± 2.33√ = 0.8 ± 0.24 ή (0.56, 1.04) ή 56% − 104%
𝜈 15

Όταν έχουμε δεδομένα από 150 φυτά (2ο πείραμα):

𝑝̂ (1 − 𝑝̂ ) 0.8(1 − 0.8)
𝑝̂ ± 𝑧𝛼⁄2 √ = 0.8 ± 2.33√ = 0.8 ± 0.076 ή (0.724, 0.876) ή 72.4% − 87.6%
𝜈 150

22
12. Εταιρεία παραγωγής λιπασμάτων εμπορεύεται αυτή τη στιγμή ένα λίπασμα που έχει μέση απόδοση 75
κιλά/στρέμμα κάποιας καλλιέργειας. Δύο νέα λιπάσματα Α και Β για την ίδια καλλιέργεια δοκιμάζονται
πειραματικά σε 7 αγρούς με τις παρακάτω αποδόσεις:
Λίπασμα Α: 78.1 72.4 76.3 77.1 80.0 73.9 81.2
Λίπασμα Β: 81.5 83.4 78.7 81.5 81.4 79.8 80.7
Οι 7 αγροί της συγκεκριμένης καλλιέργειας είχαν χωριστεί στη μέση. Στο μισό αγροτεμάχιο
χρησιμοποιήθηκε το λίπασμα Α και στο άλλο μισό το λίπασμα Β.
(α) Με βάση αυτό το πείραμα μπορεί η εταιρεία να συμπεράνει ότι το νέο λίπασμα Α αυξάνει τη μέση
απόδοση της συγκεκριμένης καλλιέργειας; Κάντε κατάλληλο έλεγχο σε επίπεδο σημαντικότητας 5%.
(β) Δώστε 99% διάστημα εμπιστοσύνης για τη μέση απόδοση της συγκεκριμένης καλλιέργειας, όταν
χρησιμοποιείται το λίπασμα Α.
(γ) Σε επίπεδο σημαντικότητας 5% μπορεί η εταιρεία να συμπεράνει ότι υπάρχει στατιστικά σημαντική
διαφορά μεταξύ των μέσων αποδόσεων των δύο λιπασμάτων Α και Β, όταν χρησιμοποιούνται στη
συγκεκριμένη καλλιέργεια;
(δ) Σε επίπεδο σημαντικότητας 5% μπορεί η εταιρεία να συμπεράνει ότι το λίπασμα Β αυξάνει περισσότερο
από 2 κιλά/στρέμμα τη μέση απόδοση της συγκεκριμένης καλλιέργειας σε σχέση με το λίπασμα Α; Κάντε
κατάλληλο έλεγχο υποθέσεων.
(ε) Δώστε 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων αποδόσεων των δύο λιπασμάτων Α και Β
όταν χρησιμοποιούνται στη συγκεκριμένη καλλιέργεια.

(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού (απόδοση του νέου
λιπάσματος Α). Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 75 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇𝛢 > 75 (εναλλακτική υπόθεση) ) (Θέτουμε το ερώτημα του ερευνητή)
Καταρχάς από τα πειραματικά δεδομένα υπολογίζουμε την μέση τιμή και την τυπική απόκλιση του δείγματος:
∑𝜈𝑖=1 𝑥𝛢𝑖 𝑥𝛢1 + 𝑥𝛢2 + ⋯ + 𝑥𝛢7 78.1 + 72.4 + ⋯ + 81.2
𝑥̅𝛢 = = = = 77
𝜈𝛢 7 7
𝜈
1 1
𝑠𝛢2 = ∑(𝑥𝛢𝑖 − 𝑥̅𝛢 )2 = [(78.1 − 77)2 + (72.4 − 77)2 + ⋯ + (81.2 − 77)2 ] = 9.85
𝜈𝛢 − 1 7−1
𝑖=1

Επομένως 𝑠𝛢 = √𝑠𝛢2 = √9.85 =3.14

Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα 𝜈𝛢 =7<30, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ 𝛢 −𝜇0
Εάν > 𝑡𝜈𝛢−1,𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝛢 ⁄√𝜈𝛢

23
Αντικαθιστώντας σε επίπεδο σημαντικότητας α=0.05 έχουμε:
77−75
= 1.68 < 𝑡𝜈𝛢−1,𝛼 = 𝑡7−1,0.05 = 𝑡6,0.05 =1.943
3.14⁄√7
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς από αυτό το μικρό πείραμα των 7 παρατηρήσεων δεν μπορούμε να
ισχυριστούμε ότι η μέση στρεμματική απόδοση του νέου λιπάσματος είναι μεγαλύτερη από 75 κιλά.
(β) Ζητείται 99% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (απόδοση του νέου λιπάσματος
Α). Από τα πειραματικά δεδομένα υπολογίσαμε: 𝑥̅𝛢 = 77 κιλά/στρέμμα και 𝑠𝛢 =3.14 κιλά/στρέμμα.
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα 𝜈𝛢 = 7 < 30, το
ζητούμενο 98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠𝛢
𝑥̅𝛢 ± 𝑡𝜈𝛢−1, 𝛼⁄2
√𝜈𝛢
Όμως όταν ζητείται 99% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα θα είναι α=0.01, επομένως
𝛼⁄2 =0.005 και 𝑡𝜈𝛢−1, 𝛼⁄2 = 𝑡7−1,0.005 = 𝑡6,0.005 = 3.707
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
3.14
77 ± ⋅3.707 ή 77 ± 4.4 ή (72.6, 81.4)
√7

Επομένως με πιθανότητα 0.99, μπορούμε να ισχυριστούμε ότι η μέση στρεμματική απόδοση του νέου
λιπάσματος Α κυμαίνεται από 72.6 έως 81.4 κιλά.

(γ) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇𝛢 = 𝜇𝛣 ή 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢 ≠ 𝜇𝛣 𝛨1 : 𝜇𝛢 − 𝜇𝛣 ≠ 0 (εναλλακτική υπόθεση)
Τα δείγματα είναι εξαρτημένα, δηλαδή έχουμε ζευγαρωτές παρατηρήσεις, καθώς το πείραμα λαμβάνει χώρα
σε 7 αγρούς της συγκεκριμένης καλλιέργειας, οι οποίοι είχαν χωριστεί στη μέση. Στο μισό αγροτεμάχιο
χρησιμοποιήθηκε το λίπασμα Α και στο άλλο μισό το λίπασμα Β. Επομένως το πείραμα γίνεται κάτω από τις
ίδιες συνθήκες (τα λιπάσματα δοκιμάζονται σε αγρούς ίδιας γονιμότητας, ίδιας καλλιέργειας, με τις ίδιες
καιρικές συνθήκες κ.λ.π.). Σε αυτήν την περίπτωση οι στατιστικές υποθέσεις διατυπώνονται ως εξής:
𝛨0 : 𝜇𝛢−𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢−𝛣 ≠ 0 (εναλλακτική υπόθεση)
και η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
Εάν
|𝑑̅ −𝛿|
> 𝑡𝜈−1,𝛼/2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈

όπου 𝑑̅ και 𝑠𝑑 η μέση τιμή και η τυπική απόκλιση αντίστοιχα των διαφορών 𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 7
Επομένως για να ελέγξουμε τις στατιστικές υποθέσεις μας θα πρέπει να βρούμε τις διαφορές
24
𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 7 και στη συνέχεια να υπολογίσουμε τη μέση τιμή και την τυπική απόκλιση (𝑑̅
και 𝑠𝑑 ) των διαφορών. Επομένως:

Λίπασμα Α (𝑥𝐴𝑖 ) 78.1 72.4 76.3 77.1 80.0 73.9 81.2

Λίπασμα Β (𝑥𝐵𝑖 ) 81.5 83.4 78.7 81.5 81.4 79.8 80.7

𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 -3.4 -11 -2.4 -4.4 -1.4 -5.9 0.5

Στη συνέχεια υπολογίζουμε τα 𝑑̅ και 𝑠𝑑 από τους γνωστούς τύπους της μέσης τιμής και της διασποράς:
𝜈
1
𝑑̅ = ∑ 𝑑𝑖
𝜈
𝑖=1
𝜈 𝜈
1 2 1
𝑠𝑑 2 = ∑(𝑑𝑖 − 𝑑̅ ) = (∑ 𝑑𝑖2 − 𝜈𝑑̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1

Αντικαθιστώντας έχουμε:
𝜈
1 (−3.4) + (−11) + ⋯ + (0.5)
𝑑̅ = ∑ 𝑑𝑖 = = −4
𝜈 7
𝑖=1
𝜈
1 [(−3.4)2 + (−11)2 + ⋯ + (0.5)2 ] − 7 ∙ (−4)2
𝑠𝑑 2 = (∑ 𝑑𝑖2 − 𝜈𝑑̅2 ) = = 13.78
𝜈−1 7−1
𝑖=1

και η τυπική απόκλιση των διαφορών 𝑑𝑖 είναι: 𝑠𝑑 = √𝑠𝑑 2 = √13.78 =3.71

Αντικαθιστούμε στην παρακάτω σχέση του στατιστικού κριτηρίου με δ=0 και έχουμε:
Εάν
|𝑑̅ −𝛿|
> 𝑡𝜈−1,𝛼/2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈

|−4|
= 2.85 > 𝑡𝜈−1,𝑎/2 = 𝑡7−1,0.05/2 = 𝑡6,0.025 = 2.447
3.71⁄√7
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις μέσες στρεμματικές
αποδόσεις των δύο λιπασμάτων Α και Β της συγκεκριμένης καλλιέργειας.

(δ) 𝛨0 : 𝜇𝛣 − 𝜇𝛢 = 2 ή ισοδύναμα 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = −2 (αρχική ή μηδενική υπόθεση)


𝛨1 : 𝜇𝛣 − 𝜇𝛢 > 2 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < −2 (εναλλακτική υπόθεση)
Εάν πάρουμε το 1ο ζεύγος στατιστικών υποθέσεων θα έχουμε την παρακάτω περιοχή απόρριψης της 𝛨0 :
Εάν
̅ −𝛿΄
𝑑΄
> 𝑡𝜈−1,𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑΄ ⁄√𝜈
25
Όπου 𝛿΄ = 2 και 𝑑̅′, 𝑠𝑑΄ η μέση τιμή και η τυπική απόκλιση των διαφορών 𝑑𝑖′ = 𝑥𝐵𝑖 − 𝑥𝐴𝑖 , 𝑖 = 1,2, … , 7
Ενώ εάν πάρουμε το 2ο ζεύγος στατιστικών υποθέσεων θα έχουμε την παρακάτω περιοχή απόρριψης της 𝛨0 :
Εάν
𝑑̅ −𝛿
< −𝑡𝜈−1,𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈

Όπου 𝛿 = −2 και 𝑑̅, 𝑠𝑑 η μέση τιμή και η τυπική απόκλιση των διαφορών 𝑑𝑖 = 𝑥𝛢𝑖 − 𝑥𝛣𝑖 , 𝑖 = 1,2, … , 7
̅ = 4 και 𝑠𝑑′ = 3.71
Παίρνοντας το 1ο ζεύγος στατιστικών υποθέσεων αντικαθιστώντας στο κριτήριο, όπου 𝑑΄
και 𝛿΄ = 2 έχουμε:
4−2
= 1.43 < 𝑡𝜈−1,𝛼 = 𝑡7−1,0.05 = 𝑡6,0.05 = 1.943
3.71/√7
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν απορρίπτεται. Επομένως σε
επίπεδο σημαντικότητας 5%, δεν μπορεί η εταιρεία να συμπεράνει ότι το λίπασμα Β αυξάνει περισσότερο
από 2 κιλά/στρέμμα τη μέση απόδοση της συγκεκριμένης καλλιέργειας σε σχέση με το λίπασμα Α. Στο ίδιο
συμπέρασμα θα καταλήγαμε εάν παίρναμε το 2ο ζεύγος στατιστικών υποθέσεων και την αντίστοιχη περιοχή
απόρριψης της 𝛨0 .
(ε) Ζητείται 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων αποδόσεων των δύο λιπασμάτων Α και
Β όταν χρησιμοποιούνται στη συγκεκριμένη καλλιέργεια. Όπως είπαμε και στο (γ) και (δ) ερώτημα τα δύο
δείγματα είναι εξαρτημένα, δηλαδή έχουμε ζευγαρωτές παρατηρήσεις. Σε αυτήν την περίπτωση το ζητούμενο
95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών 𝜇𝛣 − 𝜇𝛢 δίνεται από τη σχέση:

𝑠𝑑′
̅±
𝑑΄ 𝑡𝜈−1,𝛼⁄2
√𝜈

Όπου 𝑧̅′ και 𝑠𝑧′ μέσος και η τυπική απόκλιση των διαφορών 𝑑𝑖′ = 𝑥𝐵𝑖 − 𝑥𝐴𝑖 , 𝑖 = 1,2, … , 7, τα οποία έχουν ήδη
̅ =4
υπολογιστεί και είναι: 𝑑΄ και 𝑠𝑑′ = 3.71. Όμως όταν ζητείται 95% διάστημα εμπιστοσύνης, το
στατιστικό σφάλμα θα είναι α=0.05, επομένως 𝛼 ⁄2 =0.025 και 𝑡𝜈𝛢−1, 𝛼⁄2 = 𝑡7−1,0.025 = 𝑡6,0.025 = 2.447.
Επομένως το ζητούμενο 95% διάστημα εμπιστοσύνης θα είναι:
3.71
4± ⋅ 2.447 ή 4 ± 3.43 ή (0.57, 7.43)
√7

Επομένως με πιθανότητα 0.95, μπορούμε να ισχυριστούμε ότι η διαφορά των μέσων αποδόσεων των δύο
λιπασμάτων B και A, όταν χρησιμοποιούνται στη συγκεκριμένη καλλιέργεια κυμαίνεται από 0.57 έως 7.43
κιλά.

13. 48 αγρότες μιας περιοχής καλλιεργούν παραδοσιακά ο καθένας στον αγρό του την ποικιλία Α ενός
αρωματικού φυτού. Την τελευταία χρονιά η μέση στρεμματική απόδοση ήταν x A  82 κιλά και η δειγματική
τυπική απόκλιση SA = 12 κιλά. Ο γεωπόνος της περιοχής για να τους πείσει να καλλιεργήσουν μια νέα
ποικιλία Β, η οποία ενώ πωλείται στην ίδια τιμή έχει μεγαλύτερες αποδόσεις, τους αναφέρει ότι 64 άλλοι

26
αγρότες μιας άλλης περιοχής την τελευταία χρονιά καλλιέργησαν την ποικιλία Β και είχαν μέση στρεμματική
απόδοση x B  102 κιλά και δειγματική τυπική απόκλιση SB = 16 κιλά.
α) Να ελεγχθεί σε επίπεδο σημαντικότητας 5% εάν ισχύει ο ισχυρισμός του γεωπόνου (ότι δηλαδή η ποικιλία
Β έχει μεγαλύτερη απόδοση από την ποικιλία Α).
β) Οι αγρότες τελικά συμφωνούν να καλλιεργήσουν την ποικιλία Β, μόνο εάν η Β έχει μέση στρεμματική
απόδοση 15 κιλά περισσότερο απ’ ότι η ποικιλία Α. Ελέγξτε σε επίπεδο σημαντικότητα 5% εάν θα αλλάξει
τελικά ή όχι η καλλιέργεια.
γ) Να ελεγχθεί σε επίπεδο σημαντικότητας 1% εάν η μέση απόδοση της ποικιλίας B είναι μεγαλύτερη από 98
κιλά το στρέμμα.
δ) Να βρεθεί 98% διάστημα εμπιστοσύνης για τη μέση στρεμματική απόδοση της ποικιλίας Β.

(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών. Έστω 𝜇𝛢
η μέση στρεμματική απόδοση της ποικιλίας Α και 𝜇𝛣 η μέση στρεμματική απόδοση της ποικιλίας Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇𝛢 = 𝜇𝛣 ή 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢 < 𝜇𝛣 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < 0 (εναλλακτική υπόθεση)
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από την ποικιλία Α: 𝜈𝛢 = 48, 𝑥̅𝛢 = 82 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇. , 𝑠𝛢 = 12 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇.
Δείγματα από την ποικιλία Β: 𝜈𝛣 = 64, 𝑥̅𝛣 = 102 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇. , 𝑠𝛣 = 16 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇.
Επειδή οι διακυμάνσεις των δύο πληθυσμών είναι άγνωστες και επιπλέον έχουμε μεγάλα δείγματα ν1 =48 >30
και ν2 =64 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
Εάν
𝑥̅𝛢 − 𝑥̅ 𝛣 −𝛿
< −𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠2 𝑠2
√ 𝛢 + 𝛣
𝜈𝛢 𝜈𝛣

Αντικαθιστώντας με δ=0 και σε επίπεδο σημαντικότητας α = 0.05 έχουμε:


82−102 −20
= = −7.56 < − 𝑧𝛼 = −𝑧0.05 = −1.645
√ 122 162 √7
+
48 64

Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς η ποικιλία Β έχει μεγαλύτερη απόδοση από την ποικιλία Α.
(β) 𝛨0 : 𝜇𝛣 − 𝜇𝛢 = 15 ή ισοδύναμα 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = −15 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛣 − 𝜇𝛢 > 15 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < −15 (εναλλακτική υπόθεση)
Εάν πάρουμε το 1ο ζεύγος στατιστικών υποθέσεων θα έχουμε την παρακάτω περιοχή απόρριψης της 𝛨0 (οι
διακυμάνσεις των δύο πληθυσμών είναι άγνωστες και επιπλέον έχουμε μεγάλα δείγματα ν1 =48 >30 και ν2 =64
>30):

27
Εάν
𝑥̅𝛣 − 𝑥̅ 𝛢 −𝛿
> 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠2 𝑠2
√ 𝛣 + 𝛢
𝜈𝛣 𝜈𝛢

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05 έχουμε:


102−82−15 5
= = 1.89 > 𝑧𝛼 = 𝑧0.05 = 1.645
√ 162 122 √7
+
64 48

Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς η ποικιλία Β έχει μεγαλύτερη στρεμματική απόδοση από την ποικιλία Α
περισσότερο από 15 κιλά.
γ) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού (ποικιλία Β).
𝛨0 : 𝜇0 = 98 (αρχική υπόθεση)
𝛨1 : 𝜇 > 98 (εναλλακτική υπόθεση)
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από την ποικιλία Β: 𝜈𝛣 = 64, 𝑥̅𝛣 = 102 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇. , 𝑠𝛣 = 16 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇.
Επειδή η διακύμανση του πληθυσμού είναι άγνωστη, αλλά έχουμε μεγάλο δείγμα 𝜈𝛣 = 64 >30, η απορριπτική
περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ 𝛣 −𝜇0
Εάν > 𝑧𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝐵 ⁄√𝜈𝛣

102−98 4√64
Αντικαθιστώντας έχουμε: = = 2 < 𝑧𝑎 = 𝑧0.01 = 2.33
16⁄√64 16

Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 1%. Συνεπώς (με βεβαιότητα 99%) δεν μπορούμε να ισχυριστούμε ότι η μέση
στρεμματική απόδοση της ποικιλίας Β είναι μεγαλύτερη από 98 κιλά.
δ) Ζητείται 98% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (απόδοση ποικιλίας Β). Καθώς η
διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μεγάλο δείγμα 𝜈𝛣 = 64 >30, το ζητούμενο
98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠𝛣
̅𝛣 ±
𝑥 𝑧𝛼⁄2
√ 𝜈𝛣
28
Όμως όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α = 0.02, επομένως 𝛼 ⁄2 =
0.01 και 𝑧𝛼⁄2 = 𝑧0.01 = 2.33
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
16
102 ±
√64
⋅ 2.33 ή 102 ± 4.66 ή (97.34, 106.66)

Πίνακας Τυπικής Κανονικής κατανοµής

Παράδειγμα: Φ(0.82)=0.7939, Φ(1.28)=0.8997

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

29
Πίνακας της tν,α κατανομής (Student)

α
β.ε. 0.10 0.05 0.025 0.01 0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
∞ 1.282 1.646 1.962 2.330 2.581

30
Στατιστική ανάλυση κατηγορικών δεδομένων
Στατιστικό τεστ 𝜲𝟐

Για να αναλύσουμε στατιστικά ποιοτικά ή κατηγορικά δεδομένα χρησιμοποιούμε τη


στατιστική δοκιμασία 𝛸 2 . Το στατιστικό τεστ 𝛸 2 μπορεί να είναι καλής προσαρμογής ή
ανεξαρτησίας ή ομοιογένειας.
Α) Δοκιμασία 𝜲𝟐 καλής προσαρμογής
Τα πειραματικά δεδομένα είναι χωρισμένα σε κάποιες κατηγορίες και έχουμε στη διάθεσή μας
τις συχνότητες κάθε κατηγορίας (π.χ. αριθμό ατόμων, ζώων, φυτών ανάλογα με το πείραμά μας,
που ανήκουν σε κάποια κατηγορία). Με το στατιστικό τεστ 𝛸 2 ελέγχουμε εάν τα δεδομένα
βρίσκονται σε κάποια αναλογία, σε κάποιο ποσοστό ή γενικότερα εάν προσαρμόζονται σε κάποιο
θεωρητικό μοντέλο ή κάποια θεωρητική κατανομή.
Παράδειγμα 1: Από τη διασταύρωση φυτών δύο τύπων παράγονται απόγονοι τριών τύπων Α, Β
και Γ. Ένα θεωρητικό μοντέλο κληρονομικότητας υποστηρίζει ότι οι τρεις τύποι απογόνων
βρίσκονται σε αναλογία [Link]. Σε ένα πείραμα με διασταυρώσεις φυτών δύο τύπων προέκυψαν 90
απόγονοι και πιο συγκεκριμένα 18 απόγονοι τύπου Α, 44 απόγονοι τύπου Β και 28 απόγονοι τύπου
Γ. Σε επίπεδο σημαντικότητας 5%, μπορούμε να ισχυριστούμε ότι τα αποτελέσματα αυτά
επαληθεύουν το γενετικό μοντέλο;

Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0 : Οι απόγονοι βρίσκονται σε αναλογία [Link] (Αρχική ή μηδενική υπόθεση)


𝛨1 : Οι απόγονοι δεν βρίσκονται σε αναλογία [Link] (Εναλλακτική υπόθεση)

Ως αρχική υπόθεση 𝛨0 θέτουμε πάντοτε ότι τα πειραματικά ή δειγματοληπτικά δεδομένα


βρίσκονται σε κάποια αναλογία, σε κάποιο ποσοστό ή γενικότερα εάν προσαρμόζονται σε κάποιο
θεωρητικό μοντέλο ή κάποια θεωρητική κατανομή.
Στη συνέχεια σκεφτόμαστε ως εξής: Αν ίσχυε η αναλογία [Link] του γενετικού μοντέλου θα
αναμέναμε το 1⁄4 των απογόνων να είναι τύπου Α, τα 2⁄4 να είναι τύπου Β και το 1⁄4 τύπου Γ.
Επομένως στους 90 απογόνους του πειράματός μας θα αναμέναμε: 1⁄4 ∙ 90 = 22.5 απογόνους
τύπου Α, 2⁄4 ∙ 90 = 45 απογόνους τύπου Β και 1⁄4 ∙ 90 = 22.5 απογόνους τύπου Γ. Στον

1
παρακάτω πίνακα έχουμε τις παρατηρηθείσες και τις αναμενόμενες ή θεωρητικές συχνότητες
𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 , 𝑖 = 1,2, … , 𝜅 :

Α Β Γ Άθροισμα
Παρατηρηθείσες
συχνότητες 𝜋𝑖 18 44 28 90
Αναμενόμενες ή θεωρητικές 1⁄4 ∙ 90 = 2⁄4 ∙ 90 = 1⁄4 ∙ 90
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 22.5 45 = 22.5 90
𝜋𝑖 − 𝜃𝑖 -4.5 -1 5.5

(𝜋𝑖 − 𝜃𝑖 )2 20.25 1 30.25

(𝜋𝑖 − 𝜃𝑖 )2 0.9 0.02 1.34 2.26


𝜃𝑖

Με τη δοκιμασία 𝛸 2 ελέγχουμε εάν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις


παρατηρηθείσες και τις θεωρητικές συχνότητες. Εάν υπάρχει στατιστικά σημαντική διαφορά
απορρίπτουμε την 𝛨0 , διαφορετικά την δεχόμαστε. Το στατιστικό κριτήριο για τον έλεγχο των
παραπάνω υποθέσεων είναι:
Εάν
(𝜋𝑖 −𝜃𝑖 )2
𝛸 2 = ∑𝜅𝑖=1 2
> 𝜒𝜅−1,𝛼 απορρίπτουμε την 𝛨0
𝜃𝑖

όπου 𝜋𝑖 οι παρατηρηθείσες συχνότητες, 𝜃𝑖 οι θεωρητικές και κ ο αριθμός των κατηγοριών. Για να


εφαρμόσουμε το τεστ 𝛸 2 , θα πρέπει για όλες τις θεωρητικές συχνότητες να ισχύει: 𝜃𝑖 ≥5, 𝑖 =
1, 2, … , 𝜅.
Αντικαθιστούμε για να ελέγξουμε εάν ισχύει η ανισότητα του στατιστικού κριτηρίου:

2
(18 − 22.5)2 (44 − 45)2 (28 − 22.5)2 2 2 2
𝛸 = + + = 2.26 < 𝜒𝜅−1,𝛼 = 𝜒3−1,0.05 = 𝜒2,0.05
22.5 45 22.5
= 5.99
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως τα αποτελέσματα αυτά επαληθεύουν
το γενετικό μοντέλο.

2
Β) Δοκιμασία 𝜲𝟐 ανεξαρτησίας ή ομοιογένειας
Πολύ συχνά σε πειραματικές ή δειγματοληπτικές έρευνες τα δεδομένα ταξινομούνται όχι μόνο ως
προς ένα χαρακτηριστικό, αλλά και ως προς ένα δεύτερο και έτσι προκύπτουν δισδιάστατα
δεδομένα που παρουσιάζονται σε δισδιάστατους πίνακες συχνότητας, τους πίνακες συνάφειας.

Παράδειγμα 2: Δύο εμβόλια (Α και Β) που δοκιμάζονται για κάποια ασθένεια που προσβάλει τα
πρόβατα, συγκρίθηκαν με ένα εμβόλιο που περιείχε αποσταγμένο νερό (Γ). Ο αριθμός των
προβάτων που αρρώστησαν ή δεν αρρώστησαν από τη συγκεκριμένη ασθένεια ήταν:

Εμβόλια
Α Β Γ
Αρρώστησαν 23 27 50
Δεν αρρώστησαν 147 153 100

Σε στάθμη σημαντικότητας 5% να εξετάσετε: α) Αν τα εμβόλια Α, Β, Γ έχουν την ίδια


αποτελεσματικότητα. β) Αν τα εμβόλια Α, Β έχουν την ίδια αποτελεσματικότητα.

α) Πρόκειται για 𝛸 2 στατιστικό έλεγχο ομοιογένειας.


Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Τα εμβόλια έχουν την ίδια αποτελεσματικότητα
ή 𝑝𝐴 = 𝑝𝐵 = 𝑝𝛤 (Υπάρχει ομοιογένεια ανάμεσα στις κατηγορίες)
𝛨1 : Τα εμβόλια δεν έχουν την ίδια αποτελεσματικότητα ή
τουλάχιστον κάποιο 𝑝𝑖 ≠ 𝑝𝑗 , 𝑖, 𝑗 = 𝛢, 𝐵, 𝛤 (Δεν υπάρχει ομοιογένεια στις κατηγορίες)

Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:


Εάν
2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗

όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες, 𝜃𝑖𝑗 οι θεωρητικές, κ ο αριθμός των γραμμών και λ ο
αριθμός των στηλών του πίνακα συνάφειας. Για να εφαρμόσουμε το τεστ 𝛸 2 , θα πρέπει για όλες
τις θεωρητικές συχνότητες να ισχύει: 𝜃𝑖 ≥5, ∀ (𝑖, 𝑗).
Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:

3
(ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑖 𝛾𝜌𝛼𝜇𝜇ή𝜍) × (ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑗 𝜎𝜏ή𝜆𝜂𝜍)
𝜃𝑖𝑗 = ∀ (𝑖, 𝑗).
𝜎𝜐𝜈𝜊𝜆𝜄𝜅ό ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼

Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:

100 ∙ 170 100 ∙ 180 100 ∙ 150


𝜃11 = = 34 𝜃12 = = 36 𝜃13 = = 30
500 500 500
400 ∙ 170 400 ∙ 180 400 ∙ 150
𝜃21 = = 136 𝜃22 = = 144 𝜃23 = = 120
500 500 500

Εμβόλια
Α Β Γ Άθροισμα
Αρρώστησαν 23 (34) 27 (36) 50 (30) 100
Δεν αρρώστησαν 147 (136) 153 (144) 100 (120) 400
Άθροισμα 170 180 150 500

Με τη δοκιμασία 𝛸 2 ελέγχουμε εάν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις


παρατηρηθείσες και τις θεωρητικές συχνότητες και πιο συγκεκριμένα, όπως αναφέραμε
παραπάνω, ελέγχουμε εάν ισχύει το στατιστικό κριτήριο: Εάν

(𝜋𝑖𝑗 −𝜃𝑖𝑗 )2 2
𝛸 = ∑𝜅𝑖=1 ∑𝜆𝑗=1
2
> 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃𝑖𝑗

όπου κ ο αριθμός των γραμμών και λ ο αριθμός των στηλών του πίνακα συνάφειας.
Αντικαθιστώντας έχουμε:

(23 − 34)2 (27 − 36)2 (100 − 120)2


𝛸2 = + + ⋯+ = 23.93 > 𝜒(2𝜅−1)(𝜆−1),𝛼
34 36 120

= 𝜒(22−1)(3−1),0.05 = 𝜒2,0.05
2
= 5.99

Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως τα εμβόλια Α, Β, Γ δεν έχουν την ίδια αποτελεσματικότητα.

β) Πρόκειται για 𝛸 2 στατιστικό έλεγχο ομοιογένειας, αλλά σε αυτήν την περίπτωση θα

4
συγκρίνουμε μόνο τα εμβόλια Α και Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Τα εμβόλια Α και Β έχουν την ίδια αποτελεσματικότητα ή 𝑝𝐴 = 𝑝𝐵 .
𝛨1 : Τα εμβόλια Α και Β δεν έχουν την ίδια αποτελεσματικότητα ή 𝑝𝛢 ≠ 𝑝𝛣
Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:
Εάν
2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗

όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες και 𝜃𝑖𝑗 οι θεωρητικές. Θα πρέπει: 𝜃𝑖𝑗 ≥5, ∀ (𝑖, 𝑗).
Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:

(ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑖 𝛾𝜌𝛼𝜇𝜇ή𝜍) × (ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑗 𝜎𝜏ή𝜆𝜂𝜍)


𝜃𝑖𝑗 = ∀ (𝑖, 𝑗).
𝜎𝜐𝜈𝜊𝜆𝜄𝜅ό ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼

Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:

50 ∙ 170 50 ∙ 180
𝜃11 = = 24.3 𝜃12 = = 25.7
350 350
300 ∙ 170 300 ∙ 180
𝜃21 = = 145.7 𝜃22 = = 154.3
350 350

Α Β Άθροισμα
Αρρώστησαν 23 (24.3) 27 (25.7) 50
Δεν αρρώστησαν 147 (145.7) 153 (154.3) 300
Άθροισμα 170 180 350

Καθώς για όλες τις θεωρητικές συχνότητες ισχύουν οι προϋποθέσεις 𝜃𝑖𝑗 ≥5, ελέγχουμε εάν ισχύει
το στατιστικό κριτήριο. Αντικαθιστώντας έχουμε:

5
(23 − 24.3)2 (27 − 25.7)2 (147 − 145.7)2 (153 − 154.3)2
𝛸2 = + + + = 0.016 <
24.3 25.7 145.7 154.3

< 𝜒(2𝜅−1)(𝜆−1),𝛼 = 𝜒(22−1)(2−1),0.05 = 𝜒1,0.05


2
= 3.84

Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως τα εμβόλια Α και Β δεν έχουν την ίδια
αποτελεσματικότητα.

Λύσεις ασκήσεων από το φυλλάδιο 7 – Ασκήσεις στο στατιστικό τεστ 𝜲𝟐

1. Σύμφωνα με τη θεωρία του Mendel, αν διασταυρωθούν φυτά μπιζελιών με στρογγυλούς-


κίτρινους σπόρους, με φυτά μπιζελιών με ρυτιδωμένους πράσινους σπόρους, θα δώσουν σπόρους
στρογγυλούς-κίτρινους, ρυτιδωμένους-κίτρινους, στρογγυλούς-πράσινους και ρυτιδωμένους-
πράσινους σε αναλογία [Link]. Σε ένα πείραμα παρατηρήθηκαν τα παρακάτω αποτελέσματα:
i) Στρογγυλοί-κίτρινοι 87 ii) Ρυτιδωμένοι-κίτρινοι 35
iii) Στρογγυλοί-πράσινοι 26 iv) Ρυτιδωμένοι-πράσινοι 12
Σε επίπεδο σημαντικότητας α=0.05, συμφωνούν οι παρατηρήσεις αυτές με τη θεωρία του Mendel;

Πρόκειται για 𝛸 2 στατιστικό έλεγχο καλής προσαρμογής. Διατυπώνουμε τις στατιστικές


υποθέσεις:
𝛨0 : Οι απόγονοι βρίσκονται σε αναλογία [Link] ή
τα αποτελέσματα συμφωνούν με τη θεωρία του Mendel

𝛨1 : Οι απόγονοι δεν βρίσκονται σε αναλογία [Link] ή


τα αποτελέσματα δεν συμφωνούν με τη θεωρία του Mendel

Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:


Εάν
(𝜋 −𝜃 ) 2
2
𝛸 = ∑𝜅𝑖=1 𝑖 𝑖 2
> 𝜒𝜅−1,𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖

όπου 𝜋𝑖 οι παρατηρηθείσες συχνότητες, 𝜃𝑖 οι θεωρητικές και κ ο αριθμός των κατηγοριών. Για να


εφαρμόσουμε το τεστ 𝛸 2 , θα πρέπει για όλες τις θεωρητικές συχνότητες να ισχύει: 𝜃𝑖 ≥5, 𝑖 =
1, 2, 3, 4.
Αν ίσχυε η αναλογία [Link] της θεωρίας του Mendel θα αναμέναμε τα 9⁄16 των απογόνων να

6
είναι στρογγυλοί-κίτρινοι, τα 3⁄16 να είναι ρυτιδωμένοι-κίτρινοι, τα 3⁄16 να είναι στρογγυλοί-
πράσινοι και το 1⁄16 να είναι ρυτιδωμένοι-πράσινοι. Επομένως στους 160 απογόνους του
πειράματός μας θα αναμέναμε: 9⁄16 ∙ 160 = 90 απογόνους στρογγυλούς-κίτρινους, 3⁄16 ∙ 160 =
30 απογόνους ρυτιδωμένους-κίτρινους, 3⁄16 ∙ 160 = 30 απογόνους στρογγυλούς-πράσινους και
1⁄16 ∙ 160 = 10 απογόνους ρυτιδωμένους-πράσινους. Στον παρακάτω πίνακα έχουμε τις
παρατηρηθείσες και τις αναμενόμενες συχνότητες:

Σ-Κ Ρ-Κ Σ-Π Ρ-Π Άθροισμα


Παρατηρηθείσες
συχνότητες 𝜋𝑖 87 35 26 12 160
Αναμενόμενες ή θεωρητικές 9⁄16 ∙ 160 3⁄16 ∙ 160 3⁄16 ∙ 1⁄16 ∙ 160
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 = 90 = 30 160 = 30 = 10 160
𝜋𝑖 − 𝜃𝑖 -3 5 -4 2

(𝜋𝑖 − 𝜃𝑖 )2 9 25 16 4

(𝜋𝑖 − 𝜃𝑖 )2 0.1 0.83 0.53 0.4 1.86


𝜃𝑖

Αντικαθιστούμε τις παρατηρηθείσες και τις αναμενόμενες συχνότητες και ελέγχουμε εάν ισχύει η
ανισότητα του στατιστικού κριτηρίου:

2
(87 − 90)2 (35 − 30)2 (26 − 30)2 (12 − 10)2 2 2
𝛸 = + + + = 1.86 < 𝜒𝜅−1,𝛼 = 𝜒4−1,0.05
90 30 30 10
2
= 𝜒3,0.05 = 7.81

Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως τα αποτελέσματα αυτά επαληθεύουν
τη θεωρία του Mendel.

2. Σε 600 πρόβατα μιας περιοχής βρέθηκε ότι τα 210 ήταν της φυλής Α, τα 220 της φυλής Β και
τα υπόλοιπα της φυλής Γ. α) Σε επίπεδο σημαντικότητας α=0.05, μπορούμε να ισχυριστούμε ότι
οι τρεις φυλές Α, Β, Γ της περιοχής βρίσκονται στην ίδια αναλογία; β) Σε επίπεδο σημαντικότητας
α=0.05, μπορούμε να ισχυριστούμε ότι τα πραγματικά ποσοστά των τριών φυλών Α, Β και Γ είναι
35%, 35% και 30% αντίστοιχα;

7
α) Πρόκειται για 𝛸 2 στατιστικό έλεγχο καλής προσαρμογής.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Οι τρεις φυλές Α, Β, Γ της περιοχής βρίσκονται στην ίδια αναλογία ([Link])
𝛨1 : Οι τρεις φυλές Α, Β, Γ της περιοχής δεν βρίσκονται στην ίδια αναλογία ([Link])
Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:
Εάν
2
2 𝜅 (𝜋𝑖 −𝜃𝑖 ) 2
𝛸 = ∑𝑖=1 > 𝜒𝜅−1,𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖
όπου 𝜋𝑖 οι παρατηρηθείσες συχνότητες και 𝜃𝑖 οι θεωρητικές. Θα πρέπει: 𝜃𝑖 ≥5, 𝑖 = 1, 2, 3
Στον παρακάτω πίνακα παραθέτουμε τις παρατηρηθείσες και τις αναμενόμενες συχνότητες:

Κατηγορίες
Α Β Γ Άθροισμα
Παρατηρηθείσες 210 220 170
συχνότητες 𝜋𝑖 600
Αναμενόμενες ή θεωρητικές 1⁄3 ∙ 600 = 1⁄3 ∙ 600 = 1⁄3 ∙ 600 =
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 200 200 200 600
𝜋𝑖 − 𝜃𝑖 10 20 -30

(𝜋𝑖 − 𝜃𝑖 )2 100 400 900

(𝜋𝑖 − 𝜃𝑖 )2 0.5 2 4.5 7


𝜃𝑖

Ελέγχουμε εάν ισχύει η ανισότητα του στατιστικού κριτηρίου:

2
(210 − 200)2 (220 − 200)2 (170 − 200)2 2 2 2
𝛸 = + + = 7 > 𝜒𝜅−1,𝛼 = 𝜒3−1,0.05 = 𝜒2,0.05
200 200 200

= 5.99

Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως δεν μπορούμε να ισχυριστούμε ότι οι τρεις φυλές Α, Β, Γ της
περιοχής βρίσκονται στην ίδια αναλογία.

8
β) Θα εφαρμόσουμε και σε αυτήν την περίπτωση το τεστ 𝛸 2 καλής προσαρμογής.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Οι τρεις φυλές Α, Β, Γ βρίσκονται σε ποσοστό 𝑝𝐴 = 0.35, 𝑝𝐵 = 0.35, 𝑝𝛤 = 0.30
𝛨1 : Οι τρεις φυλές Α, Β, Γ δεν βρίσκονται σε ποσοστό 𝑝𝐴 = 0.35, 𝑝𝐵 = 0.35, 𝑝𝛤 = 0.30

Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:


Εάν
2
2 𝜅 (𝜋𝑖 −𝜃𝑖 ) 2
𝛸 = ∑𝑖=1 > 𝜒𝜅−1,𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖

όπου 𝜋𝑖 οι παρατηρηθείσες συχνότητες και 𝜃𝑖 οι θεωρητικές. Θα πρέπει: 𝜃𝑖 ≥5, 𝑖 = 1, 2, 3.


Στον παρακάτω πίνακα παραθέτουμε τις παρατηρηθείσες και τις αναμενόμενες συχνότητες:

Κατηγορίες
Α Β Γ Άθροισμα
Παρατηρηθείσες 210 220 170
συχνότητες 𝜋𝑖 600
Αναμενόμενες ή 0.35 ∙ 600 = 0.35 ∙ 600 = 0.30 ∙ 600 =
θεωρητικές συχνότητες 𝜃𝑖 210 210 180 600
𝜋𝑖 − 𝜃𝑖 0 10 -10

(𝜋𝑖 − 𝜃𝑖 )2 0 100 100

(𝜋𝑖 − 𝜃𝑖 )2 0 0.48 0.56 1.04


𝜃𝑖
Ελέγχουμε εάν ισχύει η ανισότητα του στατιστικού κριτηρίου:

2
(210 − 210)2 (220 − 210)2 (170 − 180)2 2 2 2
𝛸 = + + = 1.04 < 𝜒𝜅−1,𝛼 = 𝜒3−1,0.05 = 𝜒2,0.05
210 210 180

= 5.99

Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως τα πειραματικά δεδομένα υποστηρίζουν ότι οι τρεις φυλές Α, Β,
Γ της περιοχής βρίσκονται σε ποσοστό 35%, 35% και 30% αντίστοιχα.

9
3. Στη βιβλιογραφία αναφέρεται ότι τα ποσοστά των ομάδων αίματος Α, Β, ΑΒ και Ο σε έναν
πληθυσμό είναι 0.41, 0.10, 0.04 και 0.45 αντίστοιχα. Μια ομάδα ερευνητών, προκειμένου να
ελέγξει αν τα ποσοστά των ομάδων αίματος σε αυτόν τον πληθυσμό είναι πράγματι αυτά που
αναφέρονται στην βιβλιογραφία, επέλεξε τυχαία 200 άτομα από αυτόν τον πληθυσμό και για
καθένα κατέγραψε την ομάδα αίματός του. Στον πίνακα που ακολουθεί φαίνεται η συχνότητα
κάθε ομάδας αίματος που παρατηρήθηκε στο δείγμα.

Ομάδα αίματος
Α Β ΑΒ Ο
Συχνότητα
89 18 12 81
(παρατηρηθείσα)

α) Σε επίπεδο σημαντικότητας 5%, τα ποσοστά που παρατηρούνται στο δείγμα συμφωνούν ή όχι,
με τα αντίστοιχα ποσοστά που αναφέρονται στη βιβλιογραφία; β) Με βάση το συμπέρασμά σας
στο (α), μπορείτε να αποφασίσετε σε επίπεδο σημαντικότητας 1%, αν τα ποσοστά που
παρατηρούνται στο δείγμα συμφωνούν ή όχι, με τα αντίστοιχα ποσοστά που αναφέρονται στη
βιβλιογραφία; Εξηγείστε.

α) Πρόκειται για 𝛸 2 στατιστικό έλεγχο καλής προσαρμογής. Διατυπώνουμε τις στατιστικές


υποθέσεις:
𝛨0 : Τα πειραματικά δεδομένα συμφωνούν με τα αντίστοιχα της βιβλιογραφίας,
δηλαδή οι ομάδες αίματος Α, Β, ΑΒ, Ο στον πληθυσμό βρίσκονται σε ποσοστό
𝑝𝐴 = 0.41, 𝑝𝐵 = 0.10, 𝑝𝛢𝛣 = 0.04, 𝑝𝛰 = 0.45 αντίστοιχα.
𝛨1 : Τα πειραματικά δεδομένα δεν συμφωνούν με τα αντίστοιχα της βιβλιογραφίας,
δηλαδή οι ομάδες αίματος Α, Β, ΑΒ, Ο στον πληθυσμό δεν βρίσκονται σε ποσοστό
𝑝𝐴 = 0.41, 𝑝𝐵 = 0.10, 𝑝𝛢𝛣 = 0.04, 𝑝𝛰 = 0.45 αντίστοιχα.

Αφού υπολογίσουμε τις θεωρητικές συχνότητες 𝜃𝑖 = 𝑛 ∙ 𝑝𝑖 , 𝑖 = 1,2,3,4 με το στατιστικό κριτήριο


που δίνεται παρακάτω ελέγχουμε εάν ισχύουν οι παραπάνω υποθέσεις:
Εάν
(𝜋 −𝜃 ) 2
2
𝛸 = ∑𝜅𝑖=1 𝑖 𝑖 2
> 𝜒𝜅−1,𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖

όπου 𝜋𝑖 οι παρατηρηθείσες συχνότητες και 𝜃𝑖 οι θεωρητικές. Θα πρέπει: 𝜃𝑖 ≥5, 𝑖 = 1, 2, 3


Στον παρακάτω πίνακα παραθέτουμε τις παρατηρηθείσες και τις αναμενόμενες συχνότητες:

10
Ομάδες αίματος
Α Β ΑΒ Ο Άθροισμα
Παρατηρηθείσες
89 18 12 81
συχνότητες 𝜋𝑖 200
Αναμενόμενες ή θεωρητικές 0.41 ∙ 200 = 0.10 ∙ 200 = 0.04 ∙ 200 = 0.45∙200 =
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 82 20 8 90 200
𝜋𝑖 − 𝜃𝑖 7 -2 4 -9
(𝜋𝑖 − 𝜃𝑖 )2 49 4 16 81
(𝜋𝑖 − 𝜃𝑖 )2 0.598 0.2 2 0.9 3.698
𝜃𝑖

Ελέγχουμε εάν ισχύει η ανισότητα του στατιστικού κριτηρίου:


(89 − 82)2 (18 − 20)2 (12 − 8)2 (81 − 90)2 2 2
𝛸2 = + + + = 3.698 < 𝜒𝜅−1,𝛼 = 𝜒4−1,0.05
82 20 8 90
2
= 𝜒3,0.05 = 7.81

Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως δεν μπορούμε να ισχυριστούμε ότι οι
ομάδες αίματος Α, Β, ΑΒ, Ο στον πληθυσμό βρίσκονται σε ποσοστό 𝑝𝐴 = 0.41, 𝑝𝐵 = 0.10,
𝑝𝛢𝛣 = 0.04 και 𝑝𝛰 = 0.45 αντίστοιχα.
β) Σε αυτή την περίπτωση έχουμε τις ίδιες στατιστικές υποθέσεις και ο στατιστικός έλεγχος είναι
ο ίδιος. Το μόνο που αλλάζει είναι το επίπεδο σημαντικότητας. Επομένως όταν α = 0.01, το
2 2 2
𝜒𝜅−1,𝛼 = 𝜒4−1,0.01 = 𝜒3,0.01 =11.34. Άρα το 3.698 < 11.34 και συνεπώς και σε επίπεδο
σημαντικότητας 1% αποδεχόμαστε την 𝛨0 .

5. Η κατανομή του βάρους των νεογέννητων τριών φυλών χοίρων έδωσε τα παρακάτω
αποτελέσματα:
Βάρος σε κιλά
Φυλές ≤3 4 5 ≥6
Α 5 15 12 18
Β 3 7 12 8
Γ 2 8 6 4

11
Ελέγξτε εάν το βάρος των νεογέννητων χοιριδίων εξαρτάται από τη φυλή στην οποία ανήκουν
(α=0.05).

α) Πρόκειται για 𝛸 2 στατιστικό έλεγχο ανεξαρτησίας ή ομοιογένειας.


Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Το βάρος των νεογέννητων των τριών φυλών χοίρων δεν διαφέρει στατιστικά (ομοιογένεια)
ή το βάρος των νεογέννητων χοιριδίων είναι ανεξάρτητο από τη φυλή. (ανεξαρτησία)
𝛨1 : Το βάρος των νεογέννητων των τριών φυλών χοίρων διαφοροποιείται ανάλογα με τη φυλή
ή το βάρος των νεογέννητων χοιριδίων εξαρτάται από τη φυλή στην οποία ανήκουν.

Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:


Εάν
(𝜋 −𝜃 ) 2
2
𝛸 = ∑𝜅𝑖=1 ∑𝜆𝑗=1 𝑖𝑗 𝑖𝑗 2
> 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗

όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες, 𝜃𝑖𝑗 οι θεωρητικές, κ ο αριθμός των γραμμών και λ ο
αριθμός των στηλών του πίνακα συνάφειας. Για να εφαρμόσουμε το τεστ 𝛸 2 , θα πρέπει για όλες
τις θεωρητικές συχνότητες να ισχύει: 𝜃𝑖 ≥5, ∀ (𝑖, 𝑗).

Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:

(ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑖 𝛾𝜌𝛼𝜇𝜇ή𝜍) × (ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑗 𝜎𝜏ή𝜆𝜂𝜍)


𝜃𝑖𝑗 = ∀ (𝑖, 𝑗).
𝜎𝜐𝜈𝜊𝜆𝜄𝜅ό ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼

Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:

50 ∙ 10 50 ∙ 30 50 ∙ 30 50 ∙ 30
𝜃11 = =5 𝜃12 = = 15 𝜃13 = = 15 𝜃14 = = 15
100 100 100 100

30 ∙ 10 30 ∙ 30 30 ∙ 30 30 ∙ 30
𝜃21 = =3 𝜃22 = =9 𝜃23 = =9 𝜃24 = =9
100 100 100 100

20 ∙ 10 20 ∙ 30 20 ∙ 30 20 ∙ 30
𝜃31 = =2 𝜃32 = =6 𝜃33 = =6 𝜃34 = =6
100 100 100 100

12
Βάρος σε κιλά
Φυλές ≤3 4 5 ≥6 Άθροισμα
Α 5 (5) 15 (15) 12 (15) 18 (15) 50
Β 3 (3) 7 (9) 12 (9) 8 (9) 30
Γ 2 (2) 8 (6) 6 (6) 4 (6) 20
Άθροισμα 10 30 30 30 100

Καταρχάς παρατηρούμε ότι δεν ισχύουν οι προϋποθέσεις 𝜃𝑖𝑗 ≥5, για όλα τα (𝑖, 𝑗). Σε αυτές τις
περιπτώσεις ενοποιούμε δύο διπλανές κατηγορίες, έτσι ώστε στη συνέχεια να ισχύει: 𝜃𝑖𝑗 ≥5,
∀ (𝑖, 𝑗). Σε αυτήν την περίπτωση ενώνουμε τις δύο πρώτες στήλες του πίνακα συνάφειας και
έχουμε:

Φυλές ≤4 5 ≥6 Άθροισμα
Α 20 (20) 12 (15) 18 (15) 50
Β 10 (12) 12 (9) 8 (9) 30
Γ 10 (8) 6 (6) 4 (6) 20
Άθροισμα 40 30 30 100

καθώς:
50 ∙ 40 50 ∙ 30 50 ∙ 30
𝜃11 = = 20 𝜃12 = = 15 𝜃13 = = 15
100 100 100
30 ∙ 40 30 ∙ 30 30 ∙ 30
𝜃21 = = 12 𝜃22 = =9 𝜃23 = =9
100 100 100
20 ∙ 40 20 ∙ 30 20 ∙ 30
𝜃31 = =8 𝜃32 = =6 𝜃33 = =6
100 100 100
Με τη δοκιμασία 𝛸 2 ελέγχουμε εάν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις
παρατηρηθείσες και τις θεωρητικές συχνότητες. Το στατιστικό κριτήριο που χρησιμοποιούμε
είναι:

Εάν

(𝜋𝑖𝑗 −𝜃𝑖𝑗 )2 2
𝛸 2 = ∑𝜅𝑖=1 ∑𝜆𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃𝑖𝑗
όπου κ ο αριθμός των γραμμών και λ ο αριθμός των στηλών του πίνακα συνάφειας.

13
Αντικαθιστώντας έχουμε:

(20 − 20)2 (12 − 15)2 (4 − 6)2


𝛸2 = + +⋯+ = 3.81 < 𝜒(2𝜅−1)(𝜆−1),𝛼
20 15 6

= 𝜒(23−1)(3−1),0.05 = 𝜒4,0.05
2
= 9.49

Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως το βάρος των νεογέννητων των τριών
φυλών χοίρων δεν διαφοροποιείται σημαντικά ανάλογα με τη φυλή ή θα μπορούσαμε να πούμε
ότι είναι ανεξάρτητο της φυλής.

6. Στον παρακάτω πίνακα δίνεται η συχνότητα προτίμησης από το καταναλωτικό κοινό τεσσάρων
ποικιλιών μήλων. 450 άτομα και των δύο φύλων δοκίμασαν τις ποικιλίες μήλων επιλέγοντας μόνο
μία.
Ποικιλίες μήλων
Φύλο Α Β Γ Δ
Άνδρες 32 44 72 52
Γυναίκες 78 56 63 53

α) Σε επίπεδο σημαντικότητας 5% ελέγξτε αν η προτίμηση της ποικιλίας μήλων εξαρτάται από το


φύλο.
β) Ελέγξτε αν το ποσοστό των γυναικών που προτιμούν την ποικιλία A είναι μεγαλύτερο από αυτό
που προτιμούν την ποικιλία B (α = 0.05).
γ) Ελέγξτε σε επίπεδο σημαντικότητας 5% εάν το ποσοστό των ανδρών που προτιμούν την
ποικιλία Α είναι μικρότερο του 20%.

α) Πρόκειται για 𝛸 2 στατιστικό έλεγχο ανεξαρτησίας ή ομοιογένειας.


Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Η προτίμηση της ποικιλίας μήλων δεν διαφοροποιείται ανάλογα με το φύλο (ομοιογένεια)
ή η προτίμηση της ποικιλίας μήλων είναι ανεξάρτητη του φύλου (ανεξαρτησία)

𝛨1 : Η προτίμηση της ποικιλίας μήλων διαφοροποιείται ανάλογα με το φύλο


ή η προτίμηση της ποικιλίας μήλων είναι εξαρτάται από το φύλο.

14
Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:
Εάν
2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗

όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες, 𝜃𝑖𝑗 οι θεωρητικές, κ ο αριθμός των γραμμών και λ ο
αριθμός των στηλών του πίνακα συνάφειας. Επιπλέον θα πρέπει: 𝜃𝑖𝑗 ≥5, ∀ (𝑖, 𝑗).
Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:

(ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑖 𝛾𝜌𝛼𝜇𝜇ή𝜍) × (ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑗 𝜎𝜏ή𝜆𝜂𝜍)


𝜃𝑖𝑗 = ∀ (𝑖, 𝑗).
𝜎𝜐𝜈𝜊𝜆𝜄𝜅ό ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼

Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:

200 ∙ 110 200 ∙ 100 200 ∙ 135 200 ∙ 105


𝜃11 = = 48.9 𝜃12 = = 44.4 𝜃13 = = 60 𝜃14 = = 46.7
450 450 450 450

250 ∙ 110 250 ∙ 100 250 ∙ 135 250 ∙ 105


𝜃21 = = 61.1 𝜃22 = = 55.6 𝜃23 = = 75 𝜃24 = = 58.3
450 450 450 450

Ποικιλίες μήλων
Φύλο Α Β Γ Δ Άθροισμα
Άνδρες 32 (48.9) 44 (44.4) 72 (60) 52 (46.7) 200
Γυναίκες 78 (61.1) 56 (55.6) 63 (75) 53 (58.3) 250
Άθροισμα 110 100 135 105 450

Καθώς όλα τα 𝜃𝑖𝑗 ≥5, ελέγχουμε εάν ισχύει το στατιστικό κριτήριο:

Εάν

2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗

όπου κ ο αριθμός των γραμμών και λ ο αριθμός των στηλών του πίνακα συνάφειας.
Αντικαθιστώντας έχουμε:

15
(32 − 48.9)2 (44 − 44.4)2 (53 − 58.3)2
𝛸2 = + + ⋯+ = 15.93 > 𝜒(2𝜅−1)(𝜆−1),𝛼
48.9 44.4 58.3

= 𝜒(22−1)(4−1),0.05 = 𝜒3,0.05
2
= 7.81

Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως η προτίμηση της ποικιλίας μήλων διαφοροποιείται ανάλογα με
το φύλο (είναι διαφορετική ανάμεσα σε άνδρες και γυναίκες) ή αλλιώς θα μπορούσαμε να πούμε
ότι η προτίμηση της ποικιλίας μήλων είναι εξαρτάται από το φύλο.

β) Παίρνουμε τις απαντήσεις της δειγματοληψίας που αφορούν μόνο τις γυναίκες (ν = 250).
Θέλουμε να συγκρίνουμε τα ποσοστά των γυναικών που προτιμούν τις ποικιλίες Α και Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝑝𝛢 = 𝑝𝛣 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝑝𝛢 > 𝑝𝛣 (εναλλακτική υπόθεση)

Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των άγνωστων ποσοστών δύο
πληθυσμών (τα ποσοστά των γυναικών που προτιμούν τις ποικιλίες Α και Β).
Από τα πειραματικά δεδομένα έχουμε:
𝜈 = 250 το μέγεθος δείγματος, 𝑝̂𝛢 =78/250=0.312 το ποσοστό των γυναικών που προτιμούν την
ποικιλία Α και 𝑝̂ 𝛣 =56/250=0.224 το ποσοστό των γυναικών που προτιμούν την ποικιλία Β.
Καθώς ισχύουν οι προϋποθέσεις: 𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5, 𝑖 =1, 2 η απορριπτική περιοχή της 𝛨0
είναι: Εάν

𝑝̂𝛢 −𝑝̂𝛣
1 1
> 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝̂(1−𝑝̂)(𝜈 +𝜈 )
𝛢 𝛣

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼 = 𝑧0.05 = 1.645 και


78+56 134
𝑝̂ = = =0.268 έχουμε:
250+250 500

0.312 − 0.224
= 2.2 > 𝑧𝛼 = 𝑧0.05 = 1.645
√0.268(1 − 0.268)( 1 + 1 )
250 250

16
Επομένως ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς η 𝛨0 απορρίπτεται σε
επίπεδο σημαντικότητας 5%. Άρα βασιζόμενοι στη συγκεκριμένη δειγματοληπτική έρευνα
μπορούμε να ισχυριστούμε ότι το ποσοστό των γυναικών που προτιμούν την ποικιλία A είναι
μεγαλύτερο από αυτό που προτιμούν την ποικιλία B.

γ) Πρόκειται για στατιστικό έλεγχο υποθέσεων για το άγνωστο ποσοστό ενός πληθυσμού
(ποσοστό των ανδρών που προτιμούν την ποικιλία Α). Παίρνουμε τις απαντήσεις της
δειγματοληπτικής έρευνας που αφορούν μόνο τους άνδρες (ν = 200) και διατυπώνουμε τις
στατιστικές υποθέσεις:
𝛨0 : 𝑝0 = 0.20 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝑝𝐴 < 0.20 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)

Από τα πειραματικά δεδομένα έχουμε ν=200 το μέγεθος του δείγματος και 𝑝̂𝛢 = 32⁄200 = 0.16
το ποσοστό στο δείγμα. Ισχύουν οι προϋποθέσεις: 𝜈𝑝0 =200 ∙ 0.20=40 ≥ 5 και ν(1 − 𝑝0 ) =200 ∙
(1 − 0.20)=160 ≥ 5, συνεπώς η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑝̂𝛢 −𝑝0
Εάν < −𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈

Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼 = 𝑧0.05 = 1.645 έχουμε:

0.16 − 0.2 −0.04


= = −1.41 > −𝑧𝛼 = −𝑧0.05 = −1.645
√0.2(1 − 0.2)/200 0.02828

Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να
απορριφθεί σε επίπεδο σημαντικότητας 5%. Συνεπώς βασιζόμενοι στη συγκεκριμένη
δειγματοληπτική έρευνα δεν μπορούμε να ισχυριστούμε ότι το ποσοστό των ανδρών που προτιμούν
την ποικιλία A είναι μικρότερο του 20%.

17
Στατιστικός πίνακας της 𝝌𝟐 κατανομής

α
ν 0.05 0.025 0.010 0.005 0.001
1 3.84 5.02 6.63 7.88 10.83
2 5.99 7.38 9.21 10.60 13.82
3 7.81 9.35 11.34 12.84 16.27
4 9.49 11.14 13.28 14.86 18.47
5 11.07 12.83 15.09 16.75 20.52
6 12.59 14.45 16.81 18.55 22.46
7 14.07 16.01 18.48 20.28 24.32
8 15.51 17.53 20.09 21.95 26.12
9 16.92 19.02 21.67 23.59 27.88
10 18.31 20.48 23.21 25.19 29.59
11 19.68 21.92 24.72 26.76 31.26
12 21.03 23.34 26.22 28.30 32.91
13 22.36 24.74 27.69 29.82 34.53
14 23.68 26.12 29.14 31.32 36.12
15 25.00 27.49 30.58 32.80 37.70
16 26.30 28.85 32.00 34.27 39.25
17 27.59 30.19 33.41 35.72 40.79
18 28.87 31.53 34.81 37.16 42.31
19 30.14 32.85 36.19 38.58 43.82
20 31.41 34.17 37.57 40.00 45.31
21 32.67 35.48 38.93 41.40 46.80
22 33.92 36.78 40.29 42.80 48.27
23 35.17 38.08 41.64 44.18 49.73
24 36.42 39.36 42.98 45.56 51.18
25 37.65 40.65 44.31 46.93 52.62
26 38.89 41.92 45.64 48.29 54.05
27 40.11 43.19 46.96 49.64 55.48
28 41.34 44.46 48.28 50.99 56.89
29 42.56 45.72 49.59 52.34 58.30
30 43.77 46.98 50.89 53.67 59.70

18
Πίνακας Τυπικής Κανονικής κατανοµής

Παράδειγμα: Φ(0.82)=0.7939, Φ(1.28)=0.8997

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

19
Ανάλυση διασποράς (Ανάλυση διακύμανσης)

Σε προηγούμενο κεφάλαιο μελετήσαμε τους στατιστικούς ελέγχους υποθέσεων για τη


σύγκριση των μέσων τιμών δύο πληθυσμών. Πολλές φορές όμως έχουμε πειραματικά δεδομένα
από περισσότερους πληθυσμούς και μας ενδιαφέρει να συγκρίνουμε τις μέσες τιμές τους. Τα
προβλήματα αυτά, καθώς και άλλα πολυπλοκότερα αντιμετωπίζονται με τη μέθοδο της ανάλυσης
διασποράς ή ανάλυσης διακύμανσης.

Α) Ανάλυση διασποράς με ένα παράγοντα


Λαμβάνουμε κ δείγματα από κ πληθυσμούς για τους οποίους μας ενδιαφέρει να συγκρίνουμε τις
μέσες τιμές τους. Έστω 𝜇𝑖 η μέση τιμή του i πληθυσμού, 𝑖 = 1, 2, … , 𝜅. Διατυπώνουμε τις
στατιστικές υποθέσεις:

𝛨0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝜅 (οι μέσες τιμές δεν διαφέρουν ή ο παράγοντας που


μελετούμε δεν επιδρά)

𝛨1 : τουλάχιστον κάποιο 𝜇𝑖 ≠ 𝜇𝑗 (τουλάχιστον δύο μέσες τιμές διαφέρουν


𝑖, 𝑗 = 1, 2, … , 𝜅 ή ο παράγοντας που μελετούμε επιδρά )

Η απορριπτική περιοχή της 𝛨0 είναι η εξής:


Εάν
𝑀𝑆𝐴
𝐹= > 𝐹𝜅−1,𝛮−𝜅,𝛼 απορρίπτεται η 𝛨0 (στατιστικό κριτήριο)
𝑀𝑆𝐸
όπου η ποσότητα F υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς για ένα παράγοντα
και 𝐹𝜅−1,𝛮−𝜅,𝛼 μια κριτική τιμή της F κατανομής με 𝜅 − 1 και 𝛮 − 𝜅 βαθμούς ελευθερίας για
επίπεδο σημαντικότητας α (ο πίνακας της F κατανομής δίνεται στο τέλος του κειμένου).

Προϋποθέσεις για την εφαρμογή της μεθόδου: Όλοι οι πληθυσμοί από τους οποίους προέρχονται
τα κ δείγματα είναι κανονικοί με ίσες διακυμάνσεις.

1
Πίνακας ανάλυσης διασποράς με ένα παράγοντα

Πηγή μεταβολής Αθροίσματα τετραγώνων Βαθμοί Μέσα Κριτήριο F


ελευθερίας τετράγωνα
𝜅
Μεταξύ των 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = ∑ 𝜈𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝑀𝑆𝐴 = 𝐹=
ομάδων 𝜅−1 𝜅−1 𝑀𝑆𝐸
(παράγοντας Α) 𝑖=1

𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 ) 𝛮−𝜅 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1

υπόλοιπα)
𝜅 𝜈𝑖

Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅)2 𝛮−1


𝑖=1 𝑗=1

όπου κ το πλήθος των πληθυσμών, των οποίων τις μέσες τιμές θέλουμε να συγκρίνουμε ή αλλιώς
το πλήθος των σταθμών του παράγοντα που μελετούμε, 𝜈𝑖 το μέγεθος δείγματος που λαμβάνουμε
από τον i πληθυσμό, 𝑖 = 1, 2, … , 𝜅 , Ν το συνολικό μέγεθος δείγματος 𝛮 = 𝜈1 + 𝜈2 + ⋯ + 𝜈𝜅
και 𝑦̅𝑖 και 𝑦̅ οι δειγματικές μέσες τιμές που υπολογίζονται ως εξής:
𝜈𝑖 𝜅 𝜈𝑖
1 1
𝑦̅𝑖 = ∑ 𝑦𝑖𝑗 , 𝑦̅ = ∑ ∑ 𝑦𝑖𝑗
𝜈𝑖 𝑁
𝑗=1 𝑖=1 𝑗=1

Επιπλέον για το άθροισμα τετραγώνων της ολικής μεταβολής ισχύει: 𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐸. Συνήθως
το άθροισμα τετραγώνων των σφαλμάτων υπολογίζεται ως εξής: 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴. Τα
προβλήματα 1, 2, 3 που βρίσκονται λυμένα παρακάτω, αποτελούν εφαρμογές της μεθόδου
ανάλυσης διασποράς με ένα παράγοντα (σελ. 5 - 9).

Β) Ανάλυση διασποράς με δύο παράγοντες χωρίς έλεγχο ύπαρξης αλληλεπίδρασης

Σε αυτήν την περίπτωση επιθυμούμε να διερευνήσουμε εάν το αποτέλεσμα ενός


πειράματος επηρεάζεται από δύο παράγοντες, έστω Α και Β. Ο παράγοντας Α μπορεί να
υπεισέρχεται στο πείραμα σε κ στάθμες, ενώ ο Β σε λ στάθμες. Για παράδειγμα έστω ότι ένας
γεωπόνος επιθυμεί να διερευνήσει την επίδραση στην απόδοση τεσσάρων ποικιλιών αραβοσίτου
(κ = 4) και τριών λιπασμάτων (λ = 3). Επομένως από τα πειραματικά δεδομένα ζητείται να εξαχθεί

2
κάποιο συμπέρασμα για το αν υπάρχει στατιστικά σημαντική διαφορά στην απόδοση ανάλογα με
την ποικιλία ή το λίπασμα που χρησιμοποιήθηκε. Για τη στατιστική ανάλυση των δεδομένων ενός
πειράματος αυτής της μορφής χρησιμοποιείται η μέθοδος της ανάλυσης διασποράς για δύο
παράγοντες. Παρακάτω δίνεται ο πίνακας της ανάλυσης διασποράς για δύο παράγοντες χωρίς
έλεγχο ύπαρξης αλληλεπίδρασης και στις λύσεις των προβλημάτων 4 και 5 (σελ. 9 - 14)
διατυπώνονται αναλυτικά οι στατιστικές υποθέσεις και τα στατιστικά κριτήρια για τη
σημαντικότητα των δύο παραγόντων, που αποτελούν εφαρμογές της μεθόδου.

Πίνακας ανάλυσης διασποράς με δύο παράγοντες χωρίς έλεγχο ύπαρξης αλληλεπίδρασης

Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα Κριτήριο F


μεταβολής ελευθερίας τετράγωνα
𝜅
Παράγοντας 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆 ∑(𝑦̅𝑖∎ − 𝑦̅∎∎ )2 𝑀𝑆𝐴 = 𝐹=
Α 𝜅−1 𝜅−1 𝑀𝑆𝐸
𝑖=1
𝜅
Παράγοντας 𝑆𝑆𝐵
𝑆𝑆𝛣 = 𝜅 ∑(𝑦̅∎𝑗 − 𝑦̅∎∎ ) 2 𝑀𝑆𝐵 =
Β 𝜆−1 𝜆−1
𝑖=1
Σφάλματα ή 𝑀𝑆𝛦
υπόλοιπα 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 (𝜅 − 1)(𝜆 − 1) 𝑆𝑆𝐸
=
(𝜅 − 1)(𝜆 − 1)
𝜅 𝜆

Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅∎∎ )2 𝜅𝜆 − 1


𝑖=1 𝑗=1

όπου κ και λ οι στάθμες των παραγόντων Α και Β και 𝑦̅𝑖∎ , 𝑦̅∎𝑗 και 𝑦̅∎∎ οι δειγματικές μέσες τιμές
που υπολογίζονται ως εξής:

𝜆 𝜅 𝜅 𝜆
1 1 1
𝑦̅𝑖∎ = ∑ 𝑦𝑖𝑗 , 𝑦̅∎𝑗 = ∑ 𝑦𝑖𝑗 , 𝑦̅∎∎ = ∑ ∑ 𝑦𝑖𝑗
𝜆 𝜅 𝜅𝜆
𝑗=1 𝑖=1 𝑖=1 𝑗=1

Γ) Ανάλυση διασποράς με δύο παράγοντες με έλεγχο ύπαρξης αλληλεπίδρασης

Σε αυτήν την περίπτωση επιθυμούμε να διερευνήσουμε εάν το αποτέλεσμα ενός


πειράματος επηρεάζεται από δύο παράγοντες, έστω Α και Β, αλλά και να εξετάσουμε εάν υπάρχει

3
αλληλεπίδραση Α×Β μεταξύ των παραγόντων του πειράματος. Παρακάτω δίνεται ο πίνακας της
ανάλυσης διασποράς για δύο παράγοντες με έλεγχο ύπαρξης αλληλεπίδρασης και στις λύσεις των
προβλημάτων 6 και 7 (σελ. 14 - 19) διατυπώνονται αναλυτικά οι στατιστικές υποθέσεις και τα
στατιστικά κριτήρια για τη σημαντικότητα των δύο παραγόντων, καθώς και της μεταξύ τους
αλληλεπίδρασης, που αποτελούν εφαρμογές της μεθόδου.

Πίνακας ανάλυσης διασποράς με δύο παράγοντες με έλεγχο ύπαρξης αλληλεπίδρασης

Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήριο F


μεταβολής ελευθερίας
𝜅
Παράγοντας 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆𝑟 ∑(𝑦̅𝑖∎∎ − 𝑦̅∎∎∎ )2 𝑀𝑆𝐴 = 𝐹𝐴 =
Α 𝜅−1 𝜅−1 𝑀𝑆𝐸
𝑖=1
𝜅
Παράγοντας 𝑆𝑆𝐵 𝑀𝑆𝐵
𝑆𝑆𝛣 = 𝜅𝑟 ∑(𝑦̅∎𝑗∎ − 𝑦̅∎∎∎ )2 𝑀𝑆𝐵 = 𝐹𝐵 =
Β 𝜆−1 𝜆−1 𝑀𝑆𝐸
𝑖=1
Αλληλεπί- 𝑆𝑆𝐴𝐵 = 𝑀𝑆𝐴𝐵
𝐹𝐴𝐵 =
δραση Α×Β 𝜅 𝜆 𝑆𝑆𝐴𝐵 𝑀𝑆𝐸
𝑀𝑆𝐴𝐵 =
𝑟 ∑ ∑(𝑦̅𝑖𝑗∎ − 𝑦̅𝑖∎∎ − 𝑦̅∎𝑗∎ − 𝑦̅∎∎∎ )2 (𝜅 − 1)(𝜆 − 1) (𝜅 − 1)(𝜆 − 1)
𝑖=1 𝑗=1
Σφάλματα ή 𝜅 𝜆 𝑟 𝑆𝑆𝐸
𝑀𝑆𝛦 =
υπόλοιπα 𝑆𝑆𝐸 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅𝑖𝑗∎ )2 𝜅𝜆(𝑟 − 1) 𝜅𝜆(𝑟 − 1)
𝑖=1 𝑗=1 𝜇=1
𝜅 𝜆 𝑟

Ολική 𝑆𝑆𝑇 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅∎∎∎ )2 𝜅𝜆 − 1


𝑖=1 𝑗=1 𝜇=1

όπου κ και λ οι στάθμες των παραγόντων Α και Β, r οι επαναλήψεις σε κάθε συνδυασμό των
παραγόντων Α και Β και 𝑦̅𝑖∎∎ , 𝑦̅∎𝑗∎ , 𝑦̅𝑖𝑗∎ , και 𝑦̅∎∎∎ οι δειγματικές μέσες τιμές που υπολογίζονται
ως εξής:

𝜆 𝑟 𝜅 𝑟 𝑟
1 1 1
𝑦̅𝑖∎∎ = ∑ ∑ 𝑦𝑖𝑗𝜇 , 𝑦̅∎𝑗∎ = ∑ ∑ 𝑦𝑖𝑗𝜇 , 𝑦̅𝑖𝑗∎ = ∑ 𝑦𝑖𝑗𝜇
𝜆𝑟 𝜅𝑟 𝑟
𝑗=1 𝜇=1 𝑖=1 𝜇=1 𝜇=1

𝜅 𝜆 𝑟
1
𝑦̅∎∎∎ = ∑ ∑ ∑ 𝑦𝑖𝑗𝜇
𝜅𝜆𝑟
𝑖=1 𝑗=1 𝜇=1

4
Λύσεις των προβλημάτων από το φυλλάδιο 8 – Προβλήματα ανάλυσης διασποράς

1. Η απόδοση σε γάλα (Kg/24h) μιας προβατίνας που έχει γεννήσει υπολογίζεται ζυγίζοντας το
νεογνό πριν και μετά το θηλασμό. Πήραμε δείγματα από τρεις φυλές προβάτων και τα
αποτελέσματα ήταν τα εξής:

Φυλές
Α1 2.4 2.7 1.8 3.2 3.4 2.6
Α2 3.2 3.4 4.1 2.8 2.9
Α3 3.9 4.2 3.6 2.8 3.4 3.7 3.5

Σε επίπεδο σημαντικότητας 5% υπάρχει στατιστικά σημαντική διαφορά στη γαλακτοπαραγωγή


ανάμεσα στις τρεις φυλές; Διατυπώστε με ακρίβεια τις στατιστικές υποθέσεις που ελέγχετε.
(Δίνονται: SSA=2.6, SST=6.5).

Θέλουμε να συγκρίνουμε τη μέση γαλακτοπαραγωγή των τριών φυλών, επομένως έχουμε ένα
πρόβλημα ανάλυσης διασποράς με ένα παράγοντα (Α: φυλή). Έστω 𝜇𝑖 η μέση γαλακτοπαραγωγή
της i φυλής 𝑖 = 1, 2, 3. Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0 : 𝜇1 = 𝜇2 = 𝜇3 (η μέση γαλακτοπαραγωγή είναι ίδια και για τις τρεις φυλές


ή ο παράγοντας “φυλή” δεν επιδρά στη γαλακτοπαραγωγή)

𝛨1 : τουλάχιστον κάποιο 𝜇𝑖 ≠ 𝜇𝑗 (η μέση γαλακτοπαραγωγή διαφοροποιείται ανάλογα με τη


𝑖, 𝑗 = 1, 2, 3 φυλή ή ο παράγοντας “φυλή” επιδρά στη γαλακτοπαραγωγή)

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:


Εάν
𝑀𝑆𝐴
𝐹= > 𝐹𝜅−1,𝛮−𝜅,𝛼 απορρίπτεται η 𝛨0 ,
𝑀𝑆𝐸

όπου η ποσότητα F υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς για ένα παράγοντα
και 𝐹𝜅−1,𝛮−𝜅,𝛼 μια κριτική τιμή της F κατανομής με 𝜅 − 1 και 𝛮 − 𝜅 βαθμούς ελευθερίας.

Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς με ένα παράγοντα έχουμε:

5
Πηγή μεταβολής Αθροίσματα τετραγώνων Βαθμοί Μέσα Κριτήριο F
ελευθερίας τετράγωνα
𝜅
Μεταξύ των 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = ∑ 𝜈𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝑀𝑆𝐴 = 𝐹=
ομάδων 𝜅−1 = 𝜅−1 𝑀𝑆𝐸
(παράγοντας Α) 𝑖=1
3−1= 2.6 1.3
= 2.6 = = 1.3 = =5
2 0.26
2
𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 )
𝛮−𝜅 = 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1 3.9
υπόλοιπα) 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 = 18 − 3 = = = 0.26
15
= 6.5 − 2.6 = 3.9 15
𝜅 𝜈𝑖
2
Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅)
𝛮−1=
𝑖=1 𝑗=1
= 6.5 18 − 1 =
17

Επομένως έχουμε:
𝑀𝑆𝐴
𝐹= = 5 > 𝐹𝜅−1,𝛮−𝜅,𝛼 = 𝐹3−1,18−3,0.05 = 𝐹2,15,0.05 = 3.68
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις τρεις
φυλές ως προς τη μέση γαλακτοπαραγωγή.

2. Μετρήθηκε η ποσότητα πρωτεΐνης (gr/100ml) στο αίμα ατόμων που ζουν σε διαφορετικές
συνθήκες στις γεωγραφικές περιοχές Α, Β, Γ και είχαμε τα παρακάτω αποτελέσματα:

Περιοχές
Α1 7.64 7.04 7.43 7.57 7.74 7.63 8.06
Α2 7.67 7.58 7.04 7.69 7.32 7.12 7.46 7.21
Α3 7.98 7.91 7.11 7.65 8.17 8.28 7.21 7.41 6.37

Διατυπώστε κατάλληλο έλεγχο υποθέσεων και ελέγξτε σε επίπεδο σημαντικότητας 5% αν η


ποσότητα πρωτεΐνης στο αίμα διαφέρει ανάλογα με τη γεωγραφική περιοχή.
(Δίδονται: SSΑ=0.53, SST =4.77)

6
Θέλουμε να συγκρίνουμε τη μέση ποσότητα πρωτεΐνης στο αίμα ατόμων που ζουν σε
διαφορετικές γεωγραφικές περιοχές. Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με ένα
παράγοντα (Α: γεωγραφική περιοχή). Έστω 𝜇𝑖 η μέση ποσότητα πρωτεΐνης στην i γεωγραφική
περιοχή 𝑖 = 1, 2, 3. Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0 : 𝜇1 = 𝜇2 = 𝜇3 (η μέση ποσότητα πρωτεΐνης δεν διαφοροποιείται ανάλογα


με τη γεωγραφική περιοχή ή ο παράγοντας “γεωγραφική
περιοχή” δεν επιδρά στην ποσότητα πρωτεΐνης)
𝛨1 : τουλάχιστον κάποιο 𝜇𝑖 ≠ 𝜇𝑗 (η μέση ποσότητα πρωτεΐνης διαφοροποιείται ανάλογα
𝑖, 𝑗 = 1, 2, 3 με τη γεωγραφική περιοχή ή ο παράγοντας “γεωγραφική
περιοχή” επιδρά στην ποσότητα πρωτεΐνης)

Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς με ένα παράγοντα έχουμε:

Πηγή μεταβολής Αθροίσματα τετραγώνων Βαθμοί Μέσα Κριτήριο F


ελευθερίας τετράγωνα
𝜅
Μεταξύ των 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = ∑ 𝜈𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝑀𝑆𝐴 = 𝐹=
ομάδων 𝜅−1= 𝜅−1 𝑀𝑆𝐸
(παράγοντας Α) 𝑖=1
3−1= 0.53 0.265
= 0.53 = = 0.265 = = 1.3
2 0.202
2
𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 )
𝛮−𝜅 = 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1 4.24
υπόλοιπα) 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 = 24 − 3 = = = 0.202
21
= 4.77 − 0.53 = 4.24 21
𝜅 𝜈𝑖
𝛮−1=
2
Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅)
24 − 1 =
𝑖=1 𝑗=1
= 4.77 23

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:


Εάν
𝑀𝑆𝐴
𝐹= > 𝐹𝜅−1,𝛮−𝜅,𝛼 απορρίπτεται η 𝛨0.
𝑀𝑆𝐸

7
Επομένως έχουμε:
𝑀𝑆𝐴
𝐹= = 1.3 < 𝐹𝜅−1,𝛮−𝜅,𝛼 = 𝐹3−1,24−3,0.05 = 𝐹2,21,0.05 = 3.47
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως δεν υπάρχει στατιστικά σημαντική
διαφορά στη μέση ποσότητα πρωτεΐνης στο αίμα ανάμεσα στις τρεις γεωγραφικές περιοχές.

3. Παρακάτω δίνονται οι αποδόσεις σε κιλά ανά πειραματική μονάδα τεσσάρων ποικιλιών


αραβοσίτου:

Ποικιλίες
Α1 67 72 76 81 83 69 77 65 82
Α2 56 73 65 71 55 69 72 63 69 67
Α3 77 82 88 79 67 83 91 78 95
Α4 75 85 90 89 67 93 77 68 75

Διατυπώστε κατάλληλο έλεγχο υποθέσεων και ελέγξτε σε επίπεδο σημαντικότητας 5%, εάν
υπάρχει στατιστικά σημαντική διαφορά ως προς την απόδοση, μεταξύ των τεσσάρων ποικιλιών
αραβοσίτου. (Δίδονται: SSΑ=1488.6, SST =3519.1)

Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με ένα παράγοντα (Α: ποικιλία αραβοσίτου).
Έστω 𝜇𝑖 η μέση απόδοση της i ποικιλίας 𝑖 = 1, 2, 3, 4. Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 (η μέση απόδοση δεν διαφοροποιείται ανάλογα με την ποικιλία


ή ο παράγοντας “ποικιλία” δεν επιδρά στην απόδοση)

𝛨1 : τουλάχιστον κάποιο 𝜇𝑖 ≠ 𝜇𝑗 (η μέση απόδοση διαφοροποιείται ανάλογα με την ποικιλία


𝑖, 𝑗 = 1, 2, 3, 4 ή ο παράγοντας “ποικιλία” επιδρά στην απόδοση)

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:


Εάν
𝑀𝑆𝐴
𝐹 = 𝑀𝑆𝐸 > 𝐹𝜅−1,𝛮−𝜅,𝛼 απορρίπτεται η 𝛨0.

όπου η ποσότητα F υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς για ένα παράγοντα:

8
Πηγή μεταβολής Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήριο F
ελευθερίας
𝜅
Μεταξύ των 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = ∑ 𝜈𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝑀𝑆𝐴 = = 𝐹= =
ομάδων 𝜅−1= 𝜅−1 𝑀𝑆𝐸
(παράγοντας Α) 𝑖=1
4−1= 1488.6 496.2
(ποικιλία) = = 496.2 = = 8.07
= 1488.6 3 61.5
3
𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 )
𝛮−𝜅 = 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1 2030.5
υπόλοιπα) 37 − 4 = = = 61.5
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 = 33
33
= 3519.1 - 1488.6 = 2030.5
𝜅 𝜈𝑖
2
Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅)
𝛮−1=
𝑖=1 𝑗=1
37 − 1 =
= 3519.1
36

Επομένως έχουμε:
𝑀𝑆𝐴
𝐹= = 8.07 > 𝐹𝜅−1,𝛮−𝜅,𝛼 = 𝐹4−1,37−4,0.05 = 𝐹3,33,0.05 = 2.92
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως η μέση απόδοση διαφοροποιείται ανάλογα με την ποικιλία ή
αλλιώς μπορούμε να πούμε ότι υπάρχει στατιστικά σημαντική διαφορά στη μέση απόδοση του
αραβοσίτου που οφείλεται στον παράγοντα “ποικιλία”.

4. Τα παρακάτω δεδομένα δίνουν τις αποδόσεις σε gr μιας εργαστηριακής καλλιέργειας σιταριού,


στην οποία χρησιμοποιήθηκαν τρία είδη λιπασμάτων και τέσσερα είδη ορμονών.

ΟΡΜΟΝΗ
ΛΙΠΑΣΜΑ Β1 Β2 Β3 Β4
Α1 77 78 80 82
Α2 73 76 76 77
Α3 76 77 82 83

9
Αφού διατυπώσετε κατάλληλους ελέγχους υποθέσεων, ελέγξτε σε επίπεδο σημαντικότητας 5%,
εάν η απόδοση της εργαστηριακής καλλιέργειας σιταριού διαφοροποιείται ανάλογα με το είδος
του λιπάσματος και το είδος της ορμόνης που χρησιμοποιείται.
(Δίνονται : SSA = 40.2, SSB = 50.9, SST = 100.9)

Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: λίπανση και Β: χρήση
ορμόνης). Καθώς έχουμε μόνο μία μέτρηση σε κάθε συνδυασμό λιπάσματος και ορμόνης δεν είναι
εφικτός ο έλεγχος για την ύπαρξη αλληλεπίδρασης μεταξύ των δύο παραγόντων του πειράματος.
Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0𝛢 : 𝛼1 = 𝛼2 = 𝛼3 (η μέση απόδοση δεν διαφοροποιείται ανάλογα με το είδος


του λιπάσματος που χρησιμοποιήθηκε
ή ο παράγοντας “ λίπανση” δεν επιδρά στην απόδοση)

𝛨1𝛢 : τουλάχιστον κάποιο 𝛼𝑖 ≠ 𝛼𝑗 (η μέση απόδοση διαφοροποιείται ανάλογα με το είδος


𝑖, 𝑗 = 1, 2, 3 του λιπάσματος που χρησιμοποιήθηκε
ή ο παράγοντας “ λίπανση” επιδρά στην απόδοση)

𝛨0𝛣 : 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 (η μέση απόδοση δεν διαφοροποιείται ανάλογα με το είδος


𝑖, 𝑗 = 1, 2, 3 της ορμόνης που χρησιμοποιήθηκε
ή ο παράγοντας “ορμόνη” δεν επιδρά στην απόδοση)

𝛨1𝛣 : τουλάχιστον κάποιο 𝛽𝑖 ≠ 𝛽𝑗 (η μέση απόδοση διαφοροποιείται ανάλογα με το είδος


𝑖, 𝑗 = 1, 2, 3, 4 της ορμόνης που χρησιμοποιήθηκε
ή ο παράγοντας “ορμόνη” επιδρά στην απόδοση)

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:


Εάν
𝑀𝑆𝐴
𝐹𝛢 = > 𝐹𝜅−1,(𝜅−1)(𝜆−1),𝛼 απορρίπτεται η 𝛨0𝛢,
𝑀𝑆𝐸

όπου η ποσότητα 𝐹𝛢 υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς με δύο παράγοντες
χωρίς έλεγχο ύπαρξης αλληλεπίδρασης:

10
Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήρια F
μεταβολής ελευθερίας
𝜅
Παράγοντας 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆 ∑(𝑦̅𝑖∎ − 𝑦̅∎∎ )2 𝑀𝑆𝐴 = = 𝐹𝛢 = =
Α 𝜅−1= 𝜅−1 𝑀𝑆𝐸
(Λίπανση) 𝑖=1
40.2 20.1
= 40.2 3−1= 2 = 20.1 = 12.6
2 1.6
𝜅
Παράγοντας 𝑆𝑆𝐵 𝑀𝑆𝛣
𝑆𝑆𝛣 = 𝜅 ∑(𝑦̅∎𝑗 − 𝑦̅∎∎ )2 𝑀𝑆𝐵 = = 𝐹𝛣 = =
Β 𝜆−1= 𝜆−1 𝑀𝑆𝐸
(Ορμόνη) 𝑖=1 50.9 17.0
= 50.9 4−1= 3 = 17.0 = 10.6
3 1.6
Σφάλματα ή 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 (𝜅 − 1)(𝜆 − 1) = 𝑆𝑆𝐸
𝑀𝑆𝛦 =
υπόλοιπα =100.9 - 40.2 - 50.9 = 9.8 (3 − 1)(4 − 1) = (𝜅 − 1)(𝜆 − 1)
9.8
2∙3= 6 = = 1.6
6
𝜅 𝜆

Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅∎∎ )2


𝜅𝜆 − 1
𝑖=1 𝑗=1
= 100.9 3 ∙ 4 − 1 = 11

Επομένως έχουμε:
𝑀𝑆𝐴
𝐹𝛢 = = 12.6 > 𝐹𝜅−1,(𝜅−1)(𝜆−1),𝛼 = 𝐹3−1,(3−1)(4−1),0.05 = 𝐹2,6,0.05 = 5.14
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛢 . Επομένως η μέση απόδοση της εργαστηριακής καλλιέργειας σιταριού
διαφοροποιείται ανάλογα με το είδος του λιπάσματος που χρησιμοποιείται ή αλλιώς μπορούμε να
πούμε ότι ο παράγοντας λίπανση είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Β:


Εάν
𝑀𝑆𝛣
𝐹𝛣 = > 𝐹𝜆−1,(𝜅−1)(𝜆−1),𝛼 απορρίπτεται η 𝛨0𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛣
𝐹𝛣 = = 10.6 > 𝐹𝜆−1,(𝜅−1)(𝜆−1),𝛼 = 𝐹4−1,(3−1)(4−1),0.05 = 𝐹3,6,0.05 = 4.76
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς

11
απορρίπτουμε την 𝛨0𝛣 . Επομένως η μέση απόδοση της εργαστηριακής καλλιέργειας σιταριού
διαφοροποιείται ανάλογα με το είδος της ορμόνης που χρησιμοποιείται.

5. Κάποιο χημικό πείραμα έλαβε χώρα με 4 διαφορετικούς καταλύτες και σε 3 διαφορετικές


θερμοκρασίες. Τα αποτελέσματα του πειράματος φαίνονται στον παρακάτω πίνακα.

Καταλύτης
Θερμοκρασία Α1 Α2 Α3 Α4
Β1 53 59 58 50
Β2 57 65 62 60
Β3 52 62 54 52

Αφού διατυπώσετε κατάλληλους ελέγχους υποθέσεων, ελέγξτε σε επίπεδο σημαντικότητας 5%,


εάν το αποτέλεσμα του πειράματος διαφοροποιείται ανάλογα με το είδος του καταλύτη και τη
θερμοκρασία.
(Δίνονται : SSA = 132, SSB = 96, SST = 252).

Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: καταλύτης και Β:
θερμοκρασία).
Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0𝛢 : 𝛼1 = 𝛼2 = 𝛼3 = 𝛼4 (το αποτέλεσμα του πειράματος δεν διαφοροποιείται ανάλογα


με το είδος του καταλύτη που χρησιμοποιείται ή ο παράγοντας
“ καταλύτης” δεν επιδρά στο αποτέλεσμα του πειράματος)
𝛨1𝛢 : τουλάχιστον κάποιο 𝛼𝑖 ≠ 𝛼𝑗 (το αποτέλεσμα του πειράματος διαφοροποιείται ανάλογα με
𝑖, 𝑗 = 1, 2, 3, 4 το είδος του καταλύτη που χρησιμοποιείται ή ο παράγοντας
“ καταλύτης” επιδρά στο αποτέλεσμα του πειράματος)

𝛨0𝛣 : 𝛽1 = 𝛽2 = 𝛽3 (το αποτέλεσμα του πειράματος δεν διαφοροποιείται ανάλογα


με τη θερμοκρασία ή ο παράγοντας“ θερμοκρασία” δεν
επιδρά στο αποτέλεσμα του πειράματος)
𝛨1𝛣 : τουλάχιστον κάποιο 𝛽𝑖 ≠ 𝛽𝑗 (το αποτέλεσμα του πειράματος διαφοροποιείται ανάλογα με
𝑖, 𝑗 = 1, 2, 3 τη θερμοκρασία ή ο παράγοντας“ θερμοκρασία” επιδρά στο
αποτέλεσμα του πειράματος)

12
Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς για δύο παράγοντες χωρίς έλεγχο ύπαρξης
αλληλεπίδρασης έχουμε:

Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήρια F


μεταβολής ελευθερίας
𝜅 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆 ∑(𝑦̅𝑖∎ − 𝑦̅∎∎ )2 𝑀𝑆𝐴 = = 𝐹𝛢 = =
Παράγοντας Α 𝜅−1= 𝜅−1 𝑀𝑆𝐸
(καταλύτης) 𝑖=1
132 44
= 132 4−1 = 3 = 44 = 11
3 4
𝜅 𝑆𝑆𝐵 𝑀𝑆𝛣
𝑆𝑆𝛣 = 𝜅 ∑(𝑦̅∎𝑗 − 𝑦̅∎∎ )2 𝑀𝑆𝐵 = = 𝐹𝛣 = =
Παράγοντας Β 𝜆−1= 𝜆−1 𝑀𝑆𝐸
(θερμοκρασία) 𝑖=1 96 48
= 96 3−1 = 2 = 48 = 12
2 4
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 (𝜅 − 1)(𝜆 − 1) = 𝑆𝑆𝐸
𝑀𝑆𝛦 =
Σφάλματα ή = 252 – 132 – 96 = 24 (4 − 1)(3 − 1) = (𝜅 − 1)(𝜆 − 1)
υπόλοιπα 24
3∙2=6 = =4
6
𝜅 𝜆

Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅∎∎ )2


𝜅𝜆 − 1
𝑖=1 𝑗=1
= 252 4 ∙ 3 − 1 = 11

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:


Εάν
𝑀𝑆𝐴
𝐹𝛢 = > 𝐹𝜅−1,(𝜅−1)(𝜆−1),𝛼 απορρίπτεται η 𝛨0𝛢.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝐴
𝐹𝛢 = = 11 > 𝐹𝜅−1,(𝜅−1)(𝜆−1),𝛼 = 𝐹4−1,(4−1)(3−1),0.05 = 𝐹3,6,0.05 = 4.76
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛢 . Επομένως το αποτέλεσμα του πειράματος διαφοροποιείται ανάλογα με το
είδος του καταλύτη που χρησιμοποιείται ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας
“ καταλύτης” επιδρά στο αποτέλεσμα του πειράματος.

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Β:

13
Εάν
𝑀𝑆𝛣
𝐹𝛣 = > 𝐹𝜆−1,(𝜅−1)(𝜆−1),𝛼 απορρίπτεται η 𝛨0𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛣
𝐹𝛣 = = 12 > 𝐹𝜆−1,(𝜅−1)(𝜆−1),𝛼 = 𝐹3−1,(3−1)(4−1),0.05 = 𝐹2,6,0.05 = 5.14
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛣 . Επομένως το αποτέλεσμα του πειράματος διαφοροποιείται ανάλογα με τη
θερμοκρασία ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “θερμοκρασία” επιδρά στο
αποτέλεσμα του πειράματος ή ότι είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.

6. Τρεις ποικιλίες σίτου (Α) δοκιμάστηκαν με τρία είδη λιπάσματος (Β), φωσφορική αμμωνία,
θειική αμμωνία και καθόλου λίπανση. Οι αποδόσεις σε κάθε συνδυασμό ποικιλία και λιπάσματος
φαίνονται στον παρακάτω πίνακα:

Ποικιλίες (Α)
Λίπανση (Β) Α1 Α2 Α3
Φωσφορική 112 128 112 81 134 112
Αμμωνία 118 152 108 48 116 128
Θειική 168 116 61 98 125 106
Αμμωνία 144 80 58 98 110 110
Μάρτυρας 106 84 97 86 62 60
(καμιά λίπανση) 68 128 92 66 99 87

Ελέγξτε σε επίπεδο σημαντικότητας 5% εάν υπάρχει διαφορά στις αποδόσεις του σίτου που να
οφείλεται στις διαφορετικές ποικιλίες, στη διαφορετική λίπανση, καθώς και αν υπάρχει
αλληλεπίδραση μεταξύ ποικιλίας και λιπάσματος.
(Δίνονται: SSA = 6743.4, SSB = 4481.7, SSAB = 2789.4, SST = 27548.5).

Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: ποικιλία και Β: λίπανση)
και έλεγχο σημαντικότητας της αλληλεπίδρασης μεταξύ των δύο παραγόντων. Ο έλεγχος ύπαρξης
αλληλεπίδρασης είναι εφικτός, καθώς έχουμε τέσσερις επαναλήψεις για κάθε συνδυασμό
ποικιλίας και λίπανσης (r = 4 >1).

Διατυπώνουμε τις στατιστικές υποθέσεις:

14
𝛨0𝛢 : 𝛼1 = 𝛼2 = 𝛼3 (η μέση απόδοση δεν διαφοροποιείται ανάλογα με την ποικιλία
ή ο παράγοντας “ποικιλία” δεν επιδρά στην απόδοση)
𝛨1𝛢 : τουλάχιστον κάποιο 𝛼𝑖 ≠ 𝛼𝑗 (η μέση απόδοση διαφοροποιείται ανάλογα με την ποικιλία
𝑖, 𝑗 = 1, 2, 3 ή ο παράγοντας “ποικιλία” επιδρά στην απόδοση)

𝛨0𝛣 : 𝛽1 = 𝛽2 = 𝛽3 (η μέση απόδοση δεν διαφοροποιείται ανάλογα με την λίπανση


ή ο παράγοντας “λίπανση” δεν επιδρά στην απόδοση)
𝛨1𝛣 : τουλάχιστον κάποιο 𝛽𝑖 ≠ 𝛽𝑗 (η μέση απόδοση διαφοροποιείται ανάλογα με την λίπανση
𝑖, 𝑗 = 1, 2, 3 ή ο παράγοντας “λίπανση” επιδρά στην απόδοση)

𝛨0𝛢𝛣 : (𝛼𝛽)𝑖𝑗 = 0 (Δεν υπάρχει αλληλεπίδραση)


𝛨1𝛢𝛣 : (𝛼𝛽)𝑖𝑗 ≠ 0 (Yπάρχει αλληλεπίδραση)

Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς με δύο παράγοντες με έλεγχο ύπαρξης


αλληλεπίδρασης έχουμε:

Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήρια F


μεταβολής ελευθερίας
𝜅
Παράγοντας 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆𝑟 ∑(𝑦̅𝑖∎∎ − 𝑦̅∎∎∎ )2 = 6743.4 𝑀𝑆𝐴 = = 𝐹𝐴 = =
Α 𝜅−1 = 𝜅−1 𝑀𝑆𝐸
(ποικιλία) 𝑖=1
3−1= 2 6743.4 3371.7
= 3371.7 = 6.7
2 502.6
𝜅
Παράγοντας 𝑆𝑆𝐵 𝑀𝑆𝐵
𝑆𝑆𝛣 = 𝜅𝑟 ∑(𝑦̅∎𝑗∎ − 𝑦̅∎∎∎ )2 = 4481.7 𝑀𝑆𝐵 = = 𝐹𝐵 = =
Β 𝜆−1= 𝜆−1 𝑀𝑆𝐸
𝑖=1
(λίπανση) 4481.7 2240.9
3−1= 2 = 2240.9 = 4.5
2 502.6
Αλληλεπί- 𝑆𝑆𝐴𝐵 = 𝑆𝑆𝐴𝐵 𝑀𝑆𝐴𝐵
𝑀𝑆𝐴𝐵 = 𝐹𝐴𝐵 =
δραση Α×Β 𝜅 𝜆 (𝜅 − 1)(𝜆 − 1) (𝜅 − 1)(𝜆 − 1) 𝑀𝑆𝐸
2
𝑟 ∑ ∑(𝑦̅𝑖𝑗∎ − 𝑦̅𝑖∎∎ − 𝑦̅∎𝑗∎ − 𝑦̅∎∎∎ ) 2240.9
(3 − 1)(3 − 1) 2789.4 = = 1.4
𝑖=1 𝑗=1 502.6
= = 697.4
= 2789.4 =2∙2=4 4

Σφάλματα ή 𝜅 𝜆 𝑟 𝜅𝜆(𝑟 − 1) = 𝑆𝑆𝐸


𝑀𝑆𝛦 = =
𝑆𝑆𝐸 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅𝑖𝑗∎ )2 = 𝜅𝜆(𝑟 − 1)
υπόλοιπα 3 ∙ 3 ∙ (4 − 1) =
𝑖=1 𝑗=1 𝜇=1
13570
27 = 502.6
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 − 𝑆𝑆𝐴𝐵 = 27
27548.5-6743.4-4481.7-2789.4=13570.0
𝜅 𝜆 𝑟

Ολική 𝑆𝑆𝑇 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅∎∎∎ )2 𝜅𝜆𝑟 − 1 =


𝑖=1 𝑗=1 𝜇=1 3∙3∙4−1=
= 27548.5 35

15
Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:
Εάν
𝑀𝑆𝐴
𝐹𝛢 = > 𝐹𝜅−1,𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝐴
𝐹𝛢 = = 6.7 > 𝐹𝜅−1,𝜅𝜆(𝑟−1),𝛼 = 𝐹3−1,3∙3(4−1),0.05 = 𝐹2,27,0.05 = 3.35
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛢 . Επομένως η μέση απόδοση διαφοροποιείται ανάλογα με το είδος της
ποικιλίας ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “ποικιλία” είναι στατιστικά σημαντικός
σε επίπεδο σημαντικότητας 5%.
Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Β:
Εάν
𝑀𝑆𝛣
𝐹𝛣 = > 𝐹𝜆−1,𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛣
𝐹𝛣 = = 4.5 > 𝐹𝜆−1,𝜅𝜆(𝑟−1),𝛼 = 𝐹3−1,3∙3(4−1),0.05 = 𝐹2,27,0.05 = 3.35
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛣 . Επομένως η μέση απόδοση διαφοροποιείται ανάλογα με το είδος του
λιπάσματος ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “λίπανση” είναι στατιστικά
σημαντικός σε επίπεδο σημαντικότητας 5%.
Στατιστικό κριτήριο ελέγχου της σημαντικότητας της αλληλεπίδρασης των δύο παραγόντων:
Εάν
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = > 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = = 1.4 < 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 = 𝐹(3−1)(3−1),3∙3(4−1),0.05 = 𝐹4,27,0.05 = 2.73
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0𝛢𝛣 . Επομένως δεν υπάρχει σημαντική
αλληλεπίδραση μεταξύ των παραγόντων του πειράματος, δηλαδή μεταξύ ποικιλίας και λίπανσης.

16
7. Εξετάστηκε η επίδραση τριών σιτηρεσίων (Α) σε προβατίνες των φυλών Χίου και
Καραγκούνικης (Β) κατά τη διάρκεια της κυοφορίας, στο ύψος της γαλακτοπαραγωγής μετά τον
τοκετό. Παρακάτω δίνεται η γαλακτοπαραγωγή (Kg/24h):

Σιτηρέσιο (Α1) Σιτηρέσιο (Α2) Σιτηρέσιο (Α3)


Χίου (Β1) 2.16 2.41 2.01 1.47 1.62 1.74 1.75 1.88 1.66
1.79 1.40 0.90 1.09 0.98 1.00 1.34 1.43 1.25
1.05 1.17 1.04
Καραγκούνικη (Β2) 1.05 0.61 0.55 0.85 0.49 0.46 0.63 0.78 0.75
1.73 0.96 0.95 1.07 0.73 0.77 0.55 0.77 0.60
1.06 0.52 0.88

Αφού διατυπώσετε κατάλληλους ελέγχους υποθέσεων, διερευνήστε σε επίπεδο σημαντικότητας


5% τις κύριες επιδράσεις των δύο παραγόντων του πειράματος, καθώς και την μεταξύ τους
αλληλεπίδραση. (Δίνονται: SSA = 0.83, SSB = 4.92, SSAB = 0.03, SST = 10.16).

Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: σιτηρέσιο και Β: φυλή)
και έλεγχο σημαντικότητας της αλληλεπίδρασης μεταξύ των δύο παραγόντων.
Διατυπώνουμε τις στατιστικές υποθέσεις:

𝛨0𝛢 : 𝛼1 = 𝛼2 = 𝛼3 (η μέση γαλακτοπαραγωγή δεν διαφοροποιείται ανάλογα


με το σιτηρέσιο ή ο παράγοντας “σιτηρέσιο” δεν επιδρά
στη γαλακτοπαραγωγή)
𝛨1𝛢 : τουλάχιστον κάποιο 𝛼𝑖 ≠ 𝛼𝑗 (η μέση γαλακτοπαραγωγή διαφοροποιείται ανάλογα με το
𝑖, 𝑗 = 1, 2, 3 σιτηρέσιο γαλακτοπαραγωγή ή ο παράγοντας “σιτηρέσιο”
επιδρά στη γαλακτοπαραγωγή)

𝛨0𝛣 : 𝛽1 = 𝛽2 (η μέση γαλακτοπαραγωγή δεν διαφοροποιείται ανάλογα


με τη φυλή ή ο παράγοντας “φυλή” δεν επιδρά
στη γαλακτοπαραγωγή)
𝛨1𝛣 : 𝛽1 ≠ 𝛽2 (η μέση γαλακτοπαραγωγή διαφοροποιείται ανάλογα με τη
φυλή ή ο παράγοντας “φυλή” επιδρά στη γαλακτοπαραγωγή)

𝛨0𝛢𝛣 : (𝛼𝛽)𝑖𝑗 = 0 (Δεν υπάρχει αλληλεπίδραση)


𝛨1𝛢𝛣 : (𝛼𝛽)𝑖𝑗 ≠ 0 (Υπάρχει αλληλεπίδραση)

17
Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς για δύο παράγοντες με έλεγχο ύπαρξης
αλληλεπίδρασης έχουμε:

Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήρια F


μεταβολής ελευθερίας
𝜅
Παράγοντας 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆𝑟 ∑(𝑦̅𝑖∎∎ − 𝑦̅∎∎∎ )2 = 0.83 𝑀𝑆𝐴 = = 𝐹𝐴 = =
Α 𝜅−1 = 𝜅−1 𝑀𝑆𝐸
(σιτηρέσιο) 𝑖=1
3−1= 2 0.83 0.415
= 0.415 = 3.46
2 0.12
𝜅
Παράγοντας 𝑆𝑆𝐵 𝑀𝑆𝐵
𝑆𝑆𝛣 = 𝜅𝑟 ∑(𝑦̅∎𝑗∎ − 𝑦̅∎∎∎ )2 = 4.92 𝑀𝑆𝐵 = = 𝐹𝐵 = =
Β 𝜆−1= 𝜆−1 𝑀𝑆𝐸
𝑖=1
(φυλή) 4.92 4.92
2−1= 1 = 4.92 = 41.00
1 0.12
Αλληλεπί- 𝑆𝑆𝐴𝐵 = 𝑆𝑆𝐴𝐵 𝑀𝑆𝐴𝐵
𝑀𝑆𝐴𝐵 = 𝐹𝐴𝐵 =
δραση Α×Β 𝜅 𝜆 (𝜅 − 1)(𝜆 − 1) (𝜅 − 1)(𝜆 − 1) 𝑀𝑆𝐸
2
𝑟 ∑ ∑(𝑦̅𝑖𝑗∎ − 𝑦̅𝑖∎∎ − 𝑦̅∎𝑗∎ − 𝑦̅∎∎∎ ) 0.015
(3 − 1)(2 − 1) 0.03 = = 0.13
𝑖=1 𝑗=1
= = 0.015 0.12
= 0.03 =2∙1=2 2

Σφάλματα ή 𝜅 𝜆 𝑟 𝑆𝑆𝐸
2 𝑀𝑆𝛦 = =
υπόλοιπα 𝑆𝑆𝐸 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅𝑖𝑗∎ ) = 𝜅𝜆(𝑟 − 1)
𝜅𝜆(𝑟 − 1) =
𝑖=1 𝑗=1 𝜇=1
4.38
3 ∙ 2 ∙ (7 − 1) = = 0.12
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 − 𝑆𝑆𝐴𝐵 = 36
36
= 10.16 - 0.83 - 4.92 - 0.03 = 4.38
𝜅 𝜆 𝑟

Ολική 𝑆𝑆𝑇 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅∎∎∎ )2 𝜅𝜆𝑟 − 1 =


𝑖=1 𝑗=1 𝜇=1 3∙2∙7−1=
= 10.16 41

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:


Εάν
𝑀𝑆𝐴
𝐹𝛢 = > 𝐹𝜅−1,𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝐴
𝐹𝛢 = = 3.46 > 𝐹𝜅−1,𝜅𝜆(𝑟−1),𝛼 = 𝐹3−1,3∙2(7−1),0.05 = 𝐹2,36,0.05 = 3.23
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛢 . Επομένως η μέση γαλακτοπαραγωγή διαφοροποιείται ανάλογα με το
σιτηρέσιο ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “σιτηρέσιο” επιδρά στη

18
γαλακτοπαραγωγή ή ότι είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.

Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Β:


Εάν
𝑀𝑆𝛣
𝐹𝛣 = > 𝐹𝜆−1,𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛣
𝐹𝛣 = = 41.00 > 𝐹𝜆−1,𝜅𝜆(𝑟−1),𝛼 = 𝐹2−1,3∙2(7−1),0.05 = 𝐹1,36,0.05 = 4.08
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛣 . Επομένως η μέση γαλακτοπαραγωγή διαφοροποιείται ανάλογα με τη φυλή
ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “φυλή” επιδρά στη γαλακτοπαραγωγή ή ότι είναι
στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.

Στατιστικό κριτήριο ελέγχου της σημαντικότητας της αλληλεπίδρασης των δύο παραγόντων:
Εάν
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = > 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = = 0.13 < 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 = 𝐹(3−1)(2−1),3∙2(7−1),0.05 = 𝐹2,36,0.05 = 3.23
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0𝛢𝛣 . Επομένως δεν υπάρχει σημαντική
αλληλεπίδραση μεταξύ των παραγόντων του πειράματος, δηλαδή μεταξύ σιτηρεσίου και φυλής.

19
Κατανομή F
Τιμές 𝐹𝜈1,𝜈2,0.05

Παράδειγμα: 𝐹3,6,0.05 = 4.76

20

You might also like