ΣΤΑΤΙΣΤΙΚΗ Κυριακή Σωτηράκογλου Γεωπονικό Πανεπιστήμιο Αθηνών
ΣΤΑΤΙΣΤΙΚΗ Κυριακή Σωτηράκογλου Γεωπονικό Πανεπιστήμιο Αθηνών
Κυριακή Σωτηράκογλου
Γεωπονικό Πανεπιστήμιο
Αθηνών
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Περιγραφική στατιστική είναι ο κλάδος της στατιστικής που ασχολείται με την οργάνωση και τη
συνοπτική παρουσίαση των δεδομένων, την παράστασή τους με γραφήματα και τον υπολογισμό
περιγραφικών μέτρων.
Πληθυσμός είναι το σύνολο των τιμών μιας μεταβλητής. Ο πληθυσμός αποτελεί το άγνωστο μέρος της
Στατιστικής. Σκοπός της Στατιστικής είναι η εξαγωγή συμπερασμάτων για τον πληθυσμό βάσει του
δείγματος.
Το δείγμα ορίζεται ως ένα υποσύνολο του πληθυσμού. Τυχαίο δείγμα είναι το δείγμα που εκλέγεται
κατά τέτοιο τρόπο ώστε όλα τα μέλη του πληθυσμού να έχουν ίση πιθανότητα να συμπεριληφθούν στο
δείγμα.
Όπως ειπώθηκε και στη Θεωρία Πιθανοτήτων οι τυχαίες μεταβλητές συμβολίζονται με τα κεφαλαία
γράμματα X, Y, Z,…., ενώ οι τιμές που παίρνουν με τα μικρά γράμματα 𝑥1 , 𝑥2 , … , 𝑥𝜈 ή 𝑦1 , 𝑦2 , … , 𝑦𝜈 ή
𝑧1 , 𝑧2 , … , 𝑧𝑘 . Διακρίνονται σε ποιοτικές όταν εκφράζουν ποιοτικά χαρακτηριστικά ενός πληθυσμού (π.χ.
το χρώμα των ανθέων ενός φυτού, το φύλο, η εθνικότητα, το επάγγελμα ενός ατόμου, κ.λ.π.) και
ποσοτικές όταν μπορούν να μετρηθούν (π.χ. το ύψος ενός φυτού, ο αριθμός των σπόρων, το βάρος ενός
ζώου, κ.λ.π.). Επίσης μια ποσοτική μεταβλητή μπορεί να είναι διακριτή, εάν παίρνει
μεμονωμένες/διακριτές τιμές (π.χ. 1, 2, 3,…) και το σύνολο των τιμών της μπορεί να είναι πεπερασμένο
ή απείρως αριθμήσιμο ή συνεχής εάν παίρνει τιμές σε ένα υποσύνολο των πραγματικών αριθμών, δηλαδή
σε ένα διάστημα (𝛼, 𝛽) με −∞ ≤ 𝛼 < 𝛽 ≤ ∞. Το πλήθος των βακτηριδίων στη δειγματοληπτική πλάκα,
ο αριθμός των γεννήσεων ή των θανάτων που συμβαίνουν σε μια κτηνοτροφική μονάδα, ο αριθμός των
ημερών βροχής σε έναν μήνα ή σε ένα έτος σε μια συγκεκριμένη περιοχή είναι διακριτές ποσοτικές
μεταβλητές, ενώ το ύψος, το βάρος, η θερμοκρασία είναι συνεχείς ποσοτικές μεταβλητές.
1
Αριθμητικά περιγραφικά μέτρα
Όταν τα δεδομένα είναι ομαδοποιημένα σε k κλάσεις, τα 𝑦𝑖 είναι οι κεντρικές τιμές των κλάσεων.
Ο υπολογισμός του μέσου όρου είναι απλός, χρησιμοποιούνται όλες οι τιμές του δείγματος για τον
υπολογισμό του και επίσης αξιοποιείται στην στατιστική συμπερασματολογία. Τα μειονεκτήματά του
είναι ότι επηρεάζεται από ακραίες τιμές, ενδέχεται να μην αντιστοιχεί σε δυνατή τιμή της μεταβλητής και
δεν υπολογίζεται για ποιοτικά δεδομένα.
ii) Διάμεσος δ
𝑐
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 )
𝜈𝑖
όπου:
𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται η διάμεσος
2
Ο υπολογισμός της διαμέσου είναι απλός, δεν επηρεάζεται από ακραίες τιμές και η τιμή της είναι μοναδική.
Δεν χρησιμοποιούνται όλες οι τιμές του δείγματος για τον υπολογισμό της και δεν υπολογίζεται για
ποιοτικά δεδομένα.
Εάν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις για τον υπολογισμό της επικρατούσας τιμής
προσδιορίζουμε καταρχάς την επικρατούσα κλάση, την κλάση δηλαδή με τη μεγαλύτερη συχνότητα και
στη συνέχεια υπολογίζουμε την επικρατούσα τιμή από τον τύπο:
𝛥1
𝛭0 = 𝐿𝑖 + ∙𝑐
𝛥1 + 𝛥2
όπου:
𝛥1 = 𝜈𝑖 −𝜈𝑖−1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖−1 η συχνότητα της προηγούμενης
κλάσης
𝛥2 = 𝜈𝑖 −𝜈𝑖+1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖+1 η συχνότητα της επόμενης κλάσης
Ο υπολογισμός της επικρατούσας τιμής είναι απλός, δεν επηρεάζεται από ακραίες τιμές και υπολογίζεται
για ποιοτικά δεδομένα. Δεν χρησιμοποιούνται όλες οι τιμές του δείγματος για τον υπολογισμό της, δεν
είναι μοναδική και επίσης μπορεί να μην υπάρχει. Επιπλέον η σημασία της στην στατιστική
συμπερασματολογία είναι περιορισμένη.
Β) Μέτρα μεταβλητότητας
Ένα από τα μειονεκτήματα της δειγματικής διακύμανσης είναι ότι δεν εκφράζεται στην ίδια μονάδα
μέτρησης με τα δεδομένα. Γι’ αυτό συνήθως ως μέτρο μεταβλητότητας χρησιμοποιούμε την τυπική
απόκλιση.
3
ii) Δειγματική τυπική απόκλιση 𝒔 = √𝒔𝟐
Για τον υπολογισμό της δειγματικής τυπικής απόκλισης χρησιμοποιούνται όλες οι τιμές του δείγματος,
εκφράζεται στην ίδια μονάδα μέτρησης με τα δεδομένα και έχει μεγάλη σημασία της στην στατιστική
συμπερασματολογία.
Για τον υπολογισμό του ενδοτεταρτημοριακού εύρους απαιτείται ο υπολογισμός των 𝑄1 και 𝑄3 , δηλαδή
των 25 και 75–ποσοστιαίων σημείων. Το 25–ποσοστιαίο σημείο (𝑄1 ) είναι το σημείο εκείνο, για το οποίο
ισχύει ότι το πολύ 25% των τιμών του δείγματος είναι μικρότερες από αυτό και το πολύ 75% των τιμών
του δείγματος είναι μεγαλύτερες από αυτό. Αντίστοιχα το 75–ποσοστιαίο σημείο (𝑄3 ) είναι το σημείο
εκείνο, για το οποίο ισχύει ότι το πολύ 75% των τιμών του δείγματος είναι μικρότερες από αυτό και το
πολύ 25% των τιμών του δείγματος είναι μεγαλύτερες από αυτό. Τα 𝑄1 , 𝑄2 = 𝛿 και 𝑄3 λέγονται και
τεταρτημόρια ή τεταρτοτόμοι, καθώς τέμνουν την κατανομή των δεδομένων σε τέσσερα μέρη. Εντός του
ενδοτεταρτημοριακού εύρους βρίσκονται τα μισά δεδομένα του δείγματος, που είναι πιο κοντά στην
κεντρική τιμή (διάμεσο), δηλαδή βρίσκεται το 50% των μεσαίων παρατηρήσεων.
Για να προσδιορίσουμε το 1ο τεταρτημόριο (𝑄1 ) και το 3ο τεταρτημόριο (𝑄3 ) παρατάσσουμε το δείγμα σε
αύξουσα διάταξη και στη συνέχεια δουλεύουμε όπως στη διάμεσο.
Για τον προσδιορισμό των 𝑄1 και 𝑄3 σε ομαδοποιημένα δεδομένα προσδιορίζουμε καταρχάς τις κλάσεις
μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 και στη συνέχεια με τους παρακάτω τύπους υπολογίζουμε τις
τιμές τους:
4
𝑐 𝑐
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) 𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 )
𝜈𝑖 𝜈𝑖
όπου:
𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται το 𝑄1 ή το 𝑄3
Όταν σε κάποιο δείγμα 𝑥̅ = 𝛿 = 𝛭0 , η καμπύλη συχνοτήτων της κατανομής του δείγματος είναι
συμμετρική.
Όταν σε κάποιο δείγμα 𝑥̅ > 𝛿 > 𝛭0 , η καμπύλη συχνοτήτων της κατανομής του δείγματος
παρουσιάζει θετική ασυμμετρία.
Όταν σε κάποιο δείγμα 𝑥̅ < 𝛿 < 𝛭0 , η καμπύλη συχνοτήτων της κατανομής του δείγματος
παρουσιάζει αρνητική ασυμμετρία.
5
Θηκόγραμμα
Α)
Στο θηκόγραμμα αναπαρίστανται η ελάχιστη τιμή του δείγματος (Min), το 1ο τεταρτημόριο (𝑄1 ), η
διάμεσος δ (μπλε κάθετη γραμμή), το 3ο τεταρτημόριο (𝑄3 ), η μέγιστη τιμή του δείγματος Max, καθώς και
ο μέσος όρος (+).
Β)
Στη 2η μορφή του θηκογράμματος καταγράφονται και οι ακραίες τιμές και / ή οι εξαιρετικά ακραίες τιμές
του δείγματος. Μια τιμή του δείγματος θεωρείται ακραία τιμή εάν είναι μικρότερη από 𝑄1 − 1.5𝑄 =
𝑄1 − 1.5(𝑄3 − 𝑄1 ) ή εάν είναι μεγαλύτερη από 𝑄3 + 1.5𝑄 = 𝑄3 + 1.5(𝑄3 − 𝑄1 ). Επίσης μια τιμή του
δείγματος θεωρείται εξαιρετικά ακραία τιμή εάν είναι μικρότερη από 𝑄1 − 3𝑄 = 𝑄1 − 3(𝑄3 − 𝑄1 ) ή
εάν είναι μεγαλύτερη από 𝑄3 + 3𝑄 = 𝑄3 + 3(𝑄3 − 𝑄1 ). Το αριστερό άκρο m είναι η μικρότερη τιμή του
6
δείγματος, που είναι μεγαλύτερη ή ίση με 𝑄1 − 1.5𝑄 = 𝑄1 − 1.5(𝑄3 − 𝑄1 ), ενώ το δεξιό άκρο M είναι η
μεγαλύτερη τιμή του δείγματος, που είναι μικρότερη ή ίση από 𝑄3 + 1.5𝑄 = 𝑄3 + 1.5(𝑄3 − 𝑄1 ).
Εμπειρικός κανόνας
Αν η κατανομή του δείγματος έχει κωδωνοειδή μορφή, δηλαδή προσομοιάζει με μια κανονική κατανομή:
ii) στο διάστημα (𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠) βρίσκεται περίπου το 95% των παρατηρήσεων
iii) στο διάστημα (𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠) βρίσκεται περίπου το 99% των παρατηρήσεων
𝑦̅ = 𝛼𝑥̅ + 𝛽
𝛿𝑦 = 𝛼𝛿𝑥 + 𝛽
𝑀0𝑦 = 𝛼𝑀0𝑥 + 𝛽
𝑠𝑦2 = 𝛼 2 𝑠𝑥2
𝑠𝑦 = |𝛼|𝑠𝑥
7
Ειδικότερα εάν ο γραμμικός μετασχηματισμός είναι της μορφής:
𝑥𝑖 − 𝑥̅ 1 𝑥̅
𝑧𝑖 = = 𝑥𝑖 −
𝑠 𝑠 𝑠
όπου 𝑥̅ και s η μέση τιμή και η τυπική απόκλιση των αρχικών μετρήσεων 𝑥1 , 𝑥2 , … , 𝑥𝜈
1 𝑥̅
με 𝛼 = και 𝛽 = − 𝑠 , τότε η μέση τιμή 𝑧̅ και η τυπική απόκλιση 𝑠𝑧 των μετασχηματισμένων
𝑠
δεδομένων είναι:
1 𝑥̅ 1
𝑧̅ = 𝛼𝑥̅ + 𝛽 = 𝑥̅ − 𝑠 = 0 και 𝑠𝑧 = |𝛼|𝑠𝑥 = |𝑠 | 𝑠𝑥 = 1 , καθώς 𝑠 = 𝑠𝑥
𝑠
𝑥𝑖 −𝑥̅
Επομένως εάν έχουμε οποιαδήποτε δεδομένα 𝑥1 , 𝑥2 , … , 𝑥𝜈 και τα μετασχηματίσουμε ως εξής: 𝑧𝑖 = 𝑠
τότε για τη μέση τιμή και την τυπική απόκλιση των μετασχηματισμένων δεδομένων ισχύει: 𝑧̅ = 0 και
𝑠𝑧 = 1.
1. Μετρήθηκε η ποσότητα νατρίου που περιέχεται στο κασέρι συνήθους τύπου που παράγει μια γνωστή
γαλακτοβιομηχανία. Τα αποτελέσματα εννέα σχετικών μετρήσεων που πήρε ένας φοιτητής του Γ.Π.Α.
σε κασέρι που επέλεξε τυχαία από εννέα παρτίδες παραγωγής της γαλακτοβιομηχανίας ήταν (σε
milligrams/100gr): 340 300 340 320 320 290 330 320 310. α) Να υπολογίσετε και να
ερμηνεύσετε τα μέτρα κεντρικής τάσης και μεταβλητότητας της κατανομής του δείγματος, β) Να
κατασκευάσετε το θηκόγραμμα της κατανομής του δείγματος.
ii) Διάμεσος δ
8
𝛿 = 𝑥(𝜈+1) = 𝑥(5) = 320
2
iii) Επικρατούσα τιμή ή κορυφή Μ0
Β) Μέτρα μεταβλητότητας
i) Διασπορά ή διακύμανση s2
𝜈 𝜈
1 1
2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1
𝜈
2
1 (340 − 318.89)2 + (300 − 318.89)2 + ⋯ + (310 − 318.89)2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = = 285.31
𝜈−1 9−1
𝑖=1
𝜈
1 1
𝑠2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = [(3402 + 3002 + ⋯ + 3102 ) − 9 ∙ 318.892 ]
𝜈−1 9−1
𝑖=1
917500 − 915217.5
= = 285.31 (mg/100gr)2
8
Ένα από τα μειονεκτήματα της διακύμανσης είναι ότι δεν εκφράζεται στην ίδια μονάδα μέτρησης με τα
δεδομένα. Γι’ αυτό συνήθως χρησιμοποιούμε την τυπική απόκλιση, που εκφράζεται στην ίδια μονάδα
μέτρησης.
𝑠 16.89
𝐶𝑉 = ∙ 100% = ∙ 100% = 5.30%
𝑥̅ 318.89
Καθώς ο CV < 10% το δείγμα θεωρείται ομοιογενές, δηλαδή έχει μικρή μεταβλητότητα.
9
290 300 310 320 320 320 330 340 340
↔ ↑ ↔
Min 𝑄1 δ 𝑄3 Max
Επομένως
2. ( Συνέχεια της άσκησης 1). Ο φοιτητής μελέτησε την ποσότητα νατρίου στο κασέρι τύπου light της
ίδιας γαλακτοβιομηχανίας. Τα αποτελέσματα οκτώ μετρήσεων ήταν: 300 300 310 290 280
280 285 275. Να συγκρίνετε την κατανομή αυτού του δείγματος με την κατανομή του δείγματος της
προηγούμενης άσκησης (ως προς την κεντρική τάση, τη μεταβλητότητα και τη λοξότητα).
Θα υπολογίσουμε καταρχάς τα αριθμητικά περιγραφικά μέτρα και στη συνέχεια θα συγκρίνουμε τις
κατανομές των δύο δειγμάτων.
ii) Διάμεσος δ
10
275 280 280 285 290 300 300 310
↔
Επειδή ν=8 (αρτίου πλήθους δείγμα), η διάμεσος υπολογίζεται ως το ημιάθροισμα των δύο μεσαίων
παρατηρήσεων, δηλαδή:
Είναι η τιμή με την μεγαλύτερη συχνότητα. Το παραπάνω δείγμα έχει δύο επικρατούσες τιμές, τις
Β) Μέτρα μεταβλητότητας
i) Διασπορά ή διακύμανση s2
𝜈 𝜈
1 1
𝑠2 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1
𝜈
2
1 2
(300 − 290)2 + (300 − 290)2 + ⋯ + (275 − 290)2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ ) =
𝜈−1 8−1
𝑖=1
102 + 102 + ⋯ + (−15)2 1050
= = = 150 (mg/100gr)2
7 7
Όπως είπαμε και στην προηγούμενη άσκηση, ένα από τα μειονεκτήματα της διακύμανσης s2 είναι ότι δεν
εκφράζεται στην ίδια μονάδα μέτρησης με τα δεδομένα. Γι’ αυτό συνήθως χρησιμοποιούμε την τυπική
απόκλιση, που εκφράζεται στην ίδια μονάδα μέτρησης.
𝑠 12.25
𝐶𝑉 = ∙ 100% = ∙ 100% = 4.22%
𝑥̅ 290
Καθώς ο CV < 10% το δείγμα θεωρείται ομοιογενές, δηλαδή έχει μικρή μεταβλητότητα.
11
275 280 280 285 290 300 300 310
↔ ↔ ↔
Min 𝑄1 δ 𝑄3 Max
Επομένως
Παρατηρούμε ότι όλα τα αριθμητικά περιγραφικά μέτρα κεντρικής τάσης ή θέσης του 1ου δείγματος έχουν
μεγαλύτερες τιμές σε σχέση με τα αντίστοιχα μέτρα του 2ου δείγματος (κασέρι light). Επομένως το κασέρι
τύπου light έχει μικρότερη περιεκτικότητα νατρίου αναφορικά με το πλήρες κασέρι. Επιπλέον όλα τα
αριθμητικά περιγραφικά μέτρα μεταβλητότητας του 1ου δείγματος έχουν μεγαλύτερες τιμές σε σχέση με
τα αντίστοιχα μέτρα του 2ου δείγματος (κασέρι light), όπως και για τους συντελεστές μεταβλητότητας
ισχύει: CV1=5.30% > 4.22% = CV2. Συνεπώς το 2ο δείγμα (κασέρι light) έχει μικρότερη μεταβλητότητα.
Όσον αφορά τη λοξότητα των δύο δειγμάτων έχουμε:
1ο δείγμα (κασέρι πλήρες) 𝑥̅ = 318.89 < δ = Μ0 = 320 επομένως έχουμε μικρή αρνητική ασυμμετρία.
2ο δείγμα (κασέρι light) 𝑥̅ = 290 > δ =287.5 επομένως έχουμε μικρή θετική ασυμμετρία.
3. Για τα παρακάτω δεδομένα να υπολογιστούν η μέση τιμή, η διάμεσος, η επικρατούσα τιμή, η διασπορά,
η τυπική απόκλιση, ο συντελεστής μεταβλητότητας και το ενδοτεταρτημοριακό εύρος. Να κατασκευαστεί
επίσης το θηκόγραμμα της κατανομής του δείγματος.
12
6 6 7 7 3 6 6 6 7 7 7 3 6 5 7 7 1 7 7 7 6 6 5 7 7
6 7 4 7 6 6 5 6 7 6 5 7 4 7 5 7 5 7 4 7 5 7 7 7 5
7 7 2 7 4 7 7 7 5 7 7 7 7 4 7
𝐲𝐢 1 2 3 4 5 6 7 Άθροισμα
𝛎𝐢 1 1 2 5 9 13 34 65
𝝂 𝒊 𝒚𝒊 1 2 6 20 45 78 238 390
𝑵𝒊 1 2 4 9 18 31 65
ii) Διάμεσος δ
Εφόσον ν=65 (περιττού πλήθους δείγμα) η διάμεσος θα είναι η μεσαία παρατήρηση, 𝛿 = 𝑥(𝜈+1) = 𝑥(33)
2
όταν το δείγμα παραταχθεί σε αύξουσα διάταξη. Για τον προσδιορισμό της διαμέσου μας βοηθάει η
αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα βέβαια εύκολα καταλαβαίνουμε ότι η διάμεσος είναι
𝛿 = 𝑥(33) = 7, εφόσον οι 31 πρώτες τιμές είναι ≤ 6 και από την 32η και μετά είναι όλα 7.
Β) Μέτρα μεταβλητότητας
i) Διασπορά ή διακύμανση s2
𝜈 𝜈 𝑘 𝑘
1 1 1 1
2
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1 𝜈−1 𝜈−1
𝑖=1 𝑖=1 𝑖=1 𝑖=1
13
Αφού έχουμε τις συχνότητες 𝜈𝑖 , για τον υπολογισμό της διακύμανσης μπορούμε να χρησιμοποιήσουμε
τους δύο τελευταίους τύπους. Επομένως:
𝑘
2
1 (1 − 6)2 ∙ 1 + (2 − 6)2 ∙ 1 + ⋯ + (7 − 6)2 ∙ 34 122
𝑠 = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = = = 1.91 ή
𝜈−1 65 − 1 64
𝑖=1
𝑘
2
1 2 2
2462 − 65 ∙ 62 122
𝑠 = (∑ 𝜈𝑖 𝑦𝑖 − 𝜈𝑥̅ ) = = = 1.91
𝜈−1 64 64
𝑖=1
𝑠 1.38
𝐶𝑉 = ∙ 100% = ∙ 100% = 23%
𝑥̅ 6
Καθώς ο CV > 10% το δείγμα δεν θεωρείται ομοιογενές.
Για τον προσδιορισμό των 𝑄1 και 𝑄3 μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα
εύκολα καταλαβαίνουμε ότι:
𝑥(15)+𝑥(16) 5+5 𝑥(48)+𝑥(49) 7+7
𝑄1 = = = 5 και 𝑄3 = = = 7.
2 2 2 2
Επομένως 𝑄 = 𝑄3 − 𝑄1 = 7 − 5 = 2
Στη συνέχεια κατασκευάζουμε το θηκόγραμμα, στο οποίο η ελάχιστη τιμή 1 του δείγματος καταγράφεται
ως ακραία τιμή, καθώς είναι μικρότερη από: 𝑄1 − 1.5𝑄 = 5 − 1.5 ∙ 2 = 5 − 3 = 2
14
5. Μετρήσαμε με ηλεκτρονικό μετρητή τον αριθμό των βακτηρίων σε 1cm3 ενός υγρού. Πήραμε 100cm3
του υγρού και είχαμε τις ακόλουθες μετρήσεις:
Αριθμός βακτηρίων 0 1 2 3 4
Πλήθος cm3 12 21 32 25 10
𝐲𝐢 0 1 2 3 4 Άθροισμα
𝛎𝐢 12 21 32 25 10 100
𝝂 𝒊 𝒚𝒊 0 21 64 75 40 200
𝑵𝒊 12 33 65 90 100
15
Α) Μέτρα κεντρικής τάσης ή θέσης
ii) Διάμεσος δ
Εφόσον ν=100 (αρτίου πλήθους δείγμα) η διάμεσος θα είναι το ημιάθροισμα των δύο μεσαίων
παρατηρήσεων, όταν το δείγμα παραταχθεί σε αύξουσα διάταξη, δηλαδή:
𝑥(𝜈) + 𝑥(𝜈+1) 𝑥(50) + 𝑥(51) 2 + 2
2 2
𝛿= = = =2
2 2 2
Για τον προσδιορισμό της διαμέσου μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα
εύκολα καταλαβαίνουμε ότι 𝑥(50) = 𝑥(51) = 2.
Β) Μέτρα μεταβλητότητας
i) Διασπορά ή διακύμανση s2
𝜈 𝜈 𝑘 𝑘
1 1 1 1
𝑠 = 2
∑(𝑥𝑖 − 𝑥̅ )2 = (∑ 𝑥𝑖2 − 𝜈𝑥̅ 2 ) = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 )
𝜈−1 𝜈−1 𝜈−1 𝜈−1
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Αφού έχουμε τις συχνότητες 𝜈𝑖 , για τον υπολογισμό της διακύμανσης μπορούμε να χρησιμοποιήσουμε
κάποιον από τους δύο τελευταίους τύπους. Επομένως:
𝑘
2
1 (0 − 2)2 ∙ 12 + (1 − 2)2 ∙ 21 + ⋯ + (4 − 2)2 ∙ 10 134
𝑠 = ∑(𝑦𝑖 − 𝑥̅ )2 𝜈𝑖 = = = 1.35 ή
𝜈−1 100 − 1 99
𝑖=1
𝑘
1 534 − 100 ∙ 22 134
2
𝑠 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 ) = = = 1.35
𝜈−1 100 − 1 99
𝑖=1
16
𝒔 = √𝒔𝟐 = √1.35 = 1.16
𝑠 1.16
𝐶𝑉 = ∙ 100% = ∙ 100% = 50%
𝑥̅ 2
Καθώς ο CV > >10% το δείγμα έχει μεγάλη μεταβλητότητα.
Για τον προσδιορισμό των 𝑄1 και 𝑄3 μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα
των 100 παρατηρήσεων εύκολα καταλαβαίνουμε ότι:
𝑥(25)+𝑥(26) 1+1 𝑥(75)+𝑥(76) 3+3
𝑄1 = = = 1 και 𝑄3 = = = 3.
2 2 2 2
Επομένως 𝑄 = 𝑄3 − 𝑄1 = 3 − 1 = 2
α) Θηκόγραμμα β) Ραβδόγραμμα
Η κατανομή του δείγματος είναι συμμετρική και δεν έχουμε ακραίες τιμές.
6. Η απόδοση σε γάλα (lt/24h) μιας προβατίνας που έχει γεννήσει, υπολογίζεται ζυγίζοντας το νεογνό
πριν και μετά τον θηλασμό. Πήραμε 19 δείγματα γάλακτος και τα αποτελέσματα ήταν:
2.4 2.7 1.8 3.2 3.4 2.6 3.2 3.4 4.1 2.8 2.9 3.9 4.2 3.6 2.8 3.4 3.7 3.5 2.7
17
α) Να ομαδοποιήσετε τις παρατηρήσεις σε 5 κλάσεις με πλάτος 0.5 η κάθε μία και αριστερό άκρο της
πρώτης κλάσης το 1.75. β) Να υπολογίσετε τη μέση τιμή, τη διάμεσο, την επικρατούσα τιμή, τη διασπορά,
την τυπική απόκλιση, τον συντελεστή μεταβλητότητας και το ενδοτεταρτημοριακό εύρος των
ομαδοποιημένων μετρήσεων, γ) Να κατασκευάσετε επίσης το ιστόγραμμα συχνοτήτων και το
θηκόγραμμα των μετρήσεων.
α)
1.75 – 2.25 2 1 2 4 1
2.75 – 3.25 3 5 15 45 10
3.75 – 4.25 4 3 12 48 19
Άθροισμα 19 60 195.5
ii) Διάμεσος δ
Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την κλάση μέσα στην οποία
βρίσκεται η διάμεσος. Σε αυτό μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα των
19 παρατηρήσεων (περιττό πλήθος δείγματος) εύκολα καταλαβαίνουμε ότι 𝛿 = 𝑥(𝜈+1) = 𝑥(10) .
2
Προσδιορίζουμε την κλάση μέσα στην οποία βρίσκεται η 𝑥(10) , δηλαδή η 10η παρατήρηση, όταν το δείγμα
είναι σε αύξουσα διάταξη. Με τη βοήθεια της αθροιστικής συχνότητας 𝑁𝑖 βλέπουμε ότι η διάμεσος
βρίσκεται στην 3η κλάση (2.75 – 3.25). Στη συνέχεια εφαρμόζοντας τον παρακάτω τύπο υπολογίζουμε
την τιμή της:
18
𝑐
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 )
𝜈𝑖
όπου:
𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται η διάμεσος
Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την επικρατούσα κλάση,
την κλάση δηλαδή με τη μεγαλύτερη συχνότητα και στη συνέχεια υπολογίζουμε την επικρατούσα τιμή
από τον τύπο:
𝛥1
𝛭0 = 𝐿𝑖 + ∙𝑐
𝛥1 + 𝛥2
όπου:
𝛥1 = 𝜈𝑖 −𝜈𝑖−1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖−1 η συχνότητα της προηγούμενης
κλάσης
𝛥2 = 𝜈𝑖 −𝜈𝑖+1 , όπου 𝜈𝑖 η συχνότητα της επικρατούσας κλάσης και 𝜈𝑖+1 η συχνότητα της επόμενης κλάσης
𝛥1 6−5 0.5
𝛭0 = 𝐿𝑖 + ∙ 𝑐 = 3.25 + ∙ 0.5 = 3.25 + = 3.25 + 0.125 = 3.375
𝛥1 + 𝛥2 (6 − 5) + (6 − 3) 4
19
2. Μέτρα μεταβλητότητας
i) Διασπορά ή διακύμανση s2
Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις η διασπορά υπολογίζεται από τον τύπο:
𝑘
1 195.5 − 19 ∙ 3.162 5.77
2
𝑠 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 ) = = = 0.32
𝜈−1 19 − 1 18
𝑖=1
𝑠 0.566
𝐶𝑉 = ∙ 100% = ∙ 100% = 17.91%
𝑥̅ 3.16
Καθώς ο CV > 10% το δείγμα δεν θεωρείται ομοιογενές.
Για τον προσδιορισμό των 𝑄1 και 𝑄3 σε ομαδοποιημένα δεδομένα δουλεύουμε όπως στη διάμεσο.
Δηλαδή προσδιορίζουμε καταρχάς τις κλάσεις μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 και στη συνέχεια
με τους παρακάτω τύπους υπολογίζουμε τις τιμές τους.
𝑐 𝑐
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) 𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 )
𝜈𝑖 𝜈𝑖
όπου:
𝛮𝑖−1: η αθροιστική συχνότητα της προηγούμενης κλάσης από αυτήν που βρίσκεται το 𝑄1 ή το 𝑄3
20
Στο συγκεκριμένο δείγμα των 19 παρατηρήσεων εύκολα καταλαβαίνουμε ότι 𝑄1 = 𝑥(5) και 𝑄3 = 𝑥(15) .
Για τον προσδιορισμό των κλάσεων μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 μας βοηθάει η αθροιστική
συχνότητα 𝑁𝑖 . Το 𝑄1, δηλαδή η 5η παρατήρηση βρίσκεται στην 2η κλάση (2.25 – 2.75), ενώ το 𝑄3 , δηλαδή
η 15η παρατήρηση βρίσκεται στην 4η κλάση (3.25 – 3.75). Στη συνέχεια εφαρμόζοντας τους αντίστοιχους
τύπους υπολογίζουμε τις τιμές τους:
𝑐 0.5
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) = 2.25 + (0.25 ∙ 19 − 1) = 2.25 + 0.47 = 2.72
𝜈𝑖 4
𝑐 0.5
𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 ) = 3.25 + (0.75 ∙ 19 − 10) = 3.25 + 0.35 = 3.60
𝜈𝑖 6
γ)
7. Σε ένα πείραμα, μετρήθηκε το μήκος 100 φύλλων ενός φυτού. Οι μετρήσεις είχαν ως εξής:
Πλήθος φύλλων 51 20 16 4 9
21
α) Υπολογίστε τη μέση τιμή, τη διάμεσο, τη διασπορά, την τυπική απόκλιση και το ενδοτεταρτημορικό
εύρος των παραπάνω μετρήσεων. Κατασκευάστε πρόχειρα το ιστόγραμμα συχνοτήτων. Είναι συμμετρική
η κατανομή των παραπάνω δεδομένων;
β) Οι παραπάνω μετρήσεις 𝑥1 , 𝑥2, … , 𝑥100 κατόπιν μετασχηματίστηκαν ως εξής: 𝑦𝑖 = 0.2𝑥𝑖 + 6. Nα
βρεθούν η μέση τιμή, η διασπορά και ο συντελεστής μεταβλητότητας των μετασχηματισμένων
παρατηρήσεων 𝑦𝑖 .
𝑥𝑖 −𝑥̅
γ) Εάν οι αρχικές μετρήσεις 𝑥1 , 𝑥2, … , 𝑥100 μετασχηματιστούν ως εξής: 𝑧𝑖 = , όπου 𝑥̅ και s η μέση
𝑠
τιμή και η τυπική απόκλιση των αρχικών μετρήσεων, να υπολογιστούν η μέση τιμή, η διασπορά και η
τυπική απόκλιση των 𝑧𝑖 .
(12-16] 14 4 56 784 91
ii) Διάμεσος δ
Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την κλάση μέσα στην οποία
βρίσκεται η διάμεσος. Σε αυτό μας βοηθάει η αθροιστική συχνότητα 𝑁𝑖 . Στο συγκεκριμένο δείγμα των
𝑥(50) +𝑥(51)
100 παρατηρήσεων (άρτιο πλήθος δείγματος) εύκολα καταλαβαίνουμε ότι 𝛿 = . Επειδή στην
2
22
Στη συνέχεια εφαρμόζοντας τον παρακάτω τύπο υπολογίζουμε την τιμή της:
𝑐 4 200
𝛿 = 𝐿𝑖 + (0.5𝜈 − 𝛮𝑖−1 ) = 0 + (0.5 ∙ 100 − 0) = 0+ = 3.92
𝜈𝑖 51 51
iii) Επικρατούσα τιμή ή κορυφή Μ0
Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις προσδιορίζουμε καταρχάς την επικρατούσα κλάση,
την κλάση δηλαδή με τη μεγαλύτερη συχνότητα. Εδώ είναι η 1η κλάση (0-4] με συχνότητα 51. Στη
συνέχεια υπολογίζουμε την επικρατούσα τιμή από τον τύπο:
𝛥1 51 − 0
𝛭0 = 𝐿𝑖 + ∙𝑐 = 0+ ∙ 4 = 2.49
𝛥1 + 𝛥2 (51 − 0) + (51 − 20)
Παρατηρούμε ότι: 𝑥̅ = 6 > δ =3.92 > 𝛭0 =2.49 επομένως έχουμε έντονη θετική ασυμμετρία.
Β) Μέτρα μεταβλητότητας
i) Διασπορά ή διακύμανση s2
Όταν τα δεδομένα είναι ομαδοποιημένα σε κλάσεις η διασπορά υπολογίζεται από τον τύπο:
𝑘
1 6224 − 100 ∙ 62 2624
2
𝑠 = (∑ 𝜈𝑖 𝑦𝑖2 − 𝜈𝑥̅ 2 ) = = = 26.5
𝜈−1 100 − 1 99
𝑖=1
Όπως έχουμε ξαναπεί ένα μειονέκτημα της διακύμανσης είναι ότι δεν εκφράζεται στην ίδια μονάδα
μέτρησης με τα δεδομένα. Γι’ αυτό συνήθως χρησιμοποιούμε την τυπική απόκλιση, που εκφράζεται στην
ίδια μονάδα μέτρησης.
𝑠 5.15
𝐶𝑉 = ∙ 100% = ∙ 100% = 85.83%
𝑥̅ 6
Καθώς ο CV >> 10% το δείγμα έχει πολλή μεγάλη μεταβλητότητα.
23
Για τον προσδιορισμό των 𝑄1 και 𝑄3 σε ομαδοποιημένα δεδομένα δουλεύουμε όπως στη διάμεσο.
Δηλαδή προσδιορίζουμε καταρχάς τις κλάσεις μέσα στις οποίες βρίσκονται τα 𝑄1 και 𝑄3 και στη συνέχεια
με τους παρακάτω τύπους υπολογίζουμε τις τιμές τους.
𝑐 𝑐
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) 𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 )
𝜈𝑖 𝜈𝑖
Στο συγκεκριμένο δείγμα των 100 παρατηρήσεων (αρτίου πλήθους δείγμα) εύκολα καταλαβαίνουμε ότι:
𝑥(50) + 𝑥(51) 𝑥(25) + 𝑥(26) 𝑥(75) + 𝑥(76)
𝛿= , 𝑄1 = , 𝑄3 =
2 2 2
Με τη βοήθεια της αθροιστικής συχνότητας 𝑁𝑖 παρατηρούμε ότι το 𝑄1 βρίσκεται στην 1η κλάση (0 – 4],
ενώ το 𝑄3 βρίσκεται στην 3η κλάση (8 – 12]. Στη συνέχεια εφαρμόζοντας τους αντίστοιχους τύπους
υπολογίζουμε τις τιμές τους των 𝑄1 και 𝑄3 :
𝑐 4 100
𝑄1 = 𝐿𝑖 + (0.25𝜈 − 𝛮𝑖−1 ) = 0 + (0.25 ∙ 100 − 0) =0+ = 1.96
𝜈𝑖 51 51
𝑐 4
𝑄3 = 𝐿𝑖 + (0.75𝜈 − 𝛮𝑖−1 ) = 8 + (0.75 ∙ 100 − 71) = 8+1= 9
𝜈𝑖 16
24
Στη συνέχεια παραθέτουμε ένα ενδεικτικό θηκόγραμμα παρόμοιου δείγματος με αυτό της άσκησης,
καθώς δεν μας δίνονται οι 100 μετρήσεις, αλλά μόνο ο πίνακας συχνοτήτων. Δεν γνωρίζουμε επακριβώς
την ελάχιστη και την μέγιστη μέτρηση, έτσι ώστε να μπορούμε να κατασκευάσουμε το ακριβές
θηκόγραμμα.
Και στα δύο διαγράμματα (ιστόγραμμα & θηκόγραμμα) είναι ολοφάνερη η έντονη θετική ασυμμετρία
της κατανομής του δείγματος.
𝑠𝑦2 = 𝛼 2 𝑠𝑥2 = 0.22 ∙ 26.5 = 1.06 και 𝑠𝑦 = |𝛼|𝑠𝑥 = |0.2| ∙ 5.15 = 1.03
Τότε:
𝑠𝑦 1.03
𝐶𝑉𝑦 = 100% = 100% = 14.31%
𝑦̅ 7.2
25
1 𝑥̅
𝑧̅ = 𝛼𝑥̅ + 𝛽 = 𝑥̅ − 𝑠 = 0
𝑠
1
𝑠𝑧2 = 𝛼 2 𝑠𝑥2 = (𝑠 )2 𝑠𝑥2 = 1, καθώς 𝑠 2 = 𝑠𝑥2
1
και 𝑠𝑧 = |𝛼|𝑠𝑥 = |𝑠 | 𝑠𝑥 = 1 , καθώς 𝑠 = 𝑠𝑥
26
Στοιχεία από την Συνδυαστική
Πολλαπλασιαστική αρχή
Διατάξεις
Όταν έχουμε ν διαφορετικά στοιχεία και τοποθετούμε στη σειρά κ από τα αυτά, έχουμε
μία διάταξη των ν στοιχείων ανά κ. Το πλήθος όλων των διαφορετικών διατάξεων των ν
στοιχείων ανά κ συμβολίζεται με (𝜈)𝑘 και είναι:
𝜈!
(𝜈)𝑘 = 𝜈(𝜈 − 1) … (ν − κ + 1) = , 1≤𝜅≤𝜈
(𝜈 − 𝜅)!
όπου 𝜈! = 1 ∙ 2 ∙ 3 ∙ … ∙ ν, 1! = 1, 3! = 1 ∙ 2 ∙ 3 = 6 και 0! = 1
Όταν 𝜅 = 𝜈 έχουμε τις μεταθέσεις των ν στοιχείων, των οποίων το πλήθος είναι:
Επαναληπτικές διατάξεις
Όταν από τα ν στοιχεία επιλέγουμε κ, αλλά κάθε ένα από αυτά μπορεί να επιλεγεί όσες
φορές θέλουμε, τότε έχουμε τις επαναληπτικές διατάξεις των ν στοιχείων ανά κ και το
πλήθος τους είναι:
𝜈 ∙ 𝜈 ∙ … ∙ ν = 𝜈𝜅, 𝜈 ≥ 1, 𝜅 ≥ 1
1
Μεταθέσεις με όμοια στοιχεία
Αν τα ν στοιχεία δεν είναι όλα διαφορετικά μεταξύ τους, αλλά υπάρχουν κάποια όμοια
στοιχεία. Εάν τα 𝜈1 είναι ενός είδους Α1, τα 𝜈2 είναι ενός άλλου είδους Α2, ….. και τα 𝜈𝜅
είναι κάποιου άλλου είδους Ακ, όπου 𝜈1 + 𝜈2 + … +𝜈𝜅 = ν, τότε οι διαφορετικές μεταθέσεις
των ν στοιχείων είναι:
𝜈 𝜈!
( )=
𝜈1 , 𝜈2, … , 𝜈𝜅 𝜈1 ! ∙ 𝜈2 ! ∙ … ∙ 𝜈𝜅 !
Συνδυασμοί
Αν από τα ν διαφορετικά στοιχεία πάρουμε κ χωρίς να μας ενδιαφέρει η διάταξή τους, αλλά
μόνο ποια στοιχεία πήραμε, τότε έχουμε τους συνδυασμούς των ν στοιχείων ανά κ, που
συμβολίζονται με (𝜈𝜅) και το πλήθος τους είναι:
𝜈 𝜈(𝜈 − 1) … (ν − κ + 1) 𝜈!
( )= = , 1≤𝜅≤𝜈
𝜅 𝜅! 𝜅! (𝜈 − 𝜅)!
Δειγματοληψία
Όταν έχουμε ν στοιχεία και θέλουμε να πάρουμε από αυτά ένα δείγμα μεγέθους κ,
μπορούμε να το πραγματοποιήσουμε με τους εξής τρόπους:
2
Στην περίπτωση i) το ίδιο στοιχείο μπορεί να εμφανιστεί μέχρι κ φορές, ενώ στις ii) και
iii) όλα τα στοιχεία του δείγματος είναι διαφορετικά.
Όταν λέμε ότι παίρνουμε ένα τυχαίο δείγμα μεγέθους κ θα εννοούμε ότι η δειγματοληψία
γίνεται με τέτοιο τρόπο, ώστε όλα τα δείγματα μεγέθους κ έχουν την ίδια πιθανότητα
επιλογής.
1. Μια πόλη Α συνδέεται με την πόλη Β μέσω τριών δρόμων, η πόλη Β συνδέεται με την
πόλη Γ μέσω πέντε δρόμων και τέλος η πόλη Γ συνδέεται με την πόλη Δ μέσω οκτώ
δρόμων. Από πόσες διαφορετικές διαδρομές μπορεί να επιλέξει κάποιος για να ταξιδέψει:
α) από την πόλη Α στην πόλη Γ
β) από την πόλη Β στην πόλη Δ
γ) από την πόλη Α στην πόλη Δ
δ) από την πόλη Α στην πόλη Δ και στη συνέχεια να επιστρέψει στην πόλη Β.
7. Πόσοι ακέραιοι με διαφορετικά ψηφία μεταξύ 3000 και 4000 σχηματίζονται από τα
ψηφία 1, 2, 3, 4, 5, 6, 7, 8, 9.
Για να σχηματίσουμε ακεραίους αριθμούς μεταξύ των 3000 και 4000 θα πρέπει το 1ο το
πρώτο ψηφίο να είναι το 3 (μία επιλογή). Για το 2 ο ψηφίο έχουμε 8 επιλογές (κάποιο από
τα ψηφία 1, 2, 4, 5, 6, 7, 8, 9 που απέμειναν, καθώς θέλουμε όλα τα ψηφία των αριθμών
να είναι διαφορετικά), για το 3ο ψηφίο έχουμε 7 επιλογές (αφαιρώντας από τα 9 ψηφία που
είχαμε τα δύο πρώτα ψηφία που έχουν επιλεγεί) και για το 4ο ψηφίο έχουμε 6 επιλογές.
3
Εφαρμόζοντας την πολλαπλασιαστική αρχή θα έχουμε 1 ∙ 8 ∙ 7 ∙ 6 = 336 αριθμούς με
διαφορετικά ψηφία.
Αλλιώς, εκτός από την μοναδική επιλογή του 1ου ψηφίου για τα υπόλοιπα τρία έχουμε
(8)3 = 8 ∙ 7 ∙ 6 = 336 αριθμούς, όσες και οι διατάξεις των 8 ψηφίων ανά 3.
2. Οι αριθμοί κυκλοφορίας των αυτοκινήτων δημιουργούνται από τρία γράμματα και ένα
τετραψήφιο αριθμό. Για το πρώτο τμήμα του αριθμού χρησιμοποιούνται τα 14 γράμματα
του ελληνικού αλφαβήτου, τα οποία συμπίπτουν με λατινικούς χαρακτήρες (Α, Β, Ε, Ζ, Η,
Ι, Κ, Μ, Ν, Ο, Π, Τ, Υ, Χ) ενώ στην πρώτη θέση του δευτέρου δεν χρησιμοποιείται ο
αριθμός 0.
α) Πόσοι διαφορετικοί αριθμοί κυκλοφορίας μπορούν να δημιουργηθούν.
β) Πόσοι από τους διαφορετικούς αριθμούς που μπορούν να δημιουργηθούν: i) έχουν και
τα τρία γράμματα του πρώτου μέρους διαφορετικά μεταξύ τους ii) έχουν ως πρώτο γράμμα
φωνήεν iii) έχουν στην πρώτη και στην τρίτη θέση φωνήεντα και iv) δεν περιέχουν στο
δεύτερο τμήμα τους ίδια ψηφία.
Επομένως έχουμε 14 επιλογές για το 1ο γράμμα (που έστω ότι είναι το Α), 13 επιλογές για
το 2ο γράμμα (14 επιλογές εκτός του Α, που έχει ήδη επιλεγεί), 12 επιλογές για το 3ο
γράμμα…..
ii) Έχουμε 6 επιλογές για το 1ο γράμμα (Α, Ε, Η, Ι, Ο, Υ), 14 επιλογές για το 2ο γράμμα….
6 ∙ 14 ∙ 14 ∙ 9 ∙ 10 ∙ 10 ∙ 10 = 10.584.000 αριθμοί κυκλοφορίας
iii) 6 ∙ 14 ∙ 6 ∙ 9 ∙ 10 ∙ 10 ∙ 10 = 4.536.000 αριθμοί κυκλοφορίας
4
8. Πόσοι αναγραμματισμοί της λέξης «ΣΥΝΔΥΑΣΤΙΚΗ» υπάρχουν.
Η λέξη ΣΥΝΔΥΑΣΤΙΚΗ έχει 11 γράμματα, εκ των οποίων κάποια είναι διπλά (Σ:2, Y:2).
Χρησιμοποιώντας τον τύπο των μεταθέσεων με όμοια στοιχεία έχουμε:
11 11! 1 ∙ 2 ∙ … ∙ 11
( )= = = 9.979.000
2, 2, 1, … ,1 2! ∙ 2! ∙ 1! … ∙ 1! 1 ∙ 2 ∙ 1 ∙ 2 … 1
9. Πέντε όμοιες λεύκες, δύο όμοια πεύκα και τρία όμοια έλατα πρόκειται να
χρησιμοποιηθούν για να δημιουργηθεί μια δενδροστοιχία. Με πόσους διαφορετικούς
τρόπους μπορεί να γίνει αυτό.
Έχουμε 10 δένδρα, εκ των οποίων κάποια είναι όμοια (5Λ, 2Π, 3Ε). Χρησιμοποιώντας τον
τύπο των μεταθέσεων με όμοια στοιχεία έχουμε:
10 10! 1 ∙ 2 ∙ … ∙ 10
( )= = = 2520
5, 2, 3 5! ∙ 2! ∙ 3! 1 ∙ 2 ∙ 3 ∙ 4 ∙ 5 ∙ 1 ∙ 2 ∙ 1 ∙ 2 ∙ 3
12. Ένα δελτίο ΠΡΟΠΟ περιλαμβάνει 13 αγώνες καταχωρημένους σε μία στήλη και δίπλα
σε κάθε αγώνα σημειώνεται 1, Χ, 2. α) Πόσες διαφορετικές στήλες μπορούν να
σχηματιστούν. β) Αν για 6 συγκεκριμένους αγώνες χρησιμοποιήσουμε 1 σύμβολο, για 5
άλλους συγκεκριμένους αγώνες 2 σύμβολα και για τους υπόλοιπους 2 αγώνες 3 σύμβολα,
πόσες διαφορετικές στήλες θα προκύψουν.
α) Έχουμε 3 επιλογές για τον 1ο αγώνα (1, Χ, 2), 3 επιλογές για τον 2ο αγώνα (1, Χ, 2),
κ.ο.κ. 3 επιλογές για τον 13ο αγώνα (1, Χ, 2). Συνολικά (πολλαπλασιαστική αρχή) έχουμε:
Από τα 8 άτομα επιλέγουμε 3, χωρίς να μας ενδιαφέρει η σειρά επιλογής, αλλά μόνο ποια
άτομα έχουν επιλεγεί. Επομένως έχουμε συνδυασμούς των 8 ατόμων ανά 3.
8 8! 1 ∙ 2∙ …∙ 8
( )= = = 56
3 3! (8 − 3)! 1 ∙ 2 ∙ 3 ∙ 1 ∙ 2 ∙ 3 ∙ 4 ∙ 5
5
17. Από οκτώ φοιτητές και τέσσερις καθηγητές πόσες ομάδες των έξι ατόμων στις οποίες
συμμετέχει τουλάχιστον ένας καθηγητής μπορούν να σχηματιστούν.
Στις ομάδες των 6 ατόμων μπορεί να συμμετέχει 1 καθηγητής (Κ) και 5 φοιτητές (Φ) ή 2Κ
και 4Φ ή 3Κ και 3Φ ή 4Κ και 2Φ. Δεν να μας ενδιαφέρει η σειρά επιλογής, αλλά μόνο
ποια άτομα έχουν επιλεγεί. Το πλήθος των ομάδων των 6 ατόμων είναι:
4 8 4 8 4 8 4 8
( )∙( ) +( )∙( )+( )∙( )+( )∙( )=
1 5 2 4 3 3 4 2
4! 8! 4! 8! 4! 8! 4! 8!
= ∙ + ∙ + ∙ + ∙ = 896
1! ∙ 3! 5! ∙ 3! 2! ∙ 2! 4! ∙ 4! 3! ∙ 1! 3! ∙ 5! 4! ∙ 0! 2! ∙ 6!
0! = 1 εξ ορισμού.
18. Μια επιτροπή αποτελείται από 2 Γεωπόνους και 3 Μηχανικούς που επιλέγονται από 5
Γεωπόνους και 7 Μηχανικούς. Με πόσους διαφορετικούς τρόπους μπορεί να σχηματισθεί
αυτή η επιτροπή, α) χωρίς άλλους περιορισμούς, β) έτσι ώστε ένας συγκεκριμένος
Μηχανικός να συμμετέχει οπωσδήποτε, γ) έτσι ώστε 2 συγκεκριμένοι Γεωπόνοι να μην
συμμετέχουν.
Από 5 Γεωπόνους (Γ) και 7 Μηχανικούς (Μ) επιλέγουμε 2Γ και 3Μ. Δεν να μας ενδιαφέρει
η σειρά επιλογής, αλλά μόνο ποια άτομα έχουν επιλεγεί. Το πλήθος των επιτροπών είναι:
5 7 5! 7!
𝛼) ( ) ∙ ( ) = ∙ = 350
2 3 2! ∙ 3! 3! ∙ 4!
5 6 5! 6!
( )∙( )= ∙ = 150
2 2 2! ∙ 3! 2! ∙ 4!
𝛾) Δύο Γεωπόνοι δεν συμμετέχουν, οπότε επιλέγονται 2Γ και 3Μ από 3Γκαι 7Μ.
3 7 3! 7!
( )∙( )= ∙ = 105
2 3 2! ∙ 1! 3! ∙ 4!
6
ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ
Σύντομη ανασκόπηση εννοιών, τύπων και λύση προβλημάτων
Πείραμα τύχης είναι οτιδήποτε μπορεί να επαναληφθεί με τις ίδιες συνθήκες όσες φορές
θέλουμε και το αποτέλεσμά του δεν μπορεί να προβλεφθεί με βεβαιότητα. Μπορούμε όμως
να καταγράψουμε όλα τα δυνατά αποτελέσματά του.
Κάθε δυνατό αποτέλεσμα ενός πειράματος τύχης, δηλαδή κάθε σημείο του δειγματικού
χώρου, λέγεται απλό ενδεχόμενο, ενώ ένα σύνολο απλών ενδεχομένων λέγεται (σύνθετο)
ενδεχόμενο.
Ξένα ενδεχόμενα είναι τα ενδεχόμενα, τα οποία δεν έχουν κοινά σημεία, δηλαδή η τομή
τους είναι το κενό σύνολο (𝜜 ∩ 𝜝 = ∅).
1
Παράσταση ενδεχομένων με διαγράμματα
Αν ο δειγματικός χώρος Ω είναι πεπερασμένος και όλα τα απλά ενδεχόμενά του έχουν την
ίδια πιθανότητα επιλογής (ισοπίθανα), τότε η πιθανότητα να συμβεί το ενδεχόμενο Α
είναι:
Σε κάθε ενδεχόμενο Α ενός πειράματος τύχης αντιστοιχίζουμε έναν αριθμό 𝑷(𝑨) τέτοιον
ώστε:
2
Ιδιότητες της πιθανότητας
Δεσμευμένη πιθανότητα
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) = , ό𝜏𝛼𝜈 𝑃(𝐵) > 0 (𝛿𝜂𝜆. 𝑃(𝐵) ≠ 0)
𝑃(𝐵)
Πολλαπλασιαστικός τύπος
𝑃(𝐴𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵⁄𝐴) = 𝑃(𝐵) ⋅ 𝑃(𝐴⁄𝐵 ) όταν 𝑃(𝐴) > 0, 𝑃(𝐵) > 0
Γενικεύοντας:
Ανεξαρτησία ενδεχομένων
Δηλαδή εάν είναι ανά δύο ανεξάρτητα i), ii), iii) και ανά τρία ανεξάρτητα iv).
Γενικεύοντας τα ν ενδεχόμενα 𝐴1 , 𝐴2 , … , 𝐴𝜈 ονομάζονται ανεξάρτητα αν και μόνο αν:
i) Είναι ανά δύο ανεξάρτητα (οπότε θα πρέπει να εξεταστούν (𝜈2) σχέσεις)
ii) Είναι ανά τρία ανεξάρτητα (οπότε θα πρέπει να εξεταστούν (𝜈3) σχέσεις)
………………………………………………………………………
4
Θεώρημα Bayes
Έστω 𝛣1 , 𝛣2 , … , 𝛣𝜈 ν ξένα μεταξύ τους ενδεχόμενα τα οποία καλύπτουν όλο το δειγματικό
χώρο 𝛺 ενός πειράματος τύχης (δηλ. 𝛣1 ∪ 𝛣2 ∪ … ∪ 𝛣𝜈 = 𝛺) και 𝑃(𝐵𝑖 ) > 0 για 𝑖 =
1, 2, … , 𝜈. Τότε για κάθε ενδεχόμενο 𝛢 του 𝛺 με 𝑃(𝐴) > 0, έχουμε:
Σύμφωνα με τον στατιστικό ορισμό της πιθανότητας και θεωρώντας ότι οι 5000
επαναλήψεις είναι αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών
συχνοτήτων έχουμε:
1000−200 800−200
iv) 𝑃(𝐴𝐵′) = = 0.16 v) 𝑃(𝐵𝐴′) = = 0.12
5000 5000
5
2. Εξετάστηκαν 800 ζώα για να διαπιστωθεί εάν είναι υγιή ή άρρωστα. Επίσης για
κάθε ζώο καταγράφηκε το φύλο του. Τα αποτελέσματα των εξετάσεων φαίνονται
στον πίνακα που ακολουθεί.
Υγιή Άρρωστα
Αρσενικά 150 350
Θηλυκά 80 220
Θεωρούμε τα εξής ενδεχόμενα, τα οποία αναφέρονται στο πείραμα της επιλογής
τυχαία ενός ζώου από τον πληθυσμό που μελετάμε:
Α: το ζώο που επιλέχθηκε είναι υγιές
Β: το ζώο που επιλέχθηκε είναι αρσενικό
Με βάση τα δεδομένα του πίνακα και θεωρώντας ότι οι 800 επαναλήψεις είναι
αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών συχνοτήτων, να
υπολογισθούν οι πιθανότητες των ενδεχομένων: Α, Β, ΑΒ, Α΄, Β΄, Α΄ Β΄, Α΄Β, ΑΒ΄,
Α΄Β ∪ ΑΒ΄, ΑΒ ∪ Α΄Β΄.
Σύμφωνα με τον στατιστικό ορισμό της πιθανότητας και θεωρώντας ότι οι 800
επαναλήψεις είναι αρκετές ώστε να έχει επιτευχθεί η σταθεροποίηση των σχετικών
συχνοτήτων έχουμε:
150+80 150+350 150
𝑃(𝐴) = = 0.2875, 𝑃(𝐵) = = 0.625, 𝑃(𝐴𝐵) = 800 = 0.1875,
800 800
350+220
𝑃(𝐴′) = = 0.7125 ή 𝑃(𝐴′) = 1 − 𝑃(𝐴) = 1 − 0.2875 = 0.7125,
800
80+220
𝑃(𝐵′) = = 0.375
800
220 350 80
𝑃(𝐴′ 𝐵 ′ ) = 800 = 0.275, 𝑃(𝐴′ 𝐵) = 800 = 0.4375, 𝑃(𝐴𝐵 ′ ) = 800 = 0.1
350+80
𝑃(𝐴′𝐵 ∪ 𝐴𝐵′) = = 0.5375 ή 𝑃(𝐴′𝐵 ∪ 𝐴𝐵′) = 𝑃(𝐴′ 𝐵) + 𝑃(𝐴𝐵 ′ ) =
800
0.4375 + 0.1 = 0.5375
150+220
𝑃(𝐴𝐵 ∪ 𝐴′𝐵′) = = 0.4625 ή 𝑃(𝐴𝐵 ∪ 𝐴′𝐵′) = 𝑃(𝐴𝐵) + 𝑃(𝐴′𝐵 ′ ) =
800
0.1875 + 0.275 = 0.4625
3. Η πιθανότητα σε ένα έτος να συμβεί σεισμός έντασης πάνω από 6 βαθμούς της
κλίμακας ρίχτερ σε μια συγκεκριμένη περιοχή είναι 0.005. Η αντίστοιχη
πιθανότητα να πληγεί η περιοχή από έντονες βροχοπτώσεις είναι 0.02, ενώ υπάρχει
πιθανότητα 0.001 σε διάρκεια ενός έτους να εμφανιστούν και τα δύο φαινόμενα.
Να υπολογιστούν οι πιθανότητες, σε ένα έτος η περιοχή να πληγεί: α) μόνο από
σεισμό, β) μόνο από βροχοπτώσεις, γ) τουλάχιστον από ένα από τα δύο φαινόμενα
και δ) από κανένα από τα δύο φαινόμενα.
6
Έστω Α={το ενδεχόμενο να συμβεί σεισμός έντασης μεγαλύτερης από 6 βαθμούς
σε ένα έτος}
και Β={το ενδεχόμενο να συμβεί έντονη βροχόπτωση σε ένα έτος}
Τότε 𝑃(𝐴) = 0.005, 𝑃(𝐵) = 0.02, 𝑃(𝐴𝐵) = 0.001
α) 𝑃(𝐴𝐵 ′ ) = 𝑃(𝐴) − 𝑃(𝐴𝐵) = 0.005 − 0.001 = 0.004
β) 𝑃(𝐵𝐴′) = 𝑃(𝐵) − 𝑃(𝐴𝐵) = 0.02 − 0.001 = 0.019
γ) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝐵) = 0.005 + 0.02 − 0.001 = 0.024
δ) 𝑃(𝐴′𝐵 ′ ) = 1 − 𝑃(𝐴 ∪ 𝐵) = 1 − 0.024 = 0.976
4. Το 15% από τα δένδρα ενός δάσους πάσχουν από κάποια ασθένεια Α, το 8% από
κάποια ασθένεια Β και το 20% από κάποια ασθένεια Γ. Επίσης, ποσοστό 3%
πάσχει και από την Α και από την Β, ποσοστό 2% και από την Α και από τη Γ και
ποσοστό 4% και από την Β και από την Γ. Τέλος, το ποσοστό των δένδρων που
πάσχει και από τις τρεις ασθένειες είναι 1% . Αν επιλεγεί ένα δένδρο από αυτό το
δάσος στην τύχη, ποια η πιθανότητα: i) να πάσχει μόνο από την Β ή μόνο από την
Γ ασθένεια, ii) να πάσχει από τουλάχιστον μία ασθένεια, iii) να μην πάσχει από
καμία από τις τρεις ασθένειες και iv) να πάσχει από την Α, δεδομένου ότι πάσχει
από (τουλάχιστον) μία από τις τρεις ασθένειες.
7
ii) 𝑃(𝛢 ∪ 𝛣 ∪ 𝛤) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝛤) − 𝑃(𝐴𝐵) − 𝑃(𝐴𝛤) − 𝑃(𝐵𝛤) +
𝑃(𝐴𝐵𝛤) = 0.15 + 0.08 + 0.20 − 0.03 − 0.02 − 0.04 + 0.01 = 0.35
Έστω Α={το ενδεχόμενο να φέρνουμε κάθε φορά διαφορετική ένδειξη από την
προηγούμενη}
Σύμφωνα με τον κλασικό ορισμό της πιθανότητας έχουμε:
𝑁(𝐴) 2 2
𝑃(𝐴) = = 10 = = 0.00195
𝑁(𝛺) 2 1024
6. Το πρόβλημα του Chevalier de Méré. Ποιο είναι πιο πιθανό, να φέρουμε ένα
τουλάχιστον «έξι» ρίχνοντας ένα ζάρι 4 φορές ή να φέρουμε μία τουλάχιστον φορά
«εξάρες» ρίχνοντας δύο ζάρια 24 φορές.
Έστω 𝐴={το ενδεχόμενο να φέρουμε τουλάχιστον ένα «έξι» ρίχνοντας ένα ζάρι 4
φορές} και
Β={ το ενδεχόμενο να φέρουμε μία τουλάχιστον φορά «εξάρες» ρίχνοντας δύο
ζάρια 24 φορές}
Τότε 𝐴′ ={το ενδεχόμενο να φέρουμε κανένα «έξι» ρίχνοντας ένα ζάρι 4 φορές}
και Β΄={ το ενδεχόμενο να φέρουμε καμιά φορά «εξάρες» ρίχνοντας δύο ζάρια 24
φορές}
8
′)
54
𝑃(𝐴) = 1 − 𝑃(𝐴 = 1 − 4 = 1 − 0.48225 = 0.51775
6
′)
3524
𝑃(𝐵) = 1 − 𝑃(𝐵 = 1 − 24 = 1 − 0.5086 = 0.4914
36
Τότε:
5 6
𝑁(𝐴) (2) ∙ (2) 150
𝑃(𝐴) = = = = 0.42857
𝑁(𝛺) (5) ∙ (7) 350
2 3
8. Σε μια χώρα η πιθανότητα να ζήσει ένας άνδρας τουλάχιστον 70 χρόνια είναι 0.85,
ενώ η πιθανότητα να ζήσει τουλάχιστον 75 χρόνια είναι 0.80. Αν διαλέξουμε
9
τυχαία έναν 70χρονο άνδρα από τη χώρα αυτή, ποια είναι η πιθανότητα να ζήσει
τουλάχιστον άλλα 5 χρόνια.
Έστω 𝐴={το ενδεχόμενο ένας άνδρας να ζήσει τουλάχιστον 75 χρόνια} και
Β={ το ενδεχόμενο ένας άνδρας να ζήσει τουλάχιστον 70 χρόνια }
𝐴⊆𝐵
Τότε η ζητούμενη πιθανότητα είναι:
𝑃(𝐴𝐵) 𝑃(𝐴) 0.80
𝑃(𝐴⁄𝐵) = = = = 0.94
𝑃(𝐵) 𝑃(𝐵) 0.85
9. Από επτά όμοια κλειδιά ένα μόνο ανοίγει μια κλειδαριά. Δοκιμάζουμε χωρίς
επανάθεση ένα-ένα τα κλειδιά μέχρι να ανοίξει η κλειδαριά. Ποια η πιθανότητα να
συμβεί αυτό στην τρίτη δοκιμή; Γενικότερα στην κ δοκιμή; (όπου κ = 1, 2, 3, 4, 5,
6, 7).
10. Σε ένα αγρόκτημα υπάρχουν 10 κουνέλια από τα οποία τα 3 είναι θηλυκά. Για τον
έλεγχο του πληθυσμού των κουνελιών κρίθηκε σκόπιμο να απομακρυνθούν δύο
από τα θηλυκά. Έτσι στήθηκε μια παγίδα όπου πιάνονταν τα κουνέλια το ένα μετά
το άλλο, έως ότου πιαστούν δύο θηλυκά. Ποια η πιθανότητα να συμβεί αυτό, όταν
πιαστεί το τέταρτο στη σειρά κουνέλι.
10
𝑃(𝐴′1 𝐴′ 2 𝐴3 𝐴4 ∪ 𝐴′1 𝐴2 𝐴′ 3 𝐴4 ∪ 𝐴1 𝐴′ 2 𝐴′ 3 𝐴4 ) =
= 𝑃(𝐴′1 𝐴′ 2 𝐴3 𝐴4 ) + 𝑃(𝐴′1 𝐴2 𝐴′ 3 𝐴4 ) + 𝑃(𝐴1 𝐴′ 2 𝐴′ 3 𝐴4 )
= 𝑃(𝐴′1 ) ∙ 𝑃(𝐴′ 2 ⁄𝐴′1 ) ⋅ 𝑃(𝐴3 ⁄𝐴′1 𝐴′ 2 ) ⋅ 𝑃(𝐴4 ⁄𝐴′1 𝐴′ 2 𝐴3 )
+ 𝑃(𝐴′1 ) ∙ 𝑃(𝐴2 ⁄𝐴′1 ) ⋅ 𝑃(𝐴′ 3 ⁄𝐴′1 𝐴2 ) ⋅ 𝑃(𝐴4 ⁄𝐴′1 𝐴2 𝐴′ 3 )
+ 𝑃(𝐴1 ) ∙ 𝑃(𝐴′ 2 ⁄𝐴1 ) ⋅ 𝑃(𝐴′ 3 ⁄𝐴1 𝐴′ 2 ) ⋅ 𝑃(𝐴4 ⁄𝐴1 𝐴′ 2 𝐴′ 3 ) =
7 6 3 2 7 3 6 2 3 7 6 2
= ∙ ∙ ∙ + ∙ ∙ ∙ + ∙ ∙ ∙ =
10 9 8 7 10 9 8 7 10 9 8 7
= 0.05 + 0.05 + 0.05 = 0.15
11. Μια οικογένεια έχει τρία παιδιά. Ζητούνται οι πιθανότητες των ενδεχομένων:
Ε1 = { Το 1ο παιδί είναι κορίτσι}
Ε2 = { Στα δύο πρώτα παιδιά τουλάχιστον ένα είναι κορίτσι}
Ε3 = { Τα δύο πρώτα παιδιά είναι του ίδιου φύλου}
Επίσης να βρεθούν οι δεσμευμένες πιθανότητες: Ρ(Ε1 / Ε2), Ρ(Ε3 / Ε1), Ρ(Ε2 / Ε1)
και να εξεταστεί εάν τα Ε1, Ε2, Ε3 είναι ανεξάρτητα ενδεχόμενα.
𝑃(𝐸3 𝐸1 ) 2⁄8
𝑃(𝐸3 ⁄𝐸1 ) = = = 1⁄2
𝑃(𝐸1 ) 4⁄8
𝑃(𝐸2 𝐸1 ) 4⁄8
𝑃(𝐸2 ⁄𝐸1 ) = = =1
𝑃(𝐸1 ) 4⁄8
Τα Ε1, Ε2, Ε3 είναι ανεξάρτητα ενδεχόμενα εάν ισχύουν και οι 4 επόμενες σχέσεις:
11
Επειδή όμως 𝑃(𝐸1 𝐸2 ) = 4⁄8 𝜅𝛼𝜄 𝑃(𝐸1 ) ⋅ 𝑃(𝐸2 ) = 4⁄8 × 6⁄8 = 6⁄16 τα Ε1,
Ε2, Ε3 δεν είναι ανεξάρτητα ενδεχόμενα.
12. Σε κάποιο εργαστήριο υπάρχουν 3 φάρμακα Φ1, Φ2, Φ3 που έχουν όμοια εμφάνιση.
Υπάρχουν 2 φιάλες με το φάρμακο Φ1, 3 φιάλες με το φάρμακο Φ2, 1 φιάλη με το
Φ3 και κάποιος ξεκόλλησε τις αντίστοιχες ετικέτες από τις φιάλες. Αν κάνουμε
ένεση σε ινδικά χοιρίδια, τότε αναπτύσσεται μια αντιτοξίνη σε ποσοστό 25% αν
χρησιμοποιηθεί το φάρμακο Φ1, 12% αν χρησιμοποιηθεί το Φ2 και 30% αν
χρησιμοποιηθεί το Φ3. Παίρνουμε τυχαία μια φιάλη και κάνουμε ένεση σε ένα
ινδικό χοιρίδιο. i) Ποια η πιθανότητα να αναπτυχθεί αντιτοξίνη στο χοιρίδιο, ii) Αν
διαπιστωθεί ότι στο ινδικό χοιρίδιο αναπτύχθηκε αντιτοξίνη, ποια η πιθανότητα να
πήραμε το φάρμακο Φ1, iii) Αν δεν αναπτύχθηκε αντιτοξίνη, ποια η πιθανότητα να
κάναμε ένεση με το φάρμακο Φ2.
Ορίζουμε τα ενδεχόμενα:
Α = {αναπτύσσεται αντιτοξίνη στο χοιρίδιο}
𝐵𝑖 = {γίνεται ένεση με το φάρμακο Φi}, i=1, 2, 3
12
τότε 𝑃(𝐴′ ) = 1 − 𝑃(𝐴) = 1 − 0.1933 = 0.8067 και
𝑃(𝐴′ ∕ 𝐵2 ) = 1 − 𝑃(𝐴⁄𝐵 ) = 1 − 0.12 = 0.88
13. Το 2% ενός πληθυσμού πάσχει από AIDS. Η εξέταση που εφαρμόζεται για τη
διάγνωση της ασθένειας δίνει σωστή διάγνωση στο 90% των περιπτώσεων, όταν
το εξεταζόμενο άτομο πάσχει από AIDS και στο 95% των περιπτώσεων, όταν δεν
πάσχει από AIDS. Επιλέγεται ένα άτομο τυχαία και υποβάλλεται στην εξέταση. α)
Ποια η πιθανότητα η εξέταση να βγει θετική, δηλαδή να δείξει ότι πάσχει από
AIDS. β) Ποια η πιθανότητα λανθασμένης διάγνωσης. γ) Ποια η πιθανότητα να
πάσχει πράγματι από AIDS ένα άτομο, για το οποίο η εξέταση ήταν θετική. δ) Ποια
είναι η πιθανότητα να είναι υγιές ένα άτομο για το οποίο η εξέταση ήταν θετική.
Ορίζουμε τα ενδεχόμενα:
Α = {το διαγνωστικό τεστ είναι θετικό}
Β = {το άτομο πάσχει από AIDS} Β΄ = {το άτομο δεν πάσχει από AIDS}
Γ = {το τεστ δίνει λάθος διάγνωση}
𝑃(𝐴) = 𝑃(𝐴⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝐴⁄𝛣′) 𝑃(𝛣′) = 0.90 × 0.02 + 0.05 × 0.98 = 0.067
13
β) 𝑃(𝛤) = 𝑃(𝛤 ⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝛤 ⁄𝛣 ′ ) 𝑃(𝛣 ′ ) = 0.10 × 0.02 + 0.05 × 0.98 =
= 0.051 ή 5.1%
δ)
14. Έστω ένα ζευγάρι, του οποίου η γυναίκα έχει ομάδα αίματος Ο και ο άνδρας έχει
ομάδα αίματος ΑΒ. Είναι γνωστό ότι: i) όταν οι ομάδες αίματος Ο και ΑΒ
διασταυρώνονται, το 50% των απογόνων έχουν ομάδα αίματος Α και το 50% ομάδα
αίματος Β, ii) δίδυμα που προέρχονται από το ίδιο ωάριο έχουν την ίδια ομάδα
αίματος, ενώ δίδυμα από διαφορετικά ωάρια μπορεί να έχουν ίδια ή διαφορετική
ομάδα αίματος, iii) το ένα τέταρτο των διδύμων προέρχεται από το ίδιο ωάριο.
Δεδομένου ότι το ζευγάρι αποκτά δίδυμα αγόρια με ομάδα αίματος Β, ποια η
πιθανότητα τα δίδυμα να προέρχονται από το ίδιο ωάριο;
14
Η ζητούμενη πιθανότητα είναι:
P (τα δίδυμα αγόρια να προέρχονται από το ίδιο ωάριο / τα δίδυμα αγόρια έχουν
ομάδα αίματος Β) = 𝑃(𝐵1 ⁄𝐴)
Από το τύπο του Bayes έχουμε:
𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 )
𝑃(𝐵1⁄𝐴) =
𝑃(𝐴)
Αλλά εφαρμόζοντας τον τύπο της ολικής πιθανότητας βρίσκουμε το 𝑃(𝐴):
Τα δίδυμα που προέρχονται από διαφορετικά ωάρια, το κάθε ένα θα έχει πιθανότητα
1⁄2 να έχει ομάδα αίματος Β και:
𝑃(𝐴⁄𝐵2 ) = 1⁄2 × 1⁄2 = 1⁄4 (πιθανές ομάδες αίματος ΒΒ, ΑΒ, ΒΑ, ΑΑ για τα
δίδυμα που προέρχονται από διαφορετικά ωάρια)
Επομένως
𝑃(𝐴) = 𝑃(𝐴⁄𝐵1 ) 𝑃(𝐵1 ) + 𝑃(𝐴⁄𝐵2 ) 𝑃(𝐵2 ) = 1⁄2 × 1⁄4 + 1⁄4 × 3⁄4 = 5⁄16
και
15. Σε μια εξέταση δίνονται τέσσερις απαντήσεις σε κάθε ερώτηση και σωστή είναι
μόνο μία από τις τέσσερις. Η πιθανότητα να γνωρίζει ο εξεταζόμενος την απάντηση
μιας ερώτησης είναι 70%. Στις περιπτώσεις που ο εξεταζόμενος δεν γνωρίζει την
απάντηση σε μια ερώτηση, απαντάει εντελώς τυχαία διαλέγοντας μια από τις
τέσσερις που δίδονται. Αν ο εξεταζόμενος απαντήσει σωστά σε μια ερώτηση, ποια
είναι η πιθανότητα να γνώριζε την απάντηση;
Ορίζουμε τα ενδεχόμενα:
Α = {ο εξεταζόμενος απαντά σωστά} και
Β = {ο εξεταζόμενος γνωρίζει την απάντηση}
15
τότε Β΄ = {ο εξεταζόμενος δεν γνωρίζει την απάντηση}
Εφαρμόζοντας το θεώρημα του Bayes έχουμε:
𝑃(𝐴⁄𝐵 )𝑃(𝐵)
𝑃(𝐵⁄𝐴) =
𝑃(𝐴)
Την πιθανότητα 𝑃(𝐴) θα την υπολογίσουμε από το θεώρημα της ολικής
πιθανότητας:
𝑃(𝐴) = 𝑃(𝐴⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝐴⁄𝛣′) 𝑃(𝛣′) = 1 × 0.70 + 0.25 × 0.30 = 0.775
Τότε
𝑃(𝐴⁄𝐵 )𝑃(𝐵) 1 × 0.70
𝑃(𝐵⁄𝐴) = = = 0.9032 ή 90.32%
𝑃(𝐴) 0.775
16. Το 45% του πληθυσμού μιας χώρας είναι καπνιστές. Από μια ασθένεια των
πνευμόνων πάσχει το 80% των καπνιστών και το 30% των μη καπνιστών. α) Ποιο
ποσοστό του πληθυσμού πάσχει από την ασθένεια των πνευμόνων. β) Αν ένα
άτομο από τον πληθυσμό πάσχει από αυτήν την ασθένεια, ποια η πιθανότητα να
είναι καπνιστής. Ερμηνεύστε την πιθανότητα αυτή ως ποσοστό. γ) Τα ενδεχόμενα
«ένα άτομο να είναι καπνιστής» και το «ένα άτομο να πάσχει από τη συγκεκριμένη
ασθένεια» είναι μεταξύ τους ανεξάρτητα ή εξαρτημένα ενδεχόμενα;
Ορίζουμε τα ενδεχόμενα:
𝛢 = {το άτομο πάσχει από ασθένεια των πνευμόνων}
𝛣 = {το άτομο είναι καπνιστής} τότε 𝛣 ′ = {το άτομο δεν είναι καπνιστής}
α) 𝑃(𝐴) = 𝑃(𝐴⁄𝛣 ) 𝑃(𝛣) + 𝑃(𝐴⁄𝛣′) 𝑃(𝛣′) = 0.80 × 0.45 + 0.30 × 0.55 =
= 0.525 ή 52.5%
β)
𝑃(𝐴⁄𝐵 )𝑃(𝐵) 0.80 × 0.45
𝑃(𝐵⁄𝐴) = = = 0.6857 ή 68.57%
𝑃(𝐴) 0.525
γ) Τα ενδεχόμενα Α και Β είναι ανεξάρτητα εάν: 𝑃(𝐴𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
Αλλά 𝑃(𝐴𝐵) = 𝑃(𝐴⁄𝐵 )𝑃(𝐵)= 0.80 × 0.45 = 0.36 ,
𝑃(𝐴) = 0.525, 𝑃(𝐵) = 0.45
Επομένως 𝑃(𝐴𝐵) ≠ 𝑃(𝐴) ⋅ 𝑃(𝐵) και τα ενδεχόμενα 𝛢 και 𝛣 είναι εξαρτημένα
ενδεχόμενα.
16
Τυχαίες μεταβλητές
Τυχαία μεταβλητή (τ.μ.) λέγεται κάθε συνάρτηση που απεικονίζει το σύνολο των
δυνατών αποτελεσμάτων ενός πειράματος τύχης στο σύνολο των πραγματικών αριθμών.
ii) ∑𝒙 𝒑(𝒙) = 𝟏
Αν η τυχαία μεταβλητή Χ είναι συνεχής, τότε υπάρχει μια μη αρνητική συνάρτηση 𝑓(𝑥),
τέτοια ώστε:
𝑃(𝑋 ∈ 𝐴) = ∫ 𝑓(𝑥)𝑑𝑥
𝐴
1
για κάθε διάστημα Α του πεδίου τιμών της Χ , τότε η 𝑓(𝑥) λέγεται συνάρτηση πυκνότητας
πιθανότητας και έχει τις εξής ιδιότητες:
Εάν Χ μία τυχαία μεταβλητή, τότε η μέση ή αναμενόμενη τιμή της τ.μ. Χ συμβολίζεται
με 𝑬(𝑿) ή 𝑬𝑿 ή μ και ορίζεται από τη σχέση:
Εάν Χ μία τυχαία μεταβλητή, τότε η διασπορά ή διακύμανση της τ.μ. Χ συμβολίζεται με
𝑽𝒂𝒓(𝑿) ή 𝑽(𝑿) ή 𝝈𝟐 και ορίζεται από τη σχέση:
2
Η τυπική απόκλιση της τ.μ. 𝛸 συμβολίζεται με 𝜎(𝛸) και ορίζεται από τη σχέση:
𝜎(𝛸) = √𝑉(𝑋)
Η μέση ή αναμενόμενη τιμή μιας τ.μ. Χ είναι κατά κάποιο τρόπο το κέντρο της
πιθανότητας της Χ (αντίστοιχο του κέντρου βάρους) και δίνει το σημείο εκείνο γύρω από το οποίο
παίρνει τιμές η τ.μ. Χ. Υπολογίζεται εύκολα, είναι εύχρηστη, αλλά έχει το μειονέκτημα να
επηρεάζεται από ακραίες τιμές. Η διασπορά ή διακύμανση είναι ένας δείκτης που μας λέει πόσο
συγκεντρωμένες είναι οι τιμές της τ.μ. Χ γύρω από τη μέση τιμή. Αν η διασπορά είναι μικρή, τότε
οι τιμές της Χ κυμαίνονται γύρω τη μέση τιμή, ενώ αν η διασπορά είναι μεγάλη τότε υπάρχουν
μεγάλες αποκλίσεις από τη μέση τιμή.
Παράδειγμα: Σε ένα δοχείο υπάρχουν 4 άσπρες και 3 κόκκινες σφαίρες. Παίρνουμε χωρίς
επανάθεση μία-μία τρεις σφαίρες. i) Να βρεθεί η συνάρτηση πιθανότητας της τ.μ. Χ, που ορίζεται
ως εξής: 𝑋 = { ο αριθμός των κόκκινων σφαιρών που επιλέγονται} ii) Να βρεθεί η μέση τιμή και
η τυπική απόκλιση της τ.μ. Χ.
4! 3!
𝜀𝜐𝜈𝜊𝜄𝜅έ𝜍 𝜋𝜀𝜌𝜄𝜋𝜏ώ𝜎𝜀𝜄𝜍 (43)(30) 3! 1! ∙ 0! 3! 4
𝑃(𝑋 = 0) = = 7 = =
𝛿𝜐𝜈𝛼𝜏έ𝜍 𝜋𝜀𝜌𝜄𝜋𝜏ώ𝜎𝜀𝜄𝜍 (3) 7! 35
3! 4!
4! 3!
(42)(31)
2! 2! ∙ 1! 2! 6 ∙ 3 18
𝑃(𝑋 = 1) = 7 = = =
(3) 7! 35 35
3! 4!
4! 3!
(41)(32)
1! 3! ∙ 2! 1! 4 ∙ 3 12
𝑃(𝑋 = 2) = 7 = = =
(3) 7! 35 35
3! 4!
4! 3!
(40)(33)
0! 4! ∙ 3! 0! 1 ∙ 1 1
𝑃(𝑋 = 3) = 7 = = =
(3) 7! 35 35
3! 4!
Επομένως η συνάρτηση πιθανότητας της διακριτής τ.μ. Χ είναι:
𝑥 0 1 2 3
𝑝(𝑥) 4⁄35 18⁄35 12⁄35 1⁄35
3
ii) Μέση τιμή της τ.μ. Χ:
Για τον υπολογισμό της τυπικής απόκλισης θα πρέπει πρώτα να υπολογίσουμε τη διασπορά της
Χ. Θα την υπολογίσουμε χρησιμοποιώντας την ιδιότητα:
Επομένως:
75 45 2
𝑉(𝑋) = 𝐸(𝑋 2 ) − [𝐸(𝑋)]2 = − ( ) = 0.49
35 35
𝑥 0 1 2 3 4
𝑝(𝑥) 1⁄16 4⁄16 6⁄16 𝑐 1⁄16
4
Για τον υπολογισμό της δεσμευμένης πιθανότητας που ακολουθεί υπενθυμίζουμε ότι:
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) =
𝑃(𝐵)
Επομένως:
𝑃((𝑋 ≥ 3) ∩ (1 < 𝑋 < 4)) 𝑝(3) 4⁄16 2
𝑃(𝑋 ≥ 3⁄1 < 𝑋 < 4) = = = =
𝑃(1 < 𝑋 < 4) 𝑝(2) + 𝑝(3) 6⁄16 + 4⁄16 5
καθώς: 𝑋 ≥ 3 = {3, 4}, 1 < 𝑋 < 4 = {2, 3}, επομένως (𝑋 ≥ 3) ∩ (1 < 𝑋 < 4) = {3}
Αλλά
𝐸(𝑋 2 ) = ∑ 𝑥 2 ⋅ 𝑝(𝑥) = 02 ⋅ 𝑝(0) + 12 ⋅ 𝑝(1) + ⋯ + 42 ⋅ 𝑝(4) = 5
𝑥
𝑥 10 20 30 40 50
𝑝(𝑥) 𝑐 ⁄8 𝑐 ⁄2 3𝑐 ⁄4 𝑐 ⁄2 𝑐 ⁄8
𝑥 10 20 30 40 50
𝑝(𝑥) 1⁄16 4⁄16 6⁄16 4⁄16 1⁄16
5
Επομένως 𝑃(𝑋 = 40) = 4⁄16
6⁄16 6⁄16 6
= = =
1⁄16 + 4⁄16 + 6⁄16 11⁄16 11
{𝑋 ≥ 30 ∩ 𝑋 < 40} = {𝑋 = 30} καθώς 𝑋 ≥ 30 = {30, 40, 50}, 𝑋 < 40 = {10, 20, 30}
Αλλά
𝐸(𝑋 2 ) = ∑ 𝑥 2 ⋅ 𝑝(𝑥) = 102 ⋅ 𝑝(10) + 202 ⋅ 𝑝(20) + ⋯ + 502 ⋅ 𝑝(50) =
𝑥
= 100 ⋅ 1⁄16 + 400 ⋅ 4⁄16 + ⋯ + 2500 1⁄16 = 1000
3. Ο αριθμός των προσκλήσεων ενός κτηνιάτρου από μια κτηνοτροφική μονάδα ανά μήνα είναι
διακριτή τυχαία μεταβλητή Χ με συνάρτηση πιθανότητας:
x 0 1 2 3 4 5
p (x) 0.1 0.4 0.2 c 0.1 0.05
α) Βρείτε την πιθανότητα ο κτηνίατρος σε ένα μήνα να προσκληθεί από την κτηνοτροφική μονάδα
3 φορές ακριβώς.
β) Βρείτε την πιθανότητα ο κτηνίατρος σε ένα μήνα να προσκληθεί από την κτηνοτροφική μονάδα
το πολύ 3 φορές, όταν είναι γνωστό ότι προσκλήθηκε τουλάχιστον μία φορά.
γ) Βρείτε τη μέση τιμή και τη διασπορά της X .
6
α)
∑ 𝑝(𝑥) = 1 ⇒ 𝑝(0) + 𝑝(1) + ⋯ + 𝑝(5) = 1 ⇒ 0.1 + 0.4 + 0.2 + 𝑐 + 0.1 + 0.05 = 1
𝑥
⇒ 0.85 + 𝑐 = 1 ⇒ 𝒄 = 𝟎. 𝟏𝟓 και 𝒑(𝟑) = 𝟎. 𝟏𝟓
β)
𝑃(𝑋 ≤ 3 ∩ 𝑋 ≥ 1) 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3)
𝑃(𝑋 ≤ 3⁄𝑋 ≥ 1) = =
𝑃(𝑋 ≥ 1) 1 − 𝑃(𝑋 = 0)
Αλλά
𝐸(𝑋 2 ) = ∑ 𝑥 2 ⋅ 𝑝(𝑥) = 02 ⋅ 𝑝(0) + 12 ⋅ 𝑝(1) + ⋯ + 52 ⋅ 𝑝(5) = 02 ⋅ 0.1 + 12 ⋅ 0.4
𝑥
+ 22 ⋅ 0.2 + 32 ⋅ 0.15 + 42 ⋅ 0.1 + 52 ⋅ 0.05 = 5.4
7
Κατανομές τυχαίων μεταβλητών
Κανονική κατανομή
1 (𝑥−𝜇)2
−
𝑓(𝑥) = 𝑒 2𝜎2 − ∞ < 𝑥 < +∞, − ∞ < 𝜇 < +∞, 𝜎>0
𝜎√2𝜋
όπου μ και σ είναι οι παράμετροι της κατανομής, για τις οποίες ισχύει:
Γραφικές παραστάσεις κανονικής κατανομής για διαφορετικές τιμές των παραμέτρων 𝜇 και 𝜎 2 .
Ειδική περίπτωση της κανονικής κατανομής είναι η τυπική κανονική κατανομή Ν(0, 1) με μέση
τιμή 𝜇 = 0, τυπική απόκλιση 𝜎 = 1 και συνάρτηση πυκνότητας πιθανότητας:
1 𝑧2
𝑓(𝑧) = 𝑒− 2 − ∞ < 𝑧 < +∞,
√2𝜋
1
Γραφική παράσταση της τυπικής κανονικής κατανομής Ν(0, 1).
𝑿−𝝁
𝒁= (𝟏)
𝝈
ακολουθεί την τυπική κανονική κατανομή Ν(0, 1).
Η ιδιότητα αυτή είναι ιδιαίτερα ενδιαφέρουσα διότι υπάρχουν πίνακες που δίνουν την πιθανότητα
𝑥
1 𝑥2
𝑃(𝑍 ≤ 𝑧) = 𝛷(𝑧) = 𝑓(𝑧) = ∫ 𝑒 − 2 𝑑𝑥
√2𝜋
−∞
2
𝑃(𝛼 ≤ 𝑍 ≤ 𝛽) = 𝛷(𝛽) − 𝛷(𝛼) 𝛷(−𝛼) = 1 − 𝛷(𝛼)
Με βάση την ιδιότητα (1) που μετατρέπει οποιαδήποτε κανονική κατανομή Ν(μ, σ) στην τυπική
κανονική κατανομή Ν(0, 1), τις παρακάτω σχέσεις και τον πίνακα της τυπικής κανονικής
κατανομής (σελ. 19) μπορούμε να υπολογίσουμε πιθανότητες οποιασδήποτε κανονικής
κατανομής Ν(μ, σ) σε οποιοδήποτε διάστημα (α, β) (άσκηση 5, σελ. 6):
i) 𝑷(𝜡 ≤ 𝜶) = 𝜱(𝜶)
ii) 𝑷(𝜡 ≥ 𝜶) = 𝟏 − 𝜱(𝜶)
iii) 𝑷(𝜶 ≤ 𝒁 ≤ 𝜷) = 𝜱(𝜷) − 𝜱(𝜶)
iv) 𝜱(−𝜶) = 𝟏 − 𝜱(𝜶)
𝑋1 + 𝑋2 + ⋯ + 𝑋𝜈 𝜎
𝑋̅ = ~ 𝑁 (𝜇, )
𝜈 √𝜈
Κεντρικό Οριακό Θεώρημα
𝜈
𝑋1 + 𝑋2 + ⋯ + 𝑋𝜈 𝜎
𝑋̅ = ~ 𝑁 (𝜇, ) 𝜅𝛼𝜄 𝑆𝜈 = 𝛸1 + 𝛸2 + ⋯ + 𝛸𝜈 = ∑ 𝑋𝑖 ∼ 𝑁(𝜈𝜇, 𝜎√𝜈)
𝜈 √𝜈 𝑖=1
3
Διωνυμική κατανομή 𝑩(𝝂, 𝒑)
Εκτελούμε ένα πείραμα με δύο δυνατά αποτελέσματα. Το ένα το θεωρούμε ως επιτυχία και το
άλλο ως αποτυχία. Έστω p η πιθανότητα επιτυχίας, τότε 1 − 𝑝 είναι η πιθανότητα αποτυχίας. Το
πείραμα εκτελείται ν φορές. Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών
στις ν επαναλήψεις του πειράματος. Τότε θα λέμε ότι η τ.μ. Χ ακολουθεί διωνυμική κατανομή,
𝑿~𝑩(𝝂, 𝒑) και η πιθανότητα να έχουμε x επιτυχίες δίνεται από τη σχέση:
𝝂
(𝑿 = 𝒙) = ( ) 𝒑𝒙 (𝟏 − 𝒑)𝝂−𝒙 , 𝒙 = 𝟎, 𝟏, 𝟐, … , 𝝂
𝒙
Η μέση τιμή, η διασπορά και η τυπική απόκλιση της διωνυμικής κατανομής δίνονται από τις σχέσεις:
Παράδειγμα: Μια μεγάλη ποσότητα μήλων περιέχει 2% χαλασμένα μήλα. Παίρνουμε 4 μήλα
τυχαία. Να βρεθούν οι πιθανότητες: i) Ακριβώς ένα μήλο να είναι χαλασμένο, ii) Κανένα μήλο
δεν είναι χαλασμένο, iii) Τουλάχιστον ένα μήλο να είναι χαλασμένο.
Θεωρούμε ως επιτυχία {ένα μήλο να είναι χαλασμένο} με πιθανότητα επιτυχίας 𝑝 = 0.02. Τότε
η πιθανότητα αποτυχίας είναι 1 − 𝑝 = 1 − 0.02 = 0.98.
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (χαλασμένων μήλων), όταν
επιλέγουμε τυχαία 𝜈 = 4 μήλα. Τότε η τ.μ. X θα ακολουθεί διωνυμική κατανομή,
𝑋~𝐵(𝜈 = 4, 𝑝 = 0.02) και η πιθανότητα να έχουμε x επιτυχίες δίνεται από τη σχέση:
𝝂
και (𝑿 = 𝒙) = ( ) 𝒑𝒙 (𝟏 − 𝒑)𝝂−𝒙 , 𝒙 = 𝟎, 𝟏, 𝟐, … , 𝝂
𝒙
4 4!
i) 𝑃(𝑋 = 1) = ( ) 0.021 (1 − 0.02)4−1 = 1!3! 0.02 ∙ 0.983 = 0.0753 ή 7.53%
1
4 4!
ii) 𝑃(𝑋 = 0) = ( ) 0.020 (1 − 0.02)4−0 = 0!4! 1 ∙ 0.984 = 0.92 ή 92%
0
4
𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = 1 − ( ) 0.020 (1 − 0.02)4−0 = 1 − 0.92 = 0.08 ή 8%
0
4
Προσέγγιση της κατανομής Διωνυμικής κατανομής από την Κανονική κατανομή
Για μεγάλα ν η διωνυμική κατανομή προσεγγίζεται ικανοποιητικά από μια κανονική κατανομή με
την ίδια μέση τιμή και την ίδια διακύμανση. Δηλαδή, αν 𝑋~𝐵(𝜈, 𝑝) τότε για μεγάλες τιμές του ν,
(στην πράξη όταν 𝜈𝑝 ≥ 5 και 𝜈(1 − 𝑝) ≥ 5), η κατανομή της Χ προσεγγίζεται από την Ν(μ, σ)
με 𝝁 = 𝝂𝒑 και 𝝈 = √𝝂𝒑(𝟏 − 𝒑).
Έστω ότι θέλουμε να μετρήσουμε τον αριθμό των συμβάντων στη μονάδα μέτρησης. Τα συμβάντα
μπορεί να είναι ο αριθμός των γεννήσεων ή των θανάτων σε μια κτηνοτροφική μονάδα μέσα σε
ένα μήνα, ο αριθμός των σωματιδίων που εκπέμπονται από μια ραδιενεργό ουσία μέσα σε ένα
χρονικό διάστημα, ο αριθμός των βακτηριδίων σε 1cm2 ενός τρυβλίου Petri, ο αριθμός των
αυτοκινήτων ή πελατών που φθάνουν σε ένα σταθμό διοδίων ή super market σε μια χρονική
περίοδο κ.ά. Ο αριθμός των συμβάντων Χ είναι μια διακριτή τυχαία μεταβλητή με δυνατές τιμές
0, 1, 2, … που ακολουθεί την κατανομή του Poisson (από τον γάλλο μαθηματικό S. D. Poisson
(1781-1840)) με παράμετρο λ, 𝑿~𝑷(𝝀) και συνάρτηση πιθανότητας:
𝒆−𝝀 𝝀𝒙
𝑷(𝑿 = 𝒙) = 𝒙 = 𝟎, 𝟏, 𝟐, …
𝒙!
Η κατανομή Poisson δημιουργήθηκε ως οριακή κατανομή της διωνυμικής κατανομής για μεγάλο
ν (θεωρητικά ν⟶ +∞), έτσι ώστε η μέση τιμή της να συγκλίνει σε μια θετική σταθερά 𝜆 = 𝜈𝑝.
Η μέση τιμή, η διασπορά και η τυπική απόκλιση της κατανομής Poisson δίνονται από τις σχέσεις:
𝑬(𝒙) = 𝝁 = 𝝀, 𝑽𝒂𝒓(𝑿) = 𝝈𝟐 = 𝝀 και 𝝈 = √𝝀
5
Λύσεις ασκήσεων από το φυλλάδιο 5 – Ασκήσεις σε Τυχαίες Μεταβλητές και Κατανομές
5. Σε έναν πληθυσμό (ας πούμε γυναίκες ηλικίας 30 - 40 ετών στην Ελλάδα), η μέση συστολική
πίεση είναι 120 mmHg, με τυπική απόκλιση 20 mmHg και ο πληθυσμός (των πιέσεων) ακολουθεί
κανονική κατανομή. (α) Τι ποσοστό του πληθυσμού έχει πίεση: (i) Μικρότερη από 150 mmHg,
(ii) Μεγαλύτερη από 135 mmHg, (iii) Μεταξύ 110 και 125 mmHg, (β) Ποια είναι εκείνη η πίεση
πάνω από την οποία βρίσκεται μόνο το 1% του πληθυσμού; (γ) Η συστολική πίεση ενός ατόμου
κρίνεται ως φυσιολογική εάν βρίσκεται στο διάστημα εκείνο γύρω από τον μέσο όρο (συμμετρικό
διάστημα γύρω από τον μέσο) που περιέχει το 95% των πιέσεων του πληθυσμού. Να βρεθεί εκείνη
η τιμή πίεσης, πάνω από την οποία ένα άτομο κρίνεται ως υπερτασικό. Να βρεθεί επίσης εκείνη η
τιμή της πίεσης, κάτω από την οποία ένα άτομο κρίνεται ως υποτασικό.
(α) (i)
𝑋 − 𝜇 150 − 120
𝑃(𝑋 < 150) = 𝑃 ( < ) = 𝑃(𝑍 < 1.5) = 𝛷(1.5) = 0.9332 ή 93.32%
𝜎 20
(ii)
𝑋 − 𝜇 135 − 120
𝑃(𝑋 > 135) = 𝑃 ( > ) = 𝑃(𝑍 > 0.75) = 1 − 𝑃(𝑍 ≤ 0.75) = 1 − 𝛷(0.75)
𝜎 20
= 1 − 0.7734 = 0.2266 ή 22.66%
(iii)
110 − 120 𝑋 − 𝜇 125 − 120
𝑃(110 ≤ 𝑋 ≤ 125) = 𝑃 ( ≤ ≤ ) = 𝑃(−0.5 ≤ 𝑍 ≤ 0.25)
20 𝜎 20
= 𝛷(0.25) − 𝛷(−0.5) = 𝛷(0.25) − [1 − 𝛷(0.5)] = 𝛷(0.25) − 1 + 𝛷(0.5)
= 0.5987 − 1 + 0.6915 = 0.2902 ή 29.02%
(β) Έστω 𝑥0 η ζητούμενη πίεση. Τότε:
𝑋 − 𝜇 𝑥0 − 120 𝑥0 − 120
𝑃(𝑋 > 𝑥0 ) = 0.01 ⟺ 𝑃 ( > ) = 0.01 ⟺ 𝑃 (𝑍 > ) = 0.01
𝜎 20 20
= 0.99 (1)
Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(2.33) = 0.99 (2)
6
Από τις σχέσεις (1) & (2) έχουμε:
𝑥0 − 120
= 2.33 ⟹ 𝑥0 = 166.6mmHg
20
γ) Αναζητούμε δύο συστολικές πιέσεις συμμετρικές ως προς την μέση τιμή μ=120, έστω τις 120-ε
και 120+ε, τέτοιες ώστε ανάμεσα σε αυτές να βρίσκεται το 95% των πιέσεων του πληθυσμού.
Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(1.96) = 0.975 Άρα
𝜀
= 1.96 ⟺ 𝜀 = 39.2
20
Επομένως ένα άτομο κρίνεται ως υποτασικό, όταν έχει πίεση μικρότερη ή ίση από
120 − 𝜀 = 120 − 39.2 = 80.8𝑚mHg.
Ενώ ένα άτομο κρίνεται ως υπερτασικό, όταν έχει πίεση μεγαλύτερη ή ίση από
120 + 𝜀 = 120 + 39.2 = 159.2𝑚mHg.
6. Μία γέφυρα χωράει το πολύ 100 αυτοκίνητα και το μέγιστο βάρος που σηκώνει είναι 365 τόνοι.
Αν υποθέσουμε ότι τα βάρη των αυτοκινήτων ακολουθούν κανονική κατανομή με μέσο βάρος 3.5
τόνους και τυπική απόκλιση 0.5 τόνο, (α) ποια η πιθανότητα, εάν κάποια στιγμή βρεθούν στη
γέφυρα 100 αυτοκίνητα, να έχουμε υπέρβαση του ανώτατου επιτρεπτού βάρους; (β) Ποιο είναι
7
εκείνο το βάρος που θα έπρεπε να σηκώνει η γέφυρα, αν απαιτούσαμε η πιθανότητα να έχουμε
υπέρβαση αυτού του βάρους από 100 αυτοκίνητα να είναι 0.1%;
Έστω 𝛸1 , 𝛸2 , … , 𝛸100 τα βάρη των 100 αυτοκινήτων, τα οποία αποτελούν ανεξάρτητες τ.μ. που
ακολουθούν κανονική κατανομή με 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … ,100, με 𝜇 = 3.5 𝜅𝛼𝜄 𝜎 = 0.5.
Τότε για το συνολικό βάρος 𝑆100 των 100 αυτοκινήτων θα ισχύει:
100 100
𝑆100 − 𝜈𝜇 𝑥0 − 350
𝑃(𝛸1 + 𝛸2 + ⋯ + 𝛸100 > 𝑥0 ) = 0.001 ⟺ 𝑃 ( > ) = 0.001
𝜎 √𝜈 5
𝑥0 − 350 𝑥0 − 350
⟺ 𝑃 (𝑍 > ) = 0.001 ⟺ 1 − 𝑃 (𝑍 ≤ ) = 0.001
5 5
𝑥0 − 350 𝑥0 − 350
⟺ 1−𝛷( ) = 0.001 ⟺ 𝛷 ( ) = 0.999 (1)
5 5
Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(3.09) = 0.999 (2)
Από τις σχέσεις (1)& (2) έχουμε:
𝑥0 − 350
= 3.09 ⟹ 𝑥0 = 365.45 𝜏ό𝜈𝜊𝜄
5
7. Ένα ηλεκτρονικό σύστημα αποτελείται από δέκα εξαρτήματα. Κάθε ένα από τα εξαρτήματα
έχει πιθανότητα 0.2 να υποστεί βλάβη και το να πάθει βλάβη κάποιο εξάρτημα είναι ανεξάρτητο
από το αν άλλα εξαρτήματα έχουν υποστεί βλάβη ή όχι. (α) Αν το σύστημα λειτουργεί, εφόσον
τουλάχιστον οκτώ από τα δέκα εξαρτήματά του λειτουργούν, ποια η πιθανότητα το σύστημα να
8
λειτουργεί; (β) Ποια η πιθανότητα να υποστούν βλάβη τουλάχιστον δύο εξαρτήματα, δεδομένου
ότι έχει υποστεί βλάβη τουλάχιστον ένα.
10 10 10
=( ) 0.88 (1 − 0.8)10−8 + ( ) 0.89 (1 − 0.8)10−9 + ( ) 0.810 (1 − 0.8)10−10 =
8 9 10
(β) Θεωρούμε ως επιτυχία το ενδεχόμενο {ένα εξάρτημα να έχει βλάβη} με πιθανότητα επιτυχίας
𝑝′ = 0.2. Έστω Y η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (εξαρτημάτων σε
10 10
1 − ( ) 0.20 (1 − 0.2)10−0 − ( ) 0.21 (1 − 0.2)10−1
= 0 1 =
10
1 − ( ) 0.20 (1 − 0.2)10−0
0
{ 𝑌 ≥ 2 ∩ 𝑌 ≥ 1} = {𝑌 ≥ 2}
9
8. Ένα καινούριο εμβόλιο έχει πιθανότητα 80% ανοσοποίησης των κουνελιών από μία ασθένεια.
Ένας μεγάλος αριθμός κουνελιών εμβολιάζεται και στη συνέχεια ορισμένα κουνέλια επιλέγονται
τυχαία για εργαστηριακή παρακολούθηση. (α) Ποια η πιθανότητα να έχουμε τουλάχιστον 9
ανοσοποιημένα κουνέλια, όταν επιλέξουμε 10 κουνέλια. (β) Εάν επιλέξουμε 100 κουνέλια, ποια
η πιθανότητα ο αριθμός των ανοσοποιημένων κουνελιών να κυμαίνεται μεταξύ του 72 και του 88.
κουνελιών), όταν επιλέγουμε τυχαία 𝜈 = 100 κουνέλια. Τότε η τ.μ. Y θα ακολουθεί διωνυμική
κατανομή 𝐵(𝜈 = 100, 𝑝 = 0.8). Για μεγάλες τιμές του ν όμως (πρακτικά όταν 𝜈𝑝 ≥ 5 και
Επομένως 𝜎 = √16 = 4
72 − 80 𝑌 − 𝜈𝑝 88 − 80
𝑃(72 ≤ 𝑌 ≤ 88) = 𝑃 ( ≤ ≤ ) = 𝑃(−2 ≤ 𝑍 ≤ 2) = 𝛷(2) − 𝛷(−2) =
4 √𝜈𝑝(1 − 𝑝) 4
10
9. Μια μηχανή συσκευασίας τόνου σε κονσέρβες έχει ρυθμισθεί έτσι ώστε το βάρος του
περιεχομένου ανά κονσέρβα, έστω Χ, να ακολουθεί κανονική κατανομή με μέση τιμή 250gr και
τυπική απόκλιση 10gr.
α) Επιλέγουμε τυχαία μια κονσέρβα από την παραγωγή της συγκεκριμένης μηχανής. Ποια είναι η
πιθανότητα το βάρος του περιεχομένου της κονσέρβας i) να βρίσκεται μεταξύ 245gr και 255gr ii)
να είναι μεγαλύτερο από 265gr.
β) Επιλέγουμε τυχαία 9 κονσέρβες από την παραγωγή της συγκεκριμένης μηχανής. Ποια είναι η
πιθανότητα i) το πολύ 2 από τις 9 κονσέρβες να περιέχουν ποσότητα μεγαλύτερη από 265gr ii) το
μέσο βάρος του περιεχομένου των 9 κονσερβών να είναι μεγαλύτερο από 265gr iii) το συνολικό
βάρος του περιεχομένου των 9 κονσερβών να είναι μεγαλύτερο από 2265gr.
γ) Να προσδιορίσετε την τιμή x 0 της Χ για την οποία ισχύει ότι: το 90% των κονσερβών που
παράγονται από τη συγκεκριμένη μηχανή έχουν βάρος (περιεχομένου) μικρότερο από αυτήν την
τιμή ( x 0 ).
α) i)
245 − 250 𝑋 − 𝜇 255 − 250
𝑃(245 < 𝑋 < 255) = 𝑃 ( < < ) = 𝑃(−0.5 < 𝑍 < 0.5) =
10 𝜎 10
= 𝛷(0.5) − 𝛷(−0.5) = 𝛷(0.5) − [1 − 𝛷(0.5)] = 𝛷(0.5) − 1 + 𝛷(0.5)
= 2𝛷(0.5) − 1 = 2 ⋅ 0.6915 − 1 = 0.383 ή 38.3%
ii)
𝑋 − 𝜇 265 − 250
(𝑋 > 265) = 𝑃 ( > ) = 𝑃(𝑍 > 1.5) = 1 − 𝛷(1.5) = 1 − 0.9332 =
𝜎 10
= 0.0668
β) i) Θεωρούμε ως επιτυχία το ενδεχόμενο {μια κονσέρβα που επιλέγεται τυχαία να περιέχει
ποσότητα μεγαλύτερη από 265gr} με πιθανότητα επιτυχίας 𝑝 = 0.0668. Τότε η πιθανότητα
αποτυχίας είναι 1 − 𝑝 = 0.9332.
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (κονσέρβες που περιέχουν
ποσότητα μεγαλύτερη από 265gr), όταν επιλέγονται τυχαία 𝜈 = 9 κονσέρβες. Τότε η τ.μ. X θα
ακολουθεί διωνυμική κατανομή 𝐵(𝜈 = 9, 𝑝 = 0.0668) με συνάρτηση πιθανότητας:
𝜈
𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, 2, … , 𝜈
𝑥
11
9
𝑃(𝑋 ≤ 2) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = ( ) 0.06680 (1 − 0.0668)9−0 +
0
9 9
( ) 0.06681 (1 − 0.0668)9−1 + ( ) 0.06682 (1 − 0.0668)9−2 = 0.9816
1 2
καθώς
9 9! 9 9! 9 9!
( )= = 1, ( )= = 9, ( )= = 36
0 0! (9 − 0)! 1 1! (9 − 1)! 2 2! (9 − 2)!
ii) Έστω 𝛸1 , 𝛸2 , … , 𝛸9 τα βάρη των 9 κονσερβών, τα οποία αποτελούν ανεξάρτητες τ.μ. που
ακολουθούν κανονική κατανομή με 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … ,9 με 𝜇 = 250𝑔 𝜅𝛼𝜄 𝜎 = 10𝑔.
Τότε για το μέσο βάρος 𝑋̅ των 9 κονσερβών θα ισχύει:
𝑋1 + 𝑋2 + ⋯ + 𝑋9 𝜎 10
𝑋̅ = ~𝑁 (𝜇, ) ή 𝑋̅~𝛮 (250, ) ή 𝑋̅~𝛮(250, 3.33)
9 √𝜈 √9
Επομένως:
𝑋̅ − 𝜇 265 − 250
𝑃(𝑋̅ > 265) = 𝑃 ( 𝜎 > ) = 𝑃(𝑍 > 4.5) = 1 − 𝑃(𝑍 ≤ 4.5) = 1 − 𝛷(4.5)
3.33
√𝜈
≃1−1≃0
iii) Για το συνολικό βάρος των 9 κονσερβών θα ισχύει:
𝑥0 − 250
⟺ 𝛷( ) = 0.90 (1)
10
12
Αλλά από τον πίνακα της Τυπικής Κανονικής Κατανομής βρίσκουμε: 𝛷(1.28) ≃ 0.90 (2)
Από τις σχέσεις (1)& (2) έχουμε:
𝑥0 − 250
= 1.28 ⟹ 𝑥0 = 262.8𝑔𝑟
10
10. Ο αριθμός των επισκεπτών σε μια ιστοσελίδα στο διαδίκτυο είναι τυχαία μεταβλητή που
ακολουθεί κατανομή Poisson με μέση τιμή 5 άτομα ανά ώρα. Βρείτε την πιθανότητα να
επισκεφθούν την ιστοσελίδα: (α) ακριβώς δύο άτομα στη διάρκεια μιας ώρας, (β) τουλάχιστον
δύο άτομα κατά τη διάρκεια δύο ωρών, (γ) από τουλάχιστον ένα άτομο κάθε ώρα σε δύο ώρες,
(δ) μεταξύ 100 και 150 άτομα στη διάρκεια ενός 24ώρου. Επίσης βρείτε την πιθανότητα (ε)
τουλάχιστον δύο επισκέψεων στη διάρκεια μιας ώρας, δεδομένου ότι είχαμε τουλάχιστον μία
επίσκεψη.
(α) Έστω Χ η τ.μ. που μετρά τον αριθμό των επισκεπτών στην ιστοσελίδα. Η Χ ακολουθεί την
κατανομή Poisson με παράμετρο 𝜆 = 5, τον μέσο αριθμό επισκεπτών ανά ώρα στην ιστοσελίδα.
𝑒 −5 ∙ 52 0.0067 ∙ 25
𝑃(𝑋 = 2) = = = 0.084
2! 1∙2
(β) Στη διάρκεια δύο ωρών αναμένουμε κατά μέσον όρο 2 ⋅ 5 = 10 επισκέπτες στην ιστοσελίδα.
Άρα λ΄=10.
= 1 − 11 ∙ 0.00005 = 0.99945
(γ) Θα πρέπει να έχουμε τουλάχιστον έναν επισκέπτη την 1η ώρα και τουλάχιστον έναν επισκέπτη
την 2η ώρα. Δηλαδή: 𝑃(𝑋 ≥ 1) ∙ 𝑃(𝑋 ≥ 1)
Καθώς λ=5 έχουμε:
13
𝑒 −5 ∙ 50
𝑃(𝑋 ≥ 1) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + ⋯ = 1 − 𝑃(𝑋 = 0) = 1 − = 1 − 𝑒 −5
0!
= 1 − 0.0067 = 0.9933
Επομένως 𝑃(𝑋 ≥ 1) ∙ 𝑃(𝑋 ≥ 1) = 0.9933 ∙ 0.9933 = 0.9866
(δ) Εντός 24 ωρών αναμένουμε κατά μέσον όρο 5 ∙ 24 = 120 επισκέπτες στην ιστοσελίδα. Άρα
λ΄΄=120. Όταν η παράμετρος λ της Poisson είναι μεγαλύτερη του 10, η Poisson συγκλίνει στην
Κανονική κατανομή με μέση τιμή 𝜇 = 𝜆 και διασπορά 𝜎 2 = 𝜆, άρα τυπική απόκλιση 𝜎 = √𝜆.
Επομένως εάν 𝛸΄΄ ο αριθμός των επισκεπτών εντός 24 ωρών τότε 𝛸 ′′ ~𝑃(𝜆′′ ). Όμως επειδή 𝜆′′ =
120 > 10 η Poisson συγκλίνει στην Κανονική 𝑋′′~𝑁(𝜇 = 𝜆′′ = 120, 𝜎 = √𝜆′′ = √120 ).
Τότε η ζητούμενη πιθανότητα είναι:
100 − 120 𝑋′′ − 𝜆′′ 150 − 120
𝑃(100 ≤ 𝑋′′ ≤ 150) = 𝑃 ( ≤ ≤ ) = 𝑃(−1.83 ≤ 𝑍 ≤ 2.74) =
√120 √𝜆′′ √120
𝑒 −5 50 𝑒 −5 51
1 − 𝑃(𝑋 = 0) − 𝑃(𝑋 = 1) 1 − 0! − 1! 1 − 𝑒 −5 (1 + 5)
= = 𝑒 −5 50
=
1 − 𝑃(𝑋 = 0) 1− 1 − 𝑒 −5
0!
1 − 6 ⋅ 0.0067
= = 0.9663
1 − 0.0067
Καθώς:
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) =
𝑃(𝐵)
{ 𝑌 ≥ 2 ∩ 𝑌 ≥ 1} = {𝑌 ≥ 2}
14
11. Ένας εντομολόγος μελετά τον αριθμό των ζωυφίων στα φύλλα ενός συγκεκριμένου τύπου
δένδρου. Ο αριθμός αυτός ακολουθεί την κατανομή Poisson με μέση τιμή 4 ζωύφια ανά φύλλο.
α) Ποια η πιθανότητα να πάρει τυχαία ένα φύλλο με τουλάχιστον 2 ζωύφια; β) Ποια η πιθανότητα
να πάρει τυχαία 2 φύλλα που να έχουν συνολικά το πολύ δύο ζωύφια; γ) Ο εντομολόγος επιλέγει
3 φύλλα. Ποια η πιθανότητα τα 2 μόνο από αυτά να έχουν από τουλάχιστον 2 ζωύφια το καθένα.
δ) Ποια η πιθανότητα στα 36 φύλλα να υπάρχουν συνολικά τουλάχιστον 150 ζωύφια; ε) Ποια η
πιθανότητα στα 36 φύλλα να υπάρχουν συνολικά το πολύ 168 ζωύφια, όταν είναι γνωστό ότι
υπάρχουν τουλάχιστον 150 ζωύφια.
α) Έστω Χ η τ.μ. που μετρά τον αριθμό των ζωυφίων σε ένα φύλλο του δένδρου. Η Χ ακολουθεί
την κατανομή Poisson με παράμετρο 𝜆 = 4, τον μέσο αριθμό ζωυφίων ανά φύλλο.
𝑒 −4 ∙ 40 𝑒 −4 ∙ 41
=1− − = 1 − 𝑒 −4 (1 + 4) = 1 − 5𝑒 −4 = 1 − 5 ⋅ 0.0183
0! 1!
= 0.9085
β) Στα 2 φύλλα αναμένουμε κατά μέσον όρο 2 ⋅ 4 = 8 ζωύφια. Εάν Χ΄ η τ.μ. που μετρά τον αριθμό
των ζωυφίων σε δύο φύλλα του δένδρου. Τότε 𝑋′ ∼ 𝑃(𝜆′ ) 𝜇𝜀 𝜆′ = 8.
𝑒 −8 80 𝑒 −8 81 𝑒 −8 82
(𝑋′ ≤ 2) = 𝑃(𝑋′ = 0) + 𝑃(𝑋′ = 1) + 𝑃(𝑋′ = 2) = + +
0! 1! 2!
γ) Θεωρούμε ως επιτυχία το ενδεχόμενο {ένα φύλλο που επιλέγεται τυχαία να έχει τουλάχιστον 2
ζωύφια} με πιθανότητα επιτυχίας 𝑝 = 0.9085 (από το α) ερώτημα).
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (φύλλα που έχουν τουλάχιστον
2 ζωύφια), όταν επιλέγονται τυχαία 𝜈 = 3 φύλλα. Τότε η τ.μ. Χ θα ακολουθεί διωνυμική
𝜈
κατανομή 𝐵(𝜈 = 3, 𝑝 = 0.9085) και 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, 2, … , 𝜈
𝑥
3
𝑃(𝑋 = 2) = ( ) 0.90852 (1 − 0.9085)3−2 = 3 ⋅ 0.90852 ⋅ 0.0915 = 0.2266 ή 22.66%
2
καθώς
15
3 3!
( )= =3
2 2! (3 − 2)!
δ) Στα 36 φύλλα αναμένουμε κατά μέσον όρο 36 ⋅ 4 = 144 ζωύφια. Έστω Χ΄΄ η τ.μ. που μετρά
τον αριθμό των ζωυφίων σε 36 φύλλα του δένδρου. Τότε 𝑋΄΄ ∼ 𝑃(𝜆′′ ) 𝜇𝜀 𝜆′ ′ = 144. Όμως επειδή
λ΄΄=144 >10, η Poisson συγκλίνει στην Κανονική, δηλ. 𝑋′′~𝑁(𝜇 = 𝜆′′ = 144, 𝜎 = √𝜆′′ = √144).
Τότε η ζητούμενη πιθανότητα είναι:
𝑋′′ − 𝜆′′ 150 − 144
𝑃(𝑋′′ ≥ 150) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 0.5) = 1 − 𝑃(𝑍 ≤ 0.5) = 1 − 𝛷(0.5) =
√𝜆′′ √144
= 1 − 0.6915 = 0.3085
′′
𝑃(𝑋 ′′ ≤ 168 ∩ 𝑋 ′′ ≥ 150) 𝑃(150 ≤ 𝑋 ′′ ≤ 168)
𝑃(𝛸 ≤ 168 ∕ 𝑋′′ ≥ 150) = =
𝑃(𝛸 ′′ ≥ 150) 𝑃(𝛸 ′′ ≥ 150)
Όμως:
𝑃(𝐴𝐵)
𝑃(𝐴⁄𝐵 ) =
𝑃(𝐵)
Επομένως:
′′
150 − 144 𝑋 ′′ − 𝜆′′ 168 − 144
𝑃(150 ≤ 𝑋 ≤ 168) = 𝑃 ( ≤ ≤ ) = 𝑃(0.5 ≤ 𝑍 ≤ 2) =
√144 √𝜆′′ √144
Άρα:
12. Ο αριθμός των σωματιδίων που εκπέμπει μια πηγή ακολουθεί κατανομή Poisson με μέση τιμή
ένα σωματίδιο ανά δευτερόλεπτο. Ζητούνται οι πιθανότητες: α) Σε διάστημα 3 δευτερολέπτων να
έχουμε το πολύ 2 σωματίδια, β) σε διάστημα 4 δευτερολέπτων να έχουμε τουλάχιστον 3
16
σωματίδια. γ) σε διάστημα 15 λεπτών να έχουμε τουλάχιστον 930 σωματίδια. δ) Επιλέγουμε
τυχαία 4 διαστήματα των 3 δευτερολέπτων. Ποια η πιθανότητα σε ακριβώς 3 από τα 4 διαστήματα
να έχουμε το πολύ 2 σωματίδια.
𝑒 −4 ∙ 40 𝑒 −4 ∙ 41 𝑒 −4 ∙ 42
= 1 − 𝑃(𝑋′ = 0) − 𝑃(𝑋′ = 1) − 𝑃(𝑋′ = 2) = 1 − − −
0! 1! 2!
γ) Σε διάστημα 15 λεπτών η πηγή εκπέμπει κατά μέσον όρο 15∙ 60 ⋅ 1 = 900 σωματίδια. Έστω
Χ΄΄ η τ.μ. που μετρά τον αριθμό των σωματιδίων που εκπέμπονται από την πηγή. Τότε 𝑋΄΄ ∼
𝑃(𝜆′′ ) 𝜇𝜀 𝜆′ ′ = 900. Όμως επειδή λ΄΄=900 >10, η Poisson συγκλίνει στην Κανονική, δηλ.
𝑋′′~𝑁(𝜇 = 𝜆′′ = 900, 𝜎 = √𝜆′′ = √900).
Τότε η ζητούμενη πιθανότητα είναι:
𝑋′′ − 𝜆′′ 930 − 900
𝑃(𝑋′′ ≥ 930) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 1) = 1 − 𝑃(𝑍 < 1) = 1 − 𝛷(1) =
√𝜆′′ √900
= 1 − 0.8413 = 0.1587
17
δ) Θεωρούμε ως επιτυχία το ενδεχόμενο {σε διάστημα 3 δευτερολέπτων η πηγή να εκπέμπει το
πολύ 2 σωματίδια} με πιθανότητα επιτυχίας 𝑝 = 0.425 (από το α) ερώτημα).
Έστω Χ η τυχαία μεταβλητή που μετρά τον αριθμό των επιτυχιών (διαστήματα των 3
δευτερολέπτων, στα οποία εκπέμπονται το πολύ 2 σωματίδια), όταν επιλέγονται τυχαία 𝜈 = 4
διαστήματα των 3 δευτερολέπτων. Τότε η τ.μ. Χ θα ακολουθεί διωνυμική κατανομή
𝜈
𝐵(𝜈 = 4, 𝑝 = 0.425) με 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝜈−𝑥 , 𝑥 = 0, 1, … , 𝜈
𝑥
4
𝑃(𝑋 = 3) = ( ) 0.4253 (1 − 0.425)4−3 = 4 ⋅ 0.4253 ⋅ 0.575 = 0.1766 ή 17.66%
3
καθώς
4 4!
( )= =4
3 3! (4 − 3)!
13. Μια μηχανή κατασκευάζει λαμπτήρες που συσκευάζονται σε κουτιά των 100. Ο αριθμός των
ελαττωματικών λαμπτήρων σε ένα τυχαίο κουτί είναι τυχαία μεταβλητή Poisson με παράμετρο
λ=1.1 και ένα κουτί απορρίπτεται ως ελαττωματικό αν περιέχει τουλάχιστον τρεις ελαττωματικούς
λαμπτήρες. (α) Να βρεθεί η πιθανότητα ένα τυχαίο κουτί να απορριφθεί ως ελαττωματικό. (β)
Επιλέγουμε τυχαία 5 κουτιά από την παραγωγή της συγκεκριμένης μηχανής. Ποια η πιθανότητα
τουλάχιστον ένα από αυτά να απορριφθεί ως ελαττωματικό. (γ) Επιλέγουμε τυχαία 100 κουτιά
από την παραγωγή της συγκεκριμένης μηχανής. Ποια η πιθανότητα τουλάχιστον 13, αλλά όχι
περισσότερα από 19 να απορριφθούν ως ελαττωματικά.
(α) Έστω Χ η τ.μ. που μετρά τον αριθμό των ελαττωματικών λαμπτήρων σε ένα τυχαίο κουτί των
100. Τότε η τ.μ. Χ ακολουθεί την κατανομή Poisson με παράμετρο 𝜆 = 1.1. Ένα κουτί
18
= 1 − [𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2)] = 1 − 𝑃(𝑋 = 0) − 𝑃(𝑋 = 1) − 𝑃(𝑋 = 2)
Επομένως 𝜎 = √9 = 3
13 − 10 𝑋′′ − 𝜈𝑝 19 − 10
𝑃(13 ≤ 𝑋′′ ≤ 19) = 𝑃 ( ≤ ≤ ) = 𝑃(1 ≤ 𝑍 ≤ 3) = 𝛷(3) − 𝛷(1)
3 √𝜈𝑝(1 − 𝑝) 3
19
14. Η ποσότητα νικοτίνης που περιέχεται σε ένα τσιγάρο συγκεκριμένης μάρκας είναι τυχαία
μεταβλητή με μέση τιμή μ = 0.8mg και τυπική απόκλιση σ = 0.1mg. Αν ένα άτομο καπνίζει 100
τσιγάρα την εβδομάδα ποια η πιθανότητα: α) Η συνολική ποσότητα νικοτίνης στην οποία θα
εκτεθεί να είναι τουλάχιστον 82mg. β) Η μέση ποσότητα νικοτίνης (των 100 τσιγάρων) να είναι
μεταξύ των 0.78 και 0.83mg.
Έστω 𝛸1 , 𝛸2 , … , 𝛸100 η ποσότητα νικοτίνης στην οποία εκτίθεται ένα άτομο για κάθε ένα από τα
100 τσιγάρα που καπνίζει σε μια εβδομάδα. Οι ποσότητες αυτές αποτελούν ανεξάρτητες τ.μ. που
ακολουθούν την ίδια κατανομή με μέση τιμή 𝜇 = 0.8 𝑚𝑔 και τυπική απόκλιση 𝜎 = 0.1 𝑚𝑔.
100
𝑆100 ∼ 𝑁(80, 1)
και
𝑋1 + 𝑋2 + ⋯ + 𝑋100 𝜎 0.1
𝑋̅ = ~ 𝑁 (𝜇, ) ή 𝑋̅ ~ 𝛮 (0.8, ) ή 𝑋̅~𝛮(0.8, 0.01)
100 √𝜈 √100
Επομένως:
α)
𝑆100 − 𝜈𝜇 82 − 80
𝑃(𝑆100 ≥ 82) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 2) = 1 − 𝑃(𝑍 < 2) = 1 − 𝛷(2) =
𝜎 √𝜈 1
β)
20
15. Η ποσότητα φυτικών ινών που περιέχεται ανά μερίδα (των 100gr) τραγανών δημητριακών
είναι τυχαία μεταβλητή, έστω Χ, η οποία σύμφωνα με την εταιρεία παραγωγής έχει μέση τιμή 5gr
και τυπική απόκλιση 0.81gr. Σε ένα διαιτολόγιο δύο εβδομάδων σκέφτεστε να εντάξετε 40 μερίδες
από τα συγκεκριμένα δημητριακά. Ποια είναι η πιθανότητα α) η μέση ποσότητα φυτικών ινών σε
40 τέτοιες μερίδες να είναι τουλάχιστον 4.5gr, β) η συνολική ποσότητα φυτικών ινών σε 40
τέτοιες μερίδες να είναι τουλάχιστον 215gr.
Έστω 𝛸1 , 𝛸2 , … , 𝛸40 η ποσότητα φυτικών ινών ανά μερίδα του διαιτολογίου. Οι ποσότητες αυτές
αποτελούν ανεξάρτητες τ.μ. που ακολουθούν την ίδια κατανομή με μέση τιμή μ=5gr και τυπική
απόκλιση σ=0.81gr.
Τότε σύμφωνα με το Κεντρικό Οριακό Θεώρημα (Κ. Ο. Θ.) ισχύει:
𝑋1 + 𝑋2 + ⋯ + 𝑋40 𝜎 𝜎 0.81
𝑋̅ = ~ 𝑁 (𝜇, ) ή 𝑋̅ ~𝑁 (𝜇 = 5, = = 0.128)
40 √𝜈 √𝜈 √40
και
40
α)
𝑋̅ − 𝜇 4.5 − 5
𝑃(𝑋̅ ≥ 4.5) = 𝑃 ( 𝜎 ≥ ) = 𝑃(𝑍 ≥ −3.9) = 1 − 𝑃(𝑍 < −3.9) =
0.128
√𝜈
β)
𝑆40 − 𝜈𝜇 215 − 200
𝑃(𝑆40 ≥ 215) = 𝑃 ( ≥ ) = 𝑃(𝑍 ≥ 2.93) = 1 − 𝑃(𝑍 < 2.93) =
𝜎 √𝜈 5.12
21
Πίνακας Τυπικής Κανονικής κατανοµής
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
22
ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ – ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
Στη στατιστική συμπερασματολογία προσπαθούμε να εξάγουμε συμπεράσματα για όλο τον πληθυσμό
βασιζόμενοι σε ένα δείγμα. Ο πληθυσμός αποτελεί το άγνωστο μέρος, ενώ το δείγμα αποτελεί το γνωστό
μέρος. Η στατιστική είναι επαγωγική επιστήμη, η οποία προσπαθεί να βγάλει συμπεράσματα από τα επί μέρους,
το γνωστό τμήμα του πληθυσμού, το δείγμα, για το καθολικό μέρος, ολόκληρο τον πληθυσμό.
Παράδειγμα. Μια ποικιλία αραβοσίτου καλλιεργείται σε ένα κάμπο και τα προηγούμενα χρόνια είχε μέση
απόδοση 750 κιλά/στρέμμα και τυπική απόκλιση 50 κιλά/στρέμμα. Φέτος χρησιμοποιήθηκε δοκιμαστικά ένα
καινούριο λίπασμα. 36 αγροί καλλιεργήθηκαν με το νέο λίπασμα και είχαμε απόδοση 765 κιλά/στρέμμα.
Μπορούμε να ισχυριστούμε σε επίπεδο σημαντικότητας 𝛼 = 0.05 ότι το νέο λίπασμα αυξάνει την απόδοση
της καλλιέργειας;
Θέτουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 750 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇 > 750 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
𝛨0 : 𝜇 = 𝜇0 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇 > 𝜇0 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
Όταν βασιζόμαστε σε ένα δείγμα, πάντοτε υπάρχει κάποια πιθανότητα (ελπίζουμε μικρή) να πάρουμε μια
λάθος απόφαση. Σε έναν έλεγχο υποθέσεων μπορούν να γίνουν δύο ειδών σφάλματα:
i) Ονομάζεται σφάλμα τύπου Ι η απόρριψη της μηδενικής υπόθεσης 𝛨0 , ενώ είναι σωστή. Η πιθανότητα
αυτού του σφάλματος συμβολίζεται με α και είναι:
𝜶 = 𝑷(𝜶𝝅ό𝝆𝝆𝜾𝝍𝜼𝝇 𝝉𝜼𝝇 𝜢𝟎 ⁄𝜢𝟎 𝝈𝝎𝝈𝝉ή)
ii) Ονομάζεται σφάλμα τύπου ΙΙ η αποδοχή της μηδενικής υπόθεσης 𝛨0 , ενώ είναι λάθος. Η πιθανότητα του
σφάλματος τύπου ΙΙ συμβολίζεται με β και είναι:
𝜷 = 𝑷(𝜶𝝅𝝄𝜹𝝄𝝌ή𝝇 𝝉𝜼𝝇 𝜢𝟎 ⁄𝜢𝟎 𝝀ά𝜽𝝄𝝇)
Είναι γνωστό ότι ένας σημειακός εκτιμητής της μέσης τιμής μ είναι η δειγματική μέση τιμή 𝑥̅ . Αναζητούμε
λοιπόν κάποιο στατιστικό κριτήριο και πιο συγκεκριμένα κάποια κριτική τιμή κ τέτοια ώστε, εάν 𝑥̅ > 𝜅 τότε
απορρίπτουμε την Η0, ενώ εάν 𝑥̅ ≤ 𝜅 να μην μπορούμε να την απορρίψουμε.
1
Εάν το δείγμα 𝛸1 , 𝛸2 , … , 𝛸𝜈 προέρχεται από κανονικό πληθυσμό, δηλαδή 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎), 𝑖 = 1, 2, … , 𝜈 τότε
𝑋1 +𝑋2 +⋯+𝑋𝜈 𝜎
̅=
η τ.μ. 𝑋 ~ 𝑁 (𝜇, ) ανεξάρτητα από το μέγεθος του δείγματος. Η ίδια σχέση ισχύει,
𝜈 √𝜈
σύμφωνα με το Κεντρικό Οριακό θεώρημα (Κ.Ο.Θ.) και στην περίπτωση που το δείγμα δεν προέρχεται από
κανονικό πληθυσμό, αλλά είναι μεγάλο, δηλαδή ν ≥ 30.
Προσπαθώντας λοιπόν να προσδιορίσουμε κάποιο στατιστικό κριτήριο για τις στατιστικές υποθέσεις που
θέσαμε έχουμε:
𝛼 = 𝑃(𝜈𝛼 𝛼𝜋𝜊𝜌𝜌ί𝜓𝜊𝜐𝜇𝜀 𝜏𝜂𝜈 𝛨0 ⁄𝛨0 𝜀ί𝜈𝛼𝜄 𝜎𝜔𝜎𝜏ή) = 𝑃(𝑥̅ > 𝜅⁄𝜇 = 𝜇0 ) ⟺
𝑥̅ − 𝜇0 𝜅 − 𝜇0 𝜅 − 𝜇0 𝜅 − 𝜇0 𝜅 − 𝜇0
⟺ 𝑎 = 𝑃( > ) = 1 − 𝑃 (𝑍 ≤ ) = 1−𝛷( ) ⟺ 𝛷( )=1−𝛼
𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈
𝜅 − 𝜇0 𝜎
⟺ = 𝑧𝛼 ⟺ 𝜅 = 𝜇0 + 𝑧𝛼
𝜎 ⁄ √𝜈 √𝜈
̅−𝝁𝟎
𝒙
ή εάν > 𝒛𝜶 απορρίπτουμε την 𝜢𝟎 (στατιστικό κριτήριο)
𝝈⁄√𝝂
Ελέγχουμε τώρα εάν θα απορρίψουμε την αρχική υπόθεση 𝛨0 : 𝜇0 = 750 του αρχικού παραδείγματος.
𝑥̅ − 𝜇0 765 − 750 15√36
= = = 1.8 > 𝑧𝛼 = 𝑧0.05 = 1.645
𝜎⁄√𝜈 50⁄√36 50
2
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς μπορούμε να συμπεράνουμε ότι το νέο λίπασμα αυξάνει την απόδοση της
καλλιέργειας.
Στον παρακάτω πίνακα παραθέτουμε συνοπτικά τα στατιστικά κριτήρια (απορριπτικές περιοχές της
𝛨0 ) για στατιστικούς ελέγχους υποθέσεων για τη μέση τιμή μ ενός πληθυσμού, όταν η διασπορά του
πληθυσμού 𝜎 2 είναι γνωστή ή άγνωστη, για μικρά ή μεγάλα δείγματα, καθώς επίσης και για ελέγχους
υποθέσεων για το ποσοστό 𝑝 ενός πληθυσμού.
(Α) Στατιστικοί έλεγχοι υποθέσεων που αναφέρονται σε ένα δείγμα που προέρχεται από ένα πληθυσμό
𝛨0 : 𝜇 = 𝜇0 𝛨1 : 𝜇 ≠ 𝜇0 𝛨1 : 𝜇 > 𝜇0 𝛨1 : 𝜇 < 𝜇0
𝜎 2 γνωστό και
ή
|𝑥̅ − 𝜇0 | 𝑥̅ − 𝜇0 𝑥̅ − 𝜇0 α) πληθυσμός
> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈 κανονικός ή
β) 𝜈 ≥ 30
𝜎 2 άγνωστο
και 𝜈 ≥ 30
|𝑥̅ − 𝜇0 | 𝑥̅ − 𝜇0 𝑥̅ − 𝜇0 (οτιδήποτε
> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
𝑠⁄√𝜈 𝑠⁄√𝜈 𝑠⁄√𝜈 πληθυσμός)
𝜎 2 άγνωστο
και πληθυσμός
|𝑥̅ − 𝜇0 | 𝑥̅ − 𝜇0 𝑥̅ − 𝜇0 κανονικός
> 𝑡𝜈−1,𝛼⁄2 > 𝑡𝜈−1,𝛼 < −𝑡𝜈−1,𝛼
𝑠⁄√𝜈 𝑠⁄√𝜈 𝑠⁄√𝜈 (𝜈 < 30)
𝛨0 : 𝑝 = 𝑝0 𝛨1 : 𝑝 ≠ 𝑝0 𝛨1 : 𝑝 > 𝑝0 𝛨1 : 𝑝 < 𝑝0
ν𝑝0 ≥ 5 και
|𝑝̂ − 𝑝0 | 𝑝̂ − 𝑝0 𝑝̂ − 𝑝0 ν(1 − 𝑝0 ) ≥ 5
> 𝑧𝛼⁄2 > 𝑧𝛼 < −𝑧𝛼
√𝑝0 (1 − 𝑝0 )/𝜈 √𝑝0 (1 − 𝑝0 )/𝜈 √𝑝0 (1 − 𝑝0 )/𝜈 𝑝̂ το ποσοστό
στο δείγμα
Στη συνέχεια παραθέτουμε συνοπτικά τα στατιστικά κριτήρια (απορριπτικές περιοχές της 𝛨0 ) για
στατιστικούς ελέγχους υποθέσεων για τη σύγκριση των μέσων τιμών 𝜇1 και 𝜇2 δύο πληθυσμών ανάλογα εάν
τα δείγματα είναι ανεξάρτητα ή εξαρτημένα (ζευγαρωτές παρατηρήσεις), εάν είναι μικρά ή μεγάλα ή τέλος
εάν οι διασπορές των δύο πληθυσμών είναι γνωστές ή άγνωστες. Επίσης παρατίθενται και τα στατιστικά
κριτήρια για ελέγχους υποθέσεων για τη σύγκριση των ποσοστών 𝑝1 και 𝑝2 δύο πληθυσμών.
3
Πριν προχωρήσουμε θα θέλαμε να αναφερθούμε στα εξαρτημένα δείγματα ή τις λεγόμενες ζευγαρωτές
παρατηρήσεις. Πολλές φορές το πείραμά μας πρέπει να γίνει κάτω από τις ίδιες συνθήκες. Για παράδειγμα εάν
ένας γεωπόνος επιθυμεί να συγκρίνει τις αποδόσεις δύο ποικιλιών σιταριού Α και Β και διαθέτει ν αγρούς,
καλύτερα είναι να σχεδιάσει το πείραμά του ως εξής: τους ν αγρούς να τους χωρίσει στη μέση και στο μισό
μέρος του αγρού να καλλιεργήσει την ποικιλία Α και στο άλλο μισό την ποικιλία Β, έτσι ώστε να
καλλιεργηθούν και οι δύο ποικιλίες κάτω από τις ίδιες συνθήκες (σε ίδιας γονιμότητας αγρούς, με τις ίδιες
καιρικές συνθήκες, ίδια λίπανση, ίδιος τρόπος άρδευσης, κ.λ.π.). Σε αυτές τις περιπτώσεις οι μετρήσεις μας
(αποδόσεις των ποικιλιών Α και Β) είναι εξαρτημένες, έχουμε δηλαδή ζευγαρωτές παρατηρήσεις. Ένα άλλο
παράδειγμα ζευγαρωτών παρατηρήσεων θα μπορούσαμε να έχουμε, εάν θέλαμε να συγκρίνουμε δύο
σιτηρέσια Α και Β. Θα είχαμε καλύτερο σχεδιασμό του πειράματός μας, εάν παίρναμε δίδυμα ζώα και στο
ένα δίναμε το σιτηρέσιο Α και στο δίδυμό του το σιτηρέσιο Β. Έτσι θα είχαμε πάλι ίδιες συνθήκες στο πείραμά
μας (ζώα της ίδιας φυλής, ίδιας ηλικίας, με το ίδιο γενετικό υλικό, κ.λ.π.). Επίσης έχουμε ζευγαρωτές
παρατηρήσεις όταν έχουμε μετρήσεις στο ίδιο άτομο, ίδιο ζώο, ίδιο φυτό πριν και μετά από κάποια επέμβαση
ή θεραπεία. Σε αυτές τις περιπτώσεις το στατιστικό τεστ που χρησιμοποιούμε αναφέρεται στις διαφορές των
ζευγαρωτών παρατηρήσεων (βλέπε ασκήσεις 8 και 12).
(Β) Στατιστικοί έλεγχοι υποθέσεων που αναφέρονται σε δύο δείγματα που προέρχονται από δύο πληθυσμούς
𝛨0 : 𝜇1 − 𝜇2 = 𝛿 𝛨1 : 𝜇1 − 𝜇2 ≠ 𝛿 𝛨1 : 𝜇1 − 𝜇2 > 𝛿 𝛨1 : 𝜇1 − 𝜇2 < 𝛿
𝜎1 2 , 𝜎2 2 άγνωστα, 𝜎1 2 = 𝜎2 2 ,
|𝑥̅1 − 𝑥̅2 − 𝛿| 𝑥̅1 − 𝑥̅ 2 − 𝛿 𝑥̅1 − 𝑥̅2 − 𝛿 𝜈1 ή 𝜈2 < 30, πληθυσμοί κανονικοί,
> 𝑡𝜈,𝛼⁄2 > 𝑡𝜈,𝑎 < −𝑡𝜈,𝑎
1 1 1 1 1 1 όπου 𝜈 = 𝜈1 +𝜈2 −2 και
𝑠∙√ + 𝑠∙√ + 𝑠∙√ +
𝜈1 𝜈2 𝜈1 𝜈2 𝜈1 𝜈2 (𝜈1 − 1)𝑠1 2 + (𝜈2 − 1)𝑠2 2
𝑠2 =
𝜈1 + 𝜈2 − 2
Ζευγαρωτές παρατηρήσεις, 𝜈 < 30*,
𝑑̅ και 𝑠𝑑 μέσος και τυπική απόκλιση
|𝑑̅ − 𝛿| 𝑑̅ − 𝛿 𝑑̅ − 𝛿 των διαφορών 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
> 𝑡𝜈−1,𝛼 ⁄2 > 𝑡𝜈−1,𝛼 < −𝑡𝜈−1,𝛼
𝑠𝑑 ⁄√𝜈 𝑠𝑑 ⁄√𝜈 𝑠𝑑 ⁄√𝜈 *αν 𝜈 ≥ 30 ίδιοι τύποι με 𝑧
𝛼 αντί
𝑡𝜈−1,𝛼
𝛨0 : 𝑝1 = 𝑝2 𝛨1 : 𝑝1 ≠ 𝑝2 𝛨1 : 𝑝1 > 𝑝2 𝛨1 : 𝑝1 < 𝑝2
𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5 (𝑖 =1, 2)
|𝑝̂1 − 𝑝̂2 | 𝑝̂1 − 𝑝̂2 𝑝̂1 − 𝑝̂2 𝑝̂1 =
𝑥1
το ποσοστό στο 1ο δείγμα,
> 𝑧𝛼⁄2 > 𝑧𝑎 < −𝑧𝑎 𝜈1
1 1 1 1 1 1 𝑥2
√𝑝̂ (1 − 𝑝̂ )(𝜈 + 𝜈 ) √𝑝̂ (1 − 𝑝̂ )(𝜈 + 𝜈 ) √𝑝̂ (1 − 𝑝̂ )(𝜈 + 𝜈 ) 𝑝̂2 = το ποσοστό στο 2ο δείγμα,
1 2 1 2 1 2 𝜈2
𝑥1 +𝑥2
𝑝̂ = το μέσο ποσοστό στα δύο
𝜈1 +𝜈2
δείγματα
4
Διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού
Όπως έχει αναφερθεί και παραπάνω, ένας εκτιμητής της μέσης τιμής μ ενός πληθυσμού είναι η μέση τιμή του
δείγματος 𝛸̅, η οποία ακολουθεί κανονική κατανομή:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝜈 𝜎
𝑋̅ = ~ 𝑁 (𝜇, )
𝜈 √𝜈
Αναζητούμε ένα 100(1-α)% διάστημα εμπιστοσύνης για την άγνωστη μέση τιμή μ ενός πληθυσμού, όταν η
διασπορά του πληθυσμού 𝜎 2 είναι γνωστή. Έστω (𝑥1 , 𝑥2 ) το διάστημα που ψάχνουμε να βρούμε. Τότε:
𝑥1 − 𝜇 𝑋̅ − 𝜇 𝑥2 − 𝜇
𝑃(𝑥1 < 𝑋̅ < 𝑥2 ) = 1 − 𝑎 ⟺ 𝑃 ( < < ) = 1 − 𝛼 ⟺ 𝑃(𝑧1 < 𝑍 < 𝑧2 ) = 1 − 𝑎
𝜎⁄√𝜈 𝜎⁄√𝜈 𝜎⁄√𝜈
Σύμφωνα με το παραπάνω σχήμα της Ν(0, 1) θα πρέπει 𝑧1 = −𝑧𝑎⁄2 και 𝑧2 = 𝑧𝑎⁄2 . Συνεπώς θα έχουμε:
𝑋̅ − 𝜇 𝜎 𝜎
𝑃(−𝑧𝑎⁄2 < 𝑍 < 𝑧𝑎⁄2 ) = 𝑃 (−𝑧𝑎⁄2 < < 𝑧𝑎⁄2 ) = 𝑃 (𝑋̅ − 𝑧𝑎⁄2 < 𝜇 < 𝑋̅ + 𝑧𝑎⁄2 )=1−𝛼
𝜎⁄√𝜈 √𝜈 √𝜈
Επομένως βρήκαμε ένα 100(1-α)% διάστημα εμπιστοσύνης για τη μέση τιμή μ ενός πληθυσμού, όταν η
διασπορά του πληθυσμού 𝜎 2 είναι γνωστή:
𝜎 𝜎 𝜎
𝑥̅ ± 𝑧𝛼⁄2 ή (𝑥̅ − 𝑧𝑎⁄2 , 𝑥̅ + 𝑧𝑎⁄2 )
√𝜈 √𝜈 √𝜈
Στον παρακάτω πίνακα παραθέτουμε συνοπτικά τα 100(1-α)% διαστήματα εμπιστοσύνης για τη μέση
τιμή μ ενός πληθυσμού, όταν η διασπορά του πληθυσμού 𝜎 2 είναι γνωστή ή άγνωστη, για μικρά ή μεγάλα
δείγματα, καθώς επίσης και τα 100(1-α)% διαστήματα εμπιστοσύνης για τη διαφορά 𝜇1 − 𝜇2 των μέσων
τιμών δύο πληθυσμών, ανάλογα εάν τα δείγματα είναι ανεξάρτητα ή εξαρτημένα (ζευγαρωτές παρατηρήσεις),
εάν είναι μικρά ή μεγάλα ή τέλος εάν οι διασπορές των δύο πληθυσμών είναι γνωστές ή άγνωστες. Επίσης
παρατίθενται και τα 100(1-α)% διαστήματα εμπιστοσύνης για το ποσοστό 𝑝 ενός πληθυσμού ή για τη διαφορά
𝑝1 − 𝑝2 των ποσοστών δύο πληθυσμών.
5
(Γ) 100(𝟏 − 𝜶)% Διαστήματα Εμπιστοσύνης
𝜎1 2 , 𝜎2 2 άγνωστα και 𝜈1 , 𝜈2 ≥ 30
𝑠1 2 𝑠2 2
(οτιδήποτε πληθυσμοί) 𝑥̅1 − 𝑥̅2 ± 𝑧𝛼⁄2 √ +
𝜈1 𝜈2
𝜎1 2 , 𝜎2 2 άγνωστα, 1 1
𝜎1 2 = 𝜎2 2 , 𝑥̅1 − 𝑥̅2 ± 𝑡𝜈1 +𝜈2 −2,𝛼⁄2 ∙ 𝑠 ∙ √ +
𝜈1 𝜈2
πληθυσμοί κανονικοί,
𝜈1 ή 𝜈2 < 30
(𝜈1 − 1)𝑠1 2 + (𝜈2 − 1)𝑠2 2
𝑠2 =
𝜈1 + 𝜈2 − 2
𝑝1 − 𝑝2 𝜈𝑖 𝑝̂ 𝑖 ≥ 5 και
𝑝̂1 (1 − 𝑝̂1 ) 𝑝̂2 (1 − 𝑝̂ 2 )
(ποσοστά) 𝜈𝑖 (1 − 𝑝̂ 𝑖 ) ≥ 5, 𝑖 =1, 2 𝑝̂1 − 𝑝̂2 ± 𝑧𝛼⁄2 √ +
𝜈1 𝜈2
6
Λύσεις ασκήσεων από το φυλλάδιο 6 – Ασκήσεις σε Στατιστικούς Ελέγχους Υποθέσεων και Διαστήματα
Εμπιστοσύνης
1. Το όριο αντοχής ενός τύπου καλωδίων έχει μέση τιμή 1800 κιλά και τυπική απόκλιση 100 κιλά. Η εταιρεία
που φτιάχνει τα καλώδια ισχυρίζεται ότι μια βελτίωση στη μέθοδο κατασκευής αύξησε το όριο αντοχής. Για
να το επαληθεύσουμε, δοκιμάζουμε 50 νέα καλώδια. Εάν το μέσο όριο αντοχής τους βρέθηκε 1850 κιλά, είναι
σωστός ο ισχυρισμός της εταιρείας σε επίπεδο σημαντικότητας α = 0.01;
Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού (όριο αντοχής ενός τύπου
καλωδίων)
𝛨0 : 𝜇0 = 1800 (αρχική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇 > 1800 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
Από τα πειραματικά δεδομένα έχουμε: ν=50 το μέγεθος του δείγματος, 𝑥̅ =1850 ο μέσος όρος του δείγματος
και σ =100 η τυπική απόκλιση του πληθυσμού. Επειδή η διακύμανση του πληθυσμού είναι γνωστή 𝜎 2 =
1002 και επιπλέον έχουμε μεγάλο δείγμα ν=50 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν > 𝑧𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝜎 ⁄√ 𝜈
1850−1800 50√50
Αντικαθιστώντας έχουμε: = = 3.53 > 𝑧𝑎 = 𝑧0.01 = 2.33
100⁄√50 100
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 1%. Συνεπώς μπορούμε να συμπεράνουμε ότι η βελτίωση στη μέθοδο κατασκευής αύξησε
το μέσο όριο αντοχής των καλωδίων.
2. Ένας κατασκευαστής συρματόσχοινων ισχυρίζεται ότι κάθε συρματόσχοινο ενός ορισμένου τύπου αντέχει
σε μέγιστο φορτίο 8000 κιλών. Δοκιμάζουμε 6 τέτοια συρματόσχοινα και βρίσκουμε μέσο φορτίο 7750 κιλά
με τυπική απόκλιση 145 κιλά. Μπορούμε να υποστηρίξουμε τον ισχυρισμό του κατασκευαστή σε επίπεδο
σημαντικότητας (α) 0.05, (β) 0.01;
Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού. Διατυπώνουμε τις υποθέσεις:
𝛨0 : 𝜇0 = 8000 (αρχική υπόθεση)
𝛨1 : 𝜇 < 8000 (εναλλακτική υπόθεση)
7
Από τα πειραματικά δεδομένα έχουμε: ν=6 (μικρό δείγμα), 𝑥̅ =7750 ο μέσος όρος του δείγματος και s=145
η τυπική απόκλιση του δείγματος. Επειδή η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε
μικρό δείγμα ν=6 <30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν < − 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠 ⁄√ 𝜈
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς δεν ισχύει ο ισχυρισμός του κατασκευαστή.
(β) Σε επίπεδο σημαντικότητας α = 0.01 έχουμε:
- 4.22 < −𝑡𝜈−1,𝑎 = −𝑡5,0.01 = -3.365
Επομένως και σε επίπεδο σημαντικότητας 1%, η 𝛨0 απορρίπτεται και δεν μπορούμε να δεχτούμε ότι ισχύει
ο ισχυρισμός του κατασκευαστή.
3. Σε ένα πείραμα που πρόκειται να εκτελεστεί, εικάζεται ότι το pH του εδάφους μπορεί να επηρεάζει σε
σημαντικό βαθμό τα αποτελέσματα του πειράματος. Για το λόγο αυτό, πάρθηκαν 10 δείγματα χώματος από
ένα αγροτεμάχιο, υποψήφιο για τη διεξαγωγή του πειράματος και προσδιορίστηκε το pH σε κάθε δείγμα:
6.5 5.9 6.8 6.1 5.7 5.8 6.6 6.5 6.4 6.7
α) Δώστε 98% διάστημα εμπιστοσύνης για το μέσο pH του αγροτεμαχίου. β) Αν έχει αποφασιστεί ότι το
πείραμα θα εκτελεστεί σε αγροτεμάχιο του οποίου το μέσο pH είναι μεγαλύτερο από 6, τι απόφαση πρέπει να
ληφθεί για το εν λόγω αγροτεμάχιο σε επίπεδο σημαντικότητας 5%; Διατυπώστε κατάλληλες στατιστικές
υποθέσεις και κάντε κατάλληλο έλεγχο.
Προσδιορίζουμε καταρχάς τη μέση τιμή και την τυπική απόκλιση του δείγματος:
8
Όμως όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α = 0.02, επομένως
𝑡𝜈−1,𝛼⁄2 = 𝑡10−1, 0.02⁄2 = 𝑡9,0.01 =2.821
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
0.39
6.3 ± ⋅ 2.821 ή 6.3 ± 0.35 ή (5.95, 6.65)
√10
Επομένως με 98% βεβαιότητα μπορούμε να ισχυριστούμε ότι το μέσο pH του αγροτεμαχίου κυμαίνεται από 5.95
έως 6.65.
β) Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 6 (αρχική υπόθεση)
𝛨1 : 𝜇 > 6 (εναλλακτική υπόθεση)
Επειδή η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=10 <30, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ −𝜇0
Εάν > 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠⁄√𝜈
Αντικαθιστώντας σε επίπεδο σημαντικότητας α = 0.05 έχουμε:
6.3−6
= 2.4 > 𝑡𝜈−1,𝑎 = 𝑡10−1,0.05 = 𝑡9,0.05 = 1.833
0.39⁄√10
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε στάθμη
σημαντικότητας 5%. Συνεπώς βασιζόμενοι στα πειραματικά δεδομένα μπορούμε να συμπεράνουμε ότι το
μέσο pH του αγροτεμαχίου είναι μεγαλύτερο από 6.
4. Οι κάτοικοι μιας περιοχής ανησυχούν για τη συγκέντρωση μονοξειδίου του άνθρακα στην ατμόσφαιρα
κατά τις μεσημεριανές ώρες. Η αρμόδια κρατική υπηρεσία, μετά από διαμαρτυρία των κατοίκων, επέλεξε
σύμφωνα με ένα σχέδιο τυχαίας δειγματοληψίας, 16 σημεία της περιοχής και έκανε 16 μετρήσεις (μια
μέτρηση σε κάθε σημείο). Οι μετρήσεις αυτές έδωσαν μέση συγκέντρωση μονοξειδίου του άνθρακα
55.9mg/m3 με τυπική απόκλιση 6.5mg/m3. Το επιτρεπτό για την υγεία των κατοίκων όριο μονοξειδίου του
άνθρακα είναι 55mg/m3. α) Με βάση τα ευρήματα στο δείγμα, και σε επίπεδο σημαντικότητας 5%, τι πρέπει
να ανακοινώσει η κρατική υπηρεσία στους κατοίκους; β) Δώστε 98% διάστημα εμπιστοσύνης για τη μέση
συγκέντρωση μονοξειδίου του άνθρακα. γ) Μια περιβαλλοντική οργάνωση πίεσε την κρατική υπηρεσία να
επαναλάβει τον έλεγχο με μεγαλύτερο δείγμα. Η κρατική υπηρεσία δέχθηκε και ένα νέο τυχαίο δείγμα
μεγέθους 60 που πήρε, έδωσε μέση συγκέντρωση μονοξειδίου του άνθρακα 56.2mg/m3 με τυπική απόκλιση
5.2mg/m3. Τι πρέπει να ανακοινώσει η κρατική υπηρεσία στους κατοίκους με βάση τα ευρήματα στο νέο
δείγμα σε επίπεδο σημαντικότητας 5%.
10
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς η κρατική υπηρεσία θα πρέπει να ανακοινώσει στους κατοίκους ότι με βάση
τα νέα πειραματικά δεδομένα υπάρχει υπέρβαση του επιτρεπτού για την υγεία των κατοίκων ορίου του
μονοξειδίου του άνθρακα.
5. Σε δύο Τμήματα του Γ.Π.Α. δόθηκαν σε μια εξέταση για το μάθημα της Στατιστικής τα ίδια θέματα. Από
το 1ο Τμήμα πήραν μέρος στην εξέταση 40 φοιτητές και η μέση τους βαθμολογία ήταν 74 μονάδες (με άριστα
το 100) με τυπική απόκλιση 8, ενώ από το 2ο Τμήμα προσήλθαν στην εξέταση 50 φοιτητές, οι οποίοι πέτυχαν
μέση βαθμολογία 78, με τυπική απόκλιση 7. Ήταν στατιστικά σημαντική η διαφορά στην απόδοση των δύο
τμημάτων σε επίπεδο σημαντικότητας (α) 0.05, (β) 0.01.
(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇1 = 𝜇2 ή 𝛨0 : 𝜇1 − 𝜇2 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇1 ≠ 𝜇2 𝛨1 : 𝜇1 − 𝜇2 ≠ 0 (εναλλακτική υπόθεση)
Από τα πειραματικά δεδομένα έχουμε:
1ο Τμήμα : 𝜈1 = 40, 𝑥̅1 = 74, 𝑠1 = 8
2ο Τμήμα : 𝜈2 = 50, 𝑥̅2 = 78, 𝑠2 = 7
Επειδή οι διακυμάνσεις των δύο πληθυσμών είναι άγνωστες και επιπλέον έχουμε μεγάλα δείγματα ν1 =40 >30
και ν2 =50 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
Εάν
|𝑥̅ 1 − 𝑥̅ 2 −𝛿|
> 𝑧𝛼⁄2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠2 𝑠2
√ 1 + 𝜈2
𝜈1 2
11
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς υπάρχει στατιστικά σημαντική διαφορά στις βαθμολογίες των δύο τμημάτων.
(β) Εάν το επίπεδο σημαντικότητας του στατιστικού τεστ είναι α = 0.01, τότε 𝑧𝛼⁄2 = 𝑧0.005 = 2.58
και η ανισότητα του στατιστικού κριτηρίου δεν ισχύει, καθώς:
2.5 < 𝑧𝛼⁄2 = 𝑧0.005 = 2.58
Συνεπώς σε αυτήν την περίπτωση δεν μπορούμε να απορρίψουμε την 𝛨0 και επομένως δεν μπορούμε να
ισχυριστούμε ότι υπάρχει στατιστικά σημαντική διαφορά στις βαθμολογίες των δύο τμημάτων σε επίπεδο
σημαντικότητας 1% .
6. Προκειμένου να μετρηθεί η περιεκτικότητα κάποιας ουσίας στα νερά ενός ποταμού, ελήφθησαν 25 υδάτινα
δείγματα από τον ποταμό. Η μέση περιεκτικότητα της ουσίας στο δείγμα των 25 μετρήσεων ήταν 50 mg/lt με
τυπική απόκλιση 3.5 mg/lt. Για να συγκριθεί η περιεκτικότητα της ουσίας αυτής στον ποταμό με την
περιεκτικότητα της ίδιας ουσίας σε έναν παραπόταμό του, ελήφθησαν και 22 δείγματα νερού από τον
παραπόταμο, που είχαν μέση περιεκτικότητα 55.3 mg/lt και τυπική απόκλιση 3.2 mg/lt. (α) Σε επίπεδο
σημαντικότητας 1% αποδεικνύουν τα δεδομένα αυτά ότι η μέση συγκέντρωση της ουσίας στον παραπόταμο
είναι αυξημένη σε σχέση με τον ποταμό; (β) Σε επίπεδο σημαντικότητας 5% αποδεικνύουν τα δεδομένα αυτά
ότι η μέση συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον κύριο ποταμό κατά
περισσότερο από 3 mg/lt; (γ) Δώστε 98% διάστημα εμπιστοσύνης για τη μέση συγκέντρωση της ουσίας στον
κύριο ποταμό. (δ) Δώστε 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων συγκεντρώσεων της ουσίας
μεταξύ παραποτάμου και κύριου ποταμού.
(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών. Έστω 𝜇1
η μέση συγκέντρωση της ουσίας στον ποταμό και 𝜇2 η μέση συγκέντρωση της ουσίας στον παραπόταμο.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇1 = 𝜇2 ή 𝛨0 : 𝜇1 − 𝜇2 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇1 < 𝜇2 𝛨1 : 𝜇1 − 𝜇2 < 0 (εναλλακτική υπόθεση)
12
Δείγματα από τον ποταμό: 𝜈1 = 25, 𝑥̅1 = 50mg/lt, 𝑠1 = 3.5mg/lt
Δείγματα από τον παραπόταμο: 𝜈2 = 22, 𝑥̅2 = 55.3mg/lt, 𝑠2 = 3.2mg/lt
Από τη διατύπωση του προβλήματος είναι προφανές ότι τα δείγματα έχουν ληφθεί το ένα ανεξάρτητα από το
άλλο. Επιπλέον κάνοντας τις παραδοχές ότι προέρχονται από κανονικούς πληθυσμούς με άγνωστες αλλά ίσες
διακυμάνσεις και λαμβάνοντας υπόψιν ότι έχουμε μικρά δείγματα ν1 =25 < 30 και ν2 =22 < 30, οδηγούμαστε
στην παρακάτω περιοχή απόρριψης της 𝛨0 :
𝑥̅1 − 𝑥̅2 − 𝛿
< −𝑡𝜈1+𝜈2−2,𝛼
1 1
𝑠∙√ +
𝜈1 𝜈2
όπου
2
(𝜈1 − 1)𝑠12 + (𝜈2 − 1)𝑠22
𝑠 =
𝜈1 + 𝜈2 − 2
η εκτίμηση της κοινής διασποράς. Υπολογίζουμε καταρχάς το 𝑠 2 και στη συνέχεια ελέγχουμε εάν ισχύει το
στατιστικό κριτήριο:
(25 − 1) 3.52 + (22 − 1) 3.22
𝑠2 = = 11.31 επομένως 𝑠 = √𝑠 2 = √11.31 = 3.36
25 + 22 − 2
Αντικαθιστώντας και με δ = 0, η περιοχή απόρριψης της 𝛨0 είναι:
50 − 55.3
= −5.4 < −𝑡𝜈1 +𝜈2 −2,𝛼 = −𝑡25+22−2,0.01 = −𝑡45,0.01 = −2.33
1 1
3.36 ∙ √25 + 22
ενώ εάν πάρουμε το ισοδύναμο 2ο ζεύγος στατιστικών υποθέσεων η περιοχή απόρριψης της 𝛨0 θα είναι:
𝑥̅1 − 𝑥̅2 − 𝛿
< −𝑡𝜈1+𝜈2−2,𝛼
1 1
𝑠∙√ +
𝜈1 𝜈2
όπου
2
(𝜈1 − 1)𝑠12 + (𝜈2 − 1)𝑠22
𝑠 =
𝜈1 + 𝜈2 − 2
13
Παίρνοντας το 1ο ζεύγος στατιστικών υποθέσεων έχουμε:
55.3 − 50 − 3
= 2.34 > 𝑡𝜈1 +𝜈2−2,𝛼 = 𝑡25+22−2,0.05 = 𝑡45,0.05 = 1.646
1 1
3.36 ∙ √25 + 22
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Επομένως σε επίπεδο σημαντικότητας 5%, μπορούμε να ισχυριστούμε ότι η μέση
συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον κύριο ποταμό κατά περισσότερο
από 3 mg/lt. Στο ίδιο συμπέρασμα θα καταλήγαμε εάν παίρναμε το 2ο ζεύγος στατιστικών υποθέσεων και την
αντίστοιχη περιοχή απόρριψης της 𝛨0 .
(γ) Ζητείται 98% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (μέση συγκέντρωση της ουσίας
στον κύριο ποταμό).
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=25 <30, το
ζητούμενο 98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠
𝑥̅ ± 𝑡𝜈−1,𝛼⁄2
√𝜈
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από τον ποταμό: 𝜈1 = 25, 𝑥̅1 = 50mg/lt, 𝑠1 = 3.5mg/lt
Όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α = 0.02, επομένως 𝑡𝜈−1,𝛼⁄2 =
𝑡25−1, 0.02⁄2= 𝑡24,0.01=2.492
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
3.5
50 ± ⋅ 2.492 ή 50 ± 1.74 ή (48.26, 51.74)
√25
(δ) Ζητείται 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων συγκεντρώσεων της ουσίας μεταξύ
παραποτάμου και κύριου ποταμού, δηλαδή ζητείται ένα 95% διάστημα εμπιστοσύνης για τη διαφορά των
μέσων τιμών δύο πληθυσμών (παραπόταμος – ποταμός).
Καθώς οι διακυμάνσεις των δύο πληθυσμών 𝜎1 2 και 𝜎1 2 είναι άγνωστες και επιπλέον έχουμε μικρά δείγματα
ν1 =25 < 30 και ν2 =22 < 30, το ζητούμενο 95% διάστημα εμπιστοσύνης για τη διαφορά 𝜇2 − 𝜇1 θα δίνεται
από τη σχέση:
1 1
𝑥̅2 − 𝑥̅1 ± 𝑡𝜈1 +𝜈2 −2,𝛼⁄2 ∙ 𝑠 ∙ √ +
𝜈1 𝜈2
όπου
(𝜈1 − 1)𝑠1 2 + (𝜈2 − 1)𝑠2 2
𝑠2 =
𝜈1 + 𝜈2 − 2
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από τον ποταμό: 𝜈1 = 25, 𝑥̅1 = 50mg/lt, 𝑠1 = 3.5mg/lt
Δείγματα από τον παραπόταμο: 𝜈2 = 22, 𝑥̅2 = 55.3mg/lt, 𝑠2 = 3.2mg/lt
14
Η κοινή διακύμανση 𝑠 2 έχει ήδη υπολογιστεί από το (α) ερώτημα και είναι: 𝑠 2 =11.31, επομένως 𝑠 = √𝑠 2 =
√11.31 =3.36. Όταν ζητείται 95% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα είναι 𝛼 = 0.05, επομένως
το: 𝑡𝜈1 +𝜈2−2,𝛼⁄2 = 𝑡25+22−2, 0.05⁄2 = 𝑡45,0.025 = 1.96
Αντικαθιστώντας υπολογίζουμε το ζητούμενο 95% διάστημα εμπιστοσύνης για τη διαφορά 𝜇2 − 𝜇1 :
1 1
55.3 – 50 ± 1.96 ∙ 3.36 ∙ √25 + 22 = 5.3 ± 1.93 και τελικά το ζητούμενο διάστημα εμπιστοσύνης είναι:
(3.37, 7.23). Επομένως με 95% βεβαιότητα μπορούμε να ισχυριστούμε ότι η διαφορά των μέσων
συγκεντρώσεων της ουσίας μεταξύ παραποτάμου και κύριου ποταμού κυμαίνεται από 3.37 έως 7.23 mg/lt.
8. Για να ελέγξουμε την αποτελεσματικότητα δύο σιτηρεσίων Α και Β στην γαλακτοπαραγωγή των προβάτων
κάποιας φυλής, πήραμε εννέα ζεύγη δίδυμων προβατινών της φυλής αυτής και εφαρμόσαμε το σιτηρέσιο Α
στη μια προβατίνα του ζεύγους και το Β στην άλλη. Η ημερήσια γαλακτοπαραγωγή σε λίτρα φαίνεται στον
επόμενο πίνακα.
Σιτηρέσιο Α 9.1 8.2 7.1 9.5 8.4 7.7 7.2 7.8 9.3
Σιτηρέσιο Β 10.2 10.1 9.1 8.3 8.4 7.8 7.8 9.4 10.7
α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών. Έστω 𝜇𝛢
η μέση γαλακτοπαραγωγή του σιτηρεσίου Α και 𝜇𝛣 η μέση γαλακτοπαραγωγή του σιτηρεσίου Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇𝛢 = 𝜇𝛣 ή 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢 < 𝜇𝛣 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < 0 (εναλλακτική υπόθεση)
Τα δείγματα είναι εξαρτημένα, δηλαδή έχουμε ζευγαρωτές παρατηρήσεις, καθώς τα δύο σιτηρέσια
εφαρμόζονται σε δίδυμες προβατίνες (ζώα της ίδιας φυλής, ίδιας ηλικίας, με το ίδιο γενετικό υλικό) και
επομένως το πείραμα γίνεται κάτω από τις ίδιες συνθήκες. Σε αυτήν την περίπτωση οι στατιστικές υποθέσεις
διατυπώνονται ως εξής:
𝛨0 : 𝜇𝛢−𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢−𝛣 < 0 (εναλλακτική υπόθεση)
και η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
15
Εάν
𝑑̅ −𝛿
< − 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈
όπου 𝑑̅ και 𝑠𝑑 η μέση τιμή και η τυπική απόκλιση αντίστοιχα των διαφορών 𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 9
Επομένως για να ελέγξουμε τις στατιστικές υποθέσεις μας θα πρέπει να βρούμε τις διαφορές
𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 9 και στη συνέχεια να υπολογίσουμε τη μέση τιμή και την τυπική απόκλιση (𝑑̅
και 𝑠𝑑 ) των διαφορών. Επομένως:
Σιτηρέσιο Α (𝑥𝐴𝑖 ) 9.1 8.2 7.1 9.5 8.4 7.7 7.2 7.8 9.3
Σιτηρέσιο Β (𝑥𝐵𝑖 ) 10.2 10.1 9.1 8.3 8.4 7.8 7.8 9.4 10.7
Στη συνέχεια υπολογίζουμε τα 𝑑̅ και 𝑠𝑑 από τους γνωστούς τύπους της μέσης τιμής και της διασποράς:
𝜈
1
𝑑̅ = ∑ 𝑑𝑖
𝜈
𝑖=1
𝜈 𝜈
1 2 1
𝑠𝑑 2 = ∑(𝑑𝑖 − 𝑑̅ ) = (∑ 𝑑𝑖2 − 𝜈𝑑̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1
Αντικαθιστώντας έχουμε:
𝜈
1 (−1.1) + (−1.9) + ⋯ + (−1.4)
𝑑̅ = ∑ 𝑑𝑖 = = −0.83
𝜈 9
𝑖=1
𝜈
1 [(−1.1)2 + (−1.9)2 + ⋯ + (−1.4)2] − 9 ∙ (−0.83)2
𝑠𝑑 2 = (∑ 𝑑𝑖2 − 𝜈𝑑̅2 ) = = 1.11
𝜈−1 9−1
𝑖=1
Αντικαθιστούμε στην παρακάτω σχέση του στατιστικού κριτηρίου, με δ=0 και έχουμε:
Εάν
𝑑̅ −𝛿
< − 𝑡𝜈−1,𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈
−0.83
= −2.37 < − 𝑡𝜈−1,𝑎 = − 𝑡9−1,0.05 = − 𝑡8,0.05 = −1.86
1.05⁄√9
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς το σιτηρέσιο Β αυξάνει τη γαλακτοπαραγωγή σε σχέση με το σιτηρέσιο Α.
β) Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 9 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛣 > 9 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
16
Καταρχάς υπολογίζουμε την μέση τιμή και την τυπική απόκλιση του δείγματος:
∑𝜈𝑖=1 𝑥𝛣𝑖 𝑥𝛣1 + 𝑥𝛣2 + ⋯ + 𝑥𝛣9 10.2 + 10.1 + ⋯ + 10.7
𝑥̅𝛣 = = = = 9.09
𝜈𝛣 9 9
𝜈 𝜈
1 1
𝑠𝐵2 = ∑(𝑥𝛣𝑖 − 𝑥̅ 𝛣 )2 = 2
(∑ 𝑥𝛣𝑖 − 𝜈𝛣 𝑥̅𝛣 2 ) =
𝜈𝛣 − 1 𝜈𝛣 − 1
𝑖=1 𝑖=1
1
= [(10.22 + 10.12 + ⋯ + 10.72 ) − 9 ∙ (9.09)2 ] = 1.17
9−1
Επομένως 𝑠𝐵 = √𝑠𝐵2 = √1.17 = 1.08
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα ν=9<30, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ 𝛣 −𝜇0
Εάν > 𝑡𝜈𝛣−1,𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝐵 ⁄√𝜈𝛣
𝑠𝛣
̅𝛣 ±
𝑥 𝑡𝜈𝛣 −1, 𝛼⁄2
√𝜈 𝛣
Όμως όταν ζητείται 95% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα θα είναι α=0.05, επομένως
𝛼⁄2 =0.025 και 𝑡𝜈𝛣 −1, 𝛼⁄2 = 𝑡9−1,0.025 = 𝑡8,0.025 = 2.306
Επομένως με 95% βεβαιότητα μπορούμε να ισχυριστούμε ότι η μέση γαλακτοπαραγωγή των προβατινών που
έλαβαν το σιτηρέσιο Β κυμαίνεται από 8.26 έως 9.92.
9. Σε μια απογραφή που έγινε πριν από πέντε χρόνια, βρέθηκε ότι το 10% των προβάτων της χώρας πάσχουν
από κάποια ασθένεια. Για να ελεγχθεί αν το ποσοστό αυτό άλλαξε, πάρθηκε τυχαίο δείγμα από 500 πρόβατα
17
και σε 47 από αυτά παρατηρήθηκε η συγκεκριμένη ασθένεια. α) Διαφέρει το ποσοστό των άρρωστων ζώων
σήμερα, από αυτό που βρέθηκε στην απογραφή πριν από πέντε χρόνια, σε επίπεδο σημαντικότητας 5%;
β) Δώστε 95% διάστημα εμπιστοσύνης για το σημερινό μέσο ποσοστό των άρρωστων ζώων.
Πρόκειται για στατιστικό έλεγχο υποθέσεων για το άγνωστο ποσοστό ενός πληθυσμού (ποσοστό των
προβάτων της χώρας που πάσχουν από κάποια ασθένεια).
𝛨0 : 𝑝0 = 0.10 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝑝 ≠ 0.10 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
Από τα πειραματικά δεδομένα έχουμε ν=500 το μέγεθος του δείγματος και 𝑝̂ = 47⁄500 = 0.094 το ποσοστό
στο δείγμα. Επειδή έχουμε μεγάλο δείγμα ν=500 >30 και επιπλέον ισχύουν οι προϋποθέσεις:
𝜈𝑝0 =500 ∙ 0.10=50 ≥ 5 και ν(1 − 𝑝0 ) =500 ∙ (1 − 0.10)=450 ≥ 5, η απορριπτική περιοχή της 𝛨0 δίνεται
από τη σχέση:
|𝑝̂−𝑝0 |
Εάν > 𝑧𝛼⁄2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈
Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼⁄2 = 𝑧0.05⁄2 = 𝑧0.025 = 1.96 έχουμε:
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς (με βεβαιότητα 95%) δεν μπορούμε να ισχυριστούμε ότι το ποσοστό
των προβάτων της χώρας που πάσχουν από τη συγκεκριμένη ασθένεια διαφοροποιήθηκε.
β) Ζητείται 95% διάστημα εμπιστοσύνης για το σημερινό μέσο ποσοστό των προβάτων που πάσχουν από τη
συγκεκριμένη ασθένεια, δηλαδή ζητείται ένα 95% διάστημα εμπιστοσύνης για το άγνωστο ποσοστό ενός
πληθυσμού. Από τα δειγματοληπτικά δεδομένα έχουμε ν=500 το μέγεθος του δείγματος και 𝑝̂ =
47⁄500 =0.094 το ποσοστό στο δείγμα. Επειδή ισχύουν οι προϋποθέσεις: ν𝑝0 = 500 ∙ 0.10 = 50 ≥ 5 και
ν(1 − 𝑝0 ) = 500 ∙ (1 − 0.10) = 450 ≥ 5, το ζητούμενο 95% διάστημα εμπιστοσύνης είναι το:
18
𝑝̂ (1 − 𝑝̂ ) 0.094(1 − 0.094)
𝑝̂ ± 𝑧𝛼⁄2 √ = 0.094 ± 1.96√ = 0.094 ± 0.026 ή (0.068, 0.120) ή 6.8% − 12%
𝜈 500
Επομένως σε επίπεδο σημαντικότητας 5%, δηλαδή με βεβαιότητα 95% μπορούμε να ισχυριστούμε ότι το
σημερινό ποσοστό των προβάτων που πάσχουν από τη συγκεκριμένη ασθένεια κυμαίνεται από 6.8% έως
12%.
10. Το Journal of fish biology δημοσίευσε μια μελέτη που έκανε σύγκριση των παράσιτων που βρέθηκαν στα
είδη ψαριών στη Μεσόγειο και στον Ατλαντικό. Στη Μεσόγειο από τα 588 ψάρια που πιάστηκαν και
εξετάστηκαν, βρέθηκαν μολυσμένα από παράσιτα τα 211. Στον Ατλαντικό ωκεανό, από τα 123 ψάρια που
εξετάστηκαν βρέθηκαν μολυσμένα τα 26. α) Συγκρίνετε την αναλογία των μολυσμένων ψαριών από παράσιτα
στις δύο θάλασσες (α=0.05). β) Δώστε 98% διαστήματα εμπιστοσύνης για τα μέσα ποσοστά των μολυσμένων
ψαριών στη Μεσόγειο και στον Ατλαντικό ωκεανό. γ) Δώστε 95% διάστημα εμπιστοσύνης για τη διαφορά
των μέσων ποσοστών των μολυσμένων ψαριών στη Μεσόγειο και τον Ατλαντικό ωκεανό.
α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των άγνωστων ποσοστών δύο πληθυσμών
(ποσοστά μολυσμένων ψαριών από παράσιτα στη Μεσόγειο και στον Ατλαντικό). Έστω 𝑝1 το ποσοστό
μολυσμένων ψαριών από παράσιτα στη Μεσόγειο και 𝑝2 το αντίστοιχο ποσοστό Ατλαντικό. Διατυπώνουμε
τις στατιστικές υποθέσεις:
𝛨0 : 𝑝1 = 𝑝2 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝑝1 ≠ 𝑝2 (εναλλακτική υπόθεση)
Αντικαθιστώντας και σε επίπεδο σημαντικότητας α = 0.05, οπότε 𝑧𝛼⁄2 = 𝑧0.05⁄2 = 𝑧0.025 = 1.96 και
211+26 237
𝑝̂ = = =0.33 έχουμε:
588+123 711
19
Επομένως ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Άρα υπάρχει στατιστικά σημαντική διαφορά στα ποσοστά των μολυσμένων ψαριών από
παράσιτα στις δύο θάλασσες.
β) Ζητούνται 98% διαστήματα εμπιστοσύνης για τα άγνωστα ποσοστά των μολυσμένων ψαριών από
παράσιτα στη Μεσόγειο και στον Ατλαντικό. Τα ζητούμενα διαστήματα εμπιστοσύνης δίνονται από τις
παρακάτω σχέσεις, καθώς και στις δύο περιπτώσεις ισχύουν οι προϋποθέσεις: 𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5 για
𝑖 =1, 2. Επιπλέον όταν ζητούνται 98% διαστήματα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α=0.02,
επομένως 𝑧𝛼⁄2 = 𝑧0.02⁄2 = 𝑧0.01 = 2.33
Εκτίμηση του ποσοστού των μολυσμένων ψαριών από παράσιτα στη Μεσόγειο:
Εκτίμηση του ποσοστού των μολυσμένων ψαριών από παράσιτα στον Ατλαντικό:
20
Επομένως με πιθανότητα 0.95, η διαφορά των ποσοστών των μολυσμένων ψαριών στη Μεσόγειο και τον
Ατλαντικό ωκεανό κυμαίνεται από 6.6% - 23%.
11. Η αποτελεσματικότητα ενός φυτοφαρμάκου για την αντιμετώπιση κάποιας ασθένειας είναι γνωστό ότι
είναι 60%, δηλαδή το 60% των άρρωστων φυτών στα οποία χορηγείται το εν λόγω φάρμακο θεραπεύονται.
Για να ελέγξει την αποτελεσματικότητα ενός νέου φυτοφαρμάκου που καταπολεμά την ίδια ασθένεια, ένας
γεωπόνος χορήγησε το νέο φάρμακο σε 15 άρρωστα φυτά και από αυτά θεραπεύθηκαν τα 12. α) Σε επίπεδο
σημαντικότητας 5% υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι το νέο φάρμακο είναι πιο
αποτελεσματικό από αυτό που ήδη χρησιμοποιεί ο αγρότης; β) Αν ο γεωπόνος είχε εκτελέσει το πείραμα με
150 άρρωστα φυτά και είχε βρει ότι θεραπεύτηκαν 120 από αυτά, τι έπρεπε να έχουμε συμπεράνει; γ) Βρείτε
98% διάστημα εμπιστοσύνης για την αποτελεσματικότητα του νέου φαρμάκου με τα δεδομένα από τα 15
φυτά και ένα αντίστοιχο με τα δεδομένα από τα 150 φυτά. Σχολιάστε τα πλάτη των δύο διαστημάτων.
Πρόκειται για στατιστικό έλεγχο υποθέσεων για το άγνωστο ποσοστό ενός πληθυσμού (αποτελεσματικότητα
ενός φυτοφαρμάκου ή αλλιώς το ποσοστό των φυτών που πάσχουν από κάποια ασθένεια, στα οποία
χορηγείται το εν λόγω φάρμακο και θεραπεύονται).
𝛨0 : 𝑝0 = 0.60 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝑝 > 0.60 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
Από τα πειραματικά δεδομένα έχουμε ν=15 το μέγεθος του δείγματος και 𝑝̂ = 12⁄15 = 0.8 το ποσοστό στο
δείγμα. Επειδή ισχύουν οι προϋποθέσεις: ν𝑝0 = 15 ∙ 0.6 = 9 ≥ 5 και ν(1 − 𝑝0 ) = 15(1 − 0.6) = 6 ≥ 5, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑝̂−𝑝0
Εάν > 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς δεν μπορούμε να ισχυριστούμε ότι το νέο φυτοφάρμακο έχει
μεγαλύτερη αποτελεσματικότητα, δηλαδή ότι το νέο φυτοφάρμακο αυξάνει το ποσοστό των φυτών που
θεραπεύονται.
β) Στο β) ερώτημα έχουμε να κάνουμε τον ίδιο ακριβώς στατιστικό έλεγχο με τις ίδιες στατιστικές υποθέσεις:
𝛨0 : 𝑝0 = 0.60 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝑝 > 0.60 (εναλλακτική υπόθεση)
21
Το μόνο που αλλάζει είναι το μέγεθος του δείγματος, δηλαδή τώρα ν=150 με 𝑝̂ = 120⁄150 = 0.8. Ισχύουν
ξανά οι προϋποθέσεις: ν𝑝0 = 150 ∙ 0.6 = 90 ≥ 5 και ν(1 − 𝑝0 ) = 150(1 − 0.6) = 60 ≥ 5, και έχουμε την
ίδια απορριπτική περιοχή της 𝛨0 :
𝑝̂−𝑝0
Εάν > 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈
Επομένως όταν έχουμε μεγαλύτερο δείγμα ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς η 𝛨0
απορρίπτεται σε επίπεδο σημαντικότητας 5%. Άρα σε αυτήν την περίπτωση μπορούμε να ισχυριστούμε ότι το
νέο φυτοφάρμακο έχει μεγαλύτερη αποτελεσματικότητα, δηλαδή ότι το νέο φυτοφάρμακο αυξάνει το
ποσοστό των φυτών που θεραπεύονται.
γ) Ζητούνται 95% διαστήματα εμπιστοσύνης για το άγνωστο ποσοστό ενός πληθυσμού (αποτελεσματικότητα
του νέου φαρμάκου ή αλλιώς το ποσοστό των φυτών που θεραπεύονται όταν τους χορηγείται το νέο
φάρμακο), όταν έχουμε δεδομένα από 15 φυτά (1ο πείραμα) ή 150 φυτά (2ο πείραμα). Τα ζητούμενα 98%
διαστήματα εμπιστοσύνης δίνονται από τις παρακάτω σχέσεις, καθώς και στις δύο περιπτώσεις ισχύουν οι
προϋποθέσεις: ν𝑝̂ ≥ 5 και ν(1 − 𝑝̂ ) ≥ 5. Επιπλέον όταν ζητούνται 98% διαστήματα εμπιστοσύνης το
στατιστικό σφάλμα θα είναι α=0.02, επομένως 𝑧𝛼⁄2 = 𝑧0.02⁄2 = 𝑧0.01 = 2.33
𝑝̂ (1 − 𝑝̂ ) 0.8(1 − 0.8)
𝑝̂ ± 𝑧𝛼⁄2 √ = 0.8 ± 2.33√ = 0.8 ± 0.24 ή (0.56, 1.04) ή 56% − 104%
𝜈 15
𝑝̂ (1 − 𝑝̂ ) 0.8(1 − 0.8)
𝑝̂ ± 𝑧𝛼⁄2 √ = 0.8 ± 2.33√ = 0.8 ± 0.076 ή (0.724, 0.876) ή 72.4% − 87.6%
𝜈 150
22
12. Εταιρεία παραγωγής λιπασμάτων εμπορεύεται αυτή τη στιγμή ένα λίπασμα που έχει μέση απόδοση 75
κιλά/στρέμμα κάποιας καλλιέργειας. Δύο νέα λιπάσματα Α και Β για την ίδια καλλιέργεια δοκιμάζονται
πειραματικά σε 7 αγρούς με τις παρακάτω αποδόσεις:
Λίπασμα Α: 78.1 72.4 76.3 77.1 80.0 73.9 81.2
Λίπασμα Β: 81.5 83.4 78.7 81.5 81.4 79.8 80.7
Οι 7 αγροί της συγκεκριμένης καλλιέργειας είχαν χωριστεί στη μέση. Στο μισό αγροτεμάχιο
χρησιμοποιήθηκε το λίπασμα Α και στο άλλο μισό το λίπασμα Β.
(α) Με βάση αυτό το πείραμα μπορεί η εταιρεία να συμπεράνει ότι το νέο λίπασμα Α αυξάνει τη μέση
απόδοση της συγκεκριμένης καλλιέργειας; Κάντε κατάλληλο έλεγχο σε επίπεδο σημαντικότητας 5%.
(β) Δώστε 99% διάστημα εμπιστοσύνης για τη μέση απόδοση της συγκεκριμένης καλλιέργειας, όταν
χρησιμοποιείται το λίπασμα Α.
(γ) Σε επίπεδο σημαντικότητας 5% μπορεί η εταιρεία να συμπεράνει ότι υπάρχει στατιστικά σημαντική
διαφορά μεταξύ των μέσων αποδόσεων των δύο λιπασμάτων Α και Β, όταν χρησιμοποιούνται στη
συγκεκριμένη καλλιέργεια;
(δ) Σε επίπεδο σημαντικότητας 5% μπορεί η εταιρεία να συμπεράνει ότι το λίπασμα Β αυξάνει περισσότερο
από 2 κιλά/στρέμμα τη μέση απόδοση της συγκεκριμένης καλλιέργειας σε σχέση με το λίπασμα Α; Κάντε
κατάλληλο έλεγχο υποθέσεων.
(ε) Δώστε 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων αποδόσεων των δύο λιπασμάτων Α και Β
όταν χρησιμοποιούνται στη συγκεκριμένη καλλιέργεια.
(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού (απόδοση του νέου
λιπάσματος Α). Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇0 = 75 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝜇𝛢 > 75 (εναλλακτική υπόθεση) ) (Θέτουμε το ερώτημα του ερευνητή)
Καταρχάς από τα πειραματικά δεδομένα υπολογίζουμε την μέση τιμή και την τυπική απόκλιση του δείγματος:
∑𝜈𝑖=1 𝑥𝛢𝑖 𝑥𝛢1 + 𝑥𝛢2 + ⋯ + 𝑥𝛢7 78.1 + 72.4 + ⋯ + 81.2
𝑥̅𝛢 = = = = 77
𝜈𝛢 7 7
𝜈
1 1
𝑠𝛢2 = ∑(𝑥𝛢𝑖 − 𝑥̅𝛢 )2 = [(78.1 − 77)2 + (72.4 − 77)2 + ⋯ + (81.2 − 77)2 ] = 9.85
𝜈𝛢 − 1 7−1
𝑖=1
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα 𝜈𝛢 =7<30, η
απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ 𝛢 −𝜇0
Εάν > 𝑡𝜈𝛢−1,𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝛢 ⁄√𝜈𝛢
23
Αντικαθιστώντας σε επίπεδο σημαντικότητας α=0.05 έχουμε:
77−75
= 1.68 < 𝑡𝜈𝛢−1,𝛼 = 𝑡7−1,0.05 = 𝑡6,0.05 =1.943
3.14⁄√7
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 5%. Συνεπώς από αυτό το μικρό πείραμα των 7 παρατηρήσεων δεν μπορούμε να
ισχυριστούμε ότι η μέση στρεμματική απόδοση του νέου λιπάσματος είναι μεγαλύτερη από 75 κιλά.
(β) Ζητείται 99% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (απόδοση του νέου λιπάσματος
Α). Από τα πειραματικά δεδομένα υπολογίσαμε: 𝑥̅𝛢 = 77 κιλά/στρέμμα και 𝑠𝛢 =3.14 κιλά/στρέμμα.
Καθώς η διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μικρό δείγμα 𝜈𝛢 = 7 < 30, το
ζητούμενο 98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠𝛢
𝑥̅𝛢 ± 𝑡𝜈𝛢−1, 𝛼⁄2
√𝜈𝛢
Όμως όταν ζητείται 99% διάστημα εμπιστοσύνης, το στατιστικό σφάλμα θα είναι α=0.01, επομένως
𝛼⁄2 =0.005 και 𝑡𝜈𝛢−1, 𝛼⁄2 = 𝑡7−1,0.005 = 𝑡6,0.005 = 3.707
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
3.14
77 ± ⋅3.707 ή 77 ± 4.4 ή (72.6, 81.4)
√7
Επομένως με πιθανότητα 0.99, μπορούμε να ισχυριστούμε ότι η μέση στρεμματική απόδοση του νέου
λιπάσματος Α κυμαίνεται από 72.6 έως 81.4 κιλά.
(γ) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇𝛢 = 𝜇𝛣 ή 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢 ≠ 𝜇𝛣 𝛨1 : 𝜇𝛢 − 𝜇𝛣 ≠ 0 (εναλλακτική υπόθεση)
Τα δείγματα είναι εξαρτημένα, δηλαδή έχουμε ζευγαρωτές παρατηρήσεις, καθώς το πείραμα λαμβάνει χώρα
σε 7 αγρούς της συγκεκριμένης καλλιέργειας, οι οποίοι είχαν χωριστεί στη μέση. Στο μισό αγροτεμάχιο
χρησιμοποιήθηκε το λίπασμα Α και στο άλλο μισό το λίπασμα Β. Επομένως το πείραμα γίνεται κάτω από τις
ίδιες συνθήκες (τα λιπάσματα δοκιμάζονται σε αγρούς ίδιας γονιμότητας, ίδιας καλλιέργειας, με τις ίδιες
καιρικές συνθήκες κ.λ.π.). Σε αυτήν την περίπτωση οι στατιστικές υποθέσεις διατυπώνονται ως εξής:
𝛨0 : 𝜇𝛢−𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢−𝛣 ≠ 0 (εναλλακτική υπόθεση)
και η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
Εάν
|𝑑̅ −𝛿|
> 𝑡𝜈−1,𝛼/2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈
όπου 𝑑̅ και 𝑠𝑑 η μέση τιμή και η τυπική απόκλιση αντίστοιχα των διαφορών 𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 7
Επομένως για να ελέγξουμε τις στατιστικές υποθέσεις μας θα πρέπει να βρούμε τις διαφορές
24
𝑑𝑖 = 𝑥𝐴𝑖 − 𝑥𝐵𝑖 , 𝑖 = 1,2, … , 7 και στη συνέχεια να υπολογίσουμε τη μέση τιμή και την τυπική απόκλιση (𝑑̅
και 𝑠𝑑 ) των διαφορών. Επομένως:
Στη συνέχεια υπολογίζουμε τα 𝑑̅ και 𝑠𝑑 από τους γνωστούς τύπους της μέσης τιμής και της διασποράς:
𝜈
1
𝑑̅ = ∑ 𝑑𝑖
𝜈
𝑖=1
𝜈 𝜈
1 2 1
𝑠𝑑 2 = ∑(𝑑𝑖 − 𝑑̅ ) = (∑ 𝑑𝑖2 − 𝜈𝑑̅ 2 )
𝜈−1 𝜈−1
𝑖=1 𝑖=1
Αντικαθιστώντας έχουμε:
𝜈
1 (−3.4) + (−11) + ⋯ + (0.5)
𝑑̅ = ∑ 𝑑𝑖 = = −4
𝜈 7
𝑖=1
𝜈
1 [(−3.4)2 + (−11)2 + ⋯ + (0.5)2 ] − 7 ∙ (−4)2
𝑠𝑑 2 = (∑ 𝑑𝑖2 − 𝜈𝑑̅2 ) = = 13.78
𝜈−1 7−1
𝑖=1
Αντικαθιστούμε στην παρακάτω σχέση του στατιστικού κριτηρίου με δ=0 και έχουμε:
Εάν
|𝑑̅ −𝛿|
> 𝑡𝜈−1,𝛼/2 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝑑 ⁄√𝜈
|−4|
= 2.85 > 𝑡𝜈−1,𝑎/2 = 𝑡7−1,0.05/2 = 𝑡6,0.025 = 2.447
3.71⁄√7
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις μέσες στρεμματικές
αποδόσεις των δύο λιπασμάτων Α και Β της συγκεκριμένης καλλιέργειας.
Όπου 𝛿 = −2 και 𝑑̅, 𝑠𝑑 η μέση τιμή και η τυπική απόκλιση των διαφορών 𝑑𝑖 = 𝑥𝛢𝑖 − 𝑥𝛣𝑖 , 𝑖 = 1,2, … , 7
̅ = 4 και 𝑠𝑑′ = 3.71
Παίρνοντας το 1ο ζεύγος στατιστικών υποθέσεων αντικαθιστώντας στο κριτήριο, όπου 𝑑΄
και 𝛿΄ = 2 έχουμε:
4−2
= 1.43 < 𝑡𝜈−1,𝛼 = 𝑡7−1,0.05 = 𝑡6,0.05 = 1.943
3.71/√7
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν απορρίπτεται. Επομένως σε
επίπεδο σημαντικότητας 5%, δεν μπορεί η εταιρεία να συμπεράνει ότι το λίπασμα Β αυξάνει περισσότερο
από 2 κιλά/στρέμμα τη μέση απόδοση της συγκεκριμένης καλλιέργειας σε σχέση με το λίπασμα Α. Στο ίδιο
συμπέρασμα θα καταλήγαμε εάν παίρναμε το 2ο ζεύγος στατιστικών υποθέσεων και την αντίστοιχη περιοχή
απόρριψης της 𝛨0 .
(ε) Ζητείται 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων αποδόσεων των δύο λιπασμάτων Α και
Β όταν χρησιμοποιούνται στη συγκεκριμένη καλλιέργεια. Όπως είπαμε και στο (γ) και (δ) ερώτημα τα δύο
δείγματα είναι εξαρτημένα, δηλαδή έχουμε ζευγαρωτές παρατηρήσεις. Σε αυτήν την περίπτωση το ζητούμενο
95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών 𝜇𝛣 − 𝜇𝛢 δίνεται από τη σχέση:
𝑠𝑑′
̅±
𝑑΄ 𝑡𝜈−1,𝛼⁄2
√𝜈
Όπου 𝑧̅′ και 𝑠𝑧′ μέσος και η τυπική απόκλιση των διαφορών 𝑑𝑖′ = 𝑥𝐵𝑖 − 𝑥𝐴𝑖 , 𝑖 = 1,2, … , 7, τα οποία έχουν ήδη
̅ =4
υπολογιστεί και είναι: 𝑑΄ και 𝑠𝑑′ = 3.71. Όμως όταν ζητείται 95% διάστημα εμπιστοσύνης, το
στατιστικό σφάλμα θα είναι α=0.05, επομένως 𝛼 ⁄2 =0.025 και 𝑡𝜈𝛢−1, 𝛼⁄2 = 𝑡7−1,0.025 = 𝑡6,0.025 = 2.447.
Επομένως το ζητούμενο 95% διάστημα εμπιστοσύνης θα είναι:
3.71
4± ⋅ 2.447 ή 4 ± 3.43 ή (0.57, 7.43)
√7
Επομένως με πιθανότητα 0.95, μπορούμε να ισχυριστούμε ότι η διαφορά των μέσων αποδόσεων των δύο
λιπασμάτων B και A, όταν χρησιμοποιούνται στη συγκεκριμένη καλλιέργεια κυμαίνεται από 0.57 έως 7.43
κιλά.
13. 48 αγρότες μιας περιοχής καλλιεργούν παραδοσιακά ο καθένας στον αγρό του την ποικιλία Α ενός
αρωματικού φυτού. Την τελευταία χρονιά η μέση στρεμματική απόδοση ήταν x A 82 κιλά και η δειγματική
τυπική απόκλιση SA = 12 κιλά. Ο γεωπόνος της περιοχής για να τους πείσει να καλλιεργήσουν μια νέα
ποικιλία Β, η οποία ενώ πωλείται στην ίδια τιμή έχει μεγαλύτερες αποδόσεις, τους αναφέρει ότι 64 άλλοι
26
αγρότες μιας άλλης περιοχής την τελευταία χρονιά καλλιέργησαν την ποικιλία Β και είχαν μέση στρεμματική
απόδοση x B 102 κιλά και δειγματική τυπική απόκλιση SB = 16 κιλά.
α) Να ελεγχθεί σε επίπεδο σημαντικότητας 5% εάν ισχύει ο ισχυρισμός του γεωπόνου (ότι δηλαδή η ποικιλία
Β έχει μεγαλύτερη απόδοση από την ποικιλία Α).
β) Οι αγρότες τελικά συμφωνούν να καλλιεργήσουν την ποικιλία Β, μόνο εάν η Β έχει μέση στρεμματική
απόδοση 15 κιλά περισσότερο απ’ ότι η ποικιλία Α. Ελέγξτε σε επίπεδο σημαντικότητα 5% εάν θα αλλάξει
τελικά ή όχι η καλλιέργεια.
γ) Να ελεγχθεί σε επίπεδο σημαντικότητας 1% εάν η μέση απόδοση της ποικιλίας B είναι μεγαλύτερη από 98
κιλά το στρέμμα.
δ) Να βρεθεί 98% διάστημα εμπιστοσύνης για τη μέση στρεμματική απόδοση της ποικιλίας Β.
(α) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των μέσων τιμών δύο πληθυσμών. Έστω 𝜇𝛢
η μέση στρεμματική απόδοση της ποικιλίας Α και 𝜇𝛣 η μέση στρεμματική απόδοση της ποικιλίας Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝜇𝛢 = 𝜇𝛣 ή 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = 0 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛢 < 𝜇𝛣 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < 0 (εναλλακτική υπόθεση)
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από την ποικιλία Α: 𝜈𝛢 = 48, 𝑥̅𝛢 = 82 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇. , 𝑠𝛢 = 12 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇.
Δείγματα από την ποικιλία Β: 𝜈𝛣 = 64, 𝑥̅𝛣 = 102 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇. , 𝑠𝛣 = 16 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇.
Επειδή οι διακυμάνσεις των δύο πληθυσμών είναι άγνωστες και επιπλέον έχουμε μεγάλα δείγματα ν1 =48 >30
και ν2 =64 >30, η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
Εάν
𝑥̅𝛢 − 𝑥̅ 𝛣 −𝛿
< −𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠2 𝑠2
√ 𝛢 + 𝛣
𝜈𝛢 𝜈𝛣
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς η ποικιλία Β έχει μεγαλύτερη απόδοση από την ποικιλία Α.
(β) 𝛨0 : 𝜇𝛣 − 𝜇𝛢 = 15 ή ισοδύναμα 𝛨0 : 𝜇𝛢 − 𝜇𝛣 = −15 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝜇𝛣 − 𝜇𝛢 > 15 𝛨1 : 𝜇𝛢 − 𝜇𝛣 < −15 (εναλλακτική υπόθεση)
Εάν πάρουμε το 1ο ζεύγος στατιστικών υποθέσεων θα έχουμε την παρακάτω περιοχή απόρριψης της 𝛨0 (οι
διακυμάνσεις των δύο πληθυσμών είναι άγνωστες και επιπλέον έχουμε μεγάλα δείγματα ν1 =48 >30 και ν2 =64
>30):
27
Εάν
𝑥̅𝛣 − 𝑥̅ 𝛢 −𝛿
> 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠2 𝑠2
√ 𝛣 + 𝛢
𝜈𝛣 𝜈𝛢
Άρα ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 απορρίπτεται σε επίπεδο
σημαντικότητας 5%. Συνεπώς η ποικιλία Β έχει μεγαλύτερη στρεμματική απόδοση από την ποικιλία Α
περισσότερο από 15 κιλά.
γ) Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη μέση τιμή ενός πληθυσμού (ποικιλία Β).
𝛨0 : 𝜇0 = 98 (αρχική υπόθεση)
𝛨1 : 𝜇 > 98 (εναλλακτική υπόθεση)
Από τα πειραματικά δεδομένα έχουμε:
Δείγματα από την ποικιλία Β: 𝜈𝛣 = 64, 𝑥̅𝛣 = 102 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇. , 𝑠𝛣 = 16 𝑘𝑔𝑟/𝜎𝜏𝜌𝜀𝜇.
Επειδή η διακύμανση του πληθυσμού είναι άγνωστη, αλλά έχουμε μεγάλο δείγμα 𝜈𝛣 = 64 >30, η απορριπτική
περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑥̅ 𝛣 −𝜇0
Εάν > 𝑧𝑎 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
𝑠𝐵 ⁄√𝜈𝛣
102−98 4√64
Αντικαθιστώντας έχουμε: = = 2 < 𝑧𝑎 = 𝑧0.01 = 2.33
16⁄√64 16
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να απορριφθεί σε
επίπεδο σημαντικότητας 1%. Συνεπώς (με βεβαιότητα 99%) δεν μπορούμε να ισχυριστούμε ότι η μέση
στρεμματική απόδοση της ποικιλίας Β είναι μεγαλύτερη από 98 κιλά.
δ) Ζητείται 98% διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού (απόδοση ποικιλίας Β). Καθώς η
διακύμανση του πληθυσμού είναι άγνωστη και επιπλέον έχουμε μεγάλο δείγμα 𝜈𝛣 = 64 >30, το ζητούμενο
98% διάστημα εμπιστοσύνης θα δίνεται από τη σχέση:
𝑠𝛣
̅𝛣 ±
𝑥 𝑧𝛼⁄2
√ 𝜈𝛣
28
Όμως όταν ζητείται 98% διάστημα εμπιστοσύνης το στατιστικό σφάλμα θα είναι α = 0.02, επομένως 𝛼 ⁄2 =
0.01 και 𝑧𝛼⁄2 = 𝑧0.01 = 2.33
Επομένως το ζητούμενο 98% διάστημα εμπιστοσύνης θα είναι:
16
102 ±
√64
⋅ 2.33 ή 102 ± 4.66 ή (97.34, 106.66)
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
29
Πίνακας της tν,α κατανομής (Student)
α
β.ε. 0.10 0.05 0.025 0.01 0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
∞ 1.282 1.646 1.962 2.330 2.581
30
Στατιστική ανάλυση κατηγορικών δεδομένων
Στατιστικό τεστ 𝜲𝟐
1
παρακάτω πίνακα έχουμε τις παρατηρηθείσες και τις αναμενόμενες ή θεωρητικές συχνότητες
𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 , 𝑖 = 1,2, … , 𝜅 :
Α Β Γ Άθροισμα
Παρατηρηθείσες
συχνότητες 𝜋𝑖 18 44 28 90
Αναμενόμενες ή θεωρητικές 1⁄4 ∙ 90 = 2⁄4 ∙ 90 = 1⁄4 ∙ 90
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 22.5 45 = 22.5 90
𝜋𝑖 − 𝜃𝑖 -4.5 -1 5.5
2
(18 − 22.5)2 (44 − 45)2 (28 − 22.5)2 2 2 2
𝛸 = + + = 2.26 < 𝜒𝜅−1,𝛼 = 𝜒3−1,0.05 = 𝜒2,0.05
22.5 45 22.5
= 5.99
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως τα αποτελέσματα αυτά επαληθεύουν
το γενετικό μοντέλο.
2
Β) Δοκιμασία 𝜲𝟐 ανεξαρτησίας ή ομοιογένειας
Πολύ συχνά σε πειραματικές ή δειγματοληπτικές έρευνες τα δεδομένα ταξινομούνται όχι μόνο ως
προς ένα χαρακτηριστικό, αλλά και ως προς ένα δεύτερο και έτσι προκύπτουν δισδιάστατα
δεδομένα που παρουσιάζονται σε δισδιάστατους πίνακες συχνότητας, τους πίνακες συνάφειας.
Παράδειγμα 2: Δύο εμβόλια (Α και Β) που δοκιμάζονται για κάποια ασθένεια που προσβάλει τα
πρόβατα, συγκρίθηκαν με ένα εμβόλιο που περιείχε αποσταγμένο νερό (Γ). Ο αριθμός των
προβάτων που αρρώστησαν ή δεν αρρώστησαν από τη συγκεκριμένη ασθένεια ήταν:
Εμβόλια
Α Β Γ
Αρρώστησαν 23 27 50
Δεν αρρώστησαν 147 153 100
όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες, 𝜃𝑖𝑗 οι θεωρητικές, κ ο αριθμός των γραμμών και λ ο
αριθμός των στηλών του πίνακα συνάφειας. Για να εφαρμόσουμε το τεστ 𝛸 2 , θα πρέπει για όλες
τις θεωρητικές συχνότητες να ισχύει: 𝜃𝑖 ≥5, ∀ (𝑖, 𝑗).
Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:
3
(ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑖 𝛾𝜌𝛼𝜇𝜇ή𝜍) × (ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼 𝑗 𝜎𝜏ή𝜆𝜂𝜍)
𝜃𝑖𝑗 = ∀ (𝑖, 𝑗).
𝜎𝜐𝜈𝜊𝜆𝜄𝜅ό ά𝜃𝜌𝜊𝜄𝜎𝜇𝛼
Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:
Εμβόλια
Α Β Γ Άθροισμα
Αρρώστησαν 23 (34) 27 (36) 50 (30) 100
Δεν αρρώστησαν 147 (136) 153 (144) 100 (120) 400
Άθροισμα 170 180 150 500
(𝜋𝑖𝑗 −𝜃𝑖𝑗 )2 2
𝛸 = ∑𝜅𝑖=1 ∑𝜆𝑗=1
2
> 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃𝑖𝑗
όπου κ ο αριθμός των γραμμών και λ ο αριθμός των στηλών του πίνακα συνάφειας.
Αντικαθιστώντας έχουμε:
= 𝜒(22−1)(3−1),0.05 = 𝜒2,0.05
2
= 5.99
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως τα εμβόλια Α, Β, Γ δεν έχουν την ίδια αποτελεσματικότητα.
4
συγκρίνουμε μόνο τα εμβόλια Α και Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Τα εμβόλια Α και Β έχουν την ίδια αποτελεσματικότητα ή 𝑝𝐴 = 𝑝𝐵 .
𝛨1 : Τα εμβόλια Α και Β δεν έχουν την ίδια αποτελεσματικότητα ή 𝑝𝛢 ≠ 𝑝𝛣
Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:
Εάν
2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗
όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες και 𝜃𝑖𝑗 οι θεωρητικές. Θα πρέπει: 𝜃𝑖𝑗 ≥5, ∀ (𝑖, 𝑗).
Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:
Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:
50 ∙ 170 50 ∙ 180
𝜃11 = = 24.3 𝜃12 = = 25.7
350 350
300 ∙ 170 300 ∙ 180
𝜃21 = = 145.7 𝜃22 = = 154.3
350 350
Α Β Άθροισμα
Αρρώστησαν 23 (24.3) 27 (25.7) 50
Δεν αρρώστησαν 147 (145.7) 153 (154.3) 300
Άθροισμα 170 180 350
Καθώς για όλες τις θεωρητικές συχνότητες ισχύουν οι προϋποθέσεις 𝜃𝑖𝑗 ≥5, ελέγχουμε εάν ισχύει
το στατιστικό κριτήριο. Αντικαθιστώντας έχουμε:
5
(23 − 24.3)2 (27 − 25.7)2 (147 − 145.7)2 (153 − 154.3)2
𝛸2 = + + + = 0.016 <
24.3 25.7 145.7 154.3
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως τα εμβόλια Α και Β δεν έχουν την ίδια
αποτελεσματικότητα.
6
είναι στρογγυλοί-κίτρινοι, τα 3⁄16 να είναι ρυτιδωμένοι-κίτρινοι, τα 3⁄16 να είναι στρογγυλοί-
πράσινοι και το 1⁄16 να είναι ρυτιδωμένοι-πράσινοι. Επομένως στους 160 απογόνους του
πειράματός μας θα αναμέναμε: 9⁄16 ∙ 160 = 90 απογόνους στρογγυλούς-κίτρινους, 3⁄16 ∙ 160 =
30 απογόνους ρυτιδωμένους-κίτρινους, 3⁄16 ∙ 160 = 30 απογόνους στρογγυλούς-πράσινους και
1⁄16 ∙ 160 = 10 απογόνους ρυτιδωμένους-πράσινους. Στον παρακάτω πίνακα έχουμε τις
παρατηρηθείσες και τις αναμενόμενες συχνότητες:
(𝜋𝑖 − 𝜃𝑖 )2 9 25 16 4
Αντικαθιστούμε τις παρατηρηθείσες και τις αναμενόμενες συχνότητες και ελέγχουμε εάν ισχύει η
ανισότητα του στατιστικού κριτηρίου:
2
(87 − 90)2 (35 − 30)2 (26 − 30)2 (12 − 10)2 2 2
𝛸 = + + + = 1.86 < 𝜒𝜅−1,𝛼 = 𝜒4−1,0.05
90 30 30 10
2
= 𝜒3,0.05 = 7.81
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως τα αποτελέσματα αυτά επαληθεύουν
τη θεωρία του Mendel.
2. Σε 600 πρόβατα μιας περιοχής βρέθηκε ότι τα 210 ήταν της φυλής Α, τα 220 της φυλής Β και
τα υπόλοιπα της φυλής Γ. α) Σε επίπεδο σημαντικότητας α=0.05, μπορούμε να ισχυριστούμε ότι
οι τρεις φυλές Α, Β, Γ της περιοχής βρίσκονται στην ίδια αναλογία; β) Σε επίπεδο σημαντικότητας
α=0.05, μπορούμε να ισχυριστούμε ότι τα πραγματικά ποσοστά των τριών φυλών Α, Β και Γ είναι
35%, 35% και 30% αντίστοιχα;
7
α) Πρόκειται για 𝛸 2 στατιστικό έλεγχο καλής προσαρμογής.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Οι τρεις φυλές Α, Β, Γ της περιοχής βρίσκονται στην ίδια αναλογία ([Link])
𝛨1 : Οι τρεις φυλές Α, Β, Γ της περιοχής δεν βρίσκονται στην ίδια αναλογία ([Link])
Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:
Εάν
2
2 𝜅 (𝜋𝑖 −𝜃𝑖 ) 2
𝛸 = ∑𝑖=1 > 𝜒𝜅−1,𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖
όπου 𝜋𝑖 οι παρατηρηθείσες συχνότητες και 𝜃𝑖 οι θεωρητικές. Θα πρέπει: 𝜃𝑖 ≥5, 𝑖 = 1, 2, 3
Στον παρακάτω πίνακα παραθέτουμε τις παρατηρηθείσες και τις αναμενόμενες συχνότητες:
Κατηγορίες
Α Β Γ Άθροισμα
Παρατηρηθείσες 210 220 170
συχνότητες 𝜋𝑖 600
Αναμενόμενες ή θεωρητικές 1⁄3 ∙ 600 = 1⁄3 ∙ 600 = 1⁄3 ∙ 600 =
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 200 200 200 600
𝜋𝑖 − 𝜃𝑖 10 20 -30
2
(210 − 200)2 (220 − 200)2 (170 − 200)2 2 2 2
𝛸 = + + = 7 > 𝜒𝜅−1,𝛼 = 𝜒3−1,0.05 = 𝜒2,0.05
200 200 200
= 5.99
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως δεν μπορούμε να ισχυριστούμε ότι οι τρεις φυλές Α, Β, Γ της
περιοχής βρίσκονται στην ίδια αναλογία.
8
β) Θα εφαρμόσουμε και σε αυτήν την περίπτωση το τεστ 𝛸 2 καλής προσαρμογής.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : Οι τρεις φυλές Α, Β, Γ βρίσκονται σε ποσοστό 𝑝𝐴 = 0.35, 𝑝𝐵 = 0.35, 𝑝𝛤 = 0.30
𝛨1 : Οι τρεις φυλές Α, Β, Γ δεν βρίσκονται σε ποσοστό 𝑝𝐴 = 0.35, 𝑝𝐵 = 0.35, 𝑝𝛤 = 0.30
Κατηγορίες
Α Β Γ Άθροισμα
Παρατηρηθείσες 210 220 170
συχνότητες 𝜋𝑖 600
Αναμενόμενες ή 0.35 ∙ 600 = 0.35 ∙ 600 = 0.30 ∙ 600 =
θεωρητικές συχνότητες 𝜃𝑖 210 210 180 600
𝜋𝑖 − 𝜃𝑖 0 10 -10
2
(210 − 210)2 (220 − 210)2 (170 − 180)2 2 2 2
𝛸 = + + = 1.04 < 𝜒𝜅−1,𝛼 = 𝜒3−1,0.05 = 𝜒2,0.05
210 210 180
= 5.99
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως τα πειραματικά δεδομένα υποστηρίζουν ότι οι τρεις φυλές Α, Β,
Γ της περιοχής βρίσκονται σε ποσοστό 35%, 35% και 30% αντίστοιχα.
9
3. Στη βιβλιογραφία αναφέρεται ότι τα ποσοστά των ομάδων αίματος Α, Β, ΑΒ και Ο σε έναν
πληθυσμό είναι 0.41, 0.10, 0.04 και 0.45 αντίστοιχα. Μια ομάδα ερευνητών, προκειμένου να
ελέγξει αν τα ποσοστά των ομάδων αίματος σε αυτόν τον πληθυσμό είναι πράγματι αυτά που
αναφέρονται στην βιβλιογραφία, επέλεξε τυχαία 200 άτομα από αυτόν τον πληθυσμό και για
καθένα κατέγραψε την ομάδα αίματός του. Στον πίνακα που ακολουθεί φαίνεται η συχνότητα
κάθε ομάδας αίματος που παρατηρήθηκε στο δείγμα.
Ομάδα αίματος
Α Β ΑΒ Ο
Συχνότητα
89 18 12 81
(παρατηρηθείσα)
α) Σε επίπεδο σημαντικότητας 5%, τα ποσοστά που παρατηρούνται στο δείγμα συμφωνούν ή όχι,
με τα αντίστοιχα ποσοστά που αναφέρονται στη βιβλιογραφία; β) Με βάση το συμπέρασμά σας
στο (α), μπορείτε να αποφασίσετε σε επίπεδο σημαντικότητας 1%, αν τα ποσοστά που
παρατηρούνται στο δείγμα συμφωνούν ή όχι, με τα αντίστοιχα ποσοστά που αναφέρονται στη
βιβλιογραφία; Εξηγείστε.
10
Ομάδες αίματος
Α Β ΑΒ Ο Άθροισμα
Παρατηρηθείσες
89 18 12 81
συχνότητες 𝜋𝑖 200
Αναμενόμενες ή θεωρητικές 0.41 ∙ 200 = 0.10 ∙ 200 = 0.04 ∙ 200 = 0.45∙200 =
συχνότητες 𝜃𝑖 = 𝜈 ∙ 𝑝𝑖 82 20 8 90 200
𝜋𝑖 − 𝜃𝑖 7 -2 4 -9
(𝜋𝑖 − 𝜃𝑖 )2 49 4 16 81
(𝜋𝑖 − 𝜃𝑖 )2 0.598 0.2 2 0.9 3.698
𝜃𝑖
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως δεν μπορούμε να ισχυριστούμε ότι οι
ομάδες αίματος Α, Β, ΑΒ, Ο στον πληθυσμό βρίσκονται σε ποσοστό 𝑝𝐴 = 0.41, 𝑝𝐵 = 0.10,
𝑝𝛢𝛣 = 0.04 και 𝑝𝛰 = 0.45 αντίστοιχα.
β) Σε αυτή την περίπτωση έχουμε τις ίδιες στατιστικές υποθέσεις και ο στατιστικός έλεγχος είναι
ο ίδιος. Το μόνο που αλλάζει είναι το επίπεδο σημαντικότητας. Επομένως όταν α = 0.01, το
2 2 2
𝜒𝜅−1,𝛼 = 𝜒4−1,0.01 = 𝜒3,0.01 =11.34. Άρα το 3.698 < 11.34 και συνεπώς και σε επίπεδο
σημαντικότητας 1% αποδεχόμαστε την 𝛨0 .
5. Η κατανομή του βάρους των νεογέννητων τριών φυλών χοίρων έδωσε τα παρακάτω
αποτελέσματα:
Βάρος σε κιλά
Φυλές ≤3 4 5 ≥6
Α 5 15 12 18
Β 3 7 12 8
Γ 2 8 6 4
11
Ελέγξτε εάν το βάρος των νεογέννητων χοιριδίων εξαρτάται από τη φυλή στην οποία ανήκουν
(α=0.05).
όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες, 𝜃𝑖𝑗 οι θεωρητικές, κ ο αριθμός των γραμμών και λ ο
αριθμός των στηλών του πίνακα συνάφειας. Για να εφαρμόσουμε το τεστ 𝛸 2 , θα πρέπει για όλες
τις θεωρητικές συχνότητες να ισχύει: 𝜃𝑖 ≥5, ∀ (𝑖, 𝑗).
Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:
50 ∙ 10 50 ∙ 30 50 ∙ 30 50 ∙ 30
𝜃11 = =5 𝜃12 = = 15 𝜃13 = = 15 𝜃14 = = 15
100 100 100 100
30 ∙ 10 30 ∙ 30 30 ∙ 30 30 ∙ 30
𝜃21 = =3 𝜃22 = =9 𝜃23 = =9 𝜃24 = =9
100 100 100 100
20 ∙ 10 20 ∙ 30 20 ∙ 30 20 ∙ 30
𝜃31 = =2 𝜃32 = =6 𝜃33 = =6 𝜃34 = =6
100 100 100 100
12
Βάρος σε κιλά
Φυλές ≤3 4 5 ≥6 Άθροισμα
Α 5 (5) 15 (15) 12 (15) 18 (15) 50
Β 3 (3) 7 (9) 12 (9) 8 (9) 30
Γ 2 (2) 8 (6) 6 (6) 4 (6) 20
Άθροισμα 10 30 30 30 100
Καταρχάς παρατηρούμε ότι δεν ισχύουν οι προϋποθέσεις 𝜃𝑖𝑗 ≥5, για όλα τα (𝑖, 𝑗). Σε αυτές τις
περιπτώσεις ενοποιούμε δύο διπλανές κατηγορίες, έτσι ώστε στη συνέχεια να ισχύει: 𝜃𝑖𝑗 ≥5,
∀ (𝑖, 𝑗). Σε αυτήν την περίπτωση ενώνουμε τις δύο πρώτες στήλες του πίνακα συνάφειας και
έχουμε:
Φυλές ≤4 5 ≥6 Άθροισμα
Α 20 (20) 12 (15) 18 (15) 50
Β 10 (12) 12 (9) 8 (9) 30
Γ 10 (8) 6 (6) 4 (6) 20
Άθροισμα 40 30 30 100
καθώς:
50 ∙ 40 50 ∙ 30 50 ∙ 30
𝜃11 = = 20 𝜃12 = = 15 𝜃13 = = 15
100 100 100
30 ∙ 40 30 ∙ 30 30 ∙ 30
𝜃21 = = 12 𝜃22 = =9 𝜃23 = =9
100 100 100
20 ∙ 40 20 ∙ 30 20 ∙ 30
𝜃31 = =8 𝜃32 = =6 𝜃33 = =6
100 100 100
Με τη δοκιμασία 𝛸 2 ελέγχουμε εάν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις
παρατηρηθείσες και τις θεωρητικές συχνότητες. Το στατιστικό κριτήριο που χρησιμοποιούμε
είναι:
Εάν
(𝜋𝑖𝑗 −𝜃𝑖𝑗 )2 2
𝛸 2 = ∑𝜅𝑖=1 ∑𝜆𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃𝑖𝑗
όπου κ ο αριθμός των γραμμών και λ ο αριθμός των στηλών του πίνακα συνάφειας.
13
Αντικαθιστώντας έχουμε:
= 𝜒(23−1)(3−1),0.05 = 𝜒4,0.05
2
= 9.49
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως το βάρος των νεογέννητων των τριών
φυλών χοίρων δεν διαφοροποιείται σημαντικά ανάλογα με τη φυλή ή θα μπορούσαμε να πούμε
ότι είναι ανεξάρτητο της φυλής.
6. Στον παρακάτω πίνακα δίνεται η συχνότητα προτίμησης από το καταναλωτικό κοινό τεσσάρων
ποικιλιών μήλων. 450 άτομα και των δύο φύλων δοκίμασαν τις ποικιλίες μήλων επιλέγοντας μόνο
μία.
Ποικιλίες μήλων
Φύλο Α Β Γ Δ
Άνδρες 32 44 72 52
Γυναίκες 78 56 63 53
14
Το στατιστικό κριτήριο για τον έλεγχο των παραπάνω υποθέσεων είναι:
Εάν
2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗
όπου 𝜋𝑖𝑗 οι παρατηρηθείσες συχνότητες, 𝜃𝑖𝑗 οι θεωρητικές, κ ο αριθμός των γραμμών και λ ο
αριθμός των στηλών του πίνακα συνάφειας. Επιπλέον θα πρέπει: 𝜃𝑖𝑗 ≥5, ∀ (𝑖, 𝑗).
Οι θεωρητικές συχνότητες υπολογίζονται από τη σχέση:
Στη συνέχεια αφού υπολογίσουμε τα αθροίσματα των γραμμών και των στηλών του πίνακα
συνάφειας υπολογίζουμε τις θεωρητικές συχνότητες:
Ποικιλίες μήλων
Φύλο Α Β Γ Δ Άθροισμα
Άνδρες 32 (48.9) 44 (44.4) 72 (60) 52 (46.7) 200
Γυναίκες 78 (61.1) 56 (55.6) 63 (75) 53 (58.3) 250
Άθροισμα 110 100 135 105 450
Εάν
2
2 𝜅 𝜆 (𝜋𝑖𝑗 −𝜃𝑖𝑗 ) 2
𝛸 = ∑𝑖=1 ∑𝑗=1 > 𝜒(𝜅−1)(𝜆−1),𝛼 απορρίπτουμε την 𝛨0 ,
𝜃 𝑖𝑗
όπου κ ο αριθμός των γραμμών και λ ο αριθμός των στηλών του πίνακα συνάφειας.
Αντικαθιστώντας έχουμε:
15
(32 − 48.9)2 (44 − 44.4)2 (53 − 58.3)2
𝛸2 = + + ⋯+ = 15.93 > 𝜒(2𝜅−1)(𝜆−1),𝛼
48.9 44.4 58.3
= 𝜒(22−1)(4−1),0.05 = 𝜒3,0.05
2
= 7.81
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως η προτίμηση της ποικιλίας μήλων διαφοροποιείται ανάλογα με
το φύλο (είναι διαφορετική ανάμεσα σε άνδρες και γυναίκες) ή αλλιώς θα μπορούσαμε να πούμε
ότι η προτίμηση της ποικιλίας μήλων είναι εξαρτάται από το φύλο.
β) Παίρνουμε τις απαντήσεις της δειγματοληψίας που αφορούν μόνο τις γυναίκες (ν = 250).
Θέλουμε να συγκρίνουμε τα ποσοστά των γυναικών που προτιμούν τις ποικιλίες Α και Β.
Διατυπώνουμε τις στατιστικές υποθέσεις:
𝛨0 : 𝑝𝛢 = 𝑝𝛣 (αρχική ή μηδενική υπόθεση)
𝛨1 : 𝑝𝛢 > 𝑝𝛣 (εναλλακτική υπόθεση)
Πρόκειται για στατιστικό έλεγχο υποθέσεων για τη σύγκριση των άγνωστων ποσοστών δύο
πληθυσμών (τα ποσοστά των γυναικών που προτιμούν τις ποικιλίες Α και Β).
Από τα πειραματικά δεδομένα έχουμε:
𝜈 = 250 το μέγεθος δείγματος, 𝑝̂𝛢 =78/250=0.312 το ποσοστό των γυναικών που προτιμούν την
ποικιλία Α και 𝑝̂ 𝛣 =56/250=0.224 το ποσοστό των γυναικών που προτιμούν την ποικιλία Β.
Καθώς ισχύουν οι προϋποθέσεις: 𝜈𝑖 𝑝̂𝑖 ≥ 5 και 𝜈𝑖 (1 − 𝑝̂𝑖 ) ≥ 5, 𝑖 =1, 2 η απορριπτική περιοχή της 𝛨0
είναι: Εάν
𝑝̂𝛢 −𝑝̂𝛣
1 1
> 𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝̂(1−𝑝̂)(𝜈 +𝜈 )
𝛢 𝛣
0.312 − 0.224
= 2.2 > 𝑧𝛼 = 𝑧0.05 = 1.645
√0.268(1 − 0.268)( 1 + 1 )
250 250
16
Επομένως ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς η 𝛨0 απορρίπτεται σε
επίπεδο σημαντικότητας 5%. Άρα βασιζόμενοι στη συγκεκριμένη δειγματοληπτική έρευνα
μπορούμε να ισχυριστούμε ότι το ποσοστό των γυναικών που προτιμούν την ποικιλία A είναι
μεγαλύτερο από αυτό που προτιμούν την ποικιλία B.
γ) Πρόκειται για στατιστικό έλεγχο υποθέσεων για το άγνωστο ποσοστό ενός πληθυσμού
(ποσοστό των ανδρών που προτιμούν την ποικιλία Α). Παίρνουμε τις απαντήσεις της
δειγματοληπτικής έρευνας που αφορούν μόνο τους άνδρες (ν = 200) και διατυπώνουμε τις
στατιστικές υποθέσεις:
𝛨0 : 𝑝0 = 0.20 (αρχική ή μηδενική υπόθεση) (Θέτουμε κάτι γενικό ή κάτι που ισχύει από παλιά)
𝛨1 : 𝑝𝐴 < 0.20 (εναλλακτική υπόθεση) (Θέτουμε το ερώτημα του ερευνητή)
Από τα πειραματικά δεδομένα έχουμε ν=200 το μέγεθος του δείγματος και 𝑝̂𝛢 = 32⁄200 = 0.16
το ποσοστό στο δείγμα. Ισχύουν οι προϋποθέσεις: 𝜈𝑝0 =200 ∙ 0.20=40 ≥ 5 και ν(1 − 𝑝0 ) =200 ∙
(1 − 0.20)=160 ≥ 5, συνεπώς η απορριπτική περιοχή της 𝛨0 δίνεται από τη σχέση:
𝑝̂𝛢 −𝑝0
Εάν < −𝑧𝛼 απορρίπτουμε την 𝛨0 (στατιστικό κριτήριο)
√𝑝0 (1−𝑝0 )/𝜈
Άρα δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και επομένως η 𝛨0 δεν μπορεί να
απορριφθεί σε επίπεδο σημαντικότητας 5%. Συνεπώς βασιζόμενοι στη συγκεκριμένη
δειγματοληπτική έρευνα δεν μπορούμε να ισχυριστούμε ότι το ποσοστό των ανδρών που προτιμούν
την ποικιλία A είναι μικρότερο του 20%.
17
Στατιστικός πίνακας της 𝝌𝟐 κατανομής
α
ν 0.05 0.025 0.010 0.005 0.001
1 3.84 5.02 6.63 7.88 10.83
2 5.99 7.38 9.21 10.60 13.82
3 7.81 9.35 11.34 12.84 16.27
4 9.49 11.14 13.28 14.86 18.47
5 11.07 12.83 15.09 16.75 20.52
6 12.59 14.45 16.81 18.55 22.46
7 14.07 16.01 18.48 20.28 24.32
8 15.51 17.53 20.09 21.95 26.12
9 16.92 19.02 21.67 23.59 27.88
10 18.31 20.48 23.21 25.19 29.59
11 19.68 21.92 24.72 26.76 31.26
12 21.03 23.34 26.22 28.30 32.91
13 22.36 24.74 27.69 29.82 34.53
14 23.68 26.12 29.14 31.32 36.12
15 25.00 27.49 30.58 32.80 37.70
16 26.30 28.85 32.00 34.27 39.25
17 27.59 30.19 33.41 35.72 40.79
18 28.87 31.53 34.81 37.16 42.31
19 30.14 32.85 36.19 38.58 43.82
20 31.41 34.17 37.57 40.00 45.31
21 32.67 35.48 38.93 41.40 46.80
22 33.92 36.78 40.29 42.80 48.27
23 35.17 38.08 41.64 44.18 49.73
24 36.42 39.36 42.98 45.56 51.18
25 37.65 40.65 44.31 46.93 52.62
26 38.89 41.92 45.64 48.29 54.05
27 40.11 43.19 46.96 49.64 55.48
28 41.34 44.46 48.28 50.99 56.89
29 42.56 45.72 49.59 52.34 58.30
30 43.77 46.98 50.89 53.67 59.70
18
Πίνακας Τυπικής Κανονικής κατανοµής
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
19
Ανάλυση διασποράς (Ανάλυση διακύμανσης)
Προϋποθέσεις για την εφαρμογή της μεθόδου: Όλοι οι πληθυσμοί από τους οποίους προέρχονται
τα κ δείγματα είναι κανονικοί με ίσες διακυμάνσεις.
1
Πίνακας ανάλυσης διασποράς με ένα παράγοντα
𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 ) 𝛮−𝜅 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1
υπόλοιπα)
𝜅 𝜈𝑖
όπου κ το πλήθος των πληθυσμών, των οποίων τις μέσες τιμές θέλουμε να συγκρίνουμε ή αλλιώς
το πλήθος των σταθμών του παράγοντα που μελετούμε, 𝜈𝑖 το μέγεθος δείγματος που λαμβάνουμε
από τον i πληθυσμό, 𝑖 = 1, 2, … , 𝜅 , Ν το συνολικό μέγεθος δείγματος 𝛮 = 𝜈1 + 𝜈2 + ⋯ + 𝜈𝜅
και 𝑦̅𝑖 και 𝑦̅ οι δειγματικές μέσες τιμές που υπολογίζονται ως εξής:
𝜈𝑖 𝜅 𝜈𝑖
1 1
𝑦̅𝑖 = ∑ 𝑦𝑖𝑗 , 𝑦̅ = ∑ ∑ 𝑦𝑖𝑗
𝜈𝑖 𝑁
𝑗=1 𝑖=1 𝑗=1
Επιπλέον για το άθροισμα τετραγώνων της ολικής μεταβολής ισχύει: 𝑆𝑆𝑇 = 𝑆𝑆𝐴 + 𝑆𝑆𝐸. Συνήθως
το άθροισμα τετραγώνων των σφαλμάτων υπολογίζεται ως εξής: 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴. Τα
προβλήματα 1, 2, 3 που βρίσκονται λυμένα παρακάτω, αποτελούν εφαρμογές της μεθόδου
ανάλυσης διασποράς με ένα παράγοντα (σελ. 5 - 9).
2
κάποιο συμπέρασμα για το αν υπάρχει στατιστικά σημαντική διαφορά στην απόδοση ανάλογα με
την ποικιλία ή το λίπασμα που χρησιμοποιήθηκε. Για τη στατιστική ανάλυση των δεδομένων ενός
πειράματος αυτής της μορφής χρησιμοποιείται η μέθοδος της ανάλυσης διασποράς για δύο
παράγοντες. Παρακάτω δίνεται ο πίνακας της ανάλυσης διασποράς για δύο παράγοντες χωρίς
έλεγχο ύπαρξης αλληλεπίδρασης και στις λύσεις των προβλημάτων 4 και 5 (σελ. 9 - 14)
διατυπώνονται αναλυτικά οι στατιστικές υποθέσεις και τα στατιστικά κριτήρια για τη
σημαντικότητα των δύο παραγόντων, που αποτελούν εφαρμογές της μεθόδου.
όπου κ και λ οι στάθμες των παραγόντων Α και Β και 𝑦̅𝑖∎ , 𝑦̅∎𝑗 και 𝑦̅∎∎ οι δειγματικές μέσες τιμές
που υπολογίζονται ως εξής:
𝜆 𝜅 𝜅 𝜆
1 1 1
𝑦̅𝑖∎ = ∑ 𝑦𝑖𝑗 , 𝑦̅∎𝑗 = ∑ 𝑦𝑖𝑗 , 𝑦̅∎∎ = ∑ ∑ 𝑦𝑖𝑗
𝜆 𝜅 𝜅𝜆
𝑗=1 𝑖=1 𝑖=1 𝑗=1
3
αλληλεπίδραση Α×Β μεταξύ των παραγόντων του πειράματος. Παρακάτω δίνεται ο πίνακας της
ανάλυσης διασποράς για δύο παράγοντες με έλεγχο ύπαρξης αλληλεπίδρασης και στις λύσεις των
προβλημάτων 6 και 7 (σελ. 14 - 19) διατυπώνονται αναλυτικά οι στατιστικές υποθέσεις και τα
στατιστικά κριτήρια για τη σημαντικότητα των δύο παραγόντων, καθώς και της μεταξύ τους
αλληλεπίδρασης, που αποτελούν εφαρμογές της μεθόδου.
όπου κ και λ οι στάθμες των παραγόντων Α και Β, r οι επαναλήψεις σε κάθε συνδυασμό των
παραγόντων Α και Β και 𝑦̅𝑖∎∎ , 𝑦̅∎𝑗∎ , 𝑦̅𝑖𝑗∎ , και 𝑦̅∎∎∎ οι δειγματικές μέσες τιμές που υπολογίζονται
ως εξής:
𝜆 𝑟 𝜅 𝑟 𝑟
1 1 1
𝑦̅𝑖∎∎ = ∑ ∑ 𝑦𝑖𝑗𝜇 , 𝑦̅∎𝑗∎ = ∑ ∑ 𝑦𝑖𝑗𝜇 , 𝑦̅𝑖𝑗∎ = ∑ 𝑦𝑖𝑗𝜇
𝜆𝑟 𝜅𝑟 𝑟
𝑗=1 𝜇=1 𝑖=1 𝜇=1 𝜇=1
𝜅 𝜆 𝑟
1
𝑦̅∎∎∎ = ∑ ∑ ∑ 𝑦𝑖𝑗𝜇
𝜅𝜆𝑟
𝑖=1 𝑗=1 𝜇=1
4
Λύσεις των προβλημάτων από το φυλλάδιο 8 – Προβλήματα ανάλυσης διασποράς
1. Η απόδοση σε γάλα (Kg/24h) μιας προβατίνας που έχει γεννήσει υπολογίζεται ζυγίζοντας το
νεογνό πριν και μετά το θηλασμό. Πήραμε δείγματα από τρεις φυλές προβάτων και τα
αποτελέσματα ήταν τα εξής:
Φυλές
Α1 2.4 2.7 1.8 3.2 3.4 2.6
Α2 3.2 3.4 4.1 2.8 2.9
Α3 3.9 4.2 3.6 2.8 3.4 3.7 3.5
Θέλουμε να συγκρίνουμε τη μέση γαλακτοπαραγωγή των τριών φυλών, επομένως έχουμε ένα
πρόβλημα ανάλυσης διασποράς με ένα παράγοντα (Α: φυλή). Έστω 𝜇𝑖 η μέση γαλακτοπαραγωγή
της i φυλής 𝑖 = 1, 2, 3. Διατυπώνουμε τις στατιστικές υποθέσεις:
όπου η ποσότητα F υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς για ένα παράγοντα
και 𝐹𝜅−1,𝛮−𝜅,𝛼 μια κριτική τιμή της F κατανομής με 𝜅 − 1 και 𝛮 − 𝜅 βαθμούς ελευθερίας.
5
Πηγή μεταβολής Αθροίσματα τετραγώνων Βαθμοί Μέσα Κριτήριο F
ελευθερίας τετράγωνα
𝜅
Μεταξύ των 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = ∑ 𝜈𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝑀𝑆𝐴 = 𝐹=
ομάδων 𝜅−1 = 𝜅−1 𝑀𝑆𝐸
(παράγοντας Α) 𝑖=1
3−1= 2.6 1.3
= 2.6 = = 1.3 = =5
2 0.26
2
𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 )
𝛮−𝜅 = 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1 3.9
υπόλοιπα) 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 = 18 − 3 = = = 0.26
15
= 6.5 − 2.6 = 3.9 15
𝜅 𝜈𝑖
2
Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅)
𝛮−1=
𝑖=1 𝑗=1
= 6.5 18 − 1 =
17
Επομένως έχουμε:
𝑀𝑆𝐴
𝐹= = 5 > 𝐹𝜅−1,𝛮−𝜅,𝛼 = 𝐹3−1,18−3,0.05 = 𝐹2,15,0.05 = 3.68
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις τρεις
φυλές ως προς τη μέση γαλακτοπαραγωγή.
2. Μετρήθηκε η ποσότητα πρωτεΐνης (gr/100ml) στο αίμα ατόμων που ζουν σε διαφορετικές
συνθήκες στις γεωγραφικές περιοχές Α, Β, Γ και είχαμε τα παρακάτω αποτελέσματα:
Περιοχές
Α1 7.64 7.04 7.43 7.57 7.74 7.63 8.06
Α2 7.67 7.58 7.04 7.69 7.32 7.12 7.46 7.21
Α3 7.98 7.91 7.11 7.65 8.17 8.28 7.21 7.41 6.37
6
Θέλουμε να συγκρίνουμε τη μέση ποσότητα πρωτεΐνης στο αίμα ατόμων που ζουν σε
διαφορετικές γεωγραφικές περιοχές. Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με ένα
παράγοντα (Α: γεωγραφική περιοχή). Έστω 𝜇𝑖 η μέση ποσότητα πρωτεΐνης στην i γεωγραφική
περιοχή 𝑖 = 1, 2, 3. Διατυπώνουμε τις στατιστικές υποθέσεις:
7
Επομένως έχουμε:
𝑀𝑆𝐴
𝐹= = 1.3 < 𝐹𝜅−1,𝛮−𝜅,𝛼 = 𝐹3−1,24−3,0.05 = 𝐹2,21,0.05 = 3.47
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0 . Επομένως δεν υπάρχει στατιστικά σημαντική
διαφορά στη μέση ποσότητα πρωτεΐνης στο αίμα ανάμεσα στις τρεις γεωγραφικές περιοχές.
Ποικιλίες
Α1 67 72 76 81 83 69 77 65 82
Α2 56 73 65 71 55 69 72 63 69 67
Α3 77 82 88 79 67 83 91 78 95
Α4 75 85 90 89 67 93 77 68 75
Διατυπώστε κατάλληλο έλεγχο υποθέσεων και ελέγξτε σε επίπεδο σημαντικότητας 5%, εάν
υπάρχει στατιστικά σημαντική διαφορά ως προς την απόδοση, μεταξύ των τεσσάρων ποικιλιών
αραβοσίτου. (Δίδονται: SSΑ=1488.6, SST =3519.1)
Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με ένα παράγοντα (Α: ποικιλία αραβοσίτου).
Έστω 𝜇𝑖 η μέση απόδοση της i ποικιλίας 𝑖 = 1, 2, 3, 4. Διατυπώνουμε τις στατιστικές υποθέσεις:
όπου η ποσότητα F υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς για ένα παράγοντα:
8
Πηγή μεταβολής Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήριο F
ελευθερίας
𝜅
Μεταξύ των 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = ∑ 𝜈𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝑀𝑆𝐴 = = 𝐹= =
ομάδων 𝜅−1= 𝜅−1 𝑀𝑆𝐸
(παράγοντας Α) 𝑖=1
4−1= 1488.6 496.2
(ποικιλία) = = 496.2 = = 8.07
= 1488.6 3 61.5
3
𝜈𝑖
Εντός των 𝜅 𝑆𝑆𝐸
2 𝑀𝑆𝛦 =
ομάδων 𝑆𝑆𝐸 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖 )
𝛮−𝜅 = 𝛮−𝜅
(σφάλματα ή 𝑖=1 𝑗=1 2030.5
υπόλοιπα) 37 − 4 = = = 61.5
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 = 33
33
= 3519.1 - 1488.6 = 2030.5
𝜅 𝜈𝑖
2
Ολική 𝑆𝑆𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅)
𝛮−1=
𝑖=1 𝑗=1
37 − 1 =
= 3519.1
36
Επομένως έχουμε:
𝑀𝑆𝐴
𝐹= = 8.07 > 𝐹𝜅−1,𝛮−𝜅,𝛼 = 𝐹4−1,37−4,0.05 = 𝐹3,33,0.05 = 2.92
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0 . Επομένως η μέση απόδοση διαφοροποιείται ανάλογα με την ποικιλία ή
αλλιώς μπορούμε να πούμε ότι υπάρχει στατιστικά σημαντική διαφορά στη μέση απόδοση του
αραβοσίτου που οφείλεται στον παράγοντα “ποικιλία”.
ΟΡΜΟΝΗ
ΛΙΠΑΣΜΑ Β1 Β2 Β3 Β4
Α1 77 78 80 82
Α2 73 76 76 77
Α3 76 77 82 83
9
Αφού διατυπώσετε κατάλληλους ελέγχους υποθέσεων, ελέγξτε σε επίπεδο σημαντικότητας 5%,
εάν η απόδοση της εργαστηριακής καλλιέργειας σιταριού διαφοροποιείται ανάλογα με το είδος
του λιπάσματος και το είδος της ορμόνης που χρησιμοποιείται.
(Δίνονται : SSA = 40.2, SSB = 50.9, SST = 100.9)
Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: λίπανση και Β: χρήση
ορμόνης). Καθώς έχουμε μόνο μία μέτρηση σε κάθε συνδυασμό λιπάσματος και ορμόνης δεν είναι
εφικτός ο έλεγχος για την ύπαρξη αλληλεπίδρασης μεταξύ των δύο παραγόντων του πειράματος.
Διατυπώνουμε τις στατιστικές υποθέσεις:
όπου η ποσότητα 𝐹𝛢 υπολογίζεται στον παρακάτω πίνακα ανάλυσης διασποράς με δύο παράγοντες
χωρίς έλεγχο ύπαρξης αλληλεπίδρασης:
10
Πηγή Αθροίσματα τετραγώνων Βαθμοί Μέσα τετράγωνα Κριτήρια F
μεταβολής ελευθερίας
𝜅
Παράγοντας 𝑆𝑆𝐴 𝑀𝑆𝐴
𝑆𝑆𝐴 = 𝜆 ∑(𝑦̅𝑖∎ − 𝑦̅∎∎ )2 𝑀𝑆𝐴 = = 𝐹𝛢 = =
Α 𝜅−1= 𝜅−1 𝑀𝑆𝐸
(Λίπανση) 𝑖=1
40.2 20.1
= 40.2 3−1= 2 = 20.1 = 12.6
2 1.6
𝜅
Παράγοντας 𝑆𝑆𝐵 𝑀𝑆𝛣
𝑆𝑆𝛣 = 𝜅 ∑(𝑦̅∎𝑗 − 𝑦̅∎∎ )2 𝑀𝑆𝐵 = = 𝐹𝛣 = =
Β 𝜆−1= 𝜆−1 𝑀𝑆𝐸
(Ορμόνη) 𝑖=1 50.9 17.0
= 50.9 4−1= 3 = 17.0 = 10.6
3 1.6
Σφάλματα ή 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 (𝜅 − 1)(𝜆 − 1) = 𝑆𝑆𝐸
𝑀𝑆𝛦 =
υπόλοιπα =100.9 - 40.2 - 50.9 = 9.8 (3 − 1)(4 − 1) = (𝜅 − 1)(𝜆 − 1)
9.8
2∙3= 6 = = 1.6
6
𝜅 𝜆
Επομένως έχουμε:
𝑀𝑆𝐴
𝐹𝛢 = = 12.6 > 𝐹𝜅−1,(𝜅−1)(𝜆−1),𝛼 = 𝐹3−1,(3−1)(4−1),0.05 = 𝐹2,6,0.05 = 5.14
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛢 . Επομένως η μέση απόδοση της εργαστηριακής καλλιέργειας σιταριού
διαφοροποιείται ανάλογα με το είδος του λιπάσματος που χρησιμοποιείται ή αλλιώς μπορούμε να
πούμε ότι ο παράγοντας λίπανση είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.
11
απορρίπτουμε την 𝛨0𝛣 . Επομένως η μέση απόδοση της εργαστηριακής καλλιέργειας σιταριού
διαφοροποιείται ανάλογα με το είδος της ορμόνης που χρησιμοποιείται.
Καταλύτης
Θερμοκρασία Α1 Α2 Α3 Α4
Β1 53 59 58 50
Β2 57 65 62 60
Β3 52 62 54 52
Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: καταλύτης και Β:
θερμοκρασία).
Διατυπώνουμε τις στατιστικές υποθέσεις:
12
Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς για δύο παράγοντες χωρίς έλεγχο ύπαρξης
αλληλεπίδρασης έχουμε:
13
Εάν
𝑀𝑆𝛣
𝐹𝛣 = > 𝐹𝜆−1,(𝜅−1)(𝜆−1),𝛼 απορρίπτεται η 𝛨0𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛣
𝐹𝛣 = = 12 > 𝐹𝜆−1,(𝜅−1)(𝜆−1),𝛼 = 𝐹3−1,(3−1)(4−1),0.05 = 𝐹2,6,0.05 = 5.14
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛣 . Επομένως το αποτέλεσμα του πειράματος διαφοροποιείται ανάλογα με τη
θερμοκρασία ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “θερμοκρασία” επιδρά στο
αποτέλεσμα του πειράματος ή ότι είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.
6. Τρεις ποικιλίες σίτου (Α) δοκιμάστηκαν με τρία είδη λιπάσματος (Β), φωσφορική αμμωνία,
θειική αμμωνία και καθόλου λίπανση. Οι αποδόσεις σε κάθε συνδυασμό ποικιλία και λιπάσματος
φαίνονται στον παρακάτω πίνακα:
Ποικιλίες (Α)
Λίπανση (Β) Α1 Α2 Α3
Φωσφορική 112 128 112 81 134 112
Αμμωνία 118 152 108 48 116 128
Θειική 168 116 61 98 125 106
Αμμωνία 144 80 58 98 110 110
Μάρτυρας 106 84 97 86 62 60
(καμιά λίπανση) 68 128 92 66 99 87
Ελέγξτε σε επίπεδο σημαντικότητας 5% εάν υπάρχει διαφορά στις αποδόσεις του σίτου που να
οφείλεται στις διαφορετικές ποικιλίες, στη διαφορετική λίπανση, καθώς και αν υπάρχει
αλληλεπίδραση μεταξύ ποικιλίας και λιπάσματος.
(Δίνονται: SSA = 6743.4, SSB = 4481.7, SSAB = 2789.4, SST = 27548.5).
Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: ποικιλία και Β: λίπανση)
και έλεγχο σημαντικότητας της αλληλεπίδρασης μεταξύ των δύο παραγόντων. Ο έλεγχος ύπαρξης
αλληλεπίδρασης είναι εφικτός, καθώς έχουμε τέσσερις επαναλήψεις για κάθε συνδυασμό
ποικιλίας και λίπανσης (r = 4 >1).
14
𝛨0𝛢 : 𝛼1 = 𝛼2 = 𝛼3 (η μέση απόδοση δεν διαφοροποιείται ανάλογα με την ποικιλία
ή ο παράγοντας “ποικιλία” δεν επιδρά στην απόδοση)
𝛨1𝛢 : τουλάχιστον κάποιο 𝛼𝑖 ≠ 𝛼𝑗 (η μέση απόδοση διαφοροποιείται ανάλογα με την ποικιλία
𝑖, 𝑗 = 1, 2, 3 ή ο παράγοντας “ποικιλία” επιδρά στην απόδοση)
15
Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Α:
Εάν
𝑀𝑆𝐴
𝐹𝛢 = > 𝐹𝜅−1,𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝐴
𝐹𝛢 = = 6.7 > 𝐹𝜅−1,𝜅𝜆(𝑟−1),𝛼 = 𝐹3−1,3∙3(4−1),0.05 = 𝐹2,27,0.05 = 3.35
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛢 . Επομένως η μέση απόδοση διαφοροποιείται ανάλογα με το είδος της
ποικιλίας ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “ποικιλία” είναι στατιστικά σημαντικός
σε επίπεδο σημαντικότητας 5%.
Στατιστικό κριτήριο ελέγχου της σημαντικότητας του παράγοντα Β:
Εάν
𝑀𝑆𝛣
𝐹𝛣 = > 𝐹𝜆−1,𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛣
𝐹𝛣 = = 4.5 > 𝐹𝜆−1,𝜅𝜆(𝑟−1),𝛼 = 𝐹3−1,3∙3(4−1),0.05 = 𝐹2,27,0.05 = 3.35
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, ισχύει η ανισότητα του στατιστικού κριτηρίου και συνεπώς
απορρίπτουμε την 𝛨0𝛣 . Επομένως η μέση απόδοση διαφοροποιείται ανάλογα με το είδος του
λιπάσματος ή αλλιώς μπορούμε να πούμε ότι ο παράγοντας “λίπανση” είναι στατιστικά
σημαντικός σε επίπεδο σημαντικότητας 5%.
Στατιστικό κριτήριο ελέγχου της σημαντικότητας της αλληλεπίδρασης των δύο παραγόντων:
Εάν
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = > 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = = 1.4 < 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 = 𝐹(3−1)(3−1),3∙3(4−1),0.05 = 𝐹4,27,0.05 = 2.73
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0𝛢𝛣 . Επομένως δεν υπάρχει σημαντική
αλληλεπίδραση μεταξύ των παραγόντων του πειράματος, δηλαδή μεταξύ ποικιλίας και λίπανσης.
16
7. Εξετάστηκε η επίδραση τριών σιτηρεσίων (Α) σε προβατίνες των φυλών Χίου και
Καραγκούνικης (Β) κατά τη διάρκεια της κυοφορίας, στο ύψος της γαλακτοπαραγωγής μετά τον
τοκετό. Παρακάτω δίνεται η γαλακτοπαραγωγή (Kg/24h):
Πρόκειται για ένα πρόβλημα ανάλυσης διασποράς με δύο παράγοντες (Α: σιτηρέσιο και Β: φυλή)
και έλεγχο σημαντικότητας της αλληλεπίδρασης μεταξύ των δύο παραγόντων.
Διατυπώνουμε τις στατιστικές υποθέσεις:
17
Αντικαθιστώντας στον πίνακα ανάλυσης διασποράς για δύο παράγοντες με έλεγχο ύπαρξης
αλληλεπίδρασης έχουμε:
Σφάλματα ή 𝜅 𝜆 𝑟 𝑆𝑆𝐸
2 𝑀𝑆𝛦 = =
υπόλοιπα 𝑆𝑆𝐸 = ∑ ∑ ∑(𝑦𝑖𝑗𝜇 − 𝑦̅𝑖𝑗∎ ) = 𝜅𝜆(𝑟 − 1)
𝜅𝜆(𝑟 − 1) =
𝑖=1 𝑗=1 𝜇=1
4.38
3 ∙ 2 ∙ (7 − 1) = = 0.12
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 − 𝑆𝑆𝐴𝐵 = 36
36
= 10.16 - 0.83 - 4.92 - 0.03 = 4.38
𝜅 𝜆 𝑟
18
γαλακτοπαραγωγή ή ότι είναι στατιστικά σημαντικός σε επίπεδο σημαντικότητας 5%.
Στατιστικό κριτήριο ελέγχου της σημαντικότητας της αλληλεπίδρασης των δύο παραγόντων:
Εάν
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = > 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 απορρίπτεται η 𝛨0𝛢𝛣.
𝑀𝑆𝐸
Αντικαθιστώντας έχουμε:
𝑀𝑆𝛢𝛣
𝐹𝛢𝛣 = = 0.13 < 𝐹(𝜅−1)(𝜆−1),𝜅𝜆(𝑟−1),𝛼 = 𝐹(3−1)(2−1),3∙2(7−1),0.05 = 𝐹2,36,0.05 = 3.23
𝑀𝑆𝐸
Άρα σε επίπεδο σημαντικότητας 5%, δεν ισχύει η ανισότητα του στατιστικού κριτηρίου και
συνεπώς δεν μπορούμε να απορρίψουμε την 𝛨0𝛢𝛣 . Επομένως δεν υπάρχει σημαντική
αλληλεπίδραση μεταξύ των παραγόντων του πειράματος, δηλαδή μεταξύ σιτηρεσίου και φυλής.
19
Κατανομή F
Τιμές 𝐹𝜈1,𝜈2,0.05
20