Στατιστική Επιχειρήσεων Ι Μιλτιάδης Χαλικιάς ΤΕΙ Πειραιά
Στατιστική Επιχειρήσεων Ι Μιλτιάδης Χαλικιάς ΤΕΙ Πειραιά
Στατιστική Επιχειρήσεων Ι
Περιεχόμενα ενότητας
• Πείραμα τύχης
• Σχέσεις μεταξύ συνόλων
• Στοιχεία Συνδυαστικής Ανάλυσης
• Ορισμός πιθανότητας κατά Laplace
• Ανεξαρτησία ενδεχομένων
• Δεσμευμένη πιθανότητα
• Ασκήσεις- Εφαρμογές
• Άλυτες ασκήσεις
5
Πειράματα τύχης
Ως πείραμα τύχης εννοούμε μια διαδικασία με αβέβαιη
έκβαση που θεωρούμε ότι μπορεί να επαναληφθεί κάτω από
τις ίδιες συνθήκες
Παραδείγματα
Πράξεις Συνόλων
Διάγραμμα Venn
Πράξεις Συνόλων
Περιεκτικότητα
Πράξεις Συνόλων
Ένωση-Τομή
Ένωση Τομή
Πράξεις Συνόλων
Αφαίρεση συνόλων-Συμπλήρωμα
Πράξεις Συνόλων
Παραδείγματα
• Έστω Α, Β, Γ, Δ, Ε πέντε ενδεχόμενα του Ω.
• γ) Να μη συμβούν όλα;
Συνδυαστική ανάλυση
Με τον όρο συνδυαστική εννοούμε την απαρίθμηση των
στοιχείων ενός συνόλου ή δειγματοχώρου. Συνήθως η
χρήση της πραγματοποιείται προκειμένου να υπολογιστούν
οι πιθανότητες κάποιων ενδεχομένων.
• ΚΑΡΤΕΣΙΑΝΟ ΓΙΝΟΜΕΝΟ
Συνδυαστική Ανάλυση
Συνδυασμοί
Παράδειγμα
Με πόσους τρόπους 12 άτομα χωρίζονται σε τετράδες;
Ορισμός Πιθανότητας
(κατά Laplace)
Ορισμός (κατά Laplace) Έστω ένα πείραμα τύχης με γνωστό
δειγματικό χώρο και ισοπίθανα ενδεχόμενα. Η πιθανότητα να
συμβεί ένα ενδεχόμενο (ή γεγονός) ισούται με το πηλίκο του
αριθμού των ευνοϊκών για αυτό περιπτώσεων προς το
πλήθος όλων των δυνατών περιπτώσεων.
Αξιώματα πιθανοτήτων
Εφαρμογή 1
Εφαρμογή 2
Εφαρμογή 3
Εφαρμογή 4
Δεσμευμένη πιθανότητα
Η πιθανότητα της πραγματοποίησης ενός ενδεχομένου
δεδομένου της πραγματοποίησης του ενδεχομένου
ονομάζεται δεσμευμένη πιθανότητα του , συμβολίζεται με
και υπολογίζεται από τον τύπο
Ανεξάρτητα ενδεχόμενα
Δύο ενδεχόμενα Α, Β καλούνται ανεξάρτητα όταν η
πραγματοποίηση του ενός δεν αλλάζει την πιθανότητα
πραγματοποίησης του άλλου. Δηλαδή ισχύει
Ανεξάρτητα ενδεχόμενα
Παρατήρηση 1
Παρατήρηση 2
Παράδειγμα
Έστω ότι δύο μηχανές λειτουργούν ανεξάρτητα για την
παραγωγή ενός προϊόντος. Στο 60% του χρόνου λειτουργίας
του μηχανήματος, καμία από τις μηχανές δεν παρουσιάζει
βλάβη. Όμως, με ένα ποσοστό 1% του χρόνου λειτουργίας και
οι δύο μηχανές παρουσιάζουν βλάβη ταυτόχρονα. Αν για να
παραχθεί το προϊόν απαιτείται η λειτουργία μιας
τουλάχιστον μηχανής, να υπολογισθεί η πιθανότητα
κατασκευής του προϊόντος καθώς και η πιθανότητα
λειτουργίας κάθε μιας από τις δύο μηχανές.
Λύση
Λύση
Παράδειγμα 2
(Τετράεδρο του Bernstein)
Παράδειγμα 2
(Τετράεδρο του Bernstein)
Άσκηση 1
Αν ρίξουμε δύο ζάρια, ποια η πιθανότητα να έρθει
ακριβώς μία φορά 5, όταν,
α) δεν δίνεται άλλη πληροφορία
β) είναι γνωστό ότι η ρίψη έφερε άθροισμα μεγαλύτερο
του 9.
Λύση
Ο αρχικός δειγματοχώρος είναι Ω={(1,1), (1,2), (1,3), (1,4),
(1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2),
(3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4),
(6,5), (6,6)}.
• Ορίζουμε:
• Κ : {έρχεται 5}
• Β : {έρχεται άθροισμα μεγαλύτερο του 9}
Λύση
Άσκηση 2
Σε ένα λιμάνι αναμένονται 4 Επιβατικά πλοία και 2
Πετρελαιοφόρα. Ποια η πιθανότητα τα δύο πρώτα πλοία που
θα έρθουν να είναι
i) Επιβατικά
ii) ii) ίδιου τύπου;
Λύση
Άσκηση 3
Λύση
Λύση
Άσκηση 4
Άσκηση 5
Λύση
Λύση
Άσκηση 6
Άλυτες ασκήσεις
Ενότητα 2: Τυχαίες Μεταβλητές
Σκοποί ενότητας
• Σκοπός είναι η κατανόηση των εννοιών
πληθυσμός και δείγμα, τυχαία μεταβλητή ώστε
να μπορεί ο φοιτητής να κατανοήσει τον ορισμό
κατά Kolmogorov. Ακόμα ο φοιτητής θα πρέπει
να έχει τη δυνατότητα εφαρμογής των
παραπάνω.
4
Περιεχόμενα ενότητας
• Δειγματοληψία
• Τυχαίες μεταβλητές
• Πιθανότητα κατά Kolmogorov
• Συναρτήσεις πιθανότητας για διακριτές
μεταβλητές
• Συναρτήσεις πιθανότητας για συνεχείς
μεταβλητές
• Συναρτήσεις κατανομής για διακριτές
μεταβλητές
• Συναρτήσεις κατανομής για συνεχείς μεταβλητές
Τυχαίες Μεταβλητές
Ορισμός Κάθε κανόνας απεικόνισης (συνάρτηση) που
αντιστοιχεί σε κάθε σημείο ω του δειγματοχώρου Ω ένα
πραγματικό αριθμό x, καλείται τυχαία μεταβλητή.
Δηλαδή κάθε τυχαία μεταβλητή είναι μια συνολοσυνάρτηση με
πεδίο ορισμού το Ω και πεδίο τιμών το R.
Είδη τυχαίων μεταβλητών
Συνάρτηση πυκνότητας
πιθανότητας
Αθροιστική συνάρτηση κατανομής
Παράδειγμα
Έστω Χ η τυχαία μεταβλητή που αντιστοιχεί στην μεγαλύτερη
τιμή μεταξύ δύο ζαριών. Να κατασκευαστεί η συνάρτηση
πυκνότητας και κατανομής για την Χ καθώς και το διάγραμμα
κατανομής.
Λύση
Παράδειγμα
Λύση
Παράδειγμα
Λύση
Παράδειγμα
Λύση
Λύση
Λύση
Παράδειγμα
Λύση
Λύση
Παράδειγμα
Λύση
Παράδειγμα
Λύση
Λύση
Λύση
Άλυτες Ασκήσεις
Ενότητα 3: Χρήσιμες Κατανομές
Σκοποί ενότητας
• Εκμάθηση των γνωστών κατανομών (με
έμφαση στην κανονική κατανομή) με
δυνατότητα εφαρμογών.
Περιεχόμενα ενότητας
• Διακριτές χρήσιμες κατανομές
• Διωνυμική
• Poisson
• Συνεχείς χρήσιμες κατανομές
• Κανονική κατανομή
• Κατανομή Χ2
• Κατανομή Student
5
Χρήσιμες Κατανομές
ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ
ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ
Διωνυμική Κατανομή
Και η συνάρτηση κατανομής που δίνει την πιθανότητα μέχρι
και x επιτυχιών δίνεται από τον τύπο:
Παράδειγμα
Η πιθανότητα επιτυχούς στόχευσης βολής κατά στόχου είναι
0,6 α) ποια η πιθανότητα τριών επιτυχιών σε πέντε
προσπάθειες β) ποια η πιθανότητα μέχρι και τριών επιτυχιών
σε πέντε προσπάθειες γ) ποια η πιθανότητα άνω των τριών
επιτυχιών σε πέντε προσπάθειες δ) Έστω ότι αλλάζει η
απόσταση του στόχου έτσι ώστε η πιθανότητα πέντε
επιτυχιών σε δέκα προσπάθειες να είναι διπλάσια από την
πιθανότητα τεσσάρων επιτυχιών σε δέκα προσπάθειες. Ποια
η πιθανότητα τριών επιτυχιών σε έξι προσπάθειες.
Λύση
Λύση
Κατανομή Poisson
• Με τη μεταβλητή X ή Χ(t) συμβολίζουμε το πλήθος γεγονότων που
συμβαίνουν στη μονάδα του χρόνου ή του χώρου. Παραδείγματα
όπου η Χ(t) είναι αριθμός γεγονότων στην μονάδα του χρόνου είναι:
• Οι αφίξεις σε μηχάνημα ανάληψης χρημάτων τράπεζας (ATM).
• Ο αριθμός των γκολ κατά τη διάρκεια ενός ποδοσφαιρικού αγώνα.
• Ο αριθμός των κλοπών σε μία πόλη κατά τη διάρκεια του
Καλοκαιριού.
• Ενώ παραδείγματα όπου η Χ(t) είναι αριθμός γεγονότων στην
μονάδα του χώρου είναι:
• Πλήθος λαθών σε ένα βιβλίο ή σε ένα πρόγραμμα υπολογιστή.
• Ο αριθμός των ελαιοδέντρων ανά στρέμμα σε μία γεωργική έκταση.
Κατανομή Poisson
Παράδειγμα
Οι αφίξεις σε μηχάνημα ανάληψης χρημάτων τράπεζας (ATM):
ακολουθούν κατανομή Poisson με μέση τιμή 5,5 αφίξεις την
ώρα. α) Να βρεθεί η πιθανότητα να έχουμε 3αφίξεις σε μια ώρα
β) μέχρι και τρεις αφίξεις σε μια ώρα γ) πάνω από τρεις αφίξεις
σε μια ώρα.
Λύση
Κανονική Κατανομή
• Μια συνεχής τυχαία μεταβλητή ακολουθεί ‘κανονική κατανομή’
όταν το ιστόγραμμα συχνοτήτων της μεταβλητής έχει σχήμα
‘κωδωνοειδές’ (σχήμα καμπάνας ) δηλαδή:
Κανονική Κατανομή
Κανονική Κατανομή
• Η συνάρτηση πυκνότητας πιθανότητας είναι:
Κατανομή Χ2
Κατανομή Χ2
Ασκήσεις
Λύση
Άσκηση
Άσκηση
Λύση
Άσκηση
Λύση
Λύση
Άσκηση
Λύση
Λύση
Άσκηση
Άσκηση
Λύση
Λύση
Άσκηση
Άσκηση
Άσκηση
Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης
Λύση
Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης
Λύση
Ασκήσεις Επανάληψης
Βιβλίο Λ. Καμαρινόπουλου
(Άσκηση 7, ΣΕΛ. 70)
Κάλπη περιέχει 5 σφαίρες αριθμημένες με 1 έως 5. Επιλέγονται τυχαία
τρεις σφαίρες και έστω Χ ο μέγιστος παρατηρούμενος αριθμός. Ποια η
συνάρτηση πυκνότητας και κατανομής της Χ ;
Δειγματοχώρος S X : ΜΕΓΙΣΤΟΣ Πεδίο τιμών, x ∈ R
1 2 3 3
1 2 4
2 3 4 4
1 3 4
1 2 5
1 3 5
1 4 5
2 3 5 5
2 4 5
3 4 5
5 = 5! 4 ⋅ 5
= = 10
3 3! ⋅ 2 ! 2
⇒ 10 δυνατά αποτελέσματα, οπότε κάθε ένα έχει πιθανότητα 1 10
f ( x) = P ( X = x )
F ( x) = P ( X ≤ x )
10
1=
10
4 10
1 10
0 2 3 4 5 x
1 10 3 10 6 10
Βιβλίο Λ. Καμαρινόπουλου
(Άσκηση 7, ΣΕΛ. 70)
Η μηνιαία κατανάλωση πετρελαίου για θέρμανση μιας πολυκατοικίας σε χιλιάδες
γαλόνια είναι τυχαία μεταβλητή με πυκνότητα,
α (1 − x ) 4 0 ≤ x ≤ 1
f ( x) =
0 αλλού
+ ∞ 1 1
∫ f ( x ) d x = ∫ α (1 − x ) d x = α ⋅ (− 1) ⋅ ∫ (1 − x ) d (1 − x ) =
4 4
− ∞ 0 0
= −α
(1 − x )5 1
= α = 1
5 0 5
⇒ α = 5
f ( x)
5
0, 01
C 1 x (κατανάλωση)
(χωρητικότητα λέβητα)
1 1
∫ f (x ) d x = ∫ 5 ( 1 − x )
4
⇒ d x = 0, 01
C C
⇒ 5
(1 − x )5 C
= ( 1 − C ) 5 = 0, 01
5 1
⇒ 1 − C = 5 0, 01 ⇒ C = 1 − 5 0, 01
⇒ C = 0, 6
f (t )
β
Βιβλίο Λ Καμαρινόπουλου
(ΑΣΚΗΣΗ 14, σελ. 7) α ⋅ t2
⇒
α ⋅ 12 3
+ 4β = 1 α = 8, 64 ⋅ 10 − 4
3 ⇒
β = 0, 125
f (12) = α ⋅ 12 2 = β
β) P( T ≥ 6 ) = 1 − P ( T < 6 ) =
6 63
= 1 − ∫ 8, 64 ⋅ 10 −4 t 2 ⋅ d t = 1 − 8, 64 ⋅ 10 −4 ⋅ = 0, 938
0 3
⇒ K = K + h ⋅ 4.000
κ 0 Φ
KΠ = 35.000 ⋅ λ ⋅ 10 ⋅ P ( H > hΦ )
= 1, 5 ⋅ 10 = 15
Πιθανότητα το ύψος της
ζημιά από μία μέσο πλήθος
πλημμύρας Η, να υπερβεί το
πλημμύρα πλημμύρων σε 10
ύψος του φράγματος
έτη
−h 5
= 1 − P H ≤ h = e Φ
Φ
−h
∂κ Φ
1 5
= 0 ⇒ 0 = 4.000 + 35.000 ⋅ 15 ⋅ − ⋅ e
∂h 5
Φ
−h /5
⇒ 0 = 4 − 105 ⋅ e Φ
4
⇒ h Φ = − 5 ⋅ ln ≅ 16, 5 m
105
Άλυτες Ασκήσεις
Ενότητα 4: Πολυδιάστατες Τυχαίες Μεταβλητές
Σκοποί ενότητας
• Κατανόηση των εννοιών της πολυδιάστατης
πιθανότητας ώστε να γίνει κατανοητή η
θεωρητική προσέγγιση της απλής πολλαπλής
παλινδρόμησης που θα ακολουθήσει.
4
Περιεχόμενα ενότητας
• Πολυδιάστατες μεταβλητές
• Διακριτές δισδιάστατες μεταβλητές
• Συνεχείς δισδιάστατες μεταβλητές
Πολυδιάστατες Τυχαίες
Μεταβλητές
Πολλά στοχαστικά φαινόμενα απαιτούν για τη περιγραφή τους περισσότερα
από ένα χαρακτηριστικά
μελέτη σεισμικότητας ⇒ μετρήσεις σε περισσότερα σημεία
περιοχής
X (s ) x1
⋅s
2
−∞
• +∞
R
x2
X n (S )
−∞
• +∞
R
S xn
Συμβολισμός : X = ( X 1 , X 2, , X n )
μονοδιάστατες τυχαίες
S ⇒ Rn
μεταβλητές
Δισδιάστατη περίπτωση
x2 S ⇒ R2
X (s )
⋅ ⋅
2
( x1 , x 2 )
s ⋅
X = X , X
1 2
⋅ x1
S
X 1 (s )
Υπολογισμός πιθανοτήτων στο
χώρο Rn
x2
A
X
{ s∈S x ∈ A} x1
S
A=
X 1 = x 1∩ = x ∩ ∩ = x
n
X X
2 2 n
A= X ≤ ∩ ∩ ≤
x X x
n
1 1 n
A=
x1′ < X 1 ≤ x1′′
∩ ∩ x′ < X ≤ xn′′
n
n
P ( A) = P (s X = ( X 1 , , X n ) ∈ A )
⋅
= P ( X 1 ≤ x1 ∩ X 2 ≤ x2 ∩ ∩ X n ≤ xn ) x2
Διδιάστατη
⋅
περίπτωση x1
ΙΔΙΟΤΗΤΕΣ (n = 2)
X1
α) F ( x , x , , x , ∞, x , , x ) =
1 2 i −1 i +1 n
βέβαιο γεγονός
= F ( x , x ,, x , x , , x ) =
1 2 i −1 i +1 n
δηλ. συρρίκνωση κατά μια διάσταση
⇒ F ( ∞, ∞, , ∞ ) = 1
β) F ( x1, x2 ,, xi − 1, − ∞, x i + 1,, xn ) = 0
αδύνατο γεγονός
γ) F ( x ) μη φθίνουσα με 0 ≤ F (x ) ≤ 1
Διακριτές μεταβλητές
Η X = ( X 1 ,, X n ) λέγεται μεταβλητή διακριτού τύπου αν οι είναι
διακριτού τύπου.
X 1 ,, X n
Παράδειγμα
X = ( X1, X 2 ) όπου : X 1 : 1, 3, 5
X 2 : 2, 4
υπάρχουν 6 διανύσματα x = x j : (1, 2), (1, 4), (3, 2), (3, 4), (5, 2), (5, 4)
f ( x) = f ( x , x ,, x ) = P ( X = x )
1 2 n
P ( X 1 = x j1 , , X n = X j n ) = P ( X = x j )
για όλα τα x = xj =
0
για όλα τα x ≠ xj
ΙΔΙΟΤΗΤΕΣ
α) f ( x) ≥ 0
β) ∑ f (x ) = 1
( j)
j
γ) F ( x ) = ∑ f (x j )
(x j ≤ x )
Συνεχείς τυχαίες μεταβλητές
Η Χ καλείται συνεχής, αν οι μεταβλητές Χ1,Χ2,…,Χn είναι συνεχείς.
∂ n F (x )
f ( x1 ,, xn ) =
∂ x1 ⋅ ∂ x2 ∂ xn
ΙΔΙΟΤΗΤΕΣ
α) f( x ) ≥ 0
+∞ +∞ +∞
β) ∫
−∞
∫
−∞
∫
−∞
f ( x1 , x2 , , xn ) ⋅ dx1 dxn = 1
n − φορές
x1 xn
Διδιάστατη περίπτωση :
b d
⇒ f ( x) = f ( x, y ) = P ( X = xi ∩ Y = y j )
⇒ f ( x ) = f ( x, y ) = P ( X = xi Y = yj)
F ( x ) = F ( x, y ) = ∑ f (x ) j
( )
xj ≤ x
π.χ.
F ( 2, 1 ) = P ( X ≤ 2 ∩Y ≤ 1) =
(xi ,
∑) (f ( x)
yj ≤ 2, 1
j )=
= f (0, 0) + f (1, 1) + f ( 2, 1) = 3
16
16 16 16
Περιθωριακές και δεσμευμένες συναρτήσεις κατανομής & πυκνότητας
Περιθωριακές συναρτήσεις
Περιθωριακές συναρτήσεις καλούνται οι συναρτήσεις ενός υποσυνόλου των
μεταβλητών X = ( X 1 , X 2 ,, X n )
Παράδειγμα (συνέχεια)
Να βρεθούν οι περιθωριακές συναρτήσεις του προηγούμενου παρα-δείγματος.
Y\X 0 1 2 3 4 f Y ( y)
0 1 16 1 16
1 1 16 1 16 1 16 1 16 4 16
2 3 16 2 16 1 16 6 16
3 3 16 1 16 4 16
4 1 16 1 16
f X (x) 1 16 8 16 4 16 2 16 1 16 16 16
P ( X = 1 ∩ Y = 2 ) = f ( 1, 2 ) = 3
4
( )
P ( X = 1) = ∑ f 1, y = f
i X
(1) = 16
i=0
= f (1,0) + f (1, 1) + f (1,2) + f (1,3) + f (1,4) = 8
16
=0 1 16 3 16 3 16 1 16
Παράδειγμα (συνέχεια)
Δεδομένου ότι :
P(X = x / Y = y ) = P ( XP=(xY ∩= yY) = y ) =
f ( x, y )
= = f (x / y)
f Y (y)
P (Y = y ∩ X = x )
/
P ( Y = y X = x) =
P ( X = x)
=
f ( x, y )
= = f ( y / x)
f X (x )
Παράδειγμα (συνέχεια)
Να βρεθούν οι δεσμευμένες συναρτήσεις του προηγούμενου παραδείγματος
Y\X 0 1 2 3 4 fy (y)
0 1 / 16 - - - - 1/16
1 - 1 / 16 1 / 16 1 / 16 1 / 16 4/16
2 - 3 / 16 2 / 16 1 / 16 - 6/16
3 - 3 / 16 1 / 16 - - 4/16
4 - 1 / 16 - - - 1/16
Y\X 0 1 2 3 4 Y\X 0 1 2 3 4
0 1 - - - - 0 1 - - - -
1 - 1/4 1/4 1/4 1/4 1 - 1/8 1/8 1/8 1/8
2 - 3/6 2/6 1/6 - 2 - 3/8 2/4 1/2 -
3 - 3/4 1/4 - - 3 - 3/8 1/4 - -
4 - 1 - - - 4 - 1/8 - - -
f ( x, y ) f ( x, y )
f (x/ y) = f ( y / x) =
fY ( y ) f X ( x)
Περιθωριακές και δεσμευμένες
συναρτήσεις πυκνότητας
[ Διδιάστατη περίπτωση ]
+∞ +∞
f X (x ) = ∫ f ( x, y ) ⋅ d y και f Y (y) = ∫ f ( x, y ) ⋅ d x
−∞ −∞
περιθωριακές
f (x y ) = f (y x) =
f ( x, y ) f ( x, y )
και
f Y ( y) f X ( x)
δεσμευμένες
f X (x )
f X (α )
x =α
f Y (y)
fY (d )
επιφάνεια f (x, y)
y=d
εμβαδό = ∫ −+ ∞
∞ f (α , y ) dy =
= f X (α )
f ( x, y = d )
f (x = α , y )
εμβαδό = ∫ −+ ∞
∞ f ( x, d ) dx =
Παράδειγμα
Η διδιάστατη τυχαία μεταβλητή (Χ,Υ) έχει πεδίο τιμών την περιοχή x ≥ 0, y ≥ 0
με συνάρτηση πυκνότητας
f ( x, y ) = α e − x − 2 y
8. Να υπολογιστεί η πιθανότητα P ( X ≥ 1) ∪ Y ≥ 2 )
Λύση
1. Η συνθήκη + ∞ ∫ + ∞ f ( x, y) dx dy = 1 μας δίνει :
∫− ∞ −∞
∞ ∞ − x − 2y ∞ ∞ − 2y
∫ ∫ α ⋅e dx dy = α ∫ e − x dx ⋅ ∫ e dy =
0 0 0 0
− 2y
− x ∞ −e
=α −e = α
0 2 2
y
P (Y ≥ X ) = ∫∫
y>x
f ( x, y ) dx dy =
= ∫ ∞ d x ∫ ∞ f ( x, y ) d y = y>x y=x
0 x
= ∫ ∞ d x ⋅ 2 ⋅ e − x ∫ ∞ e −2 y d y =
0 x
x
Λύση
1 − 2 y ∞ 1 −2x
= 2 ⋅ ∫ ∞ d x ⋅ e − x ⋅ − e = 2 ⋅ ∫ ∞ d x ⋅ e− x e =
0 x 0
2 2
−3x
= ∫∞ e
1
dx =
0 3
Παρατηρείται ότι τα γεγονότα { Y ≥ X }και { Y > X } διαφέρουν μόνο ως προς την ευθεία y
= x . Εφόσον όμως πρόκειται για συνεχείς κατανομές η ευθεία έχει μηδενική πιθανότητα
(μηδενικό όγκο) και έτσι οι πιθανότητες των δύο γεγονότων είναι ίδιες.
f X (x ) = ∫ −+ ∞∞ f ( x, y ) d y = ∫ 0∞ 2 ⋅ e − x−2 y ⋅ d y =
3.
= e−x ∫ ∞
0 2 ⋅ e −2 y d y = e − x
=1
f Y ( y ) = ∫ −+ ∞∞ f ( x, y ) d x = ∫ ∞0 2 ⋅ e − x−2 y ⋅ d x =
= e −2 y ⋅ 2 ∫ ∞
0 e − x d x = 2e − 2 y
είναι οι περιθωριακές συναρτήσεις
πυκνότητας της Χ και Υ αντίστοιχα.
=1
Λύση
Οι δεσμευμένες συναρτήσεις πυκνότητας είναι :
f (x, y) 2 ⋅ e − x −2y f (x, y) 2 ⋅ e − x −2y
f (x / y) = = = e−x και f (y / x) = = = 2e −2 y
f Y (y ) 2e − 2y
f X (x ) e −x
F (x, y) =
∫ ∫ f (u,v)du dv = ∫ ∫ 2⋅e−u − 2v du dv =
x
−∞
y
−∞
x
0
y
0
− x − 2 y
∞ e− x dx = 1
P ( X ≥ 1 Y = 2) =
∫ 1∞ f ( x / 2) dx =
∫1
e
6. O τύπος για τη δεσμευμένη πιθανότητα μας δίνει :
∫ ∫
∞ ∞
P( X ≥ 1 ∩ Y ≥ 2) 1 2 f ( x, y ) dx dy
P ( X ≥ 1 / Y ≥ 2) = = =
P (Y ≥ 2) ∫
∞
2 fY ( y ) dy
2 ∫ 1∞ e − x dx ∫ ∞2 e −2 y dy 1
∫
∞ −x
= = e dx =
∫
∞
2e −2 y dy
1
2
e
Λύση
7. Έχουμε με α=1, b=∞, c=2 και d= ∞, για τη ζητούμενη πιθανότητα
( ) ( ) ( )(
= 1 − 1 − e −4 − 1 − e −1 + 1 − e −1 1 − e −4 = e − 5)
= 1 − e −4 − e −1 + e −5
8. P ( X ≥ 1 ∪ Y ≥ 2) = P ( X ≥ 1 ) + P(Y ≥ 2 ) − P ( X ≥ 1 ∩ Y ≥ 2 )
= e −5
∫ e − x dx + 2 ∫ ∞2 e −2 y dy − e −5 = e −1 + e −4 − e −5
∞
1
ΑΝΕΞΑΡΤΗΣΙΑ
Ανεξάρτητες Μεταβλητές
Οι τυχαίες μεταβλητές X 1 ,, X n καλούνται ανεξάρτητες αν :
P ( X 1 ∈ B1 ∩ ∩ X n ∈ Bn ) = P ( X 1 ∈ B1 ) P ( X n ∈ Bn )
F ( x ) = F ( x1 ) ⋅ F ( x2 ) F ( xn )
ή ισοδύναμα
f ( x ) = f ( x1 ) ⋅ f ( x2 ) f ( xn )
Παράδειγμα
Η διδιάστατη συνεχής τυχαία μεταβλητή (Χ, Υ) είναι ομοιόμορφα κατανεμημένη στη
περιοχή x ≥ 0, y ≥ 0 που περιβάλλεται από τις καμπύλες x = y και x = 1 . Να εξεταστεί αν
2
1 x 1
2
E= ∫
0
dx ⋅ ∫
0
dy = ∫
0
x dx =
3
A
⇒ f ( x, y ) = E −1 = 3 στη περιοχή Α
2
Για τις περιθώριες συναρτήσεις έχουμε :
1 x
+∞ y= x
f X (x ) = ∫ f ( x, y ) dy = ∫
3
dy =
3
x, 0 ≤ x ≤ 1
−∞ y =0
2 2
+∞ x =1
Εξηρτημένες
f Y (y) = ∫ f ( x, y ) ⋅ dx = ∫
3
dx =
3
(1 − y )2 , 0 ≤ y ≤ 1
−∞ x= y 2
2 2
Ροπές – Κεντρικές Ροπές
Βασικά χαρακτηριστικά πολυδιάστατων μεταβλητών
Ροπές {
E X 1κ1 ⋅ X 2κ 2 X nκ n }
Κεντρικές Ροπές E {( X − µ ) 1 1
κ1
( X n − µ n )
κn
}
Παραδείγματα για ροπές στη διδιάστατη περίπτωση, δηλ. : E {X κ
⋅ Υν }
+∞ +∞
(κ = 1, ν = 0) ⇒ Ε{Χ} = µ Χ = ∫ ∫ x ⋅ f (x, y ) ⋅ dx ⋅ dy
−∞ −∞
+∞ +∞
(κ = 0, ν = 1) ⇒ Ε{Y } = µY = ∫ ∫ y ⋅ f (x, y ) ⋅ dx ⋅ dy
−∞ −∞
+∞ +∞
(κ = 1, ν = 1) ⇒ Ε {X ⋅ Y } = µ X Y = ∫ ∫ x ⋅ y ⋅ f (x, y ) ⋅ dx ⋅ dy
−∞ −∞
{( X − µ ) } = σ
(κ = 2, ν = 0) ⇒ E x
2 2
X
(κ = 0, ν = 2) ⇒ E {( Y − µ ) } = σ
2 2
y Y
(κ = 1, ν = 1) ⇒ E {( Y − µ ) ( X − µ ) } =
µx y − µx ⋅ µ y = σ x y
y x
= E {( X ⋅ Y ) } − E { X }⋅ E { Y } =
σxy
ρxy = όπου −1 ≤ ρ x y ≤ 1
σx ⋅ σy
E (X ⋅Y ) = ∫
+∞
−∞ ∫
+∞
−∞ x ⋅ y f ( x, y ) dx dy = 2 ⋅ ∫ ∞0 x e − x dx ∫ 0∞ ye −2 y dy =
1 1
= 2⋅1⋅ =
4 2
∞
E ( X ) = ∫ ∞0 x⋅e −x
d x = − x⋅e −x ∞
0 + ∫ e − x dx = 1
0
∞
E (Y ) =
1
∫ ∫
∞ −2 y −2 y ∞
0 y ⋅ 2e d y = − y ⋅e 0 + e − 2 y dy =
0
2
Παράδειγμα
Αν δύο μεταβλητές είναι ανεξάρτητες, τότε τα μεγέθη :
σ xy και ρ xy
μηδενίζονται
Έχουμε :
+∞ +∞ +∞ +∞
E { X ⋅Y } = ∫ ∫ x ⋅ y ⋅ f ( x, y ) ⋅ dx ⋅ dy = ∫ x ⋅ f x ( x ) ⋅ dx ⋅ ∫ y ⋅ f y ( y ) ⋅ dy
−∞ −∞ −∞ −∞
f X (x ) ⋅ fY ( y ) E {X } E {Y }
σ x y = E {X ⋅ Y } − E {X } ⋅ E {Y } = 0
σxy ρ xy = 0
ρ xy =
σx ⋅ σx Ανεξάρτητες
Παράδειγμα
Ισχύει : − 1 ≤ ρ xy ≤ 1
συντελεστής συσχέτισης ρ →0
y y
. . . . ρ →1
.
.. . .
. .
. .
. .
. .
. . ρ → −1
x Χ, Υ : ασυσχέτιστες γραμμικά
x
Αν ρ 2 = 1 ⇒ πλήρης γραμμική συσχέτιση
Y = αΧ + b
α > 0 ⇒ ρ =1
α < 0 ⇒ ρ = −1
Παράδειγμα
Να βρεθεί ο συντελεστής συσχέτισης στο προηγούμενο παράδειγμα.
Y\X 0 1 2 3 4 f Y (y )
0 1 16 1 16
1 1 16 1 16 1 16 1 16 4 16
2 3 16 2 16 1 16 6 16
3 3 16 1 16 4 16
4 1 16 1 16
f X (x) 1 16 8 16 4 16 2 16 1 16
Λύση
E{X } = 0 ⋅ 1 + 1 ⋅ 8 + 2 ⋅ 4 + 3 ⋅ 2 + 4 ⋅ 1 = 13
16 16 16 16 16 8
E{Y } = 0 ⋅ 1 + 1 ⋅ 4 + 2 ⋅ 6 + 3 ⋅ 4 + 4 ⋅ 1 = 2
16 16 16 16 16
{ } ∑
E X2 =
() i
xi2 ⋅ f X (x i ) = 3 { }
; E Y2 = 5
E { X ⋅Y } = ∑( ) ⋅ ∑( ) xi ⋅ yi ⋅ f (xi , yi ) =
i i
1 1 1 1 1
= 0⋅0⋅ + 1 ⋅1 ⋅ + 2 ⋅1 ⋅ + 3 ⋅1 ⋅ + 4 ⋅1 ⋅ +
16 16 16 16 16
3 2 1 3 1 1 49
+ 1⋅ 2 ⋅ + 2⋅2⋅ + 3⋅ 2 ⋅ + 1⋅ 3 ⋅ + 2 ⋅3⋅ + 1⋅ 4 ⋅ =
16 16 16 16 16 16 16
Διασπορές :
Λύση
2
σ 2
Χ = Ε Χ2 { } 2 13
− Ε {Χ } = 3 − =
23
8 64
σ Y2 = Ε {Y 2 } − Ε {Y }2 = 5 − 2 2 = 1
Συνδιασπορά :
= Ε {Χ ⋅ Y } − Ε { Χ } ⋅ Ε {Y } =
49 13 3
σ XY − 2⋅ = −
16 8 16
Συντελεστής συσχέτισης :
σxy 3
ρ = = − 16 = − 0, 313
σx ⋅ σy
XY
23
⋅1
8
⇒ X ↓ ⇒ Y ↑
Άλυτες ασκήσεις
Ενότητα 5: Παλινδρόμηση – Συσχέτιση θεωρητική προσέγγιση
Σκοποί ενότητας
• Είναι η πιθανοθεωρητική θεμελίωση της
απλής γραμμικής παλινδρόμησης
4
Περιεχόμενα ενότητας
• Διαγράμματα διασποράς
• Μονοδιάστατη παλινδρόμηση
• Τύποι διασποράς συνδιασποράς
• Διαστήματα εμπιστοσύνης για τις
παραμέτρους της εξίσωσης
• Συντελεστής προσαρμογής
• Συντελεστής συσχέτισης
• Εφαρμογές
• Άλυτες ασκήσεις
Παλινδρόμηση - Συσχέτιση
παραδοσιακός τρόπος περιγραφής της σχέσης μεταξύ δύο ή περισσοτέρων
μεταβλητών, είναι η εξεύρεση μιας συναρτησιακής σχέσης που τις συνδέει, π.χ.
E r
2
U I R
Νόμος του O h m Νόμος του κύκλου
και γενικότερα,
y g x 1
, x2 , , xn g x
εξηρτημένη ανεξάρτητη
μεταβλητή : x
μεταβλητή
1 2
x x
3 4
x : κόστος προϊόντος x x : ηλικία εργαζομένων
Y : συνολικές αποδοχές Y : απόσταση από τη θέση
εργασίας
1 γραμμική σχέση
2 αντιγραμμική σχέση
3 μη γραμμική σχέση
5
4 καμία σχέση
x
x : ετήσιος αριθμός οχημάτων 5 « φορμαλιστική » σχέση,
μη ουσιαστική
Y : ετήσιο πλήθος θανάτων από
από καρκίνο
Παλινδρόμηση : εκτίμηση της μέσης τιμής της Υ για διάφορα x .
x : ελεγχόμενη , Y : τυχαία
x1 : ύψος πατέρα
Υ : ύψος γιού ;
x 2
: ύψος μητέρας
x 3
: ποιότης διατροφής
Μονοδιάστατη Παλινδρόμηση
Y f Y x 3
f Y x 1 f Y x 2
x
x1 x2 x3 x
Y x1
Y x 3
Συνήθεις παραδοχές
N ,
2
Y x
( Ομοσκεδαστικότητα )
x i , i
Y i xi i
i
τυχαίο σφάλμα
E Y x Y x
x
Y xi
xi x
2
Y x
Υποθέσεις : E 0 , VAR f x
2
( ομοσκεδαστικότητα )
E Y x x E x
0
Μετατροπή μη γραμμικών
μοντέλων σε γραμμικά
Y x
E Y x b g x
μέση πυκνότητα
θερμοκρασία διαλύματος
διαλυμένου οξυγόνου
όπου g (x) : x x
2
ή e x ή lnx κ.τ.λ.
Ορίζοντας μια νέα ανεξάρτητη μεταβλητή
x g x Y x
E Y x x
Y x γραμμική
π.χ.
Z exp bx ln z b x
1 1
Z bx
bx Z
Y x
i
y i yˆ i
ευθεία παλινδρόμησης
xi x
Η εκτίμηση των α και β γίνεται με το σκεπτικό της ελαχιστοποίησης των τετραγώνων
των αποκλίσεων i y i yˆ i των παρατηρήσεων από την ευθεία
n n
y
2
yˆ i
2
i
i
min
i 1 i 1
σημείο στην ευθεία
παρατήρηση παλινδρόμησης
Y x
E 0 , VAR
2
Y x
2
, ~ N 0,
2
yˆ ˆ ˆ x ευθεία παλινδρόμησης
n n
y yˆ i y ,
2 2
i i
xi F
i1 i1
,
n
F
A
2 y i
x i
0 και
i 1
,
n
F
2 y i
x i
x i 0
i 1
n n n
A yi xi 0
i 1 i 1 i 1
ny nx n
n y n x n 0
^ ^
y x y x
n n n
yi xi
2
x i
xi 0
i 1 i 1 i 1
n x
y x
n n
n y x n x
2 2
yi xi x i
0
i 1 i 1
yi xi n y x n 1 sx y : δειγματική συνδιασπορ ά
^ i 1
n
2
n x n 1
2
x i
s
2
x
: δειγματική διασπορά του x
i 1
x
n
i
x y i
y
sx
ˆ
y i 1
x
n
2 2
s x x
i
i 1
Τύποι Διασποράς
2
E X
2
X 2
2
τετραγωνικός μέσος
x
n
1
2
2
s i
x
n 1 i 1
x
n n n n
1 2 1 2
2
xi 2 xi x
2 2
s i
2 xi x x x
n 1 i 1 n 1 i 1 i 1 i 1
1 n n
2
2
xi 2 x xi n x
n 1 i 1 i 1
nx
1 n
2 2
2
x i
2n x n x
n 1 i 1
1 n
2
2
x i
n x
n 1 i 1
Τύποι Συνδιασποράς
(covariance)
Cov X ,Y E X Y y
x
Cov X ,Y E X Y y X x Y x y
E X Y y E X x E Y x y
x y
E X Y y x x y x y E X Y x y
Επειδή E
X Y
E
X
E
Y
x
y
Cov X ,Y 0 , αν X ,Y ανεξάρτητε ς
sx y
1
i
x y i
y
n 1 i 1
x
n
sx y
1
i
yi xi y x yi x y
n 1 i 1
1 n n n n
n 1
xi yi xi y x yi x y
i 1 i 1 i 1 i 1
1 n n n
n 1
xi yi y xi x yi nxy
i 1 i 1 i 1
nx
ny
1 n
n 1
xi yi n x y
i 1
Παράδειγμα
Εξετάζοντας τη σχέση μεταξύ του ετήσιου οικογενειακού εισοδήματος x και των
ετήσιων εξόδων διατροφής Y, είχαμε το εξής δείγμα 10 οικογενειών.
οικογένεια x 1000 σε $ Y 100 σε $
A 8 22
Y
B 10 23
25
C 7 18
D 2 9 20
15
E 4 14
F 6 20 10
21
5 D
G 7
H 6 18 6 x
2 4 8 10
I 4 16
Διάγραμμα Διασποράς
J 6 19
B
C
x
10
8
7
22
23
18
y x y
176
126
230
64
100
49
x 2
y2
484
529
324
D 2 9 18 4 81
E 4 14 56 16 196
F 6 20 120 36 400
G 7 21 145 49 441
H 6 18 108 36 324
I 4 16 64 16 256
J 6 19 114 36 361
x
x
60
6 ; y
y
180
18
n 10 n 10
ˆ
xi yi n x y
1159 10 6 18
1 , 717
2
10 36
xi n x 406
2
ˆ y ˆ x 18 1, 717 6 7 , 698
20
2 . 486 , 8 $
ˆ 24 , 868 σε εκατοντάδε ς$
15
10
x, y 6 , 18 :
0 x
2 4 6 8 10
π.χ. πόσο ξοδεύει για διατροφή κατά μέσον όρο μια οικογένεια
με εισόδημα 10.000$
Y x 10 . 000
Y x 10 . 000
Στην παλινδρόμηση διακρίνουμε δύο βασικές κατηγορίες ερωτημάτων
π.χ. πόσο ξοδεύει για διατροφή κατά μέσο όρο μια οικογένεια με ετήσιο εισόδημα
10.000 $.
Η τιμή yˆ 2 . 486 . 8 $ αποτελεί σημειακή εκτίμηση του δεσμευμένου μέσου
Y x
10 . 000 Y x 10 . 000 .
π.χ. ποιο ποσοστό οικογενειών με ετήσιο εισόδημα x = 10.000 $ έχει έξοδα διατροφής
Υ:
Y
yˆ ˆ ˆ x
̂
x 10 . 000
x
Y 10 . 000 2 . 486 , 8
VAR Y x Y
2
x
: δεσμευμένη διασπορά
Y x
: τυπικό σφάλμα (standard error)
Το Y x είναι ένα μέτρο για την μεταβλητικότητα της Υ γύρω από την δεσμευμένη μέση τιμή
της, δηλ.
Y x
Y x
VAR Y x Y Y x
2
, όπου :
Y x
x γραμμικό μοντέλο
Το μέγεθος Y x αποτελεί γνώρισμα του πληθυσμού και ως εκ τούτου δεν εξαρτάται από την
2
Y x
~ N 0,
2
: ομοσκεδαστικότητα
f x
σταθερό για
δεδομένο x
παρατηρήσεις
n
2
i
n
1
y yˆ i
2 2 i 1
s Y x
i
n2 i 1 n 2
εκτίμηση του Y x ˆ ˆ ˆ x
εκτιμήτρια του
2
Y x
n - 2 βαθμοί ελευθερίας λόγω των δύο δεσμεύσεων για την εκτίμηση των α και β
Y
2
s Y x
n 2
yi yi yˆ i
i
xi x
2
βρίσκονται επί της ευθείας παλινδρόμησης, τα μεγέθη x i , y i και s Y x
sY x
μηδενίζονται.
μικρό sY x
0
Y
sY x
Y
μεγάλο sY x
x x
Στη πράξη, χρησιμοποιείται η παρακάτω εκτιμήτρια :
s
2
Y x
n2
1
[ y
2
i
ˆ yi ˆ xi yi ]
που είναι ισοδύναμη με την προηγούμενη, αλλά πιο εύχρηστη.
y
n n
1 1
y i yˆ i ˆ ˆ x i
2
s Y x
i
n2 i 1 n2 i 1
ˆ ˆ x i
[ y y ]
n
1
yi i
ˆ ˆ x i ˆ i
ˆ ˆ x i ˆ x i y i ˆ ˆ x i
n2 i 1
Έχουμε : y i
ˆ ˆ x i y i n ˆ ˆ x i
y ˆ x
yi
n y ˆ n x ˆ xi 0
ny nx
xi y i
ˆ ˆ x i x i y i ˆ x i ˆ x
2
i
x i y i ˆ xi
2
x i
x i y i ˆ xi x i y i ˆ xi 0
s Y
2
x
1
yi y i ˆ ˆ x i
n2 i 1
n2
1
i 1
[ y
2
i
ˆ y i ˆ x i y i ]
n2
1
[ y
2
i
ˆ y i ˆ xi yi ]
Παράδειγμα
Στο παράδειγμα, ετήσιο οικογενειακό εισόδημα x ετήσια έξοδα διατροφής Υ, είχαμε :
2
y i
3 . 396 , y i 180 , yi xi 1159
s
2
Y x
1
y i ˆ
2
y i ˆ xi yi
n2
1
3 . 396 7 , 698 180 1 , 717 1159 2 , 54
10 2
s Y x
1, 59 ( σε εκατοντάδες $ )
s Y x
: τυπικό σφάλμα εκτίμησης
Αποδεικνύεται ότι :
E yˆ E ˆ ˆ x E ˆ x ˆ x Y x
Δειγματοληπτική κατανομή και διαστήματα
εμπιστοσύνης για το ˆ
Από τη σχέση :
ˆ
n
xi x
w i Yi Yi
x
2
i 1
i
x
wi
Και δοθέντος, ότι βασική υπόθεση είναι ότι τα Y i είναι κανονικά κατανεμημένα, έπεται :
ˆ
κανονική κατανομή, σαν άθροισμα κανονικά κατανεμημένων
~ μεταβλητών Y i w i
~ N , VAR ˆ
λόγω ˆ , αμεροληψία
ˆ
n n n
Y x
ανεξαρτήτως x
x x
2
ˆ
n n
wi
2 2 2 i
VAR
[ x x ]
Y x Y x
2
2
i 1 i 1
i
x
2
x
2 1
2 i
Y x
xi x 2
Y x
[ ]
2
2
xi x
Δειγματοληπτική κατανομή και διαστήματα
εμπιστοσύνης για το ˆ
Άρα : ˆ ~
,
2
1
Y x
x
n
2
i
x
i 1
ˆ sY x
2
x
n
2
i
x
i 1
δηλ. :
2
t n 2 ; 2
Παράδειγμα
Να κατασκευαστεί διάστημα εμπιστοσύνης επιπέδου 95% για την εκτίμηση της β στο
παράδειγμα :
ετήσιο εισόδημα ετήσια έξοδα για διατροφή
Έχουμε : sY x 1 , 59
s 0 , 234
ˆ
x
n
2 46
i
x
i 1
n
2
n 1 s
2
x
x
2
i
n x 46
i 1
406 10 36
tn2 ; 2
t 8 ; 0 , 025
2 , 306
Διάστημα εμπιστοσύνης :
1, 717 2 , 306 0 , 234
1,177 ; 2 , 257
0 , 5396
Δειγματοληπτική κατανομή και διαστήματα
εμπιστοσύνης για το ˆ
Από τη σχέση :
1
n n
ˆ
ˆ y x
n
yi wi yi
x
i 1 i 1
ˆ
n n
1
wi x
yi qi yi
i 1 n i 1
qi
έχουμε :
ˆ ~ N , VAR ˆ
Διασπορά του ˆ
Η διασπορά του ˆ υπολογίζεται ως :
n
n
1
VAR ˆ VAR q i y i VAR wi x yi
i 1 i 1 n
2
n
1
wi x VAR Yi
i 1 n
2
Y x
ανεξαρτησία των yi
n
1 2 2 wi x
2 2
w x
Y x n2 i
n
i 1
n
1 2
n
2x
n
2 2
Y x
2
x w i
wi
i 1 n i 1 n i 1
0
x x
2
1
2
i
w
x x
i 2
x
n
2 2
i i
x
i 1
Διασπορά του ˆ
n
2
1 x
VAR ˆ
2
x
n
x 2 2
i 1 n x
i
i 1
1 1
n 2
n n
2
1 x
VAR ˆ
2
x n 2
n xi x
i 1
2
Άρα : ˆ ~ N
,
2
1
x
x
x 2
n x
i
Παράδειγμα
Να κατασκευαστεί διάστημα εμπιστοσύνης επιπέδου 95% για την εκτίμηση της α στο
παράδειγμα :
ετήσιο εισόδημα ετήσια έξοδα για διατροφή
2
1 x 36
Έχουμε : s ˆ s 1 , 494
x
x 2
n x
i
1 , 59
10 46
Διάστημα εμπιστοσύνης :
2
1 x
ˆ sY
2
x
x
n
n 2
i
x
i 1
7 , 698
s ˆ 1, 494
t n2; 2
t 8 ; 0 , 025
2 , 306
ˆ wi yi ; ˆ qi yi
i 1 i 1
xi x 1
wi x
2
xi x n
n n
έχουμε : yˆ ˆ ˆ x q y x wi yi
i i
i 1 i 1
n n
q i
x wi y
i
pi yi
i 1 i 1
Άρα η εκτιμήτρια ŷ της Y x είναι κανονικά κατανεμημένη, σαν άθροισμα των κανονικά
κατανεμημένων ανεξάρτητων μεταβλητών p i Y i .
yˆ ~ N Y yˆ
x
; VAR
yˆ
ˆ ˆ x ˆ x ˆ x Y x
2
Y x
, ομοσκεδαστικότητα
Ανεξαρτησία των i
Δειγματοληπτική κατανομή και
διαστήματα εμπιστοσύνης για το ŷ
2 2
xx
n n n
1 1
2
p i
w i x x wi wi
i 1 i 1 n i 1 n
qi
2
x x ]
n
1
i 1
[
n
w
2
i
x
2
2
1
n
wi x
n
1
x x
2
n
2 x x n
2
2
wi wi
i 1 n i 1 n i 1
1 0
1 n n
2
x x
x x
i
2 i 1
1
x
n
n 2
i
x
i 1
x x
2
n
1
2 2 2 2
yˆ
Y x
p i
Y x
x
n
n
2
i 1
x
i
i 1
x x
2
1
yˆ sY
2
x
x
n
n 2
i
x
tn2 ; 2
i 1
άνω όριο
εμπιστοσύνης ελάχιστο διάστημα
y
εμπιστοσύνης για
Y
x x
y
κάτω όριο
εμπιστοσύνης
x x
Παράδειγμα
Να δοθεί εκτίμηση διαστήματος επιπέδου 95% για τα μέσα έξοδα διατροφής οικογενειών
με μέσο εισόδημα x = 8.000 $.
yˆ ˆ ˆ x 7 , 698 1, 717 x
2143 , 4 $
Παράδειγμα
6
2
1 x x
s s
yˆ Y x n n
x x
2
46
i
i 1
10
2
1 x 6
1, 59 10
46
1, 59 0 , 432
8
0 , 432
0 , 687
Παράδειγμα
yˆ 2
s yˆ
21 , 434 2 , 306 0 , 687
1 , 58
tn2 ; 2
t8 ; 0 , 025
2 , 306
19 , 85 ; 23 , 01 σε εκατοντάδες
$
ή
1985 ; 2301 σε $
yˆ ˆ ˆ x
Διασπορά του Y n 1 , γύρω από τη μέση τιμή του, δηλ. γύρω από
την , δηλ. η σ
Y x
n 1
2
Y x
x x
2
1
2 2 2 2 2
x x
yˆ
ind Y x Y x
n 2 Y x
i
2
1 x x
2
1
Y x
n
n
x i x
i 1
[ yˆ n 1
2
sIND ]
τυπικό σφάλμα πρόβλεψης
t n2 ; 2
( standard error of forecast )
Κατανομή Student
γραμμή παλινδρόμησης
Y
διαστήματα πρόβλεψης
διαστήματα εκτίμησης
x
Παράδειγμα
Έστω, ότι επιλέγεται μια οικογένεια με ετήσιο εισόδημα x = 8.000 $. Να υπολογιστεί
διάστημα πρόβλεψης επιπέδου 95% για τα ετήσια έξοδα διατροφής της.
2
1 x x
s ind sy x
1 n
x
n 2
i
x
i 1
8
2
1 6
1 , 59 1 1 , 73
10 4 6
Διάστημα πρόβλεψης
21 , 434 2 , 306 1, 73 17 , 44 ; 25 , 4
Παράδειγμα
Υπολογίστε το ποσοστό των οικογενειών με ετήσιο εισόδημα x = 8.000 $ που ξοδεύει
πάνω από 3000 $ για διατροφή. Θεωρήστε ότι οι εκτιμήσεις ŷ και s Y x είναι σχεδόν
ταυτές με τις θεωρητικές τιμές του πληθυσμού.
Έχουμε :
Y 8 . 000
yˆ 21 , 434
2
Y x
sy x
1, 59
Ζητούμε :
Z ~ N 0, 1
Y 21 , 434 30 21 , 434
P Y 30 P
P
Z 5 , 438 0
1 , 59 1 , 59
Y ~ N 21 , 434 ; 1, 59
2
Συντελεστής Προσαρμογής, Συντελεστής Συσχέτισης
Y xi , y i
i y i ŷ i yˆ ˆ bˆ x
xi
yi y y i
yˆ i yˆ i
y
συνολικό σφάλμα μη εξηγούμενο εξηγούμενο σφάλμα
παρατήρησης σφάλμα παρατήρησης παρατήρησης
y
n
n
yˆ
n
2 2
y i yˆ i
2
i
y i
y
i 1 i 1 i 1
i
ˆ
2
ˆ Y
2
y x
yi y y i yˆ i yˆ i
y
για i 1 , 2 , ..., n , έχουμε :
y
n
n
yˆ
n
n
2 2
y i yˆ i y i yˆ i yˆ i y
2
i
y i
y 2
i 1 i 1 i 1 i 1
0
y i yˆ i yˆ i y y i ˆ ˆ x i ˆ ˆ x i y
ˆ y i
ˆ ˆ x i xi y i
ˆ ˆ x i y y i
ˆ ˆ x i
y i
ˆ ˆ x i 0 και
x i y i ˆ ˆ x i 0
y i
yˆ i yˆ i
y 0
Συντελεστής Προσαρμογής, Συντελεστής Συσχέτισης
yˆ ˆ
n
n n
2 2
ˆ x i y y ˆ x ˆ x i y
2
i
y
i 1 i 1 i 1
y ˆ x
n
x x
n
ˆ ˆ
2 2
2 2
i
x i
x
i 1 i 1
ˆ
2 2
s x
yˆ
n
x
n
ˆ
2 2
2
i
y i
x 1
n 1 s
2
ˆ
2 i 1 i 1 2
r
x
2
y
n
y
n
s
2 2
1
i
y i
y n 1
y
i 1 i 1
2
s y
2 2 2
s x y s s x y
x
4 2 2 2
s x
s y
s x
s y
s
ˆ
x y
2
s x
Συντελεστής Προσαρμογής
n
2
yˆ i y
2 εξηγούμενο σφάλμα i 1
r
n
συνολικό σφάλμα
2
yi y
i 1
2
s
ˆ
2 2 2
1
x
r ; r
s
2
y
s s
2
sy sx sy
y x
1 r 1
μια τιμή ίση ή κοντά στο 0, δηλώνει απουσία γραμμικής αλλά όχι
οποιασδήποτε σχέσης
επειδή cov ( x , y ) 0
sx y
0
Παράδειγμα
Στο παράδειγμα έχουμε :
ˆ 1, 717
s
2
x
n 1
1
x 2
i
n x
2
1
9
406 10 6
2
5 , 11
s
2
y
n 1
1
y 2
i
n y
2
1
9
3 . 396 10 18
2
17 , 33
ˆ
2 2
2 2 1 , 717
r 2
s x
5 , 11 0 , 869
s y
17 , 33
r 0 , 869 0 , 932
Άσκηση 1
Y Y
x II
x
) Ποια από τις 5 γραμμές αντιπροσωπεύει καλύτερα την δεσμευμένη τιμή Y x των 4
παρατηρήσεων του σχήματος Ι ;
) Αν μπει ο περιορισμός ότι η ευθεία παλινδρόμησης πρέπει να περνά από την αρχή
των αξόνων, ποια ευθεία παριστάνει καλύτερα την ευθεία παλινδρόμησης ;
) Έστω x 10 . Ταξινομήστε κατά μέγεθος τα διαστήματα εμπιστοσύνης της ŷ για
x 7, x 9, x 11 , x 14
) η ευθεία E
) η ευθεία E
) r
2
0 , επειδή προφανώς δεν υπάρχει γραμμική σχέση
x y
1
x y
2
sx y n
i i
r
sx sy sx sy
Λύση
Έχουμε :
xi y i
1 b
0 0 x 2 b
4 2
0
b 0 1
y 2
b 4 2
b b b
n 1 s xy 0 0 0 b 0
2 2 2 2 2 2
3 b b b b b
b 0
2 2 4 4 4 4
) Στο σχήμα Ι, τα σημεία αριστερά της ευθείας δεν παίζουν ρόλο. Το άθροισμα των
τετραγώνων γίνεται ελάχιστο, αν η ευθεία «μοιράζει» την απόσταση.
2
Έχουμε :
2
1
2
2
min
1
2
c σταθ.
2
1
c 1
2
min 2 1 2 c 1 1 0
1 c
2
) xx
2
Το εύρος κανονίζεται από το μέγεθος
14
7
9
11
Άσκηση 2
Έστω x ο μέσος αριθμός τσιγάρων που κάπνιζε ημερησίως η μητέρα στην διάρκεια της
εγκυμοσύνης και Υ το βάρος γεννήσεως του παιδιού της, σε kg. Δείγμα τάξης 15 έδωσε :
xi yi xi yi
10 3 , 73 18 3 ,19
15 3 , 24 9 3 , 84
17 3 ,15 15 3 ,15
25 2 , 60 23 3 , 37
13 3 , 43 8 3 , 84
17 3 , 01 22 2 , 92
20 2 , 84 21 2 , 58
19 3 , 09
Λύση
Έχουμε : ˆ y ˆ x και ˆ
xi yi n x y
2
2
x i
n x
47 , 98
y i 47 , 98 y
15
3 , 20
2
x i
4606 xi yi 781 , 6
781 , 6 15 16 , 8 3 , 2
ˆ 0 , 066
16 , 8
2
4 606 15
ˆ 3 , 2 0 , 066 16 ,8 4 ,3
y 4 , 3 0 , 066 x
Ερμηνεία
x x
2
1
s yˆ
sY x
n
x
n 2
i
x
i 1 2
2
x i
n x
και ˆ y i ˆ
2
2
y i
xi yi
s Y x
n 2
sY x
0 , 268
3 16 ,8
2
1
s yˆ
0 , 268 0 , 204
15 372 , 32
Διάστημα εμπιστοσύνης
yˆ t 13 ; 0 , 025
s yˆ
3 , 68 ; 4 , 56 σε kg
x x
2
1
yˆ tn2 sY 1
x x
; 2 x 2
n
i
0 , 204
4 ,12 2 ,160
4 ,12 0 , 553 3 , 57 ; 4 , 67
4
x 10 , x 15 , 8 , x 17 , 8 , x 20
Άσκηση 4
Εξετάστηκε η διαλυτότητα νιτρικού νατρίου σε σχέση με τη θερμοκρασία του νερού.
Έστω ότι οι παρατηρήσεις έδωσαν :
yˆ 67 , 52 0 , 87 T
διαλυτότητα θερμοκρασία
2 2 2 2
και s T
22 , 53 , s y
19 , 61
1
Τι μπορούμε να πούμε για την ποιότητα της προσαρμογής ; Δώστε μια εκτίμηση για
την συνδιασπορά.
2 2
Έχουμε : s 22 , 53
ˆ
2 2 2
r 2
0 , 87 2
0 , 999
s y
19 , 61
σχεδόν ντετερμινιστική γραμμική σχέση
s
Από : r
y
s y
r s sy 441 , 4
s s y
εκτιμήτρια συνδιασποράς
Άλυτες ασκήσεις
Ενότητα 6: Συσχέτιση και παλινδρόμηση εμπειρική προσέγγιση
Σκοποί ενότητας
• Κατανόηση της έννοιας του συντελεστή συσχέτισης και
δυνατότητα υπολογισμού του με τύπους και στατιστικά πακέτα.
4
Περιεχόμενα ενότητας
• Συσχέτιση
• Συντελεστές συσχέτισης
• Απλή Γραμμική Παλινδρόμηση
• Προσαρμογή ευθείας
• Απλή παλινδρόμηση στο IBM SPSS
• Εφαρμογή χωρίς Η/Υ
• Άλυτες Ασκήσεις
Διαγράμματα διασποράς
Συσχέτιση
Ο συντελεστής γραμμικής συσχέτισης δύο τυχαίων
μεταβλητών Χ και Υ εξετάζει το κατά πόσο η μια
μεταβλητή επηρεάζεται γραμμικά από μια άλλη.
Συντελεστές συσχέτισης.
– Εργαλεία στατιστικού ελέγχου
• r του Pearson (για συνεχείς και κανονικά
κατανεμημένες μεταβλητές)
• ρ (rho) του Spearman (για διακριτές ή μη κανονικά
κατανεμημένες μεταβλητές)
Ο συντελεστής r του Pearson.
=
Cδ ( Χ, Ψ )
r =
∑ (Χι − Χ)(Ψι =
− Ψ)
s X sΨ ∑ (Χι − Χ) ∑ (Ψι − Ψ )
2 2
=
∑ Χι Ψι − n ΧΨ
(∑ Χι − n Χ )(∑ Ψι − n Ψ
2 2 2 2
)
Παράδειγμα
Ο συντελεστής r του Pearson.
• Να βρεθεί ο συντελεστής
Τιμή ταχύτητα
συσχέτισης μεταξύ της τιμής
του αυτοκινήτου σε ευρώ και 5500 110
της ταχύτητας του μετά από 5800 112
δέκα sec σε km/h 8100 135
6300 122
5900 124
5800 126
6600 112
6800 114
8800 145
Αρ. Μέσος = 6600 Αρ. Μέσος = 122
Παράδειγμα
Ο συντελεστής r του Pearson.
Xi − X Yi − Y COV ( X , Y)
( X i − X )2 (Yi − Y ) 2 9 9
∑ ( Xi − X ) ∑ (Yi − Y )
2 2
i =1 i =1
Παράδειγμα
Ο συντελεστής r του Pearson.
• Με βάση τΑ προηγούμενα ο συντελεστής συσχέτισης
είναι ίσος με
85100
r= = 0,8728
97500
Παράδειγμα
Ο συντελεστής r του Pearson.
140
130
120
110
100
90
45 55 65 75 85 95
ΤΙΜΗ ΑΥΤΟΚΙΝΗΤΟΥ
Παραδείγματα:
– Η σχέση ύψους ταχύτητας αυτ τιμή αγοράς τους
– Η σχέση των μετρήσεων μια βιοχημικής παραμέτρου με δύο
διαφορετικές μεθόδους
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ
Σχέση:
– Πωλήσεις καταστημάτων με εμβαδό.
– Μισθός με προυπηρεσία
– Προσλαμβανόμενες θερμίδες και σωματική
δραστηριότητα.
Παράδειγμα:
Υ=α+βΧ
Προυπηρεσία
Το μαθηματικό υπόδειγμα …
Τι εκφράζει η παράμετρος b0
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 22,003 ,269 81,646 ,000
Age of Subjects ,096 ,006 ,294 16,811 ,000
a. Dependent Variable: Body Mass Index (kg/m2)
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 25,316 ,113 223,775 ,000
Sex of Subjects 2,056 ,161 ,228 12,796 ,000
a. Dependent Variable: Body Mass Index (kg/m2)
Τι εκφράζει η παράμετρος b1;
Παράδειγμα
• Αύξηση της ηλικίας κατά ένα έτος,
συσχετίζεται με αύξηση του ΔΜΣ κατά 0,096
kg/m2.
• Οι άνδρες σε σύγκριση με τις γυναίκες (1/0)
έχουν 2,056 kg/m2 μεγαλύτερο ΔΜΣ.
Σκοποί ενότητας
• Κατανόηση της έννοιας του συντελεστή συσχέτισης και
δυνατότητα υπολογισμού του με τύπους και στατιστικά πακέτα.
4
Περιεχόμενα ενότητας
• Στοιχεία δειγματοληψίας
• Στατιστικοί πίνακες
• Πρωτογενή και ομαδοποιημένα δεδομένα
• Περιγραφικά στατιστικά σε πρωτογενή δεδομένα
• Περιγραφικά στατιστικά σε ομαδοποιημένα
δεδομένα
• Εφαρμογές
• Άλυτες Ασκήσεις
ΔΕΙΓΜΑΤΟΛΗΨΙΑ
1 Εισαγωγή
Πολλές φορές η επεξεργασία των δεδομένων και η εξαγωγή συμπερασμάτων
δεν γίνεται μέσω επαγωγικής στατιστικής και των μεθόδων που
αναπτύχθηκαν, αλλά μέσω παρουσίασης αριθμητικών μέτρων και
διαγραμμάτων.
2 ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Η συλλογή των στατιστικών δεδομένων γίνεται με δύο κυρίως μεθόδους, τη
δειγματοληψία και την απογραφή.
Τις περισσότερες φορές η απογραφή είναι αδύνατο να πραγματοποιηθεί ή
έχει μεγάλο κόστος. Για το λόγο αυτό επιδιώκεται η εύρεση ενός κατάλληλου
δείγματος, τα συμπεράσματα από το οποίο να μπορούν να γενικευτούν για
το σύνολο του πληθυσμού. Για την αντιπροσωπευτικότητα του δείγματος
μεγάλο ρόλο παίζει το μέγεθος καθώς και ο τρόπος επιλογής του. Ο τρόπος
επιλογής του δείγματος επηρρεάζεται από τη μορφή των δεδομένων που
επιδιώκεται. Έτσι προκύπτουν διαφορετικοί τρόποι δειγματοληψίας.
1 Απλή τυχαία δειγματοληψία:
• Κατανομή συχνοτήτων
• Αθροιστικές συχνότητες
Στατιστικοί πίνακες (2)
• α) ιστόγραμμα (histogram),
• β) πολύγωνο συχνοτήτων (frequency
polygon)
• γ) ραβδόγραμμα (bar chart),
• δ) πίτα συχνοτήτων ή κυκλικό διάγραμμα (pie
chart)
• ε) διάγραμμα μίσχου-φύλλου ή
φυλλογράφημα ( stem and leaf plot).
Ιστόγραμμα
Πολύγωνο
Πίττα συχνοτήτων
Μέτρα Θέσης
Παράδειγμα Variance
Range
20,376
54,97
Περιγραφικά Στατιστικά Minimum 11,69
Μέτρα Maximum 66,67
Sum
(Summary Statistics)
78846,09
Percentiles 10 20,9572
20 22,5896
25 23,2315
30 23,8472
40 24,8971
50 25,8841
60 26,9896
70 28,2828
75 28,9811
80 29,5525
90 32,0501
a. Multiple modes exist. The smallest value is shown
Παράδειγμα
Παράδειγμα