The Wayback Machine - https://web.archive.org/web/20260103033134/https://www.scribd.com/document/634401081/%CE%A3%CF%84%CE%B1%CF%84%CE%B9%CF%83%CF%84%CE%B9%CE%BA%CE%AE-%CE%95%CF%80%CE%B9%CF%87%CE%B5%CE%B9%CF%81%CE%AE%CF%83%CE%B5%CF%89%CE%BD-%CE%99-%CE%9C%CE%B9%CE%BB%CF%84%CE%B9%CE%AC%CE%B4%CE%B7%CF%82-%CE%A7%CE%B1%CE%BB%CE%B9%CE%BA%CE%B9%CE%AC%CF%82-%CE%A4%CE%95%CE%99-%CE%A0%CE%B5%CE%B9%CF%81%CE%B1%CE%B9%CE%AC
0% found this document useful (0 votes)
494 views172 pages

Στατιστική Επιχειρήσεων Ι Μιλτιάδης Χαλικιάς ΤΕΙ Πειραιά

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Uploaded by

mpilias
Copyright
© Public Domain
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
494 views172 pages

Στατιστική Επιχειρήσεων Ι Μιλτιάδης Χαλικιάς ΤΕΙ Πειραιά

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Uploaded by

mpilias
Copyright
© Public Domain
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά

Στατιστική Επιχειρήσεων Ι

Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής


Τμήμα Διοίκησης Επιχειρήσεων

Ενότητα 1: Στοιχεία Πιθανοθεωρίας


Σκοποί ενότητας
• Η εξοικείωση του φοιτητή με τις (εισαγωγικές)
έννοιες που θα του χρειαστούν για τον ορισμό
της πιθανότητας. Εμπέδωση (με δυνατότητα
εφαρμογών) από το φοιτητή του ορισμού
πιθανότητας κατά Laplace καθώς και των
εννοιών δεσμευμένης πιθανότητας και
ανεξαρτησίας ενδεχομένων.

Περιεχόμενα ενότητας
• Πείραμα τύχης
• Σχέσεις μεταξύ συνόλων
• Στοιχεία Συνδυαστικής Ανάλυσης
• Ορισμός πιθανότητας κατά Laplace
• Ανεξαρτησία ενδεχομένων
• Δεσμευμένη πιθανότητα
• Ασκήσεις- Εφαρμογές
• Άλυτες ασκήσεις

5
Πειράματα τύχης
Ως πείραμα τύχης εννοούμε μια διαδικασία με αβέβαιη
έκβαση που θεωρούμε ότι μπορεί να επαναληφθεί κάτω από
τις ίδιες συνθήκες

• Σε ένα πείραμα τύχης ορίζουμε τα ακόλουθα:


• Απλό ενδεχόμενο καλείται κάθε δυνατό αποτέλεσμα του
πειράματος.
• Δειγματικός χώρος (ή δειγματοχώρος) Ω είναι το σύνολο
όλων των απλών ενδεχομένων.
• Ενδεχόμενο Α ονομάζεται κάθε σύνολο απλών
ενδεχομένων. Ως ενδεχόμενο θεωρείται και ο Ω αλλά και
το κενό σύνολο Ø.

Παραδείγματα
Πράξεις Συνόλων
Διάγραμμα Venn

Πράξεις Συνόλων
Περιεκτικότητα
Πράξεις Συνόλων
Ένωση-Τομή
Ένωση Τομή

Πράξεις Συνόλων
Αφαίρεση συνόλων-Συμπλήρωμα
Πράξεις Συνόλων

Παραδείγματα
• Έστω Α, Β, Γ, Δ, Ε πέντε ενδεχόμενα του Ω.

• α) Ποιο ενδεχόμενο περιγράφει την πραγματοποίηση


τουλάχιστο ενός από τα Α, Β, Γ, Δ, Ε;

• β) Ποιο ενδεχόμενο περιγράφει την πραγματοποίηση ενός


και μόνου ενδεχομένου από τα Α, Β, Γ, Δ, Ε;

• γ) Να μη συμβούν όλα;
Συνδυαστική ανάλυση
Με τον όρο συνδυαστική εννοούμε την απαρίθμηση των
στοιχείων ενός συνόλου ή δειγματοχώρου. Συνήθως η
χρήση της πραγματοποιείται προκειμένου να υπολογιστούν
οι πιθανότητες κάποιων ενδεχομένων.

• ΚΑΡΤΕΣΙΑΝΟ ΓΙΝΟΜΕΝΟ

Συνδυαστική Ανάλυση
Συνδυασμοί

Παράδειγμα
Με πόσους τρόπους 12 άτομα χωρίζονται σε τετράδες;
Ορισμός Πιθανότητας
(κατά Laplace)
Ορισμός (κατά Laplace) Έστω ένα πείραμα τύχης με γνωστό
δειγματικό χώρο και ισοπίθανα ενδεχόμενα. Η πιθανότητα να
συμβεί ένα ενδεχόμενο (ή γεγονός) ισούται με το πηλίκο του
αριθμού των ευνοϊκών για αυτό περιπτώσεων προς το
πλήθος όλων των δυνατών περιπτώσεων.

Αξιώματα πιθανοτήτων
Εφαρμογή 1

Εφαρμογή 2
Εφαρμογή 3

Εφαρμογή 4
Δεσμευμένη πιθανότητα
Η πιθανότητα της πραγματοποίησης ενός ενδεχομένου
δεδομένου της πραγματοποίησης του ενδεχομένου
ονομάζεται δεσμευμένη πιθανότητα του , συμβολίζεται με
και υπολογίζεται από τον τύπο

Ανεξάρτητα ενδεχόμενα
Δύο ενδεχόμενα Α, Β καλούνται ανεξάρτητα όταν η
πραγματοποίηση του ενός δεν αλλάζει την πιθανότητα
πραγματοποίησης του άλλου. Δηλαδή ισχύει

Αν δεν ισχύει η τελευταία σχέση τα ενδεχόμενα καλούνται


εξαρτημένα.
Ανεξάρτητα ενδεχόμενα

Ανεξάρτητα ενδεχόμενα

Παρατήρηση 1

Παρατήρηση 2
Παράδειγμα
Έστω ότι δύο μηχανές λειτουργούν ανεξάρτητα για την
παραγωγή ενός προϊόντος. Στο 60% του χρόνου λειτουργίας
του μηχανήματος, καμία από τις μηχανές δεν παρουσιάζει
βλάβη. Όμως, με ένα ποσοστό 1% του χρόνου λειτουργίας και
οι δύο μηχανές παρουσιάζουν βλάβη ταυτόχρονα. Αν για να
παραχθεί το προϊόν απαιτείται η λειτουργία μιας
τουλάχιστον μηχανής, να υπολογισθεί η πιθανότητα
κατασκευής του προϊόντος καθώς και η πιθανότητα
λειτουργίας κάθε μιας από τις δύο μηχανές.

Λύση
Λύση

Παράδειγμα 2
(Τετράεδρο του Bernstein)
Παράδειγμα 2
(Τετράεδρο του Bernstein)

Άσκηση 1
Αν ρίξουμε δύο ζάρια, ποια η πιθανότητα να έρθει
ακριβώς μία φορά 5, όταν,
α) δεν δίνεται άλλη πληροφορία
β) είναι γνωστό ότι η ρίψη έφερε άθροισμα μεγαλύτερο
του 9.
Λύση
Ο αρχικός δειγματοχώρος είναι Ω={(1,1), (1,2), (1,3), (1,4),
(1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2),
(3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4),
(6,5), (6,6)}.
• Ορίζουμε:
• Κ : {έρχεται 5}
• Β : {έρχεται άθροισμα μεγαλύτερο του 9}

Λύση
Άσκηση 2
Σε ένα λιμάνι αναμένονται 4 Επιβατικά πλοία και 2
Πετρελαιοφόρα. Ποια η πιθανότητα τα δύο πρώτα πλοία που
θα έρθουν να είναι
i) Επιβατικά
ii) ii) ίδιου τύπου;

Λύση
Άσκηση 3

Λύση
Λύση

Άσκηση 4
Άσκηση 5

Λύση
Λύση

Άσκηση 6
Άλυτες ασκήσεις
Ενότητα 2: Τυχαίες Μεταβλητές

Σκοποί ενότητας
• Σκοπός είναι η κατανόηση των εννοιών
πληθυσμός και δείγμα, τυχαία μεταβλητή ώστε
να μπορεί ο φοιτητής να κατανοήσει τον ορισμό
κατά Kolmogorov. Ακόμα ο φοιτητής θα πρέπει
να έχει τη δυνατότητα εφαρμογής των
παραπάνω.

4
Περιεχόμενα ενότητας
• Δειγματοληψία
• Τυχαίες μεταβλητές
• Πιθανότητα κατά Kolmogorov
• Συναρτήσεις πιθανότητας για διακριτές
μεταβλητές
• Συναρτήσεις πιθανότητας για συνεχείς
μεταβλητές
• Συναρτήσεις κατανομής για διακριτές
μεταβλητές
• Συναρτήσεις κατανομής για συνεχείς μεταβλητές

Πληθυσμός και δείγμα


• Ορισμός: Στατιστικός πληθυσμός ονομάζεται το σύνολο των
πειραματικών μονάδων π.χ άνθρωποι, ζώα, επιχειρήσεις κ.λπ, οι οποίες
συμμετέχουν στην έρευνα που πραγματοποιείται.
• Ο πληθυσμός διακρίνεται σε άπειρο και πεπερασμένο ανάλογα με τη
φύση της έρευνας. Το πλήθος των πειραματικών μονάδων θα
συμβολίζεται με n.
Ποιος είναι ο πληθυσμός;

Ο καθορισμός του πληθυσμού δεν είναι πάντοτε σαφής:

• Π.χ. Οικονομική κατάσταση φοιτητών ΑΕΙ αν γίνει στο


χώρο του Πανεπιστημίου παίρνουμε μόνο τους
ενεργούς

• Π.χ. κάνουμε έρευνα που θέλουμε να μελετήσουμε


δημογραφικά χαρακτηριστικά μακροχρόνια ανέργων
πρέπει πρώτα από όλα να οριστεί τι εννοούμε με τον
όρο ‘μακροχρόνια άνεργος’ κάθε ορισμός δίνει και άλλο
πληθυσμό

Πληθυσμός και δείγμα

Δείγμα είναι συλλογή από στοιχειώσεις ή πρωταρχικές


μονάδες δειγματοληψίας τις οποίες επιλέγουμε έτσι ώστε να
αποτελούν μια αντιπροσωπευτική εικόνα του πληθυσμού
Απογραφή ή δειγματοληψία;

‘Δεν είναι δυνατό να ρωτήσουμε την άποψη για ένα θέμα


όλους τους ανθρώπους της γης’

Προβλήματα ακόμα και στον πληθυσμό της


απογραφής..
• Απογράφονται όλοι είτε τουρίστες είτε
μόνιμοι κάτοικοι:
• Προβλήματα:
Πληθυσμιακές μετακινήσεις
Μέχρι να καταχωρηθούν και να
επεξεργαστούν τα αποτελέσματα αλλάζει ο
πληθυσμός!
Περιπτώσεις μη ύπαρξης
πληθυσμού!

Πολλά προϊόντα πρέπει να εξεταστούν για την αντοχή τους


που συνίσταται στην εκτίμηση σημείου κάμψης ή του
σημείου πέραν του οποίου σπάνε. Προφανώς αυτό μπορεί
να γίνει μόνο σε ένα δείγμα παραγωγής καθώς μια
απογραφή σημαίνει καταστροφή του συνόλου της
παραγωγής (Βιομηχανικός έλεγχος ποιότητας)

Τυχαίες Μεταβλητές
Ορισμός Κάθε κανόνας απεικόνισης (συνάρτηση) που
αντιστοιχεί σε κάθε σημείο ω του δειγματοχώρου Ω ένα
πραγματικό αριθμό x, καλείται τυχαία μεταβλητή.
Δηλαδή κάθε τυχαία μεταβλητή είναι μια συνολοσυνάρτηση με
πεδίο ορισμού το Ω και πεδίο τιμών το R.
Είδη τυχαίων μεταβλητών

Πιθανότητα κατά Kolmogorov


Παράδειγμα

Συνάρτηση πυκνότητας
πιθανότητας
Αθροιστική συνάρτηση κατανομής

Παράδειγμα
Έστω Χ η τυχαία μεταβλητή που αντιστοιχεί στην μεγαλύτερη
τιμή μεταξύ δύο ζαριών. Να κατασκευαστεί η συνάρτηση
πυκνότητας και κατανομής για την Χ καθώς και το διάγραμμα
κατανομής.
Λύση
Παράδειγμα

Λύση
Παράδειγμα

Λύση
Παράδειγμα

Λύση
Λύση

Λύση
Παράδειγμα

Λύση
Λύση

Παράδειγμα
Λύση

Παράμετροι τυχαίων μεταβλητών


• Μέση τιμή
Ιδιότητες
Μέσης τιμής - Διακύμανσης

Παράδειγμα
Λύση

Λύση
Λύση

Άλυτες Ασκήσεις
Ενότητα 3: Χρήσιμες Κατανομές
Σκοποί ενότητας
• Εκμάθηση των γνωστών κατανομών (με
έμφαση στην κανονική κατανομή) με
δυνατότητα εφαρμογών.

Περιεχόμενα ενότητας
• Διακριτές χρήσιμες κατανομές
• Διωνυμική
• Poisson
• Συνεχείς χρήσιμες κατανομές
• Κανονική κατανομή
• Κατανομή Χ2
• Κατανομή Student

5
Χρήσιμες Κατανομές
ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ
ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ

Έστω πείραμα δύο αποτελεσμάτων όπου το ένα έχει πιθανότητα


p και ονομάζεται επιτυχία και το άλλο 1-p και ονομάζεται
αποτυχία. Η πιθανότητα σε n επαναλήψεις του πειράματος να
έχουμε x επιτυχίες δίνεται από τη συνάρτηση πιθανότητας της
διωνυμικής κατανομής:

Διωνυμική Κατανομή
Και η συνάρτηση κατανομής που δίνει την πιθανότητα μέχρι
και x επιτυχιών δίνεται από τον τύπο:
Παράδειγμα
Η πιθανότητα επιτυχούς στόχευσης βολής κατά στόχου είναι
0,6 α) ποια η πιθανότητα τριών επιτυχιών σε πέντε
προσπάθειες β) ποια η πιθανότητα μέχρι και τριών επιτυχιών
σε πέντε προσπάθειες γ) ποια η πιθανότητα άνω των τριών
επιτυχιών σε πέντε προσπάθειες δ) Έστω ότι αλλάζει η
απόσταση του στόχου έτσι ώστε η πιθανότητα πέντε
επιτυχιών σε δέκα προσπάθειες να είναι διπλάσια από την
πιθανότητα τεσσάρων επιτυχιών σε δέκα προσπάθειες. Ποια
η πιθανότητα τριών επιτυχιών σε έξι προσπάθειες.

Λύση
Λύση

Κατανομή Poisson
• Με τη μεταβλητή X ή Χ(t) συμβολίζουμε το πλήθος γεγονότων που
συμβαίνουν στη μονάδα του χρόνου ή του χώρου. Παραδείγματα
όπου η Χ(t) είναι αριθμός γεγονότων στην μονάδα του χρόνου είναι:
• Οι αφίξεις σε μηχάνημα ανάληψης χρημάτων τράπεζας (ATM).
• Ο αριθμός των γκολ κατά τη διάρκεια ενός ποδοσφαιρικού αγώνα.
• Ο αριθμός των κλοπών σε μία πόλη κατά τη διάρκεια του
Καλοκαιριού.
• Ενώ παραδείγματα όπου η Χ(t) είναι αριθμός γεγονότων στην
μονάδα του χώρου είναι:
• Πλήθος λαθών σε ένα βιβλίο ή σε ένα πρόγραμμα υπολογιστή.
• Ο αριθμός των ελαιοδέντρων ανά στρέμμα σε μία γεωργική έκταση.
Κατανομή Poisson

Παράδειγμα
Οι αφίξεις σε μηχάνημα ανάληψης χρημάτων τράπεζας (ATM):
ακολουθούν κατανομή Poisson με μέση τιμή 5,5 αφίξεις την
ώρα. α) Να βρεθεί η πιθανότητα να έχουμε 3αφίξεις σε μια ώρα
β) μέχρι και τρεις αφίξεις σε μια ώρα γ) πάνω από τρεις αφίξεις
σε μια ώρα.
Λύση

Κανονική Κατανομή
• Μια συνεχής τυχαία μεταβλητή ακολουθεί ‘κανονική κατανομή’
όταν το ιστόγραμμα συχνοτήτων της μεταβλητής έχει σχήμα
‘κωδωνοειδές’ (σχήμα καμπάνας ) δηλαδή:
Κανονική Κατανομή

Ο συμβολισμός που χρησιμοποιείται για


την μέση τιμή είναι μ ενώ για την τυπική
απόκλιση σ. Για την κανονική κατανομή με
μέση τιμή μ και τυπική απόκλιση σ έχουμε
το συμβολισμό . Στην κορυφή της
κατανομής βρίσκεται η μέση τιμή της
κατανομής ενώ τα σημεία που εφάπτεται
με τον οριζόντιο άξονα είναι η μέση τιμή αν
προσθαφαιρέσουμε τρεις τυπικές
αποκλίσεις δηλαδή (μ-3σ, μ+3σ). Ανάλογα
με την τυπική απόκλιση καθορίζεται και το
σχήμα της κατανομής, όπως φαίνεται
παρακάτω:

Κανονική Κατανομή
• Η συνάρτηση πυκνότητας πιθανότητας είναι:

• Με τον όρο τυποποιημένη κανονική κατανομή εννοούμε την κανονική


κατανομή με μ=0 και σ=1 (δηλαδή Ν(0,1)). Η συγκεκριμένη κατανομή έχει
καταγραφεί σε πίνακες και χρησιμοποιείται συνέχεια στη λύση
προβλημάτων. Ο συμβολισμός που χρησιμοποιούμε για μια μεταβλητή
που ακολουθεί τυποποιημένη κανονική κατανομή είναι Ζ. Η παρακάτω
πρόταση μας δίνει τη δυνατότητα μετασχηματισμού μιας κανονικά
κατανεμημένης μεταβλητής σε μεταβλητή που ακολουθεί τυποποιημένη
κανονική κατανομή.
Πρόταση

Κατανομή Χ2
Κατανομή Χ2

Κατανομή t ή Κατανομή Student


Κατανομή t ή Κατανομή Student

Ασκήσεις
Λύση
Άσκηση

Άσκηση
Λύση

Άσκηση
Λύση

Λύση
Άσκηση

Λύση
Λύση

Άσκηση
Άσκηση

Λύση
Λύση

Άσκηση
Άσκηση

Άσκηση
Ασκήσεις Επανάληψης

Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης

Ασκήσεις Επανάληψης
Ασκήσεις Επανάληψης

Λύση
Ασκήσεις Επανάληψης

Ασκήσεις Επανάληψης
Λύση

Ασκήσεις Επανάληψης
Βιβλίο Λ. Καμαρινόπουλου
(Άσκηση 7, ΣΕΛ. 70)
Κάλπη περιέχει 5 σφαίρες αριθμημένες με 1 έως 5. Επιλέγονται τυχαία
τρεις σφαίρες και έστω Χ ο μέγιστος παρατηρούμενος αριθμός. Ποια η
συνάρτηση πυκνότητας και κατανομής της Χ ;
Δειγματοχώρος S X : ΜΕΓΙΣΤΟΣ Πεδίο τιμών, x ∈ R

1 2 3 3
1 2 4
2 3 4 4
1 3 4

1 2 5
1 3 5
1 4 5
2 3 5 5
2 4 5
3 4 5
 5  = 5! 4 ⋅ 5
= = 10
3 3! ⋅ 2 ! 2
⇒ 10 δυνατά αποτελέσματα, οπότε κάθε ένα έχει πιθανότητα 1 10

f ( x) = P ( X = x )
F ( x) = P ( X ≤ x )
10
1=
10

4 10

1 10

0 2 3 4 5 x

1 10 3 10 6 10
Βιβλίο Λ. Καμαρινόπουλου
(Άσκηση 7, ΣΕΛ. 70)
Η μηνιαία κατανάλωση πετρελαίου για θέρμανση μιας πολυκατοικίας σε χιλιάδες
γαλόνια είναι τυχαία μεταβλητή με πυκνότητα,
 α (1 − x ) 4 0 ≤ x ≤ 1

f ( x) = 
0 αλλού

Ποια η χωρητικότητα του λέβητα, ώστε η πιθανότητα να εξαντληθεί το πετρέλαιο


σε ένα μήνα να είναι p = 0, 01 ;

+ ∞ 1 1
∫ f ( x ) d x = ∫ α (1 − x ) d x = α ⋅ (− 1) ⋅ ∫ (1 − x ) d (1 − x ) =
4 4
− ∞ 0 0

= −α
(1 − x )5 1
= α = 1
5 0 5

⇒ α = 5

f ( x)
5

0, 01

C 1 x (κατανάλωση)
(χωρητικότητα λέβητα)

1 1
∫ f (x ) d x = ∫ 5 ( 1 − x )
4
⇒ d x = 0, 01
C C

⇒ 5
(1 − x )5 C
= ( 1 − C ) 5 = 0, 01
5 1

⇒ 1 − C = 5 0, 01 ⇒ C = 1 − 5 0, 01

⇒ C = 0, 6
f (t )

β
Βιβλίο Λ Καμαρινόπουλου
(ΑΣΚΗΣΗ 14, σελ. 7) α ⋅ t2

Αν η f(t) είναι συνάρτηση πυκνότητας, να υπολογιστούν :


12 16
t
α) τα α και β ; β) το Ρ (Τ ≥ 6)
+∞ 16 α ⋅ t3 12
α) ∫ f (t ) ⋅ d t = ∫ f (t ) ⋅ d t = + 4 ⋅ β = 1
−∞ 0 3 0



α ⋅ 12 3
+ 4β = 1 α = 8, 64 ⋅ 10 − 4
3  ⇒
 β = 0, 125
f (12) = α ⋅ 12 2 = β 

β) P( T ≥ 6 ) = 1 − P ( T < 6 ) =
6 63
= 1 − ∫ 8, 64 ⋅ 10 −4 t 2 ⋅ d t = 1 − 8, 64 ⋅ 10 −4 ⋅ = 0, 938
0 3

(Βιβλίο Λ Καμαρινόπουλου ΑΣΚΗΣΗ 14, σελ. 7)

Στα πλαίσια μελέτης κατασκευής αντιπλημμυρικού φράγματος


δίδονται :
- Ο αριθμός πλημμυρών Χ στην περιοχή ακολουθεί κατανομή
Poisson με λ = 1,5 πλημμύρες / έτος
- Το ύψος Η της πλημμύρας ακολουθεί εκθετική κατανομή με
μέση τιμή 5m,
−h 5
F (h) = 1 − e
- To κόστος κατασκευής Kκ ,
- Κάθε πλημμύρα προξενεί ζημία 35.000
Kκ = Κ 0 + h ⋅ 4.000
Να βρεθεί το ύψος του φράγματος που ελαχιστοποιεί το συνολικό
κόστος για χρονικό διάστημα 10 ετών.
κόστος λόγω
K = K + Κ πλημμύρας
κ Π

συνολικό κόστος κόστος κατασκευής

Έστω hΦ το ύψος του φράγματος

⇒ K = K + h ⋅ 4.000
κ 0 Φ

KΠ = 35.000 ⋅ λ ⋅ 10 ⋅ P ( H > hΦ )

= 1, 5 ⋅ 10 = 15
Πιθανότητα το ύψος της
ζημιά από μία μέσο πλήθος
πλημμύρας Η, να υπερβεί το
πλημμύρα πλημμύρων σε 10
ύψος του φράγματος
έτη

⇒ K = K 0 + h Φ ⋅ 4.000 + 35.000 ⋅ 15 ⋅ P ( H > h Φ ) =

−h 5
= 1 − P  H ≤ h  = e Φ
 Φ 

−h
∂κ Φ
 1 5
= 0 ⇒ 0 = 4.000 + 35.000 ⋅ 15 ⋅  −  ⋅ e
∂h  5
Φ
−h /5
⇒ 0 = 4 − 105 ⋅ e Φ

4
⇒ h Φ = − 5 ⋅ ln ≅ 16, 5 m
105
Άλυτες Ασκήσεις
Ενότητα 4: Πολυδιάστατες Τυχαίες Μεταβλητές

Σκοποί ενότητας
• Κατανόηση των εννοιών της πολυδιάστατης
πιθανότητας ώστε να γίνει κατανοητή η
θεωρητική προσέγγιση της απλής πολλαπλής
παλινδρόμησης που θα ακολουθήσει.

4
Περιεχόμενα ενότητας
• Πολυδιάστατες μεταβλητές
• Διακριτές δισδιάστατες μεταβλητές
• Συνεχείς δισδιάστατες μεταβλητές

Πολυδιάστατες Τυχαίες
Μεταβλητές
Πολλά στοχαστικά φαινόμενα απαιτούν για τη περιγραφή τους περισσότερα
από ένα χαρακτηριστικά
μελέτη σεισμικότητας ⇒ μετρήσεις σε περισσότερα σημεία
περιοχής

τετραγωνικά κατοικίας ⇒ εισόδημα, πλήθος μελών


οικογένειας οικογένειας, μορφωτικό επίπεδο

διάρκεια ζωής εξαρτήματος ⇒ υγρασία, θερμοκρασία,


κατασκευαστής, τρόποι λειτουργίας

μελέτη ζήτησης προϊόντος ⇒ φύλλο αγοραστού, τιμή, συσκευασία


n - διάστατη περίπτωση
X 1 (s )
R
−∞
• +∞

X (s ) x1

⋅s
2

−∞
• +∞
R
x2
X n (S )

−∞
• +∞
R
S xn
Συμβολισμός : X = ( X 1 , X 2,  , X n )

μονοδιάστατες τυχαίες
S ⇒ Rn
μεταβλητές

Δισδιάστατη περίπτωση

x2 S ⇒ R2

X (s )

⋅ ⋅
2

( x1 , x 2 )

s ⋅
X =  X , X 
 1 2

⋅ x1
S
X 1 (s )
Υπολογισμός πιθανοτήτων στο
χώρο Rn
x2
A
X

{ s∈S x ∈ A} x1
S
A= 
 X 1 = x 1∩ = x ∩ ∩ = x 
n 
X X
 2 2 n 

A=  X ≤ ∩  ∩ ≤ 
 x X x
n 
 1 1 n 

A= 
 x1′ < X 1 ≤ x1′′
∩  ∩ x′ < X ≤ xn′′ 

 
n
n

P ( A) = P (s X = ( X 1 , , X n ) ∈ A )

Από κοινού (αθροιστική)


συνάρτηση κατανομής
Η έννοια της από κοινού συνάρτησης κατανομής αποτελεί άμεση επέκταση
της αντίστοιχης της μονοδιάστατης περίπτωσης
F ( x ) = F ( x 1 , x 2 ,  , xn ) = X2


= P ( X 1 ≤ x1 ∩ X 2 ≤ x2 ∩  ∩ X n ≤ xn ) x2

Διδιάστατη


περίπτωση x1
ΙΔΙΟΤΗΤΕΣ (n = 2)

X1
α) F ( x , x ,  , x , ∞, x , , x ) =
1 2 i −1 i +1 n
βέβαιο γεγονός
= F ( x , x ,, x , x , , x ) =
1 2 i −1 i +1 n
δηλ. συρρίκνωση κατά μια διάσταση
⇒ F ( ∞, ∞,  , ∞ ) = 1
β) F ( x1, x2 ,, xi − 1, − ∞, x i + 1,, xn ) = 0

αδύνατο γεγονός
γ) F ( x ) μη φθίνουσα με 0 ≤ F (x ) ≤ 1

Από κοινού συνάρτηση πυκνότητας

Διακριτές μεταβλητές
Η X = ( X 1 ,, X n ) λέγεται μεταβλητή διακριτού τύπου αν οι είναι
διακριτού τύπου.
X 1 ,, X n

Παράδειγμα
X = ( X1, X 2 ) όπου : X 1 : 1, 3, 5

X 2 : 2, 4

υπάρχουν 6 διανύσματα x = x j : (1, 2), (1, 4), (3, 2), (3, 4), (5, 2), (5, 4)

f ( x) = f ( x , x ,, x ) = P ( X = x )
1 2 n
 P ( X 1 = x j1 ,  , X n = X j n ) = P ( X = x j )


για όλα τα x = xj =

 0

για όλα τα x ≠ xj

ΙΔΙΟΤΗΤΕΣ

Σε αναλογία με τη μονοδιάστατη περίπτωση ισχύει :

α) f ( x) ≥ 0

β) ∑ f (x ) = 1
( j)
j

γ) F ( x ) = ∑ f (x j )
(x j ≤ x )
Συνεχείς τυχαίες μεταβλητές
Η Χ καλείται συνεχής, αν οι μεταβλητές Χ1,Χ2,…,Χn είναι συνεχείς.

f ( x1 , x2 ,, xn ) = P ( X 1 ∈ [ x1 , x1 + dx1 ] ∩  ∩ X n ∈ [ xn , xn + dxn ])

∂ n F (x )
f ( x1 ,, xn ) =
∂ x1 ⋅ ∂ x2  ∂ xn

ΙΔΙΟΤΗΤΕΣ
α) f( x ) ≥ 0
+∞ +∞ +∞
β) ∫
−∞

−∞
 ∫
−∞
f ( x1 , x2 ,  , xn ) ⋅ dx1  dxn = 1

n − φορές
x1 xn

γ) F (x ) = ∫  ∫ f ( u1 ,, un ) ⋅ du1  dun


−∞ −∞

Διδιάστατη περίπτωση :
b d

P(α < Χ ≤ b ∩ c < Y ≤ d )= ∫ ∫ f (u, v ) ⋅ du ⋅ dv =


a c

= F (b, d ) − F (b, c ) − F (a, d ) + F (a, c )


Παράδειγμα
Παράδειγμα
Ρίχνουμε ένα νόμισμα 4 φορές και έστω :
Χ :δοκιμή που πρωτοεμφανίστηκε κεφαλή, Υ: πλήθος εμφάνισης κεφαλής
Να βρεθεί η από κοινού συνάρτηση κατανομής και πυκνότητας
( X ,Y ) Y
S
ΓΓΓΓ ( 0, 0 )
1
ΓΓΓK ( 4, 1 )
4 16 • • • •
ΓΓK Γ ( 3, 1 ) 1
3
ΓK ΓΓ ( 2, 1 )
3 • 16 • 16 • •
K ΓΓΓ (1, 1 ) 3 2 1
2 • 16 • 16 • 16 •
ΓΓΚΚ ( 3, 2 )
ΓK ΓΚ ( 2, 2 )
1 • 116 • 116 • 116 • 116
K ΓΓΚ (1, 2 )
ΓΚΚΓ ( 2, 2 )

K ΓΚΓ (1, 2 )
1 2 3 4 X
K K ΓΓ (1, 2 )
1
16
ΓKΚΚ ( 2, 3 )
11 διανύσματα x με μη μηδενικές πιθανότητες
K ΓΚΚ (1, 3 )
K K ΓΚ (1, 3 )
Διαφορετικά s ∈ S οδηγούν στο ίδιο x
KKKΓ (1, 3 ) P(s) = 1 ; δειγματοχώρος περιέχει 24=16 δειγματοσημεία
KKKK (1, 4 )
16

⇒ f ( x) = f ( x, y ) = P ( X = xi ∩ Y = y j )
⇒ f ( x ) = f ( x, y ) = P ( X = xi Y = yj)

όπου οι τιμές για τα 11 μη μηδενικά διανύσματα δίνονται στο σχήμα.

Η F (x) δίνεται μέσω :

F ( x ) = F ( x, y ) = ∑ f (x ) j
( )
xj ≤ x

π.χ.
F ( 2, 1 ) = P ( X ≤ 2 ∩Y ≤ 1) =
(xi ,
∑) (f ( x)
yj ≤ 2, 1
j )=

= f (0, 0) + f (1, 1) + f ( 2, 1) = 3
16
16 16 16
Περιθωριακές και δεσμευμένες συναρτήσεις κατανομής & πυκνότητας

Περιθωριακές συναρτήσεις
Περιθωριακές συναρτήσεις καλούνται οι συναρτήσεις ενός υποσυνόλου των
μεταβλητών X = ( X 1 , X 2 ,, X n )

Έτσι, f X1 X 3 X 5 ( x1 x3 x5 ) είναι η περιθωριακή συνάρτηση πυκνότητας

των μεταβλητών X 1 , X 3 , X 5 ∈ X και F X1 X 3 X 5 ( x1 , x3 , x5 ) η αντίστοιχη περιθωριακή


συνάρτηση κατανομής.

Διδιάστατη περίπτωση : X = ( X,Y )


f X (x ) = ∑ f ( xi , y j )
Προφανώς στη διδιάστατη περίπτωση οι
( j)

περιθωριακές ισούνται με τις μονο-διάστατες


συναρτήσεις των Χ και Υ
fY ( y ) = ∑ f ( xi , y j )
(i )

Παράδειγμα (συνέχεια)
Να βρεθούν οι περιθωριακές συναρτήσεις του προηγούμενου παρα-δείγματος.
Y\X 0 1 2 3 4 f Y ( y)

0 1 16 1 16

1 1 16 1 16 1 16 1 16 4 16

2 3 16 2 16 1 16 6 16

3 3 16 1 16 4 16

4 1 16 1 16

f X (x) 1 16 8 16 4 16 2 16 1 16 16 16

P ( X = 1 ∩ Y = 2 ) = f ( 1, 2 ) = 3
4
( )
P ( X = 1) = ∑ f 1, y = f
i X
(1) = 16
i=0
= f (1,0) + f (1, 1) + f (1,2) + f (1,3) + f (1,4) = 8
16

=0 1 16 3 16 3 16 1 16
Παράδειγμα (συνέχεια)
Δεδομένου ότι :
P(X = x / Y = y ) = P ( XP=(xY ∩= yY) = y ) =

f ( x, y )
= = f (x / y)
f Y (y)

P (Y = y ∩ X = x )
/
P ( Y = y X = x) =
P ( X = x)
=

f ( x, y )
= = f ( y / x)
f X (x )

f ( x / y) και f ( y / x) δεσμευμένες συναρτήσεις πυκνότητας στη διδιάστατη


περίπτωση

Γενίκευση για n μεταβλητές άμεση

Παράδειγμα (συνέχεια)
Να βρεθούν οι δεσμευμένες συναρτήσεις του προηγούμενου παραδείγματος
Y\X 0 1 2 3 4 fy (y)

0 1 / 16 - - - - 1/16

1 - 1 / 16 1 / 16 1 / 16 1 / 16 4/16

2 - 3 / 16 2 / 16 1 / 16 - 6/16

3 - 3 / 16 1 / 16 - - 4/16

4 - 1 / 16 - - - 1/16

fX (x) 1/16 8/16 4/16 2/16 1/16

Y\X 0 1 2 3 4 Y\X 0 1 2 3 4

0 1 - - - - 0 1 - - - -
1 - 1/4 1/4 1/4 1/4 1 - 1/8 1/8 1/8 1/8
2 - 3/6 2/6 1/6 - 2 - 3/8 2/4 1/2 -
3 - 3/4 1/4 - - 3 - 3/8 1/4 - -
4 - 1 - - - 4 - 1/8 - - -

f ( x, y ) f ( x, y )
f (x/ y) = f ( y / x) =
fY ( y ) f X ( x)
Περιθωριακές και δεσμευμένες
συναρτήσεις πυκνότητας
[ Διδιάστατη περίπτωση ]
+∞ +∞
f X (x ) = ∫ f ( x, y ) ⋅ d y και f Y (y) = ∫ f ( x, y ) ⋅ d x
−∞ −∞

περιθωριακές

f (x y ) = f (y x) =
f ( x, y ) f ( x, y )
και
f Y ( y) f X ( x)

δεσμευμένες

f X (x )

f X (α )

x =α
f Y (y)

fY (d )

επιφάνεια f (x, y)

y=d

εμβαδό = ∫ −+ ∞
∞ f (α , y ) dy =

= f X (α )
f ( x, y = d )
f (x = α , y )
εμβαδό = ∫ −+ ∞
∞ f ( x, d ) dx =

Τα διάφορα μεγέθη ερμηνεύονται


= fY (d )
γεωμετρικά στο παραπάνω σχήμα
Παράδειγμα

Παράδειγμα
Η διδιάστατη τυχαία μεταβλητή (Χ,Υ) έχει πεδίο τιμών την περιοχή x ≥ 0, y ≥ 0
με συνάρτηση πυκνότητας
f ( x, y ) = α e − x − 2 y

1. Να υπολογιστεί η τιμή της σταθεράς α


2. Να υπολογιστεί η πιθανότητα P (Y > X )

3. Να βρεθούν οι περιθωριακές και δεσμευμένες κατανομές


P ( X ≥ 1)
4. Να υπολογιστεί η πιθανότητα
P ( X ≥ 1) / Y = 2 )
5. Να υπολογιστεί η πιθανότητα
P ( X ≥ 1) / Y ≥ 2 )
6. Να υπολογιστεί η πιθανότητα
7. Να υπολογιστεί η πιθανότητα P ( X ≥ 1) ∩ Y ≥ 2 )

8. Να υπολογιστεί η πιθανότητα P ( X ≥ 1) ∪ Y ≥ 2 )

Λύση
1. Η συνθήκη + ∞ ∫ + ∞ f ( x, y) dx dy = 1 μας δίνει :
∫− ∞ −∞
∞ ∞ − x − 2y ∞ ∞ − 2y
∫ ∫ α ⋅e dx dy = α ∫ e − x dx ⋅ ∫ e dy =
0 0 0 0

 − 2y 
 − x ∞  −e
=α  −e  = α
 0   2  2
 

Επομένως α=2 και f(x,y) = 2 ⋅ e − x − 2 y

2. Το γεγονός {Y > X } συμβαίνει όταν το σημείο ( x, y ) βρίσκεται στη γραμμοσκιασμένη


περιοχή παραπλεύρως. Η πιθανότητά του είναι :

y
P (Y ≥ X ) = ∫∫
y>x
f ( x, y ) dx dy =

= ∫ ∞ d x ∫ ∞ f ( x, y ) d y = y>x y=x
0 x

= ∫ ∞ d x ⋅ 2 ⋅ e − x ∫ ∞ e −2 y d y =
0 x

x
Λύση
 1 − 2 y ∞ 1 −2x
= 2 ⋅ ∫ ∞ d x ⋅ e − x ⋅  − e  = 2 ⋅ ∫ ∞ d x ⋅ e− x e =
0 x 0
 2 2
−3x
= ∫∞ e
1
dx =
0 3
Παρατηρείται ότι τα γεγονότα { Y ≥ X }και { Y > X } διαφέρουν μόνο ως προς την ευθεία y
= x . Εφόσον όμως πρόκειται για συνεχείς κατανομές η ευθεία έχει μηδενική πιθανότητα
(μηδενικό όγκο) και έτσι οι πιθανότητες των δύο γεγονότων είναι ίδιες.

f X (x ) = ∫ −+ ∞∞ f ( x, y ) d y = ∫ 0∞ 2 ⋅ e − x−2 y ⋅ d y =
3.
= e−x ∫ ∞
0 2 ⋅ e −2 y d y = e − x

=1

f Y ( y ) = ∫ −+ ∞∞ f ( x, y ) d x = ∫ ∞0 2 ⋅ e − x−2 y ⋅ d x =
= e −2 y ⋅ 2 ∫ ∞
0 e − x d x = 2e − 2 y
είναι οι περιθωριακές συναρτήσεις
πυκνότητας της Χ και Υ αντίστοιχα.
=1

Λύση
Οι δεσμευμένες συναρτήσεις πυκνότητας είναι :
f (x, y) 2 ⋅ e − x −2y f (x, y) 2 ⋅ e − x −2y
f (x / y) = = = e−x και f (y / x) = = = 2e −2 y
f Y (y ) 2e − 2y
f X (x ) e −x

Παρατήρηση : Γενικά η συνάρτηση f (x / y ) εξαρτάται και από την y. Ομοίως η


συνάρτηση f ( y / x ) εξαρτάται και από τη x.

4. Η από κοινού συνάρτηση κατανομής είναι :

F (x, y) =
∫ ∫ f (u,v)du dv = ∫ ∫ 2⋅e−u − 2v du dv =
x
−∞
y
−∞
x
0
y
0

− x   − 2 y   

∫ e−u du ⋅ ∫ 2⋅e− 2v dv = 1− e  1− e




= x y
0 0 

 

Η πιθανότητα του γεγονότος { X ≥ 1 } βρίσκεται π.χ. με τη σχέση


Λύση
P ( X ≥ 1) = 1 − P ( X ≤ 1) = 1 − P (X ≤ 1 ∩ Y ≤ ∞ ) = 1 − F (1, ∞ ) =
(
1− 1− e −1
)= 1/ e

5. Κανονικά η πιθανότητα του γεγονότος {Y = 2} είναι μηδενική, αλλά όπως ξέρουμε


αυτό δε σημαίνει αδύνατο γεγονός. P ( X ≥ 1) / Y = 2 ) Υποθέτοντας λοιπόν Υ=2 η ζητούμενη
πιθανότητα δίνεται με ολοκλήρωση της δεσμευμένης συνάρτησης πυκνότητας f (x / 2) = e − x
στο διάστημα (1, ∞). Επομένως :

∞ e− x dx = 1
P ( X ≥ 1 Y = 2) =
∫ 1∞ f ( x / 2) dx =
∫1
e
6. O τύπος για τη δεσμευμένη πιθανότητα μας δίνει :

∫ ∫
∞ ∞
P( X ≥ 1 ∩ Y ≥ 2) 1 2 f ( x, y ) dx dy
P ( X ≥ 1 / Y ≥ 2) = = =
P (Y ≥ 2) ∫

2 fY ( y ) dy

2 ∫ 1∞ e − x dx ∫ ∞2 e −2 y dy 1

∞ −x
= = e dx =


2e −2 y dy
1
2
e

Λύση
7. Έχουμε με α=1, b=∞, c=2 και d= ∞, για τη ζητούμενη πιθανότητα

P ( X ≥ 1 ∩ Y ≥ 2 ) = F (∞, ∞ ) − F (∞, 2) − F (1, ∞ ) + F (1, 2) =

( ) ( ) ( )(
= 1 − 1 − e −4 − 1 − e −1 + 1 − e −1 1 − e −4 = e − 5)

= 1 − e −4 − e −1 + e −5

8. P ( X ≥ 1 ∪ Y ≥ 2) = P ( X ≥ 1 ) + P(Y ≥ 2 ) − P ( X ≥ 1 ∩ Y ≥ 2 )

= e −5

∫ e − x dx + 2 ∫ ∞2 e −2 y dy − e −5 = e −1 + e −4 − e −5

1
ΑΝΕΞΑΡΤΗΣΙΑ
Ανεξάρτητες Μεταβλητές
Οι τυχαίες μεταβλητές X 1 ,, X n καλούνται ανεξάρτητες αν :

P ( X 1 ∈ B1 ∩  ∩ X n ∈ Bn ) = P ( X 1 ∈ B1 )  P ( X n ∈ Bn )

όπου B1 ,  , Bn οπιαδήποτε υποσύνολα του R.

Αναγκαία και ικανή συνθήκη της ανεξαρτησίας είναι :

F ( x ) = F ( x1 ) ⋅ F ( x2 )  F ( xn )

ή ισοδύναμα
f ( x ) = f ( x1 ) ⋅ f ( x2 )  f ( xn )

Στη περίπτωση ανεξαρτησίας έχουμε :

περιθωριακές συναρτήσεις ≡ δεσμευμένες συναρτήσεις

Παράδειγμα
Η διδιάστατη συνεχής τυχαία μεταβλητή (Χ, Υ) είναι ομοιόμορφα κατανεμημένη στη
περιοχή x ≥ 0, y ≥ 0 που περιβάλλεται από τις καμπύλες x = y και x = 1 . Να εξεταστεί αν
2

οι μεταβλητές Χ, Υ είναι ανεξάρτητες.

Το πεδίο τιμών της X = ( X , Yείναι


) η y
y2 = x
περιοχή Α του διπλανού σχήματος με
εμβαδόν : 1

1 x 1
2
E= ∫
0
dx ⋅ ∫
0
dy = ∫
0
x dx =
3
A
⇒ f ( x, y ) = E −1 = 3 στη περιοχή Α
2
Για τις περιθώριες συναρτήσεις έχουμε :
1 x
+∞ y= x

f X (x ) = ∫ f ( x, y ) dy = ∫
3
dy =
3
x, 0 ≤ x ≤ 1
−∞ y =0
2 2

+∞ x =1
Εξηρτημένες
f Y (y) = ∫ f ( x, y ) ⋅ dx = ∫
3
dx =
3
(1 − y )2 , 0 ≤ y ≤ 1
−∞ x= y 2
2 2
Ροπές – Κεντρικές Ροπές
Βασικά χαρακτηριστικά πολυδιάστατων μεταβλητών

Ροπές {
E X 1κ1 ⋅ X 2κ 2  X nκ n }

Κεντρικές Ροπές E {( X − µ ) 1 1
κ1
 ( X n − µ n )
κn
}
Παραδείγματα για ροπές στη διδιάστατη περίπτωση, δηλ. : E {X κ
⋅ Υν }
+∞ +∞
(κ = 1, ν = 0) ⇒ Ε{Χ} = µ Χ = ∫ ∫ x ⋅ f (x, y ) ⋅ dx ⋅ dy
−∞ −∞

+∞ +∞
(κ = 0, ν = 1) ⇒ Ε{Y } = µY = ∫ ∫ y ⋅ f (x, y ) ⋅ dx ⋅ dy
−∞ −∞

+∞ +∞
(κ = 1, ν = 1) ⇒ Ε {X ⋅ Y } = µ X Y = ∫ ∫ x ⋅ y ⋅ f (x, y ) ⋅ dx ⋅ dy
−∞ −∞

Κεντρικές ροπές στη διδιάστατη


περίπτωση
Παραδείγματα για κεντρικές ροπές στη διδιάστατη περίπτωση :
ν

 x 
(
E  X − µ κ ⋅  Υ − µ 
y
) 


(κ = 1, ν = 0) ή (κ = 0, ν = 1) ⇒ κεντρική ροπή = 0

{( X − µ ) } = σ
(κ = 2, ν = 0) ⇒ E x
2 2
X

(κ = 0, ν = 2) ⇒ E {( Y − µ ) } = σ
2 2
y Y

(κ = 1, ν = 1) ⇒ E {( Y − µ ) ( X − µ ) } =
µx y − µx ⋅ µ y = σ x y
y x

= E {( X ⋅ Y ) } − E { X }⋅ E { Y } =

Συντελεστής Συσχέτισης : Συνδιασπορά

σxy
ρxy = όπου −1 ≤ ρ x y ≤ 1
σx ⋅ σy

Αν Χ, Υ ανεξάρτητες ⇒ ρ x y και σ x y είναι 0.


Παράδειγμα
− x−2 y
Για τη διδιάστατη μεταβλητή με πυκνότητα f (x, y) = 2 ⋅ e ,
x ≥ 0, y ≥ 0 που μελετήσαμε ήδη έχουμε :

E (X ⋅Y ) = ∫
+∞
−∞ ∫
+∞
−∞ x ⋅ y f ( x, y ) dx dy = 2 ⋅ ∫ ∞0 x e − x dx ∫ 0∞ ye −2 y dy =

1 1
= 2⋅1⋅ =
4 2

E ( X ) = ∫ ∞0 x⋅e −x
d x = − x⋅e −x ∞
0 + ∫ e − x dx = 1
0


E (Y ) =
1
∫ ∫
∞ −2 y −2 y ∞
0 y ⋅ 2e d y = − y ⋅e 0 + e − 2 y dy =
0
2

οπότε η συνδιασπορά σ ΧΥ = Ε (Χ ⋅ Υ ) − Ε (Χ ) Ε (Υ ) = 1 2 − 1 2 = 0 και επομένως


και ο συντελεστής συσχέτισης μηδενίζονται.

Παράδειγμα
Αν δύο μεταβλητές είναι ανεξάρτητες, τότε τα μεγέθη :
σ xy και ρ xy
μηδενίζονται
Έχουμε :
+∞ +∞ +∞ +∞
E { X ⋅Y } = ∫ ∫ x ⋅ y ⋅ f ( x, y ) ⋅ dx ⋅ dy = ∫ x ⋅ f x ( x ) ⋅ dx ⋅ ∫ y ⋅ f y ( y ) ⋅ dy
−∞ −∞ −∞ −∞

f X (x ) ⋅ fY ( y ) E {X } E {Y }

σ x y = E {X ⋅ Y } − E {X } ⋅ E {Y } = 0

= E{X }⋅ E{Y } αν Χ, Υ ανεξάρτητε ς

σxy ρ xy = 0
ρ xy =
σx ⋅ σx Ανεξάρτητες
Παράδειγμα
Ισχύει : − 1 ≤ ρ xy ≤ 1
συντελεστής συσχέτισης ρ →0
y y

. . . . ρ →1
.
.. . .
. .
. .
. .
. .
. . ρ → −1

x Χ, Υ : ασυσχέτιστες γραμμικά
x
Αν ρ 2 = 1 ⇒ πλήρης γραμμική συσχέτιση

Y = αΧ + b

α > 0 ⇒ ρ =1
α < 0 ⇒ ρ = −1

Παράδειγμα
Να βρεθεί ο συντελεστής συσχέτισης στο προηγούμενο παράδειγμα.

Y\X 0 1 2 3 4 f Y (y )

0 1 16 1 16

1 1 16 1 16 1 16 1 16 4 16

2 3 16 2 16 1 16 6 16

3 3 16 1 16 4 16

4 1 16 1 16

f X (x) 1 16 8 16 4 16 2 16 1 16
Λύση
E{X } = 0 ⋅ 1 + 1 ⋅ 8 + 2 ⋅ 4 + 3 ⋅ 2 + 4 ⋅ 1 = 13
16 16 16 16 16 8

E{Y } = 0 ⋅ 1 + 1 ⋅ 4 + 2 ⋅ 6 + 3 ⋅ 4 + 4 ⋅ 1 = 2
16 16 16 16 16

{ } ∑
E X2 =
() i
xi2 ⋅ f X (x i ) = 3 { }
; E Y2 = 5

E { X ⋅Y } = ∑( ) ⋅ ∑( ) xi ⋅ yi ⋅ f (xi , yi ) =
i i

1 1 1 1 1
= 0⋅0⋅ + 1 ⋅1 ⋅ + 2 ⋅1 ⋅ + 3 ⋅1 ⋅ + 4 ⋅1 ⋅ +
16 16 16 16 16
3 2 1 3 1 1 49
+ 1⋅ 2 ⋅ + 2⋅2⋅ + 3⋅ 2 ⋅ + 1⋅ 3 ⋅ + 2 ⋅3⋅ + 1⋅ 4 ⋅ =
16 16 16 16 16 16 16

Διασπορές :
Λύση
2

σ 2
Χ = Ε Χ2 { } 2  13 
− Ε {Χ } = 3 −   =
23
8 64

σ Y2 = Ε {Y 2 } − Ε {Y }2 = 5 − 2 2 = 1

Συνδιασπορά :

= Ε {Χ ⋅ Y } − Ε { Χ } ⋅ Ε {Y } =
49 13 3
σ XY − 2⋅ = −
16 8 16

Συντελεστής συσχέτισης :

σxy 3
ρ = = − 16 = − 0, 313
σx ⋅ σy
XY
23
⋅1
8

⇒ X ↓ ⇒ Y ↑
Άλυτες ασκήσεις
Ενότητα 5: Παλινδρόμηση – Συσχέτιση θεωρητική προσέγγιση

Σκοποί ενότητας
• Είναι η πιθανοθεωρητική θεμελίωση της
απλής γραμμικής παλινδρόμησης

4
Περιεχόμενα ενότητας
• Διαγράμματα διασποράς
• Μονοδιάστατη παλινδρόμηση
• Τύποι διασποράς συνδιασποράς
• Διαστήματα εμπιστοσύνης για τις
παραμέτρους της εξίσωσης
• Συντελεστής προσαρμογής
• Συντελεστής συσχέτισης
• Εφαρμογές
• Άλυτες ασκήσεις

Παλινδρόμηση - Συσχέτιση
παραδοσιακός τρόπος περιγραφής της σχέσης μεταξύ δύο ή περισσοτέρων
μεταβλητών, είναι η εξεύρεση μιας συναρτησιακής σχέσης που τις συνδέει, π.χ.

E    r
2

U  I  R
Νόμος του O h m Νόμος του κύκλου
και γενικότερα,
y  g x 1
, x2 ,  , xn  g x

εξηρτημένη ανεξάρτητη
μεταβλητή : x
μεταβλητή

Στην περίπτωση τυχαίων μεταβλητών η εξεύρεση μιας συναρ-τησιακής σχέσης της


παραπάνω μορφής είναι πρακτικά αδύνατη. Σε κάθε τιμή της x (ανεξάρτητης ή
ελεγχόμενης μεταβλητής) αντιστοιχεί ένα πλήθος δυνατών τιμών της y (εξηρτημένης
ή μη ελεγχόμενης μεταβλητής).

π.χ. ύψος γιού - ύψος πατέρα


ποσό διαφήμισης - κέρδος επιχείρησης
εισόδημα - εκταμίευση
Διαγράμματα Διασποράς
Η γραφική παράσταση των δειγματικών σημείων στο σύστημα καρτεσιανών
συντεταγμένων ονομάζεται διάγραμμα διασποράς (scatter diagram) και δίνει χρήσιμες
πληροφορίες για την εξειδίκευση του μοντέλου

 

1 2

x x

x : ετήσιο εισόδημα οικογένειας x : καταπόνηση υλικού

Y : ετήσια έξοδα διατροφής Y : ωφέλιμη διάρκεια ζωής

 

3 4
x : κόστος προϊόντος x x : ηλικία εργαζομένων
Y : συνολικές αποδοχές Y : απόσταση από τη θέση
εργασίας

1 γραμμική σχέση
2 αντιγραμμική σχέση
3 μη γραμμική σχέση
5
4 καμία σχέση
x
x : ετήσιος αριθμός οχημάτων 5 « φορμαλιστική » σχέση,
μη ουσιαστική
Y : ετήσιο πλήθος θανάτων από
από καρκίνο
Παλινδρόμηση : εκτίμηση της μέσης τιμής της Υ για διάφορα x .

x : ελεγχόμενη , Y : τυχαία

Συσχέτιση : εκτίμηση του βαθμού « συνάφειας » μεταξύ των


X και 

X και  τυχαίες μεταβλητές

Μονοδιάστατη Παλινδρόμηση : μόνο μία ανεξάρτητη μεταβλητή


Υ : ύψος γιού ; x : ύψος πατέρα

Πολυδιάστατη Παλινδρόμηση : n ανεξάρτητες μεταβλητές


x  x 1
, x2 , , xn 

x1 : ύψος πατέρα
Υ : ύψος γιού ;
x 2
: ύψος μητέρας

x 3
: ποιότης διατροφής

 Στα πλαίσια της παλινδρόμησης, οι x ελέγχονται από τον «ερευνητή» και


είναι καθορισμένες.

 Στα πλαίσια της συσχέτισης ,  και  εκλαμβάνονται ως τυχαίες

Μονοδιάστατη Παλινδρόμηση
Y f Y x 3 
f Y x 1  f Y x 2 

   x


x1 x2 x3 x

Y x1
Y x 3

E Y x   g x  δεσμευμένη μέση τιμή της Υ


Γραμμικό μοντέλο : E Y x  Y x
    x
Μονοδιάστατη Παλινδρόμηση
n
1
Μέση τιμή της Υ E Y  Y    Yi
n i 1

E Y x   μέση τιμή της Υ , αν γνωρίζουμε την τιμή της x

f y x   δεσμευμένη συνάρτηση πυκνότητας της Υ

  δεσμευμένη διασπορά της Υ


2
Y x

Συνήθεις παραδοχές
N  , 
2

 Οι δεσμευμένες συναρτήσεις f  y x  είναι κανονικές : Y x Y x

 Η δεσμευμένη διασπορά  είναι ανεξάρτητη του x


2

Y x

( Ομοσκεδαστικότητα )


 x i , i 
Y i     xi   i
i
τυχαίο σφάλμα

E Y x   Y x
   x

Y     xi  

xi x


2
Y x

Υποθέσεις : E     0 , VAR       f  x 
2

( ομοσκεδαστικότητα )

και ε κανονικά κατανεμημένο   ~ N  0, 


2

 E Y x     x  E       x

 0
Μετατροπή μη γραμμικών
μοντέλων σε γραμμικά
Y x
 E Y x     b  g x 

μέση πυκνότητα
θερμοκρασία διαλύματος
διαλυμένου οξυγόνου
όπου g (x) :  x  x 
2

ή e x ή lnx κ.τ.λ.
Ορίζοντας μια νέα ανεξάρτητη μεταβλητή
x  g x    Y x
 E Y x      x

 Y x γραμμική
π.χ.

Z  exp   bx   ln z    b x

1 1
Z      bx
  bx Z
 Y x

Εκτίμηση των παραμέτρων α και β


Y  xi , yi 
 yˆ  ˆ  ˆ x

 i
 y i  yˆ i

ευθεία παλινδρόμησης

xi x
Η εκτίμηση των α και β γίνεται με το σκεπτικό της ελαχιστοποίησης των τετραγώνων
των αποκλίσεων  i  y i  yˆ i των παρατηρήσεων από την ευθεία

( Μέθοδος ελαχίστων τετραγώνων )


n n

 y 
2
  yˆ i
2
i
 i
 min
i 1 i 1
σημείο στην ευθεία
παρατήρηση παλινδρόμησης
  Y x

γραμμικό μοντέλο μονοδιάστατης


E Y x     x
παλινδρόμησης
ή
Y     x  

E    0 , VAR    
2
Y x
 
2
,  ~ N  0,  
2

yˆ  ˆ  ˆ x ευθεία παλινδρόμησης

α, β : πραγματικοί παράμετροι μοντέλου

ˆ , ˆ : εκτιμήσεις ελαχίστων τετραγώνων των α και β

ŷ : εκτίμηση του E  Y x    Y x


 

n n

 y  yˆ i    y   ,  
2 2
 i i
  xi    F
i1 i1

 ,  
n
 F
A 

 2   y i
  x i
  0 και
i 1

 ,  
n
 F
   2   y i
  x i
    x i   0
 i 1

n n n

A   yi     xi     0
i 1 i 1 i 1

ny nx n 

 n y  n  x    n   0

^ ^
y    x    y  x  

Το σημείο  x , y  βρίσκεται επί της ευθείας παλινδρόμησης



n

 y i
  xi     xi  0
i 1

n n n

 yi  xi        
2
  x i
xi  0
i 1 i 1 i 1

n  x

y    x

n n

     n  y  x  n    x
2 2
 yi  xi  x i
 0
i 1 i 1

 yi  xi  n  y  x  n 1  sx y : δειγματική συνδιασπορ ά
^ i 1
   n
2

  n  x  n 1 
2
x i
 s
2
x
: δειγματική διασπορά του x
i 1

 x
n

i
 x   y i
 y 
sx
ˆ 
y i 1
 
 x
n


2 2
s x  x
i
i 1

Τύποι Διασποράς

2
 E  X  
2
  X  2
    2

τετραγωνικός μέσος

Τύποι Δειγματικής Διασποράς

 x
n
1

2
2
s   i
 x
n 1 i 1

x   
n n n n
1 2 1 2

   
2
xi  2 xi  x   
2 2
 s   i
 2 xi x  x  x
n 1 i 1 n 1  i 1 i 1 i 1 

1  n n
2 
 
2
  xi  2 x  xi  n  x  
n 1  i 1 i 1 
 nx

1  n
2 2 

2
  x i
 2n x  n x  
n 1  i 1 

1  n
2 

2
   x i
 n x 
n 1  i 1 
Τύποι Συνδιασποράς
(covariance)
Cov  X ,Y   E  X    Y  y

 x

 Cov  X ,Y   E X Y  y  X  x  Y  x  y 

 E X Y   y  E X   x  E Y   x  y 
 x  y

 E X Y   y  x  x  y  x  y  E X Y   x  y

Επειδή E 


X Y 


 E 


X 


 E 


Y 


  x
  y

αν οι μεταβλητές Χ, Υ ανεξάρτητες, έχουμε :

Cov X ,Y   0 , αν X ,Y ανεξάρτητε ς

Τύποι Δειγματικής Συνδιασποράς


 x
n

sx y 
1
 i
 x  y i
 y 
n 1 i 1

x
n

 sx y 
1
 i
 yi  xi y  x  yi  x  y  
n 1 i 1

1  n n n n


n 1
   xi  yi    xi  y   x yi   x y  
 i 1 i 1 i 1 i 1 

1  n n n


n 1
   xi  yi  y   xi  x   yi  nxy  
 i 1 i 1 i 1 

nx
 ny

1  n


n 1
   xi  yi  n  x  y 
 i 1 
Παράδειγμα
Εξετάζοντας τη σχέση μεταξύ του ετήσιου οικογενειακού εισοδήματος x και των
ετήσιων εξόδων διατροφής Y, είχαμε το εξής δείγμα 10 οικογενειών.
οικογένεια x  1000 σε $  Y  100 σε $ 


A 8 22
Y

B 10 23
 25

C 7 18

   
D 2 9 20 
 
15 
E 4         14 

F 6         20 10 

        21
5 D
G 7

H 6         18 6 x
2 4 8 10
I 4         16
Διάγραμμα Διασποράς
J 6         19

B
C
   x
10
8

7
22
23

18
y x y
176

126
230
  64

100
49
x 2
y2
484
529

324

D 2 9 18 4 81

E 4 14 56 16 196

F 6 20 120 36 400

G 7 21 145 49 441

H 6 18 108 36 324

I 4 16 64 16 256

J 6 19 114 36 361

 : 60 180 1159 406 3396

x 
 x

60
 6 ; y 
 y

180
 18
n 10 n 10

 ˆ 
 xi yi  n x y

1159  10  6  18
 1 , 717
2
 10  36
 xi  n x 406
2

ˆ  y  ˆ  x  18  1, 717  6  7 , 698

 yˆ  ˆ  ˆ x  7 , 698  1, 717  x ευθεία παλινδρόμησης



25 ŷ  7 , 698  1 , 717 x




20 


  2 . 486 , 8 $

 

ˆ 24 , 868 σε εκατοντάδε ς$ 



15

10

 x, y    6 , 18  :

5 επί ευθείας παλινδρόμησης

0 x
2 4 6 8 10

π.χ. πόσο ξοδεύει για διατροφή κατά μέσον όρο μια οικογένεια
με εισόδημα 10.000$

 y  7 , 698  1 , 717  10  24 , 868  2 . 486 , 8 $


Η τιμή y  2 . 486 , 8 $ αποτελεί εκτίμηση του μεγέθους

Y x  10 . 000
  Y x  10 . 000 
Στην παλινδρόμηση διακρίνουμε δύο βασικές κατηγορίες ερωτημάτων

 εκτίμηση του δεσμευμένου μέσου  Y x της μεταβλητής Υ. Η αντίστοιχη σημειακή


εκτιμήτρια είναι η εκάστοτε τιμή της γραμμής παλινδρόμησης, δηλ. η ŷ . Παραμένει ο
υπολογισμός διαστήματος εμπιστοσύνης για το  Y x .

π.χ. πόσο ξοδεύει για διατροφή κατά μέσο όρο μια οικογένεια με ετήσιο εισόδημα
10.000 $.
Η τιμή yˆ  2 . 486 . 8 $ αποτελεί σημειακή εκτίμηση του δεσμευμένου μέσου

 Y x
 10 . 000   Y x  10 . 000 .

Παραμένει η εκτίμηση κατά διάστημα, δηλ. ο υπολογισμός διαστήματος που να


περικλείει το εκάστοτε  Y x με δεδομένη πιθανότητα 1-α.
 πρόγνωση πιθανολογικών χαρακτηριστικών της Υ ( όχι των δεσμευμένων μέσων τιμών )
για δεδομένο x.

π.χ. ποιο ποσοστό οικογενειών με ετήσιο εισόδημα x = 10.000 $ έχει έξοδα διατροφής
Υ:

- μεταξύ 3.000 και 5.000 $


- > των 3.500 δολ.
κ.τ.λ.

Y
yˆ  ˆ  ˆ x

̂
x  10 . 000
x
Y 10 . 000  2 . 486 , 8

Διαστήματα εμπιστοσύνης και διαστήματα


πρόγνωσης στην Παλινδρόμηση
Σημαντικό ρόλο για την «μέτρηση» της αβεβαιότητας των εκτιμήσεων / προγνώσεων στην
παλινδρόμηση, παίζει το μέγεθος :

VAR Y x    Y
2

x
: δεσμευμένη διασπορά

 Y x
: τυπικό σφάλμα (standard error)

Το  Y x είναι ένα μέτρο για την μεταβλητικότητα της Υ γύρω από την δεσμευμένη μέση τιμή
της, δηλ.

 Y x
  Y x 

 VAR Y x    Y  Y x
 2
, όπου :

 Y x
    x γραμμικό μοντέλο
Το μέγεθος  Y x αποτελεί γνώρισμα του πληθυσμού και ως εκ τούτου δεν εξαρτάται από την
2

τάξη του εκάστοτε δείγματος

Από την εξειδίκευση του γραμμικού μοντέλου, έχουμε :

Y     x  
~ N  0, 
2
 : ομοσκεδαστικότητα
 f x 

 VAR Y x   VAR    x     VAR    


2

σταθερό για
δεδομένο x

παρατηρήσεις
n


2

i
n
1
 y  yˆ i  
2 2 i 1
s Y x
  i
n2 i 1 n  2
εκτίμηση του  Y x ˆ ˆ  ˆ x
εκτιμήτρια του 
2
Y x

n - 2 βαθμοί ελευθερίας λόγω των δύο δεσμεύσεων για την εκτίμηση των α και β

Y  
2

 xi , yi  Λόγω της σχέσης : 2 i 1


i

s Y x

 n 2
yi   yi  yˆ i
i

καλή προσαρμογή στην ευθεία παλινδρόμησης,


συνεπάγεται μικρά σφάλματα μικρό τυπικό
yˆ  ˆ  ˆ x
σφάλμα ε i . Στην ακραία περίπτωση που όλα
τα σημεία
s Y x

xi x

2
βρίσκονται επί της ευθείας παλινδρόμησης, τα μεγέθη  x i , y i  και s Y x
sY x

μηδενίζονται.

  μικρό sY x
 
 0 
  
Y
sY x
Y
 
  
  
      
     
  
     μεγάλο sY x
     

x x
Στη πράξη, χρησιμοποιείται η παρακάτω εκτιμήτρια :

s
2
Y x

n2
1
[ y
2
i
 ˆ   yi  ˆ   xi  yi ]
που είναι ισοδύναμη με την προηγούμενη, αλλά πιο εύχρηστη.

Η ισοδυναμία δείχνεται ως εξής :


2 2

 y 
n n
1 1
 y i  yˆ i    ˆ  ˆ x i
2
s Y x
  i

n2 i 1 n2 i 1

ˆ  ˆ x i

[ y  y   ]
n
1
   yi i
 ˆ  ˆ x i  ˆ i
 ˆ  ˆ x i  ˆ x i y i  ˆ  ˆ x i
n2 i 1

Έχουμε :  y i
 ˆ  ˆ x i    y i  n  ˆ  ˆ   x i 

 y  ˆ  x

  yi
 n  y  ˆ  n  x  ˆ   xi  0

ny nx

 xi y i
 ˆ  ˆ x i    x i  y i  ˆ   x i  ˆ   x
2
i


 x i  y i  ˆ   xi


2
x i

από ελάχιστα τετράγωνα

  x i  y i  ˆ   xi   x i  y i  ˆ   xi  0

 s Y
2
x

1
 yi  y i  ˆ  ˆ x i  
n2 i 1


n2
1

i 1
[ y
2
i
 ˆ y i  ˆ x i  y i ]


n2
1
 [ y
2
i
 ˆ   y i  ˆ   xi yi ]
Παράδειγμα
Στο παράδειγμα, ετήσιο οικογενειακό εισόδημα x ετήσια έξοδα διατροφής Υ, είχαμε :

  
2
y i
 3 . 396 , y i  180 , yi xi  1159

ˆ  7 , 698 και ˆ  1 , 717

 s
2
Y x

1
 y i  ˆ 
2
 y i  ˆ   xi yi 
n2

1
  3 . 396  7 , 698  180  1 , 717  1159  2 , 54
10  2

 s Y x
 1, 59 ( σε εκατοντάδες $ )

όπου s Y x εκτίμηση του τυπικού σφάλματος  Y x

 s Y x
: τυπικό σφάλμα εκτίμησης

Διάστημα εμπιστοσύνης εκτίμησης δεσμευμένου


μέσου  Y x , αξιολόγηση της εκτιμήτριας Yˆ

Η yˆ  ˆ  ˆ x αποτελεί εκτιμήτρια (ελαχίστων τετραγώνων ) της δεσμευμένης μέσης


τιμής  Y x της μεταβλητής Υ.

Αποδεικνύεται ότι :

E  yˆ  E ˆ  ˆ x  E  ˆ   x    ˆ      x   Y x
Δειγματοληπτική κατανομή και διαστήματα
εμπιστοσύνης για το ˆ
Από τη σχέση :

ˆ
n
 xi  x 
  w i  Yi    Yi
 x 
2
i 1
i
 x

 wi

Και δοθέντος, ότι βασική υπόθεση είναι ότι τα Y i είναι κανονικά κατανεμημένα, έπεται :

ˆ
κανονική κατανομή, σαν άθροισμα κανονικά κατανεμημένων
~ μεταβλητών Y i  w i

  ~ N   , VAR  ˆ  

λόγω   ˆ    , αμεροληψία

Δειγματοληπτική κατανομή και διαστήματα


εμπιστοσύνης για το ˆ
Η διασπορά του ˆ υπολογίζεται ως :

 
 ˆ  
n n n

VAR VAR   w i  Yi    VAR w i


Yi   w
2
i
 VAR Y i 
 i 1  i 1 i 1

τυχαίο δείγμα  Y 1 , Y 2 ,  Y n ανεξάρτητες

Λόγω της ομοσκεδαστικότητας : VAR Y  i


 
2

Y x
ανεξαρτήτως x

x  x 
2

 ˆ  
n n

    wi     
2 2 2 i
VAR
[ x  x  ]
Y x Y x
2
2

i 1 i 1
i

x 
2

x

  2 1
   
2 i

Y x
  xi  x 2
Y x

[  ]
2
2
 xi  x
Δειγματοληπτική κατανομή και διαστήματα
εμπιστοσύνης για το ˆ
 
 
Άρα : ˆ ~ 

 , 
2

1 
 Y x 
 x
n


2

 i
 x 
 i 1 

Προφανώς, το διάστημα εμπιστοσύνης του ˆ υπολογίζεται από :


εκτιμήτρια του  Y x

 
 
 ˆ sY x 
   
 2

 x 
n
2
 i
 x 
 i 1 

από τον Πίνακα της S t u d e n t με n-2 βαθμούς ελευθερίας

δηλ. :
  2
 t n  2 ;  2

Παράδειγμα
Να κατασκευαστεί διάστημα εμπιστοσύνης επιπέδου 95% για την εκτίμηση της β στο
παράδειγμα :
ετήσιο εισόδημα ετήσια έξοδα για διατροφή

Έχουμε : sY x 1 , 59
s    0 , 234
ˆ

 x
n


2 46
i
 x
i 1

n
2
 n 1   s
2

x
  x
2

i
 n  x  46
i 1

406 10 36

tn2 ;  2
 t 8 ; 0 , 025
 2 , 306

 Διάστημα εμπιστοσύνης :


1, 717  2 , 306  0 , 234 

 

1,177 ; 2 , 257 
   
 

0 , 5396
Δειγματοληπτική κατανομή και διαστήματα
εμπιστοσύνης για το ˆ
Από τη σχέση :
1
n  n 
ˆ
 
ˆ  y   x 
n
  yi    wi  yi 
 x 
i 1  i 1 
 

 ˆ

n n
 1 
  
 wi  x

 yi   qi  yi
i 1  n  i 1

 qi
έχουμε :

Η εκτιμήτρια ˆ είναι κανονικά κατανεμημένη σαν άθροισμα των κανονικά


κατανεμημένων ανεξάρτητων μεταβλητών Y i  q i

 ˆ ~ N   , VAR  ˆ  

Διασπορά του ˆ
Η διασπορά του ˆ υπολογίζεται ως :

 n
  n
 1  
VAR  ˆ   VAR   q i  y i   VAR     wi  x   yi  
 i 1   i 1  n  
2
n
 1 
    wi  x   VAR  Yi  
i 1  n 
 
2
Y x

ανεξαρτησία των yi

n
 1 2 2  wi  x 
    
2 2
   w  x 
Y x  n2 i
n 
i 1  

 n
1 2
n
2x
n

   
2 2
 Y x
  2
 x  w i
  wi 
 i 1 n i 1 n i 1 

 0

x  x 
2
1
 
2
 
i
w
  x  x  
i 2

 x
n


2 2
i i
 x
i 1
Διασπορά του ˆ
 n 
2
 1 x 
 VAR  ˆ   
2
    
 x 
 n
x 2 2
 i 1 n  x 
i
 i 1 
1 1
 n  2

n n

 
2
 1 x 
 VAR  ˆ   
2
   
  
 x n 2
 n xi  x 
 i  1 

  2
 
Άρα : ˆ ~ N


, 
2

1

x



 x 
 x 2
  n  x  
  i  

Τα διαστήματα εμπιστοσύνης υπολογίζονται από :


  2
 
 ˆ  1 x  
    sY 
 x 
  2 x
 n 2  
 x
  i  

t n 2 ;  2 Πίνακας κατανομής Student

Παράδειγμα
Να κατασκευαστεί διάστημα εμπιστοσύνης επιπέδου 95% για την εκτίμηση της α στο
παράδειγμα :
ετήσιο εισόδημα ετήσια έξοδα για διατροφή
2
1 x 36
Έχουμε : s ˆ  s    1 , 494
 x 
x 2
n  x
i

1 , 59
10 46

Διάστημα εμπιστοσύνης :
 
 2 
1 x
 ˆ    sY    
 2
 
x

 x 
n
n 2

 i
 x 
 i 1

7 , 698

 s ˆ  1, 494

 t n2; 2
 t 8 ; 0 , 025
 2 , 306

  7 , 698  2 , 306  1, 494    4 , 25 ; 11 , 14 


 3 , 445
Δειγματοληπτική κατανομή και
διαστήματα εμπιστοσύνης για το ŷ

Γνωρίζουμε ήδη, ότι το μέγεθος ŷ , δηλ. η γραμμή παλινδρόμησης, αποτελεί εκτιμήτρια


του δεσμευμένου μέσου  Y x του πληθυσμού.

Από τις γνωστές σχέσεις :


n n

ˆ   wi  yi ; ˆ   qi  yi
i 1 i 1

xi  x 1
   wi  x
  
2
xi  x n

n n
έχουμε : yˆ  ˆ  ˆ x   q  y  x   wi  yi 
i i
i 1 i  1

n n

  q i
 x  wi   y
i
  pi  yi
i 1 i 1

Δειγματοληπτική κατανομή και


διαστήματα εμπιστοσύνης για το ŷ

Άρα η εκτιμήτρια ŷ της  Y x είναι κανονικά κατανεμημένη, σαν άθροισμα των κανονικά
κατανεμημένων ανεξάρτητων μεταβλητών p i  Y i .

  
 yˆ ~ N   Y yˆ  

x
; VAR 

   
 

  yˆ  
  ˆ  ˆ x     ˆ   x    ˆ      x  Y x

Για την διασπορά της ŷ


έχουμε :
 n
 n n

VAR  yˆ   VAR   pi  yi    VAR Y  i


 p i
2
 
2
Y x
  p
2
i
 i 1  i 1 i 1

 
2
Y x
, ομοσκεδαστικότητα

Ανεξαρτησία των  i
Δειγματοληπτική κατανομή και
διαστήματα εμπιστοσύνης για το ŷ
2 2

xx 
n n n
 1   1 
  
2
p i
   w i x  x  wi     wi  
i 1 i 1  n  i 1  n 
qi
2

x  x  ]
n
 1 
 
i 1
[  
 n 
 w
2
i
 x
2
 2 
1
n
 wi  x 

n
1
x  x 
2
n
2 x  x  n

  
2
 2
  wi   wi 
i 1 n i 1 n i 1

1  0
 1 n  n

   2
x  x

x  x 
i

2 i 1

1
 

 x 
n
n 2

i
 x
i 1

 

x x  
2
n
1
 
    
2 2 2 2

 Y x
 p i
 Y x
 

 x
n
 n
 
2
i 1
 x
 i 
 i 1 

Παρατηρούμε ότι η διασπορά του ŷ εξαρτάται από το x. Για


x  x , η διασπορά του ŷ γίνεται ελάχιστη, αυξάνεται δε άμα το x απομακρύνεται

από τη δειγματική μέση τιμή του.


Τα διαστήματα εμπιστοσύνης υπολογίζονται μέσω :

 
 
x x 
2
1
 yˆ    sY   
 2
 
x

 x 
n
n 2

 i
 x 
 tn2 ;  2
i 1

και έχουν την εξής μορφή :

άνω όριο
εμπιστοσύνης ελάχιστο διάστημα
y
εμπιστοσύνης για
Y
x  x
y 

κάτω όριο
εμπιστοσύνης

x x
Παράδειγμα
Να δοθεί εκτίμηση διαστήματος επιπέδου 95% για τα μέσα έξοδα διατροφής οικογενειών
με μέσο εισόδημα x = 8.000 $.

Από την γραμμή παλινδρόμησης :

yˆ  ˆ  ˆ x  7 , 698  1, 717 x

λαμβάνουμε σαν σημειακή εκτίμηση :

yˆ  7 , 698  1 , 717  8  21 , 434

 2143 , 4 $

Εκτίμηση του  Y 8 . 000

Παράδειγμα

Η δειγματική τυπική απόκλιση του ŷ εκτιμάται από :

 6

 2

 1  x  x   
s  s  
yˆ Y x  n n
  x  x 
2
  46
 
i
i 1

 10

2
1  x  6
 1, 59  10

46
 1, 59  0 , 432 
 8

 0 , 432

 0 , 687
Παράδειγμα

Το αντίστοιχο διάστημα εμπιστοσύνης επιπέδου 95%, υπολογίζεται τέλος :

 yˆ    2
 s yˆ
   21 , 434  2 , 306  0 , 687  

1 , 58

tn2 ;  2
 t8 ; 0 , 025
 2 , 306

  19 , 85 ; 23 , 01  σε εκατοντάδες
$
ή

  1985 ; 2301  σε $

Διαστήματα Πρόγνωσης (Πρόβλεψης)


(Prediction Intervals)
Εκτός από εκτιμήσεις της  Y x της Y , που όπως είδαμε επι-τυγχάνεται μέσω της ŷ
,
στην πράξη ενδιαφέρουν και εκτιμήσεις της ίδιας της μεταβλητής για συγκεκριμένο x.
Στην περίπτωση αυτή μιλάμε για πρόβλεψη ή πρόγνωση της Υ.
Γενικότερα το πρόβλημα τίθεται ως εξής :

Έστω δείγμα τάξης n που οδήγησε στην ευθεία παλινδρόμησης,

yˆ  ˆ  ˆ x

Για δεδομένο x n 1 , ποια η προβλεπόμενη τιμή της Y n  1

Προφανώς στην περίπτωση αυτή, η ακρίβεια της τιμής Yn 1 , θα είναι σημαντικά


μικρότερη από την ακρίβεια της εκτίμησης yˆ n  1  ˆ  ˆ x , της δεσμευμένης
μέσης τιμής Y n  1
Διαστήματα Πρόγνωσης (Πρόβλεψης)
(Prediction Intervals)
Παρόλο που η σημειακή εκτίμηση της Υn + 1 παραμένει η
yˆ n  1  ˆ  ˆ  x n  1 , τώρα υπάρχουν δύο αιτίες αβεβαιότητας (διασποράς) :

Διασπορά της εκτίμησης , δηλ. η 


2
yˆ n  1 ŷ

Διασπορά του Y n  1 , γύρω από τη μέση τιμή του, δηλ. γύρω από
την  , δηλ. η σ
Y x
n 1
2
Y x

Συμβολίζοντας με  την συνολική διασπορά της πρόβλεψης έχουμε :


2
ind


x x  
2

 1 
       
2 2 2 2 2
  
 x  x 

ind Y x Y x
 n 2  Y x

 i 

 
 
 
2
 1 x x 
 
2
1  
Y x
 n 

n
 x i  x  
 i 1 

Διαστήματα Πρόγνωσης (Πρόβλεψης)


(Prediction Intervals)
Τα διαστήματα πρόβλεψης υπολογίζονται μέσω :

[ yˆ n 1
   2
 sIND ]
τυπικό σφάλμα πρόβλεψης
t n2 ;  2
( standard error of forecast )
Κατανομή Student

γραμμή παλινδρόμησης
Y
 διαστήματα πρόβλεψης
 διαστήματα εκτίμησης

x
Παράδειγμα
Έστω, ότι επιλέγεται μια οικογένεια με ετήσιο εισόδημα x = 8.000 $. Να υπολογιστεί
διάστημα πρόβλεψης επιπέδου 95% για τα ετήσια έξοδα διατροφής της.

Σαν σημειακή πρόβλεψη έχουμε :

yˆ  ˆ  ˆ x  7 , 698  1, 717  8  21 , 434

Το τυπικό σφάλμα πρόβλεψης εκτιμάται σε :

 
2
1 x  x
s ind  sy x
 1   n

 x 
n 2

i
 x
i 1

8 
2
1  6
 1 , 59  1    1 , 73
10 4 6

Διάστημα πρόβλεψης

 21 , 434  2 , 306  1, 73    17 , 44 ; 25 , 4 

Παράδειγμα
Υπολογίστε το ποσοστό των οικογενειών με ετήσιο εισόδημα x = 8.000 $ που ξοδεύει
πάνω από 3000 $ για διατροφή. Θεωρήστε ότι οι εκτιμήσεις ŷ και s Y x είναι σχεδόν
ταυτές με τις θεωρητικές τιμές του πληθυσμού.
Έχουμε :

Y 8 . 000
 yˆ  21 , 434


2
Y x
 sy x
 1, 59

Ζητούμε :
Z ~ N  0, 1 

 Y  21 , 434 30  21 , 434 
P Y  30   P 

   P

 Z  5 , 438   0
 1 , 59 1 , 59 

Y ~ N  21 , 434 ;  1, 59 
2

Συντελεστής Προσαρμογής, Συντελεστής Συσχέτισης
Y  xi , y i 
 i  y i  ŷ i yˆ  ˆ  bˆ x

xi

yi  y  y i
 yˆ i    yˆ i
 y 
συνολικό σφάλμα μη εξηγούμενο εξηγούμενο σφάλμα
παρατήρησης σφάλμα παρατήρησης παρατήρησης

 y
n


n

  yˆ
n


2 2

  y i  yˆ i 
2
 i
 y   i
 y
i 1 i 1 i 1
 i

συνολικό μη εξηγούμενο εξηγούμενο


σφάλμα σφάλμα σφάλμα

 
ˆ 
2
ˆ  Y
2
y x

Συντελεστής Προσαρμογής, Συντελεστής Συσχέτισης


Τετραγωνίζοντας και αθροίζοντας τις σχέσεις :

yi  y   y i  yˆ i    yˆ i
 y 
για i  1 , 2 , ..., n , έχουμε :

 y
n


n

  yˆ
n


n

 
2 2

 y i  yˆ i   y i  yˆ i yˆ i  y
2
i
 y   i
 y  2 
i 1 i 1 i 1 i 1

 0

  y i  yˆ i  yˆ i  y    y i  ˆ  ˆ x i    ˆ  ˆ x i  y  

 ˆ   y i
 ˆ  ˆ x i      xi y i
 ˆ  ˆ x i   y   y i
 ˆ  ˆ x i 

Όπως δείξαμε προηγουμένως :

 y i
 ˆ  ˆ x i   0 και  
x i y i  ˆ  ˆ x i   0

  y i
 yˆ i   yˆ i
 y   0
Συντελεστής Προσαρμογής, Συντελεστής Συσχέτισης

  yˆ   ˆ    
n


n n
2 2
 ˆ x i  y y  ˆ x  ˆ x i  y
2

i
 y   
i 1 i 1 i 1

 y  ˆ x
n

x   x
n

ˆ ˆ 
2 2


2 2
 i
 x   i
 x
i 1 i 1

 ˆ
2 2
 s x

  yˆ
n

  x
n

ˆ 
2 2
2
i
 y  i
 x 1
n 1 s
2

ˆ
2 i 1 i 1 2
 r    
x
2

 y
n

  y
n

 s
2 2
1
i
 y i
 y n 1
y

i 1 i 1

2
 s y
2 2 2
s x y s s x y
  
x
4 2 2 2
s x
s y
s x
 s y

s
ˆ 
x y
2
s x

Συντελεστής Προσαρμογής


n


2
yˆ i  y
2 εξηγούμενο σφάλμα i 1
r  


n
συνολικό σφάλμα

2
yi  y
i 1

2
s
ˆ
2 2 2
 1  
x
r ; r
 s
2
y

 όταν όλα τα σημεία βρίσκονται πάνω στην ευθεία, τότε r 2 = 1 ( τέλεια


προσαρμογή )

 όταν όλα τα σημεία βρίσκονται πάνω στην γραμμή y

ή όταν είναι γραμμικά ασυσχέτιστα, τότε r 2 = 0

 r = 0, 4 σημαίνει ότι το ( 0,4 ) 2 100 = 16 %


της μεταβλητότητας του Υ ερμηνεύεται μέσω της παλινδρόμησής του
στο x
Συντελεστής Συσχέτισης
s x y
2
s x
sx sx y sx
ˆ
s
r     
x y

s s
2
sy sx  sy
y x

 1  r  1

 το πρόσημο του r ταυτίζεται με το πρόσημο του β, οπότε,

 οι ακραίες τιμές -1 και +1 αντιστοιχούν στη περίπτωση που όλα τα


σημεία βρίσκονται πάνω σε ευθεία με θετική ( + 1 ) ή αρνητική ( - 1 )
κλίση

 μια τιμή ίση ή κοντά στο 0, δηλώνει απουσία γραμμικής αλλά όχι
οποιασδήποτε σχέσης

 Στην περίπτωση ανεξάρτητων μεταβλητών Χ, Υ το r ισούται με 0.

επειδή cov ( x , y )  0

 sx y
 0

Παράδειγμα
Στο παράδειγμα έχουμε :

ˆ  1, 717

s
2
x

n 1
1
  x 2
i
 n  x
2
 1
9
 406  10  6
2
  5 , 11

s
2
y

n 1
1
  y 2
i
 n y
2
 1
9
 3 . 396  10  18
2
  17 , 33

ˆ
2 2
2 2 1 , 717
 r  2
 s x
  5 , 11  0 , 869
s y
17 , 33

 r  0 , 869  0 , 932
Άσκηση 1
Y Y
  

 

 

x II
x

 ) Ποια από τις 5 γραμμές αντιπροσωπεύει καλύτερα την δεσμευμένη τιμή  Y x των 4
παρατηρήσεων του σχήματος Ι ;

 ) Ποια στο σχήμα ΙΙ ;

 ) Ο συντελεστής προσδιορισμού για την ευθεία παλινδρόμησης είναι :


2 2 2 2 2
r  0, r  0, 0  r  0, 5, r  0, 5, r  0 ,5

 ) Αν μπει ο περιορισμός ότι η ευθεία παλινδρόμησης πρέπει να περνά από την αρχή
των αξόνων, ποια ευθεία παριστάνει καλύτερα την ευθεία παλινδρόμησης ;
 ) Έστω x  10 . Ταξινομήστε κατά μέγεθος τα διαστήματα εμπιστοσύνης της ŷ για
x  7, x  9, x  11 , x  14

 ) η ευθεία E

 ) η ευθεία E

 ) r
2
 0 , επειδή προφανώς δεν υπάρχει γραμμική σχέση

 x  y 
1
 x  y
2
sx y n
i i

r  
sx  sy sx  sy
Λύση
Έχουμε :
xi y i

1 b
0 0  x   2 b 
4 2
0 

b 0 1 
y   2 
b  4 2

 b     b     b   
  n  1  s xy  0   0     0       b   0   
 2 2   2 2   2 2 

 3  b     b b b b
 b           0
 2  2  4 4 4 4

 ) Στο σχήμα Ι, τα σημεία αριστερά της ευθείας δεν παίζουν ρόλο. Το άθροισμα των
τετραγώνων γίνεται ελάχιστο, αν η ευθεία «μοιράζει» την απόσταση.

Τα δύο αυτά σημεία δεν παίζουν ρόλο, δεδομένου ότι


τα  i παραμένουν ίδια για όλες τις ευθείες που
 1  παιρνούν από την αρχή των αξόνων.

2
 

Έχουμε : 
2
1
 
2
2
 min

 1
  2
 c  σταθ.

 
2
1
 c    1
2
 min  2 1  2  c   1    1  0

 1  c
2

 ) xx
2
Το εύρος κανονίζεται από το μέγεθος
  14
  7
  9
  11
Άσκηση 2
Έστω x ο μέσος αριθμός τσιγάρων που κάπνιζε ημερησίως η μητέρα στην διάρκεια της
εγκυμοσύνης και Υ το βάρος γεννήσεως του παιδιού της, σε kg. Δείγμα τάξης 15 έδωσε :

xi yi xi yi
10     3 , 73 18     3 ,19

15     3 , 24 9     3 , 84

17     3 ,15 15     3 ,15

25     2 , 60 23     3 , 37

13     3 , 43 8     3 , 84

17     3 , 01 22     2 , 92

20     2 , 84 21     2 , 58

19     3 , 09

Πηγή : ΕΣΥΕ, Συνοπτική Επετηρίς της Ελλάδας 1983-84, Τμήμα Υγείας

1 Να εκτιμηθεί ένα γραμμικό μοντέλο παλινδρόμησης της Υ επί της x. Να ερμηνευτούν


οι τιμές των ˆ και ˆ σε σχέση με το δοθέν πρόβλημα.

Λύση
Έχουμε : ˆ  y  ˆ x και ˆ 
 xi yi  n  x y
2


2
x i
 n x

Από πίνακα : 252


 x i  252  x 
15
 16 , 80

47 , 98
 y i  47 , 98  y 
15
 3 , 20

 
2
x i
 4606 xi yi  781 , 6

781 , 6  15  16 , 8  3 , 2
 ˆ    0 , 066
 16 , 8 
2
4  606  15 

 ˆ  3 , 2  0 , 066  16 ,8  4 ,3

 y  4 , 3  0 , 066  x

Ερμηνεία

Κάθε τσιγάρο μειώνει το βάρος του παιδιού κατά 66 gr.


Επειδή x = 0 δυνατή τιμή, αˆ  4, 3 kg το βάρος του παιδιού μή καπνίζουσας μητέρας
( επιφύλαξη, x = 0 εκτός δεδομένων )
Άσκηση 3
2 Να εκτιμηθεί το μέσο βάρος γέννησης των παιδιών που οι μητέρες τους καπνίζουν 3
τσιγάρα ημερησίως. Να δοθεί διάστημα εμπιστοσύνης επιπέδου 0,95 %.
Η εκτιμήτρια yˆ ~ N   x
,
2

 με :

x x 
2
1
s yˆ
 sY x
 n

 x 
n 2

i
 x
i 1 2


2
x i
 n  x

και   ˆ  y i  ˆ  
2
2
y i
xi  yi
s Y x

n  2

2 155 , 6  4 , 3  47 , 98  0 , 066  781 , 6 2


 s Y x
  7 , 17  10
13

 sY x
 0 , 268

 3  16 ,8 
2
1
 s yˆ
 0 , 268    0 , 204
15 372 , 32

Εκτίμηση : yˆ  4, 3  0 , 066  3  4 ,12 k g

Διάστημα εμπιστοσύνης

 yˆ  t 13 ; 0 , 025
 s yˆ
   3 , 68 ; 4 , 56  σε kg

4 ,12 2 ,160 0 , 204

3 Να προβλεφθεί το βάρος γέννησης παιδιού που η μητέρα του καπνίζει 3 τσιγάρα


ημερησίως και να υπολογιστεί διάστημα πρόβλεψης επιπέδου 95 %

Η πρόβλεψη είναι και στη περίπτωση αυτή,


yˆ  4 ,3  0 , 066  3  4 ,12 kg
Το διάστημα πρόβλεψης δίνεται όμως τώρα από :  3


x x  
2
1
 yˆ  tn2  sY  1    
 x  x 
;  2 x 2
 n 
 i

0 , 204
4 ,12 2 ,160

  4 ,12  0 , 553    3 , 57 ; 4 , 67 
4

Ταξινομήστε χωρίς πράξεις το εύρος των διαστημάτων πρόβλεψης για :

x  10 , x  15 , 8 , x  17 , 8 , x  20
   

      

Το εύρος καθορίζεται από το :


x x 
2

Άσκηση 4
Εξετάστηκε η διαλυτότητα νιτρικού νατρίου σε σχέση με τη θερμοκρασία του νερού.
Έστω ότι οι παρατηρήσεις έδωσαν :
yˆ  67 , 52  0 , 87  T

διαλυτότητα θερμοκρασία
2 2 2 2
και s T
 22 , 53 , s y
 19 , 61

1
Τι μπορούμε να πούμε για την ποιότητα της προσαρμογής ; Δώστε μια εκτίμηση για
την συνδιασπορά.

2 2
Έχουμε : s 22 , 53
ˆ 
2 2 2
r   2
 0 , 87  2
 0 , 999
s y
19 , 61
σχεδόν ντετερμινιστική γραμμική σχέση
s
Από : r 
y
 s y
 r  s  sy  441 , 4
s  s y

εκτιμήτρια συνδιασποράς
Άλυτες ασκήσεις
Ενότητα 6: Συσχέτιση και παλινδρόμηση εμπειρική προσέγγιση

Σκοποί ενότητας
• Κατανόηση της έννοιας του συντελεστή συσχέτισης και
δυνατότητα υπολογισμού του με τύπους και στατιστικά πακέτα.

• Η κατανόηση της έννοιας της απλής παλινδρόμησης, η


εύρεση της ευθείας ελαχίστων τετραγώνων μέσω τύπων και
μέσω στατιστικών πακέτων.

4
Περιεχόμενα ενότητας
• Συσχέτιση
• Συντελεστές συσχέτισης
• Απλή Γραμμική Παλινδρόμηση
• Προσαρμογή ευθείας
• Απλή παλινδρόμηση στο IBM SPSS
• Εφαρμογή χωρίς Η/Υ
• Άλυτες Ασκήσεις

Διαγράμματα διασποράς
Συσχέτιση
Ο συντελεστής γραμμικής συσχέτισης δύο τυχαίων
μεταβλητών Χ και Υ εξετάζει το κατά πόσο η μια
μεταβλητή επηρεάζεται γραμμικά από μια άλλη.

Συντελεστές συσχέτισης.
– Εργαλεία στατιστικού ελέγχου
• r του Pearson (για συνεχείς και κανονικά
κατανεμημένες μεταβλητές)
• ρ (rho) του Spearman (για διακριτές ή μη κανονικά
κατανεμημένες μεταβλητές)
Ο συντελεστής r του Pearson.

=
Cδ ( Χ, Ψ )
r =
∑ (Χι − Χ)(Ψι =
− Ψ)
s X sΨ ∑ (Χι − Χ) ∑ (Ψι − Ψ )
2 2

=
∑ Χι Ψι − n ΧΨ
(∑ Χι − n Χ )(∑ Ψι − n Ψ
2 2 2 2
)

Παράδειγμα
Ο συντελεστής r του Pearson.
• Να βρεθεί ο συντελεστής
Τιμή ταχύτητα
συσχέτισης μεταξύ της τιμής
του αυτοκινήτου σε ευρώ και 5500 110
της ταχύτητας του μετά από 5800 112
δέκα sec σε km/h 8100 135
6300 122
5900 124
5800 126
6600 112
6800 114
8800 145
Αρ. Μέσος = 6600 Αρ. Μέσος = 122
Παράδειγμα
Ο συντελεστής r του Pearson.

Xi − X Yi − Y COV ( X , Y)
( X i − X )2 (Yi − Y ) 2 9 9
∑ ( Xi − X ) ∑ (Yi − Y )
2 2
i =1 i =1

5500 110 -1100 -12 13200 1210000 144 13200


5800 112 -800 -10 8000 640000 100 8000
8100 135 1500 13 19500 2250000 169 19500
6300 122 -300 0 0 90000 0 0
5900 124 -700 2 -1400 490000 4 1400
5800 126 -800 4 -3200 640000 16 3200
6600 112 0 -10 0 0 100 0
6800 114 200 -8 -1600 40000 64 1600
8800 145 2200 23 50600 4840000 529 50600
85100 10200000 1126 97500

Παράδειγμα
Ο συντελεστής r του Pearson.
• Με βάση τΑ προηγούμενα ο συντελεστής συσχέτισης
είναι ίσος με

85100
r= = 0,8728
97500
Παράδειγμα
Ο συντελεστής r του Pearson.

ΤΑΧΥΤΗΤΑ ΑΥΤΟΚΙΝΗΤΟΥ 150

140

130

120

110

100

90
45 55 65 75 85 95
ΤΙΜΗ ΑΥΤΟΚΙΝΗΤΟΥ

Οι τιμές του συντελεστή …


• Λαμβάνει τιμές από –1 έως +1 (αρνητική ή
θετική συσχέτιση)
• Όσο ο r πλησιάζει την τιμή +1 (ή –1) τόσο ισχυρότερη
είναι η συσχέτιση, …
Συσχέτιση, προϋποθέσεις
• Και οι δύο μεταβλητές λαμβάνονται τυχαία.
• Καμία από τις δύο δεν παίζει ρόλο ανεξάρτητης
μεταβλητής

Παραδείγματα:
– Η σχέση ύψους ταχύτητας αυτ τιμή αγοράς τους
– Η σχέση των μετρήσεων μια βιοχημικής παραμέτρου με δύο
διαφορετικές μεθόδους

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Η συσχέτιση που αναφέρθηκε προηγουμένως εξετάζει την


αλληλεπίδραση δύο μεταβλητών ισοδύναμων (χωρίς η μία να είναι
η αιτία και η άλλη το αποτέλεσμα)
ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

«Η διερεύνηση γραμμικής σχέσης εξάρτησης μεταξύ 2


μεταβλητών, εκ των οποίων η μια καλείται εξαρτημένη
και η άλλη ανεξάρτητη».
Δηλαδή, Υ (εξαρτημένη) από την Χ (ανεξάρτητη), με τη
σχέση:
Υ = α + β Χ.
Παραδείγματα:

Σχέση:
– Πωλήσεις καταστημάτων με εμβαδό.
– Μισθός με προυπηρεσία
– Προσλαμβανόμενες θερμίδες και σωματική
δραστηριότητα.

Παράδειγμα:

Υ=α+βΧ

Προυπηρεσία
Το μαθηματικό υπόδειγμα …

Στόχος είναι η ελαχιστοποίηση των


σφαλμάτων e …
Εκτίμηση των παραμέτρων

Εκτίμηση των παραμέτρων


Εκτίμηση των παραμέτρων

Τι εκφράζει η παράμετρος b0

 … εκφράζει την μεταβολή στην μέση τιμή


της εξαρτημένης μεταβλητής Υ,
διορθωμένη ως προς την μέση τιμή της
ανεξάρτητης μεταβλητής Χ.
Τι εκφράζει η παράμετρος b1

• … εκφράζει την μεταβολή στην εξαρτημένη μεταβλητή,


για κάθε μονάδα αύξηση της ανεξάρτητης μεταβλητής
Χ.

Τι εκφράζει η παράμετρος b1;


Παράδειγμα

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 22,003 ,269 81,646 ,000
Age of Subjects ,096 ,006 ,294 16,811 ,000
a. Dependent Variable: Body Mass Index (kg/m2)

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 25,316 ,113 223,775 ,000
Sex of Subjects 2,056 ,161 ,228 12,796 ,000
a. Dependent Variable: Body Mass Index (kg/m2)
Τι εκφράζει η παράμετρος b1;
Παράδειγμα
• Αύξηση της ηλικίας κατά ένα έτος,
συσχετίζεται με αύξηση του ΔΜΣ κατά 0,096
kg/m2.
• Οι άνδρες σε σύγκριση με τις γυναίκες (1/0)
έχουν 2,056 kg/m2 μεγαλύτερο ΔΜΣ.

Εκτίμηση των παραμέτρων

Πολλές φορές η ευθεία γραμμικής παλινδρόμησης μας


εξυπηρετεί να έχει τη μορφή:
Ο συντελεστής προσδιορισμού R2

Η απλή γραμμική παλινδρόμηση μέσω του SPSS.


Συσχέτιση ή απλή παλινδρόμηση;

Σχέση μεταξύ δύο ποσοτικών μεταβλητών


• Η διάκριση μεταξύ συσχέτισης και παλινδρόμησης
(εξάρτησης) είναι περισσότερο εννοιολογική και λιγότερο
στατιστική.
• Εάν μας ενδιαφέρει η ένταση της σχέσης των δύο
μεταβλητών, αρκεί η συσχέτιση (correlation coefficient)
• Εάν μας ενδιαφέρει η μελέτη της εξάρτησης της μιας
μεταβλητής από την άλλη (εξαρτημένη μεταβλητή-ανεξάρτητη
μεταβλητή) τότε επιλέγουμε την παλινδρόμηση (εξάρτηση).

Συσχέτιση ή απλή παλινδρόμηση;


Συσχέτιση ή απλή παλινδρόμηση;

Στην πράξη ο συντελεστής συσχέτισης και ο συντελεστής b1


της απλής γραμμικής παλινδρόμησης απαντούν στο ίδιο
ερευνητικό ερώτημα.
Άλυτες Ασκήσεις
Ενότητα 7: Παρουσίαση δεδομένων-περιγραφική στατιστική

Σκοποί ενότητας
• Κατανόηση της έννοιας του συντελεστή συσχέτισης και
δυνατότητα υπολογισμού του με τύπους και στατιστικά πακέτα.

• Η κατανόηση της έννοιας της απλής παλινδρόμησης, η


εύρεση της ευθείας ελαχίστων τετραγώνων μέσω τύπων και
μέσω στατιστικών πακέτων.

4
Περιεχόμενα ενότητας
• Στοιχεία δειγματοληψίας
• Στατιστικοί πίνακες
• Πρωτογενή και ομαδοποιημένα δεδομένα
• Περιγραφικά στατιστικά σε πρωτογενή δεδομένα
• Περιγραφικά στατιστικά σε ομαδοποιημένα
δεδομένα
• Εφαρμογές
• Άλυτες Ασκήσεις

ΔΕΙΓΜΑΤΟΛΗΨΙΑ
1 Εισαγωγή
Πολλές φορές η επεξεργασία των δεδομένων και η εξαγωγή συμπερασμάτων
δεν γίνεται μέσω επαγωγικής στατιστικής και των μεθόδων που
αναπτύχθηκαν, αλλά μέσω παρουσίασης αριθμητικών μέτρων και
διαγραμμάτων.
2 ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Η συλλογή των στατιστικών δεδομένων γίνεται με δύο κυρίως μεθόδους, τη
δειγματοληψία και την απογραφή.
Τις περισσότερες φορές η απογραφή είναι αδύνατο να πραγματοποιηθεί ή
έχει μεγάλο κόστος. Για το λόγο αυτό επιδιώκεται η εύρεση ενός κατάλληλου
δείγματος, τα συμπεράσματα από το οποίο να μπορούν να γενικευτούν για
το σύνολο του πληθυσμού. Για την αντιπροσωπευτικότητα του δείγματος
μεγάλο ρόλο παίζει το μέγεθος καθώς και ο τρόπος επιλογής του. Ο τρόπος
επιλογής του δείγματος επηρρεάζεται από τη μορφή των δεδομένων που
επιδιώκεται. Έτσι προκύπτουν διαφορετικοί τρόποι δειγματοληψίας.
1 Απλή τυχαία δειγματοληψία:

2 Στρωματοποιημένη δειγματοληψία (stratified


sampling):

3 Δειγματοληψία κατά συστάδες (cluster


sampling):

Στατιστικοί πίνακες (1)


• Βασικές έννοιες
• α) Τίτλο.
• β) Κύριο σώμα.
• γ) Πηγή.

• Κατανομή συχνοτήτων

• Αθροιστικές συχνότητες
Στατιστικοί πίνακες (2)

Στατιστικοί πίνακες (2)


Ομαδοποίηση δεδομένων
• α) Κατατάσσουμε τις παρατηρήσεις κατά σειρά.
Από τη μικρότερη προς τη μεγαλύτερη.
• β) Βρίσκουμε το εύρος (τη διαφορά μεταξύ
μεγαλύτερης και μικρότερης παρατήρησης
• R= Χmax- Xmin
• γ) Διαιρούμε το R με το πλήθος των κλάσεων
που επιθυμούμε να έχουμε και βρίσκουμε το
πλάτος c κάθε κλάσης.
• δ) Εντάσσουμε κάθε παρατήρηση στην κλάση
που ανήκει (συχνότητες των κλάσεων).
ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ

• α) ιστόγραμμα (histogram),
• β) πολύγωνο συχνοτήτων (frequency
polygon)
• γ) ραβδόγραμμα (bar chart),
• δ) πίτα συχνοτήτων ή κυκλικό διάγραμμα (pie
chart)
• ε) διάγραμμα μίσχου-φύλλου ή
φυλλογράφημα ( stem and leaf plot).
Ιστόγραμμα

Πολύγωνο
Πίττα συχνοτήτων

Μέτρα Θέσης

• Μέση τιμή, αριθμητικός μέσος (Mean)


– Το άθροισμα του συνόλου των τιμών της ποσοτικής
μεταβλητής διαιρημένου δια του πλήθους τους.
• Διάμεση τιμή (Median)
– Η τιμή που διαιρεί το δείγμα (σε διατεταγμένες τιμές) σε δύο
ακριβώς ίσα τμήματα.
• Επικρατούσα τιμή (Mode)
– Τιμή με την μεγαλύτερη συχνότητα εμφάνισης
Statistics
Body Mass Index (kg/m2)
N Valid 2994
Missing 48
Mean 26,3347
Std. Error of Mean ,08250
Median 25,8841
Mode 22,04a
Std. Deviation 4,51400

Παράδειγμα Variance
Range
20,376
54,97
Περιγραφικά Στατιστικά Minimum 11,69
Μέτρα Maximum 66,67
Sum
(Summary Statistics)
78846,09
Percentiles 10 20,9572
20 22,5896
25 23,2315
30 23,8472
40 24,8971
50 25,8841
60 26,9896
70 28,2828
75 28,9811
80 29,5525
90 32,0501
a. Multiple modes exist. The smallest value is shown
Παράδειγμα

• Από τον παραπάνω πίνακα έχουμε ότι η ασυμμετρία


(skewness)είναι -1,263. Προκειμένου να την αξιολογήσουμε
παίρνουμε το πηλίκο: Skewness /[Link] of Skewness =
• -1,263/0,580=-2,17 αν είναι μεγαλύτερο του 2 η μεταβλητή είναι
ασύμμετρη θετικά και αν είναι μικρότερη του -2 ασύμμετρη
αρνητικά.
• Ο βαθμός κύρτωσης αξιολογείται (στη συγκεκριμένη περίπτωση
1,66) ως εξής: υπολογίζουμε το διάστημα: (kurtosis − 2 *⋅[Link]
of Kurtosis, kurtosis + 2 *⋅[Link] of Kurtosis) αν περιλαμβάνει το
μηδέν τότε η κύρτωση δεν είναι σημαντική. Σε άλλη περίπτωση η
κατανομή της μεταβλητής είναι ή πλατήκυρτη ή λεπτόκυρτη.
Κυρτότητα

Παράδειγμα

• Να βρεθούν τα κυριότερα μέτρα θέσεως και


διασποράς για τα δεδομένα των θερμοκρασιών της
μεσογειακής πόλης του παραπάνω παραδείγματος
Μετά να βρεθούν τα ίδια μέτρα αφού γίνει
ομαδοποίηση των δεδομένων σε έξι κλάσεις
ο
ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ
Άλυτες Ασκήσεις

You might also like