cover

aai

Γιάννης Κοντογιάννης

Σταύρος Τουμπής

aai aai aai

ΣΤΟΙΧΕΙΑ ΠΙΘΑΝΟΤΗΤΩΝ

ΜΕ ΕΦΑΡΜΟΓΕΣ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΚΑΙ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

aai

aai

aai

aai

aai

Συγγραφείς: Γιάννης Κοντογιάννης, Σταύρος Τουμπής

Γλωσσική επιμέλεια: Θεόφιλος Τραμπούλης

Τεχνική επιμέλεια: Σάββας Γκιτζένης

Κριτικός αναγνώστης: Πέτρος Δελλαπόρτας

aai

aai

Έκδοση: Νοέμβριος 2015

ISBN: 978-960-603-182-3

aai

aai

Το παρόν έργο αδειοδοτείται υπό τους όρους της άδειας Creative Commons Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Παρόμοια Διανομή 3.0

aai

Copyright © ΣΥΝΔΕΣΜΟΣ ΕΛΛΗΝΙΚΩΝ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ – ΣΕΑΒ, 2015

Εθνικό Μετσόβιο Πολυτεχνείο

Ηρώων Πολυτεχνείου 9, 15780 Ζωγράφου

www.kallipos.gr

aai

aai




Περιεχόμενα





Πρόλογος

Η θεωρία πιθανοτήτων και οι εφαρμογές της αποτελούν, εδώ και σχεδόν έναν αιώνα, ακέραιο μέρος των μαθηματικών. Επιπλέον, τις τελευταίες δεκαετίες οι πιθανότητες έχουν αποκτήσει κεντρικό ρόλο σε μια πλειάδα σύγχρονων επιστημονικών και τεχνολογικών περιοχών, από τη γενετική και τα χρηματοοικονομικά μέχρι τη θεμελίωση της στατιστικής, και από τη μαθηματική περιγραφή της έννοιας της πληροφορίας ως τις ψηφιακές επικοινωνίες, την πληροφορική, ακόμη και τη μελέτη του ανθρώπινου εγκεφάλου μέσω της νευροεπιστήμης.

Βασικός σκοπός του βιβλίου αυτού είναι να προσφέρει μια εισαγωγή στα στοιχειώδη εργαλεία της κλασικής θεωρίας πιθανοτήτων, από μια σύγχρονη σκοπιά που να επισημαίνει και να συνδέει τη μαθηματική αυτή θεωρία με ενδιαφέρουσες εφαρμογές της σε διάφορα πεδία. Οι κεντρικές έννοιες των πιθανοτήτων και της τυχαιότητας αναπτύσσονται παράλληλα με τη μαθηματική θεωρία που τις περιβάλλει, με έμφαση σε τρεις βασικούς άξονες:

  1. 1. 

    Μαθηματική περιγραφή: Έχουμε καταβάλει σημαντική προσπάθεια ώστε η θεωρία να παρουσιαστεί μεν με μαθηματικά αυστηρό τρόπο, χωρίς όμως να είναι απαραίτητη η γνώση προχωρημένων και πιο εξειδικευμένων μαθηματικών εργαλείων και τεχνικών.

  2. 2. 

    Σύγχρονα παραδείγματα: Μαζί με τη θεωρητική ανάπτυξη του αντικειμένου, εξίσου σημαντικός στόχος μας είναι η παρουσίαση, έστω και επιγραμματικά, των πρακτικών εφαρμογών της θεωρίας των πιθανοτήτων. Γι’ αυτόν το λόγο, έχουμε συμπεριλάβει ένα πλήθος παραδειγμάτων και ασκήσεων, με σκοπό την ανάδειξη της στενής σχέσης των πιθανοτήτων με σύγχρονες εφαρμογές τους.

  3. 3. 

    Πληροφορική και στατιστική: Αν και έχουμε προσπαθήσει να αναδείξουμε με παραδείγματα τη σχέση των πιθανοτήτων με όλο το φάσμα των εφαρμογών – από κλασικά καθημερινά προβλήματα, όπως η ρίψη ενός νομίσματος ή μια εκλογική δημοσκόπηση, μέχρι την ανάλυση κάποιων εξειδικευμένων σύγχρονων αλγορίθμων στην επιστήμη υπολογιστών – έχει δοθεί μεγαλύτερη έμφαση στην πληροφορική και τη στατιστική. Ελπίζουμε αυτό το βιβλίο να μπορέσει να κεντρίσει το ενδιαφέρον κάποιων από τους αναγνώστες του προς αυτές τις κατευθύνσεις και να αποτελέσει έναν προθάλαμο που θα τους οδηγήσει στη βαθύτερη μελέτη των αντίστοιχων περιοχών.

Ειδικά για το σημείο (1) πρέπει να επισημάνουμε πως έχουμε συνειδητά αποφύγει να αναπτύξουμε εκτενώς τη θεωρία μέτρου, η οποία αποτελεί το φυσικό και θεμελιώδες μαθηματικό πλαίσιο της θεωρίας των πιθανοτήτων. Παρ’ όλα αυτά, στο Κεφάλαιο 3 δίνουμε τον αυστηρό μαθηματικό ορισμό του μέτρου πιθανότητας, και στα Κεφάλαια 5 έως 9 παρουσιάζουμε τη θεωρία των διακριτών τυχαίων μεταβλητών και των ιδιοτήτων τους χωρίς την παραμικρή μαθηματική παράλειψη ή αναφορά στη βαθύτερη θεωρία μέτρου.

Αν και αυτό το βιβλίο προέκυψε από τη διδασκαλία δύο προπτυχιακών μαθημάτων στο τμήμα Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών («Πιθανότητες» και «Εφαρμοσμένες πιθανότητες και προσομοίωση», κατά τη δεκαετία 2005-2015), ευελπιστούμε πως θα μπορέσει να χρησιμοποιηθεί στη διδασκαλία εισαγωγικών μαθημάτων πιθανοτήτων σε οποιοδήποτε τμήμα θετικών επιστημών ή πολυτεχνικών σχολών. Κατά συνέπεια, το κύριο ακροατήριο στο οποίο απευθυνόμαστε είναι προπτυχιακοί φοιτητές τέτοιων τμημάτων, και γι’ αυτόν τον λόγο έχουμε φροντίσει οι μαθηματικές γνώσεις που απαιτούνται να μην ξεπερνούν κατά πολύ την ύλη μαθηματικών του Λυκείου (αν την ξεπερνούν).

Η έμφασή μας στη σχέση των πιθανοτήτων με την πληροφορική και τη στατιστική εξηγείται από τα προσωπικά επιστημονικά ενδιαφέροντα των συγγραφέων, από το γεγονός ότι τα μαθήματα που σε πρώτη φάση μάς οδήγησαν στη συγγραφή του βιβλίου διδάσκονταν σε τμήμα πληροφορικής, αλλά και από την εκτίμησή μας πως οι περιοχές της επιστήμης υπολογιστών και της στατιστικής προσφέρουν σημαντικότατο πεδίο επιστημονικής μελέτης για τα σύγχρονα εφαρμοσμένα μαθηματικά εν γένει.

Η ύλη η οποία περιέχεται σε αυτό το βιβλίο καλύπτει πλήρως το περιεχόμενο του εισαγωγικού μαθήματος «Πιθανότητες» και περίπου το ενα έκτο του πιο προχωρημένου μαθήματος «Εφαρμοσμένες πιθανότητες και προσομοίωση», τα οποία προαναφέραμε. Επιπλέον, κατά τη συγγραφή του βιβλίου ενσωματώσαμε και τα ακόλουθα στοιχεία:

  1. 1. 

    Κάποια πιο προχωρημένα μέρη της ύλης του μαθήματος των «Πιθανοτήτων», τα οποία δεν παρουσιάζονταν στις διαλέξεις κάθε χρόνο ή διδάσκονταν προαιρετικά.

  2. 2. 

    Αποδείξεις κάποιων θεωρημάτων που δεν παρουσιάζονταν στα μαθήματα και παρατίθενται εδώ για λόγους πληρότητας (σημειωμένες με ).

  3. 3. 

    Κάποιες παραγράφους (επίσης σημειωμένες με ) που περιλαμβάνουν προχωρημένο υλικό. Όσοι αναγνώστες θέλουν να εμβαθύνουν στις αντίστοιχες περιοχές θα βρουν αυτές τις παραγράφους τις πιο ενδιαφέρουσες.

  4. 4. 

    Πολλές ασκήσεις μαζί με τις αναλυτικές τους λύσεις στο τέλος του κειμένου, οι πιο δύσκολες εκ των οποίων είναι και αυτές σημειωμένες με .

Υπογραμμίζουμε πως οι ασκήσεις και οι λύσεις τους αποτελούν σημαντικό και ακέραιο μέρος του βιβλίου. Στις ασκήσεις έχουμε συμπεριλάβει και κάποια σημαντικά αποτελέσματα, τα οποία άλλοτε δεν εντάσσονταν φυσικά στη ροή της ύλης του αντίστοιχου κεφαλαίου και άλλοτε κρίναμε πως αφορούσαν ερωτήματα τα οποία θα ήταν πιο χρήσιμο για τον αναγνώστη να έχει την ευκαιρία να τα εξετάσει μόνος του πριν του δοθούν οι απαντήσεις. Επιπλέον, η ίδια η φύση του αντικειμένου απαιτεί συστηματική εξοικείωση – με χαρτί και μολύβι – με τις έννοιες και τις τεχνικές που σταδιακά εισάγονται, και ίσως ο πιο αποτελεσματικός τρόπος να το επιτύχει κανείς αυτό είναι να αναπτύξει τις απαραίτητες δεξιότητες λύνοντας μια σειρά σχετικών ασκήσεων.

Είναι βέβαια μάλλον αυτονόητο, αλλά τονίζουμε πως δεν συνιστάται στους φοιτητές να χρησιμοποιήσουν το παρόν βιβλίο ως υποκατάστατο της παρακολούθησης των διαλέξεων.

Κλείνοντας, έχουμε τη χαρά να ευχαριστήσουμε τις δέκα περίπου «γενιές» φοιτητών που παρακολούθησαν τα μαθήματά μας για τη βοήθειά τους στη διαμόρφωση και την τροποποίηση της ύλης και για τις πολλές και χρήσιμες υποδείξεις τους.

Τέλος, ο πρώτος συγγραφέας αφιερώνει αυτό το βιβλίο στον ομορφότερο άνθρωπο που είχε την τύχη να γνωρίσει ποτέ στη ζωή του, τον γιο του Γιώργο. Ο δεύτερος συγγραφέας το αφιερώνει στην τριφυλλάρα .

Γιάννης Κοντογιάννης, Σταύρος Τουμπής

Αθήνα, Σεπτέμβριος 2015





Κεφάλαιο 1 Εισαγωγή

[Επιστροφή στα περιεχόμενα]

1.1 Οι πιθανότητες ως μέρος των μαθηματικών

Ιστορικά, έχουν υπάρξει δύο βασικές κινητήριες δυνάμεις για την ανάπτυξη νέων μαθηματικών: Η ανθρώπινη πνευματική περιέργεια και η ευρύτερη επιστημονική ή κοινωνική αναγκαιότητα της κάθε εποχής. Για παράδειγμα, οι πρακτικές ανάγκες της μέτρησης εδαφών και αποστάσεων στην αρχαιότητα αποτέλεσαν σημαντικό κίνητρο για την ανάπτυξη της επίπεδης (Ευκλείδειας) γεωμετρίας. Παρομοίως, η ανάγκη για την κατανόηση και την πρόβλεψη της κίνησης των στερεών σωμάτων – όπως, π.χ., των πλανητών ή των βλημάτων που χρησιμοποιούνταν σε πολεμικές μάχες – ήταν ένα απ’ τα βασικότερα κίνητρα για την ανάπτυξη του διαφορικού λογισμού από τον Νεύτωνα και τον Leibniz.

Ένα πιο πρόσφατο, και ίσως πιο οικείο, παράδειγμα είναι η ανάπτυξη μιας νέας μαθηματικής θεωρίας για την περιγραφή και την ακριβή μέτρηση της «πληροφορίας». Στην εποχή μας, η έννοια της πληροφορίας βρίσκεται παντού – από τις πληροφορίες που μεταφέρονται ως δεδομένα μέσω του διαδικτύου και των κινητών τηλεφώνων, μέχρι τη μελέτη των πληροφοριών που είναι αποθηκευμένες στον ανθρώπινο εγκέφαλο και στο DNA. Πώς μετριέται και περιγράφεται η πληροφορία, ως φυσικό μέγεθος, στην καθεμία από τις πιο πάνω περιπτώσεις; Το επιστημονικό πεδίο της θεωρίας πληροφορίας δίνει κάποιες πρώτες απαντήσεις σε αυτά τα ερωτήματα.

Μάλλον το σημαντικότερο (και αρχαιότερο) κίνητρο για την ανάπτυξη των πιθανοτήτων – δηλαδή μιας μαθηματικά αυστηρής θεωρίας για την κατανόηση τυχαίων φαινομένων και, γενικότερα, καταστάσεων στις οποίες υπάρχει ένα σημαντικό μέρος αβεβαιότητας – ήταν το ανθρώπινο πάθος για τον τζόγο. Γύρω στα μέσα και προς τα τέλη του 19ου αιώνα, είχε ωριμάσει αρκετά η συστηματική μελέτη των σχετικά απλών φυσικών φαινομένων, όπως για παράδειγμα η μελέτη της κίνησης δύο απομονωμένων πλανητών κάτω από την επίδραση της αμοιβαίας βαρυτικής τους έλξης, και είχε ξεκινήσει να αναπτύσσεται έντονο επιστημονικό ενδιαφέρον για τη μελέτη «πολύπλοκων» συστημάτων.

Για παράδειγμα, ένα δωμάτιο περιέχει περίπου 1021 μόρια αέρα. Ακόμα κι αν γνωρίζουμε με ακρίβεια τους νόμους που διέπουν την κίνησή τους, είναι πρακτικά αδύνατο να λύσουμε ένα σύστημα 1021 διαφορικών εξισώσεων, ώστε να προβλέψουμε, π.χ., τη θερμοκρασία του αέρα στο δωμάτιο! Μια αποτελεσματικότερη προσέγγιση είναι να θεωρήσουμε τις θέσεις και τις ταχύτητες των μορίων τυχαίες και να αποπειραθούμε να κάνουμε μια στατιστική ανάλυση. Αυτή η προσέγγιση, η οποία αποτέλεσε την αφετηρία της σημαντικής νέας περιοχής της στατιστικής φυσικής, έδωσε την τελική ώθηση που απαιτούνταν ώστε οι πιθανότητες να αναπτυχθούν ως μια πλήρης μαθηματική θεωρία στο πρώτο μισό του 20ού αιώνα.

1.2 Ιστορική ανάπτυξη

Η αφετηρία της συστηματικής μελέτης των Πιθανοτήτων ως επιστημονικού πεδίου τοποθετείται στα μέσα του 17ου αιώνα, και συγκεκριμένα στην αλληλογραφία μεταξύ δύο σημαντικών μαθηματικών της εποχής, του Pascal και του Fermat, με αντικείμενο την κατανόηση ενός τυχερού παιχνιδιού.

Σχήμα 1.1: Ο Blaise Pascal (1623-1662) και ο Pierre de Fermat (1601-1665). [Οι εικόνες
αποτελούν κοινό κτήμα και διέπονται από το καθεστώς υλικού που ανήκει στο public domain.
Τα πρωτότυπα αρχεία βρίσκονται στις τοποθεσίες των συνδέσμων Pascal
και Fermat.]

Μετά τη θεμελίωση των βασικών εννοιών από τους Pascal-Fermat, η σκυτάλη πέρασε σε έναν από τους σημαντικότερους μαθηματικούς όλων των εποχών, τον Gauss. Στα χέρια του Gauss, οι πιθανότητες έπαψαν να αποτελούν ένα συνονθύλευμα μεμονωμένων παραδειγμάτων και απλών τεχνικών. Ο Gauss διατύπωσε και απέδειξε μια σειρά από θεμελιώδη αποτελέσματα, τα οποία αποτελούν τη βάση ολόκληρης της σύγχρονης θεωρίας πιθανοτήτων – αλλά και της στατιστικής – έως και σήμερα. Το σημαντικότερο από αυτά τα αποτελέσματα είναι το Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.), του οποίου η μελέτη και η χρήση αποτελούν κεντρικούς στόχους αυτού του βιβλίου.

Σχήμα 1.2: Ο Johann Carl Frederich Gauss (1777-1866). [Οι εικόνα αποτελεί κοινό κτήμα και διέπεται από το καθεστώς υλικού που ανήκει στο public domain. Το πρωτότυπο αρχείο βρίσκεται στην τοποθεσία του συνδέσμου Gauss.]

Με απλά λόγια, το Κ.Ο.Θ. μας λέει δύο πράγματα: Πρώτον, πως μέσα από την πλήρη αταξία μερικές φορές γεννιέται τάξη. Για παράδειγμα, αν στρίψουμε ένα νόμισμα δυο-τρεις φορές, είναι απολύτως αδύνατο να προβλέψουμε τι θα συμβεί· αν, ας πούμε, θα φέρουμε πρώτα Γράμματα και μετά Κορώνα ή το αντίστροφο. Αλλά, αν στρίψουμε το νόμισμα χίλιες ή δέκα χιλιάδες φορές, τότε είναι σχεδόν βέβαιο ότι το ποσοστό των φορών που φέραμε Κορώνα θα είναι μεταξύ 49% και 51%. Επιπλέον, το Κ.Ο.Θ. μάς επιτρέπει να υπολογίσουμε, κατά προσέγγιση, πόσο μικρή είναι η πιθανότητα το ποσοστό από Κορώνες να μην είναι μεταξύ 49% και 51%.

Έτσι, από τις πολλές επαναλήψεις του τυχαίου και απρόβλεπτου, προκύπτει τάξη και προβλεψιμότητα. Όπως θα δούμε σε επόμενα κεφάλαια, η βασική ιδιότητα πάνω στην οποία στηρίζεται αυτή η συμπεριφορά, είναι η ανεξαρτησία, δηλαδή το γεγονός ότι τα αποτελέσματα των διαδοχικών ρίψεων του νομίσματος είναι ανεξάρτητα το ένα από το άλλο.

Ως την εποχή του Gauss και μέχρι μερικές δεκαετίες αργότερα, η μελέτη των πιθανοτήτων βασιζόταν σχεδόν εξολοκλήρου στην υπόθεση της ανεξαρτησίας. Για παράδειγμα, σε μια ιατρική μελέτη, είναι λογικό να υποθέσουμε ότι το πόσο αποτελεσματικά δρα ένα φάρμακο έχει διακυμάνσεις από ασθενή σε ασθενή, αλλά είναι εξίσου λογικό να υποθέσουμε ότι η αποτελεσματικότητα του φαρμάκου είναι ανεξάρτητη από τον εκάστοτε ασθενή. Παρομοίως, αν κάνουμε μια δημοσκόπηση διαλέγοντας τυχαία μέλη ενός πληθυσμού, είναι λογικό να υποθέσουμε πως το να επιλέξουμε έναν συγκεκριμένο άνθρωπο για τη δημοσκόπηση δεν θα επηρεάσει τις πολιτικές προτιμήσεις κάποιου άλλου. Και στις δύο αυτές περιπτώσεις μπορούμε, λοιπόν, να υποθέσουμε πως διαδοχικά δείγματα – μετρήσεις της ανταπόκρισης των ασθενών σε ένα φάρμακο και προτιμήσεις ψηφοφόρων – είναι στατιστικά ανεξάρτητα.

Αλλά σε πιο πολύπλοκα φαινόμενα η υπόθεση της ανεξαρτησίας δεν είναι ρεαλιστική. Για παράδειγμα, ας πούμε πως έχουμε έναν αλγόριθμο επεξεργασίας κειμένου και θέλουμε να αναλύσουμε τη συνήθη συμπεριφορά του. Μια που δεν ξέρουμε εκ των προτέρων πάνω σε ποιο κείμενο θα εφαρμοστεί, λογικά θα καταφύγουμε στο να εξετάσουμε πώς συμπεριφέρεται σε κάποιο «τυχαίο» κείμενο. Αν όμως περιγράψουμε ένα τυχαίο κείμενο ως μια ακολουθία τυχαίων γραμμάτων, τότε σίγουρα δεν μπορούμε να θεωρήσουμε πως τα διαδοχικά γράμματα είναι ανεξάρτητα μεταξύ τους – εκτός κι αν είμαστε προετοιμασμένοι να δεχθούμε ως «κείμενο» μια ακολουθία γραμμάτων όπως η:


ασλδ'Κ αΣλκδν οι θζαίισ .θΔΙοαιξΜ-ΟΙα τρ88 Δλκσαξ λκλ,09οσ ,σαμδ!

3
Σχήμα 1.3: Ο Andrei A. Markov (1856-1922) και ο Andrei N. Kolmogorov (1903-1987). [Οι εικόνες
αποτελούν κοινό κτήμα και διέπονται από το καθεστώς υλικού που ανήκει στο public domain.
Τα πρωτότυπα αρχεία βρίσκονται στις τοποθεσίες των συνδέσμων Markov και Kolmogorov.]

Ο πρώτος ερευνητής που μελέτησε συστηματικά τις τυχαίες ακολουθίες που αποτελούνται από όχι ανεξάρτητα αλλά συσχετισμένα μεταξύ τους δείγματα, ήταν ο Markov. Στην απλούστερη μορφή τους, οι ακολουθίες τέτοιων συσχετισμένων δειγμάτων ονομάζονται «αλυσίδες Markov», και η μελέτη τους αποτελεί κεντρικό μέρος πολλών ερευνητικών περιοχών της σύγχρονης επιστήμης και τεχνολογίας. Είναι αξιοσημείωτο πως ένα από τα βασικά κίνητρα του Markov ήταν η περιγραφή κειμένων φυσικής γλώσσας μέσω των πιθανοτήτων. Ακόμη και στη σημερινή εποχή του Internet, του Google και του YouTube, πολλοί από τους πιο δημοφιλείς αλγορίθμους που χρησιμοποιούνται καθημερινά από εκατομμύρια ανθρώπους καθώς «σερφάρουν» στο διαδίκτυο, είναι βασισμένοι σε μοντέλα που περιγράφουν το περιεχόμενο των σελίδων του WWW μέσω των αλυσίδων Markov.

Ο πιο πρόσφατος μεγάλος σταθμός στην ιστορία των πιθανοτήτων είναι το 1933. Μέχρι τότε, παρά τη μεγάλη ώθηση που είχε πάρει η μελέτη τυχαίων φαινομένων στη φυσική και στο πρωτοεμφανιζόμενο τότε πεδίο της στατιστικής, οι πιθανότητες παρέμεναν μια μαθηματικά κακόφημη επιστημονική περιοχή. Ο λόγος ήταν πως δεν είχαν ακόμα ενταχθεί, με την αυστηρή έννοια, στο κεντρικό κομμάτι των μαθηματικών. Δεν είχαν, δηλαδή, θεμελιωθεί αξιωματικά, όπως η γεωμετρία, η ανάλυση, η θεωρία συνόλων και όλες οι υπόλοιπες βασικές περιοχές των μαθηματικών. Αυτήν τη θεμελίωση κατάφερε το 1933 ο σπουδαίος Ρώσος μαθηματικός A.N. Kolmogorov, του οποίου η τεράστια επιρροή στην επιστημονική εξέλιξη του 20ού αιώνα είναι εξαιρετικά έντονα αισθητή ως τις μέρες μας.

1.3 Πιθανότητες και πληροφορική

Όπως αναφέρουν στην εισαγωγή του πρόσφατου βιβλίου τους Probability and Computing οι Mitzenmacher (Harvard) και Upfal (Brown):

Τις τελευταίες δύο δεκαετίες, η χρήση της θεωρίας πιθανοτήτων στην πληροφορική έχει ενταθεί σε πάρα πολύ μεγάλο βαθμό. Προχωρημένες και πολύπλοκες τεχνικές από τις πιθανότητες αναπτύσσονται και βρίσκουν εφαρμογή σε όλο και πιο ευρείες και δύσκολες περιοχές της επιστήμης υπολογιστών.

Συγκεκριμένα, τεχνικές και βασικές έννοιες των πιθανοτήτων παίζουν κεντρικό ρόλο, μεταξύ άλλων, στις εξής περιοχές:

  • • 

    Περιγραφή και προσομοίωση πολύπλοκων συστημάτων. Π.χ., ένα μεγάλο δίκτυο που αποτελείται από πολλούς υπολογιστές (όπως το internet), ή ένα δίκτυο κινητής τηλεφωνίας, είναι αδύνατον να περιγραφεί με απόλυτη ακρίβεια. Νέοι υπολογιστές προστίθενται στο δίκτυο, κάποιοι αποσυνδέονται, ενώ και η συνδεσμολογία διαρκώς αλλάζει καθώς δημιουργούνται νέες συνδέσεις ή κάποιες υπάρχουσες παύουν να λειτουργούν. Επιπλέον, οι απαιτήσεις για τη μεταφορά δεδομένων αλλάζουν κάθε στιγμή με απρόβλεπτο τρόπο. Έτσι αναγκαστικά καταφεύγουμε σε μια πιθανοκρατική περιγραφή του δικτύου.

  • • 

    Πιθανοκρατική ανάλυση αλγορίθμων. Συχνά παρατηρούμε ένας αλγόριθμος να έχει θεωρητικά απαγορευτικά μεγάλη πολυπλοκότητα, αλλά στην πράξη να είναι πολύ αποτελεσματικός. Αυτό συμβαίνει γιατί, ενώ η παραδοσιακή έννοια της πολυπλοκότητας βασίζεται στην ανάλυση της συμπεριφοράς του αλγορίθμου στη χειρότερη περίπτωση (σύμφωνα με τη λεγόμενη worst case analysis), στη μεγάλη πλειονότητα των περιπτώσεων μπορεί να είναι πολύ αποτελεσματικός. Η λεγόμενη πιθανοκρατική (ή average case) ανάλυση δίνει μια εξήγηση γι’ αυτό το φαινόμενο: Αν θεωρήσουμε τα δεδομένα εισόδου τυχαία, τότε σε πολλές περιπτώσεις μπορούμε να δείξουμε ότι, με πιθανότητα πολύ κοντά στο 100%, η πολυπλοκότητα του αλγορίθμου είναι πολύ σημαντικά μικρότερη από αυτήν της χειρότερης περίπτωσης.

  • • 

    Randomized αλγόριθμοι. Υπάρχει μια κατηγορία αλγορίθμων, οι λεγόμενοι randomized ή τυχαιοκρατικοί αλγόριθμοι, οι οποίοι σε κάποια βήματα κατά την εκτέλεσή τους κάνουν «τυχαίες» επιλογές. Για παράδειγμα, το πρωτόκολλο επικοινωνίας του ethernet χρησιμοποιεί τυχαίους αριθμούς για να αποφασίσει πότε θα ξαναζητήσει πρόσβαση στο δίκτυο. Η χρήση της τυχαιότητας – σε αυτόν και πολλούς άλλους σημαντικούς αλγορίθμους – όχι μόνο απλοποιεί τη δομή του αλγορίθμου, αλλά επιτυγχάνει σημαντικά καλύτερη συμπεριφορά του συστήματος. Το τίμημα που επιφέρει είναι πως πάντα υπάρχει μια μικρή πιθανότητα δυσλειτουργίας. Βάσει σωστού σχεδιασμού και προσεκτικής μαθηματικής ανάλυσης, αυτή η πιθανότητα μπορεί να καταστεί τόσο μικρή, ώστε το κέρδος από την άποψη της πολυπλοκότητας και της ευκολίας να είναι πολύ μεγαλύτερο.

Κλείνοντας, αναφέρουμε πως άλλες περιοχές της πληροφορικής στις οποίες χρησιμοποιούνται συστηματικά μέθοδοι των πιθανοτήτων περιλαμβάνουν, μεταξύ άλλων:

  • • 

    το σχεδιασμό αλγορίθμων επεξεργασίας πολυμεσικών (multimedia) δεδομένων, π.χ., για τη συμπίεση ήχου, βίντεο και εικόνας,

  • • 

    την ανάπτυξη μεθόδων μηχανικής μάθησης και ανάκτησης πληροφοριών,

  • • 

    την κρυπτογραφία,

  • • 

    τη θεωρητική θεμελίωση των βασικών εννοιών πολυπλοκότητας και υπολογισιμότητας (μηχανές Turing, NP-complete και NP-hard προβλήματα, κλπ.).


Κεφάλαιο 2 Χώρος πιθανότητας και ενδεχόμενα

[Επιστροφή στα περιεχόμενα]

2.1 Προκαταρκτικά

Έστω ότι κάποιος μας προτείνει να του δώσουμε δυόμισι ευρώ για να παίξουμε το εξής παιχνίδι: Θα στρίβουμε ένα νόμισμα μέχρι την πρώτη φορά που θα φέρουμε Κορώνα (Κ), κι όσο πιο αργά συμβεί αυτό, δηλαδή όσο πιο πολλές συνεχόμενες φορές φέρουμε Γράμματα (Γ) στην αρχή, τόσο πιο μεγάλο θα είναι το κέρδος μας: Αν το νόμισμα έρθει Κ στην πρώτη ρίψη, θα μας δώσει ένα ευρώ. Αν έρθει Γ και μετά Κ, θα μας δώσει δύο ευρώ. Γενικά, αν έρθει (n-1) φορές Γ και τη φορά n έρθει Κ, θα πάρουμε n ευρώ.

Αμέσως γεννιούνται μερικά προφανή ερωτήματα:

  • • 

    Μας συμφέρει να παίξουμε;

  • • 

    Πόσο πιθανό είναι να κερδίσουμε πιο πολλά χρήματα από όσα δώσαμε για να παίξουμε;

  • • 

    Αν παίξουμε πολλές φορές, τελικά τι είναι πιο πιθανό, να βγούμε κερδισμένοι ή χαμένοι;

  • • 

    Είναι «δίκαιη» η τιμή των 2.5 ευρώ;

  • • 

    Τι θα πει ακριβώς «δίκαιη» τιμή;

Όλα αυτά τα ερωτήματα θα απαντηθούν με συστηματικό τρόπο στα επόμενα κεφάλαια. Προς το παρόν, αυτό που παρατηρούμε είναι η αναγκαιότητα να δώσουμε μια μαθηματική περιγραφή στο πιο πάνω παιχνίδι. Να ορίσουμε, πρώτα από όλα, τι θα πει «πιθανότητα» και να βρούμε τρόπους να υπολογίζουμε ποσοτικά και με ακρίβεια τις απαντήσεις σε ερωτήματα όπως τα πιο πάνω. Αυτό στα μαθηματικά είναι η διαδικασία κατά την οποία περιγράφουμε ένα πραγματικό φαινόμενο μέσω ενός μαθηματικού «μοντέλου». Σε κάποιες περιπτώσεις, αυτή η διαδικασία μάς είναι τόσο οικεία που ούτε καν της δίνουμε σημασία – για παράδειγμα, όταν βλέπουμε σε ένα χάρτη μια ευθεία γραμμή να αναπαριστά ένα δρόμο, δεν σκεφτόμαστε «Α, βέβαια, εδώ επικαλούμαι την προσεγγιστική αναπαράσταση ενός μέρους της επιφάνειας του πλανήτη Γη μέσω του μοντέλου της επίπεδης γεωμετρίας»!

Η μοντελοποίηση φαινομένων που περιέχουν στοιχεία τυχαιότητας, και η εξοικείωση με αυτήν τη διαδικασία αποτελούν δύο από τους κεντρικούς μας στόχους.

Αν και δεν είναι ο μόνος, μάλλον ο πιο συνηθισμένος τρόπος για να προσεγγίσουμε κατ’ αρχήν διαισθητικά την έννοια της πιθανότητας είναι μέσω της έννοιας της «συχνότητας». Π.χ., αν στρίψουμε ένα «δίκαιο» νόμισμα Ν φορές και φέρουμε k φορές Κορώνα (Κ), για μεγάλα Ν συχνά παρατηρούμε ότι,


kΝ=“ποσοστό από Κ”12ή  50%.

Και όσο μεγαλώνει το πλήθος Ν των ρίψεων, αντιστοίχως μεγαλώνει και το πλήθος k των φορών που φέραμε Κ, έτσι ώστε, μακροπρόθεσμα,


kN12,καθώς τοN.

Υπό αυτή την έννοια, λέμε ότι «η πιθανότητα το νόμισμα να έρθει Κ είναι 1/2».

2.2 Σύνολα

Ένα μεγάλο μέρος του μαθηματικού λεξιλογίου που θα χρησιμοποιήσουμε βασίζεται στα βασικά στοιχεία της θεωρίας συνόλων. Ξεκινάμε υπενθυμίζοντας κάποιος γνωστούς ορισμούς:


Ορισμός 2.1 (Πράξεις συνόλων)
  1. 1. 

    Ένα σύνολο είναι μια συλλογή στοιχείων. Για παράδειγμα, τα Α={-1,+1}, Β={3,5,9}, Γ=={,-1,0,1,2,}= οι ακέραιοι αριθμοί, Δ== οι πραγματικοί αριθμοί, Ε={Α,Β,5,{5},} είναι όλα σύνολα.

  2. 2. 

    Όταν κάποιο στοιχείο α ανήκει σε κάποιο σύνολο Α, γράφουμε αA. Αν το α δεν ανήκει στο Α, γράφουμε αA. Π.χ., πιο πάνω έχουμε, 3B, αλλά, 0A.

  3. 3. 

    Το A είναι υποσύνολο του Β αν κάθε στοιχείο του Α ανήκει και στο Β, οπότε γράφουμε ΑB ή AB.

  4. 4. 

    Το κενό σύνολο ή {} έχει την ιδιότητα ότι δεν περιέχει κανένα στοιχείο, δηλαδή α για οποιοδήποτε α.

Στις πιθανότητες, ανάλογα με το πρόβλημα που θα εξετάζουμε, όλα τα σύνολα που μας ενδιαφέρουν θα είναι υποσύνολα ενός βασικού συνόλου, το οποίο συνήθως συμβολίζεται ως Ω.

  • 5. 

    Η ένωση ΑB δύο συνόλων Α,Β είναι το σύνολο που αποτελείται από όλα τα στοιχεία που ανήκουν στο Α ή στο Β (ή και στα δύο). Γενικότερα, η ένωση ενός πεπερασμένου πλήθους συνόλων Α1,Α2,,AN συμβολίζεται ως,


    Α1A2AN=i=1NAi,

    και περιέχει όλα τα στοιχεία του Α1, τα στοιχεία του Α2 κλπ. Βλ. Σχήμα 2.1.

  • 6. 

    Η τομή ΑB δύο συνόλων Α,Β είναι το σύνολο που αποτελείται από όλα τα στοιχεία που ανήκουν και στο Α και στο Β. Γενικότερα, η τομή ενός πεπερασμένου πλήθους συνόλων Α1,Α2,,AN συμβολίζεται ως,


    Α1A2AN=i=1NAi,

    και αποτελείται από τα στοιχεία που περιέχονται σε όλα τα Αi. Βλ. Σχήμα 2.1.

  • 7. 

    Το συμπλήρωμα Α ενός συνόλου Α που είναι υποσύνολο του βασικού συνόλου Ω, αποτελείται από όλα τα στοιχεία του Ω που δεν ανήκουν στο Α. Βλ. Σχήμα 2.1.

Σχήμα 2.1: Γραφική αναπαράσταση της ένωσης, της τομής και του συμπληρώματος συνόλων.
Παράδειγμα 2.1

Έστω Ω το σύνολο όλων των δυνατών αποτελεσμάτων από τη ρίψη δύο νομισμάτων, δηλαδή,


Ω={KK,KΓ,ΓK,ΓΓ}.

Η περίπτωση του να φέρουμε Κ την πρώτη φορά μπορεί να περιγραφεί ως το σύνολο,


Α={Κ την πρώτη φορά}={KK,KΓ},

το οποίο είναι ένα υποσύνολο του Ω. Παρατηρούμε ότι το Α μπορεί και να εκφραστεί ως,


Α={KK}{KΓ}={ΓΓ,ΓK}=AΩ.
Παράδειγμα 2.2

Από 50 φοιτητές που βρίσκονται σε μια αίθουσα, οι 20 έχουν αυτοκίνητο, οι 10 έχουν μοτοσυκλέτα, και οι 25 δεν έχουν κανένα από τα δύο. Επιλέγουμε έναν φοιτητή στην τύχη.

Εδώ μπορούμε να ορίσουμε τα εξής σύνολα. Βλ. Σχήμα 2.2.


Ω = Όλοι οι 50 φοιτητές

A = Όσοι έχουν αυτοκίνητο

M = Όσοι έχουν μοτοσυκλέτα

E = Όσοι έχουν τουλάχιστον το ένα από τα δύο μέσα

Δ = Όσοι έχουν και τα δύο.

Θα απαντήσουμε στα εξής απλά ερωτήματα:

  • (α’)

    Πόσοι φοιτητές είναι στο Ε;

  • (β’)

    Πόσοι φοιτητές είναι στο Δ;

  • (γ’)

    Ποια είναι η πιθανότητα ο επιλεγμένος φοιτητής να έχει αυτοκίνητο;

Σχήμα 2.2: Γραφική αναπαράσταση των συνόλων στο Παράδειγμα 2.2.

Για το (α’), εφόσον είναι 50 συνολικά οι φοιτητές, δηλαδή το πλήθος των στοιχείων του Ω ισούται με 50, #Ω=50, και αφού μας δίνεται ότι 25 φοιτητές δεν έχουν ούτε αυτοκίνητο ούτε μοτοσυκλέτα, εύκολα υπολογίζουμε ότι,


#Ε = #{όσοι έχουν τουλάχιστον το ένα από τα δύο}


= #[{όσοι δεν έχουν κανένα από τα δύο}]=  50-25=  25,

όπου πιο πάνω και σε ολόκληρο το βιβλίο, χρησιμοποιούμε τον συμβολισμό #Α για το πλήθος των στοιχείων ενός οποιουδήποτε συνόλου Α.

Για το (β’), από τη γραφική αναπαράσταση στο Σχήμα 2.2, παρατηρούμε πως,


#(AM)=#A+#M-#Δ,

όπου αφαιρούμε τα στοιχεία του συνόλου Δ για να μη μετρηθούν δύο φορές. Παρατηρούμε επίσης ότι AM=Ε και #Ε=25 από το (α’), ενώ μας δίνεται και ότι #Α=20 και #Μ=10, άρα, #Δ=20+10-25=5.

[Παρένθεση. Αν και δεν έχουμε ακόμα ορίσει την έννοια της πιθανότητας, μπορούμε να προσεγγίσουμε το ερώτημα (γ’) διαισθητικά. Εφόσον η επιλογή του φοιτητή είναι τυχαία, η ζητούμενη πιθανότητα «ο επιλεγμένος φοιτητής να έχει αυτοκίνητο», δηλαδή η πιθανότητα να επιλέξουμε από όλο το Ω έναν φοιτητή που να είναι στο σύνολο Α, λογικά μπορεί να υπολογιστεί ως η πιθανότητα του «ο επιλεγμένος φοιτητής να ανήκει στο Α», δηλαδή, #A#Ω=2050=25=0.4=40%.]

Συμβολισμός. Όπως θα δούμε στην επόμενη ενότητα, οποιαδήποτε ενδεχομένη έκβαση ενός τυχαίου πειράματος – είτε αυτή περιγράφεται περιφραστικά, π.χ., «ο επιλεγμένος φοιτητής να έχει αυτοκίνητο», είτε ως κάποιο υποσύνολο Α του Ω όπως πιο πάνω – συχνά αναφέρεται απλά ως ένα ενδεχόμενο. Η πιθανότητα οποιουδήποτε ενδεχομένου μάς ενδιαφέρει σε κάποιο πρόβλημα συμβολίζεται ως Pr, από το αγγλικό «probability» που σημαίνει πιθανότητα.

Παράδειγμα 2.3

Ρίχνουμε ένα «δίκαιο» νόμισμα 2 φορές. Εδώ το σύνολο όλων των δυνατών αποτελεσμάτων είναι το,


Ω={KK,KΓ,ΓK,ΓΓ}.

Έστω Α το ενδεχόμενο του να έρθει Κ την πρώτη φορά, και Β το ενδεχόμενο να έρθει το ίδιο αποτέλεσμα δύο φορές, δηλαδή,


Α = {KK,KΓ}

B = {KK,ΓΓ}.
Σχήμα 2.3: Σχηματική αναπαράσταση των συνόλων στο Παράδειγμα 2.3.

[Παρένθεση. Και πάλι, αν και δεν έχουμε ακόμα ορίσει την έννοια της πιθανότητας, διαισθητικά μπορούμε να κάνουμε κάποιους απλούς υπολογισμούς. Παρατηρούμε ότι, εφόσον το νόμισμα είναι δίκαιο, είναι λογικό να υποθέσουμε ότι καθένα από τα τέσσερα δυνατά αποτελέσματα (που αντιστοιχούν στα 4 στοιχεία του Ω) έχουν την ίδια πιθανότητα, δηλαδή 1/4. Άρα υπολογίζουμε εύκολα τις πιθανότητες, για παράδειγμα, των εξής ενδεχομένων:


Pr({Κ την 1η φορά}) = Pr(A)=Pr({KK,KΓ})=#A#Ω=2/4=1/2,

Pr({δύο φορές το ίδιο}) = Pr(Β)=Pr({KK,ΓΓ})=#B#Ω=2/4=1/2,

Pr({δύο φορές K})) = Pr({KK})=#{KK}#Ω=1/4,

και παρομοίως, η πιθανότητα να φέρουμε δύο φορές Γ είναι κι αυτή 1/4.]

2.3 Χώρος πιθανότητας και ενδεχόμενα

Ορισμός 2.2

(Χώρος πιθανότητας και ενδεχόμενα)

  1. 1. 

    O χώρος πιθανότητας ή δειγματικός χώρος Ω είναι το σύνολο όλων των δυνατών αποτελεσμάτων ενός τυχαίου πειράματος.

  2. 2. 

    Οποιοδήποτε υποσύνολο ΑΩ του χώρου πιθανότητας Ω ονομάζεται ενδεχόμενο.

  3. 3. 

    Τα ενδεχόμενα που αποτελούνται από ένα μόνο στοιχείο, δηλαδή τα υποσύνολα ΑΩ της μορφής A={ω} για κάποιο ωΩ, λέγονται στοιχειώδη ενδεχόμενα.

  4. 4. 

    Δύο ενδεχόμενα Α,Β είναι ξένα όταν δεν έχουν κανένα κοινό στοιχείο, δηλαδή αν και μόνο αν, ΑB=. Διαισθητικά, τα Α,Β είναι ξένα αν είναι αδύνατον να συμβούν συγχρόνως.


Παρατηρήσεις:
  1. 1. 

    Ο χώρος πιθανότητας μπορεί πάντα να εκφραστεί ως η ένωση τόσων στοιχειωδών ενδεχομένων όσα τα στοιχεία που περιέχει. Π.χ., αν Ω={ω1,ω2,,ωN}, τότε,


    Ω={ω1}{ω2}{ωN}.

    Και γενικότερα, κάθε ενδεχόμενο μπορεί να εκφραστεί ως ένωση τόσων στοιχειωδών ενδεχομένων όσα τα στοιχεία που περιέχει. Επίσης σημειώνουμε πως δύο οποιαδήποτε στοιχειώδη ενδεχόμενα {ω1} και {ω2} είναι ξένα μεταξύ τους – αρκεί, βεβαίως, να μην είναι τα ίδια, δηλαδή το στοιχείο ω1 να είναι διαφορετικό απ’ το ω2.

  2. 2. 

    Στο πιο πάνω παράδειγμα της ρίψης δύο δίκαιων νομισμάτων, ο χώρος πιθανότητας ήταν Ω={KK,KΓ,ΓK,ΓΓ} και εξετάσαμε τα ενδεχόμενα Α={KK,KΓ} και B={KK,ΓΓ}, τα οποία μπορούν να εκφραστούν ως ενώσεις στοιχειωδών ενδεχομένων:


    Α={KK}{KΓ},B={KK}{ΓΓ}.

    Παρατηρούμε ότι έχουμε τις πιθανότητες (όπως υπολογίστηκαν πιο πάνω), Pr(A)=1/2, Pr({KK})=1/4, και (Pr{KΓ})=1/4. Άρα έχουμε τις «παράλληλες» σχέσεις:


    Α={KK}{KΓ}καιPr(A)=Pr({KK})+Pr({KΓ}).

    Αργότερα θα δούμε πως, όταν κάποιο ενδεχόμενο Α μπορεί να εκφραστεί ως ένωση δύο άλλων ενδεχομένων Α=ΒΓ, η μόνη περίπτωση κατά την οποία μπορούμε να είμαστε βέβαιοι ότι θα ισχύει και η αντίστοιχη σχέση για τις πιθανότητες, Pr(A)=Pr(B)+Pr(Γ) είναι όταν τα B,Γ είναι ξένα.

  3. 3. 

    Όταν ένα ενδεχόμενο Α περιγράφει την περίπτωση να συμβεί κάποιο γεγονός που μας ενδιαφέρει (π.χ. αν το Α είναι το ενδεχόμενο του να φέρουμε την πρώτη φορά Κ ρίχνοντας ένα νόμισμα), τότε το συμπλήρωμά του Α περιγράφει το αντίθετο γεγονός, δηλαδή την περίπτωση να μη συμβεί το Α (π.χ, πιο πάνω το Α αντιστοιχεί στο να φέρουμε την πρώτη φορά Γ).

    Παρομοίως, η ένωση ΑB δύο ενδεχομένων A,B είναι το ενδεχόμενο του να συμβεί το Α ή το Β, και η τομή τους ΑB περιγράφει το ενδεχόμενο του να συμβούν και τα δύο.

Τέλος, παραθέτουμε κάποιες βασικές σχέσεις που ικανοποιούν οι πράξεις της ένωσης, της τομής και του συμπληρώματος συνόλων. Για οποιαδήποτε υποσύνολα Α,Β,Γ του Ω, έχουμε:

  1. 1. 

    A

  2. 2. 

    AA=Ω

  3. 3. 

    AA=

  4. 4. 

    A(BΓ)=(AB)(AΓ)

  5. 5. 

    A(BΓ)=(AB)(AΓ)

  6. 6. 

    (AB)=AB

  7. 7. 

    (AB)=AB.

Κλείνουμε αυτό το κεφάλαιο με ένα ενδιαφέρον παράδειγμα το οποίο, αν και απλό, αν δεν το έχετε ξαναδεί, ίσως σας κινήσει ιδιαίτερα το ενδιαφέρον.


Παράδειγμα 2.4 (Παιχνίδι Monty Hall)

Σε ένα τηλεπαιχνίδι ο διαγωνιζόμενος επιλέγει μία από τρεις κουρτίνες, αφού του πουν πως μία από αυτές κρύβει ένα δώρο και οι άλλες δύο δεν κρύβουν τίποτα (χωρίς, φυσικά, να του πουν πού είναι το δώρο). Αφού διαλέξει, ο παρουσιαστής τού ανοίγει μία από τις άλλες δύο κουρτίνες, του δείχνει ότι εκεί δεν υπάρχει τίποτα, και δίνει στον διαγωνιζόμενο τη δυνατότητα να κρατήσει την αρχική του κουρτίνα ή να διαλέξει την άλλη κουρτίνα της οποίας το περιεχόμενο παραμένει κρυφό. Ο διαγωνιζόμενος επιλέγει, και το παιχνίδι τελειώνει, είτε με νίκη του διαγωνιζόμενου (αν το δώρο βρίσκεται πίσω από την κουρτίνα της τελικής του επιλογής), είτε με ήττα του διαγωνιζόμενου (αν το δώρο δεν βρίσκεται πίσω από την κουρτίνα που επέλεξε).

Πώς μπορούμε να περιγράψουμε το χώρο πιθανότητας; Υπάρχουν διάφοροι τρόποι να περιγραφούν όλες οι δυνατές εκβάσεις του παιχνιδιού. Μια επιλογή είναι η ακόλουθη. Έστω πως ονομάζουμε κουρτίνα A την κουρτίνα όπου βρίσκεται το δώρο, και κουρτίνες B,C τις άλλες δύο. Μπορούμε να περιγράψουμε τα αποτελέσματα ως τριάδες της μορφής (X,X,X), όπου τα X παίρνουν τιμές A, B ή C, και το πρώτο στοιχείο δείχνει την επιλογή του διαγωνιζόμενου, το δεύτερο την κουρτίνα που αποκαλύφθηκε, και το τρίτο την κουρτίνα που επέλεξε τελικά ο διαγωνιζόμενος.

Προφανώς υπάρχουν 3 επιλογές για το πρώτο στοιχείο. Αλλά για το δεύτερο στοιχείο υπάρχουν 2 επιλογές αν ο διαγωνιζόμενος έχει αρχικά επιλέξει την κουρτίνα με το δώρο, ενώ υπάρχει μόνο μία αν ο διαγωνιζόμενος έχει επιλέξει κενή κουρτίνα. Για το τρίτο στοιχείο, υπάρχουν πάντα δύο επιλογές. Ο αντίστοιχος χώρος πιθανότητας Ω περιέχει τις 8 δυνατές τριάδες (X,X,X) και έχει σχεδιαστεί στο Σχήμα 2.4.

Σχήμα 2.4: Ο χώρος πιθανότητας του Παραδείγματος 2.4. Στο πρώτο βήμα ο διαγωνιζόμενος επιλέγει μία κουρτίνα, στο δεύτερο ο παρουσιαστής ανοίγει μία από τις άλλες δύο, και στο τρίτο ο διαγωνιζόμενος αλλάζει αν θέλει την επιλογή του. Τα τέσσερα αποτελέσματα που αντιστοιχούν σε «νίκη» είναι σημειωμένα με «*».

Αν θέλουμε τώρα να ορίσουμε, π.χ., το ενδεχόμενο Ν=«ο παίκτης κέρδισε το δώρο», παρατηρούμε πως τα αποτελέσματα που καταλήγουν σε νίκη για τον διαγωνιζόμενο είναι εκείνα που έχουν τελευταίο στοιχείο το A, δηλαδή, Ν={ABA,ACA,BCA,CBA}.

Σημείωση. Αυτό το παιχνίδι ήταν επί χρόνια τηλεπαιχνίδι στην Αμερική, γνωστό με το όνομα «Monty Hall». Τα βασικό ερώτημα, το οποίο θα εξετάσουμε αργότερα, είναι, «Ποια είναι η πιο συμφέρουσα στρατηγική για τον παίκτη – να κρατήσει την αρχική του κουρτίνα ή να αλλάξει;»

2.4 Ασκήσεις

  1. 1. 

    Τυχαία παιδιά. Έστω πως εκτελείται το ακόλουθο πείραμα: Ένα ζευγάρι κάνει n παιδιά, καθένα εκ των οποίων μπορεί να είναι αγόρι ή κορίτσι. Περιγράψτε το χώρο πιθανότητας αυτού του πειράματος.

  2. 2. 

    Κι άλλα τυχαία παιδιά. Έστω πως εκτελείται το ακόλουθο πείραμα: Ένα ζευγάρι κάνει παιδιά επ’ άπειρο, μέχρι να κάνει το πρώτο κορίτσι, και μετά σταματάει. Περιγράψτε το χώρο πιθανότητας αυτού του πειράματος.

  3. 3. 

    Δύο διαδοχικές ζαριές. Ρίχνουμε ένα ζάρι 2 φορές και καταγράφουμε τα δύο αποτελέσματα με τη σειρά που ήρθαν.

    1. (α’) 

      Ποιος είναι ο χώρος πιθανότητας Ω;

    2. (β’) 

      Περιγράψτε τα ακόλουθα ενδεχόμενα ως υποσύνολα του Ω:

      1. i. 

        A=«Ζάρι 1 = Ζάρι 2» (δηλαδή διπλές)

      2. ii. 

        Β=«Άθροισμα 4»

      3. iii. 

        C=«Πρώτο ζάρι 4»

      4. iv. 

        D=«Άθροισμα 7»

      5. v. 

        E=«Δεύτερο ζάρι 5»

  4. 4. 

    Υπάρχουν και περίεργοι χώροι πιθανότητας. Έστω πως ρίχνουμε ένα βελάκι σε ένα στόχο με σχήμα κύκλου, και ακτίνα 20cm. Αν πετύχουμε το στόχο το βελάκι μένει καρφωμένο, και αν αστοχήσουμε το βελάκι πέφτει στο πάτωμα και το κλέβει ο σκύλος μας. Ορίστε το χώρο πιθανότητας Ω ώστε να περιγράφει όλα τα δυνατά αποτελέσματα, δηλαδή όλες τις θέσεις στις οποίες μπορεί να καταλήξει το βελάκι μας, συμπεριλαμβανομένου του στόματος του σκύλου!

  5. 5. 

    Δύο ταυτόχρονες ζαριές. Λύστε την Άσκηση 3, υποθέτοντας πως τα ζάρια ρίχνονται ταυτόχρονα, και δεν είμαστε σε θέση να τα ξεχωρίζουμε μεταξύ τους.

  6. 6. 

    Τρία νομίσματα. Ρίχνουμε τρία νομίσματα. Περιγράψτε το χώρο πιθανότητας Ω του πειράματος και τα ενδεχόμενα A=«τρεις φορές το ίδιο αποτέλεσμα», B=«τις πρώτες δύο φορές Γράμματα», C=«περισσότερες Κορώνες από Γράμματα», ως υποσύνολα του Ω.

  7. 7. 

    Άσπρες και μαύρες μπάλες. Ένα κουτί περιέχει μία άσπρη μπάλα και 3 πανομοιότυπες μαύρες μπάλες.

    1. (α’) 

      Επιλέγουμε μια μπάλα στην τύχη και χωρίς να την ξαναβάλουμε στο κουτί επιλέγουμε άλλη μία (δηλαδή έχουμε επιλογή χωρίς επανατοποθέτηση). Περιγράψτε το χώρο πιθανότητας Ω1 αυτού του πειράματος.

    2. (β’) 

      Αν η επιλογή άσπρης μπάλας μάς δίνει κέρδος 10 ευρώ και η επιλογή μαύρης μπάλας μάς δίνει κέρδος 5 ευρώ, περιγράψτε το ενδεχόμενο συνολικά στις δύο επιλογές να κερδίσουμε 10 ευρώ.

    3. (γ’) 

      Αν, αφού επιλέξουμε την πρώτη μπάλα, την ξαναβάλουμε στο κουτί πριν επιλέξουμε τη δεύτερη, έχουμε επιλογή με επανατοποθέτηση, και προκύπτει ένα διαφορετικό πείραμα. Περιγράψτε το χώρο πιθανότητας Ω2 αυτού του πειράματος, και το ενδεχόμενο συνολικά στις δύο επιλογές να κερδίσουμε 15 ευρώ.

  8. 8. 

    Λειτουργία δικτύου. Έστω τα ενδεχόμενα A=«Σήμερα θα πέσει το δίκτυο», B=«Σήμερα είναι εργάσιμη μέρα», C=«Σήμερα ο τεχνικός είναι στο εργαστήριο». Να εκφραστούν τα πιο κάτω ενδεχόμενα ως σύνολα, συναρτήσει των συνόλων A,B,C:

    1. (α’) 

      D=«Σήμερα θα πέσει το δίκτυο και είναι εργάσιμη μέρα»

    2. (β’) 

      E=«Σήμερα είναι αργία και θα πέσει το δίκτυο»

    3. (γ’) 

      F=«Σήμερα θα πέσει το δίκτυο, είναι εργάσιμη, και ο τεχνικός δεν είναι στο εργαστήριο»

    4. (δ’) 

      G=«Σήμερα ή θα πέσει το δίκτυο και είναι αργία, ή θα πέσει το δίκτυο και ο τεχνικός είναι στο εργαστήριο, ή δεν θα πέσει το δίκτυο»

  9. 9. 

    Απλά διαγράμματα ενδεχομένων. Στα τρία διαγράμματα του Σχήματος 2.5, να σκιαστούν (αντιστοίχως) τα τρία ενδεχόμενα BA, (AB)C, (ABC)D.

    Σχήμα 2.5: Άσκηση 9.
  10. 10. 

    Τρεις ζαριές. Ρίχνουμε ένα ζάρι 3 φορές. Περιγράψτε το χώρο πιθανότητας Ω και τα ενδεχόμενα: A=«Την 1η και 3η φορά ήρθε 6», Β=«την 1η φορά ήρθε 1 και τη 2η και 3η φορά ήρθε το ίδιο αποτέλεσμα» και C=«τρεις φορές ήρθε το ίδιο ζυγό αποτέλεσμα».

  11. 11. 

    Σταθερά και κινητά τηλέφωνα. Ένα δίκτυο τηλεφωνίας αποτελείται από 400 σταθερά τηλέφωνα και 50 κινητά. Επιλέγουμε δύο τηλέφωνα στην τύχη, όπου στην 2η επιλογή δεν επιτρέπουμε να επιλεγεί το ίδιο τηλέφωνο με την 1η:

    Περιγράψτε το χώρο πιθανότητας. Επιπλέον, αν η επιλογή σταθερού τηλεφώνου έχει κόστος 1 ευρώ και η επιλογή κινητού 5 ευρώ, περιγράψτε τα ενδεχόμενα Α =«συνολικά οι 2 επιλογές κόστισαν 6 ευρώ» και B =«συνολικά οι 2 επιλογές κόστισαν 11 ευρώ».

  12. 12. 

    Το πρόβλημα των τριών φυλακισμένων. Σε μια φυλακή, ο διευθυντής αποφασίζει να απονείμει χάρη σε έναν από τους τρεις φυλακισμένους (η φυλακή είναι μικρή!) και να εκτελέσει τους άλλους δύο. Ένας από τους τρεις φυλακισμένους ζητά από τον δεσμοφύλακα να του αποκαλύψει ποιος από τους άλλους δύο κρατούμενους θα εκτελεστεί, με τη λογική ότι υπάρχει πάντοτε κάποιος τέτοιος. Ο δεσμοφύλακας το κάνει, και κατόπιν του παρέχει τη δυνατότητα να αλλάξει θέση με αυτόν του οποίου την τύχη δεν αποκάλυψε. Ο φυλακισμένος έχει την επιλογή να δεχθεί ή να αρνηθεί. Να περιγράψετε το χώρο πιθανότητας αυτού του τυχαίου πειράματος.

  13. 13. 

    Monty Hall 2. Επαναλάβετε το Παράδειγμα 2.4 με την ακόλουθη τροποποίηση: Οι κουρτίνες έχουν πάρει το όνομά τους πριν τοποθετηθεί το δώρο, και έτσι τα αποτελέσματα είναι τετράδες, αντί για τριάδες.

  14. 14. 

    Monty Hall 3. Επαναλάβετε το Παράδειγμα 2.4 με την ακόλουθη τροποποίηση: Ο διαγωνιζόμενος δεν αλλάζει ποτέ κουρτίνα.

  15. 15. 

    Monty Hall 4. Επαναλάβετε το Παράδειγμα 2.4 με την ακόλουθη τροποποίηση: Ο διαγωνιζόμενος αλλάζει πάντα κουρτίνα.



Κεφάλαιο 3 Μέτρο πιθανότητας

[Επιστροφή στα περιεχόμενα]

3.1 Ορισμός, παραδείγματα και ιδιότητες

Σ’ αυτό το σύντομο κεφάλαιο θα δώσουμε, για πρώτη φορά, έναν αυστηρά μαθηματικό ορισμό της έννοιας της πιθανότητας. Αν και, εκ πρώτης όψεως, ο ορισμός φαίνεται δυσνόητος και πολύ απομακρυσμένος από αυτό που διαισθητικά ονομάζουμε «πιθανότητα», όπως θα δούμε στα παραδείγματα που ακολουθούν, στην πράξη είναι πολύ απλός και εύχρηστος.

Ορισμός 3.1 (Μέτρο πιθανότητας)
Έστω ένας χώρος πιθανότητας Ω και έστω το δυναμοσύνολο του
Ω
,
δηλαδή το σύνολο που έχει ως στοιχεία όλα τα ενδεχόμενα ΑΩ (συμπεριλαμβανομένου και του κενού συνόλου ). Ένα μέτρο πιθανότητας είναι μια συνάρτηση :[0,1] η οποία ικανοποιεί τις παρακάτω ιδιότητες:
  1. 1. 

    Για οποιοδήποτε ενδεχόμενο Α έχουμε: (A)0.

  2. 2. 

    Πάντοτε έχουμε: (Ω)=1.

  3. 3. 

    Αν δύο ενδεχόμενα Α,Β είναι ξένα (δηλαδή AB=), τότε,


    (AB)=(A)+(B).

    Και γενικότερα, αν Α1,Α2, είναι μια οποιαδήποτε (πεπερασμένη ή όχι) ακολουθία ξένων ενδεχομένων (δηλαδή ΑiAj= για κάθε ij), τότε,


    (Α1Α2)=(A1)+(A2)+.

Πριν εξετάσουμε τις συνέπειες του ορισμού, ας δούμε πώς ορίζεται το μέτρο πιθανότητας σε ένα πολύ απλό παράδειγμα.


Παράδειγμα 3.1

Ρίχνουμε ένα δίκαιο ζάρι. Όλα τα δυνατά αποτελέσματα περιγράφονται από τα στοιχεία του αντίστοιχου χώρου πιθανότητας Ω={1,2,3,4,5,6}. Ορίζουμε τα ενδεχόμενα,


A = «ζυγό αποτέλεσμα»={2,4,6},

B = «μονό αποτέλεσμα»={1,3,5},

και τα έξι στοιχειώδη ενδεχόμενα Ei={i}, για κάθε i=1,2,3,4,5,6. Εφόσον το ζάρι είναι δίκαιο, απαιτούμε το αντίστοιχο μέτρο πιθανότητας που περιγράφει αυτό το πείραμα να δίνει την ίδια πιθανότητα, δηλαδή 1/6, σε κάθε δυνατό αποτέλεσμα, δηλαδή να ικανοποιεί (Ei)=1/6 για κάθε i=1,2,3,4,5,6.

Για να υπολογίσουμε την πιθανότητα του ενδεχομένου Α (η οποία διαισθητικά είναι προφανώς ίση με 1/2), παρατηρούμε όπως νωρίτερα πως το Α μπορεί να εκφραστεί ως ένωση στοιχειωδών ενδεχομένων, δηλαδή,


Α={2}{4}{6}=E2E4E6,

και πως όλα τα στοιχειώδη ενδεχόμενα είναι ξένα μεταξύ τους. Άρα από την τρίτη ιδιότητα του ορισμού ενός μέτρου πιθανότητας έχουμε,


Pr(A) = (A)=(E2E4E6)=(E2)+(E4)+(E6)


= 1/6+1/6+1/6=1/2.

Παρομοίως υπολογίζουμε την πιθανότητα του μονού αποτελέσματος,


Pr(Β) = (Β)=(E1E3E5)=(E1)+(E3)+(E5)


= 1/6+1/6+1/6=1/2.

Παρατηρήσεις:

  1. 1. 

    Το πιο πάνω παράδειγμα ανήκει σε μια ευρεία κατηγορία προβλημάτων όπου έχουμε ισοπίθανα στοιχειώδη ενδεχόμενα, και η οποία θα εξετασθεί πιο αναλυτικά στο επόμενο κεφάλαιο.

  2. 2. 

    Τα στοιχειώδη ενδεχόμενα είναι πάντα ξένα μεταξύ τους. Κατά συνέπεια, αν το Ω είναι πεπερασμένο, για να οριστεί το μέτρο πιθανότητας για όλα τα ενδεχόμενα αρκεί να οριστεί για τα στοιχειώδη ενδεχόμενα. Ο λόγος είναι απλός. Έστω ένα οποιοδήποτε ενδεχόμενο Α το οποίο αποτελείται από τα στοιχεία ω1,ω2,,ωk. Εκφράζοντας το Α ως την ένωση των ξένων ενδεχομένων,


    Α={ω1}{ω2}{ωk},

    και χρησιμοποιώντας την τρίτη ιδιότητα του ορισμού του μέτρου πιθανότητας, μπορούμε να υπολογίσουμε την πιθανότητα του Α από τις πιθανότητες των στοιχειωδών ενδεχομένων {ωi} ως,


    (Α)=({ω1})+({ω2})++({ωk}).
  3. 3. 

    Όταν δύο ενδεχόμενα A,B δεν είναι ξένα, τότε η πιθανότητα της ένωσής τους γενικά δεν ισούται με το άθροισμα των επιμέρους πιθανοτήτων. Π.χ., στο πιο πάνω παράδειγμα έχουμε ότι το Α={2,4,6}={2,4,6}{2}=AE2, αλλά φυσικά (A)(A)+(E2) αφού 1/21/2+1/6!

Παράδειγμα 3.2

Σε ένα εργαστήριο πληροφορικής λειτουργούν τρία δίκτυα, από τα οποία, κατά τις τελευταίες 200 μέρες:

  • 30% των ημερών, τουλάχιστον ένα δίκτυο δεν λειτουργεί,

  • 10% των ημερών, ακριβώς δύο δεν λειτουργούν,

  • 5% των ημερών, δεν λειτουργεί κανένα δίκτυο.

Εξετάζουμε το τι συμβαίνει μια «τυχαία» μέρα. Έστω Ω το σύνολο όλων των διακοσίων ημερών, και έστω Βi το ενδεχόμενο του να λειτουργούν ακριβώς i από τα τρία δίκτυα, για i=0,1,2,3. Για παράδειγμα, το Β2 είναι το σύνολο των ημερών εκείνων κατά τις οποίες δύο δίκτυα λειτουργούν κι ένα όχι.

Από τις υποθέσεις μας έχουμε ότι Pr(B0)=5%=0.05 και Pr(B1)=10%=0.1. Επιπλέον, η πρώτη υπόθεση μας λέει ότι Pr(B3)=30%=0.3 (γιατί;). Αλλά ποιες είναι οι πιθανότητες των Β2 και Β3;

Για το Β3 παρατηρούμε ότι, εφόσον το «λειτουργούν και τα τρία δίκτυα» είναι το αντίθετο του «τουλάχιστον ένα δεν λειτουργεί», διαισθητικά περιμένουμε να ισχύει ότι,


Pr({λειτουργούν και τα τρία δίκτυα})=1-Pr({τουλάχιστον ένα δεν λειτουργεί}),

δηλαδή ότι,


Pr(B3)=1-Pr(B3)=1-30%=0.7

Πράγματι, αυτή η διαισθητική υπόθεση είναι σωστή, όπως θα δούμε αμέσως μετά το παράδειγμα.

Για το Β2 τώρα, παρατηρούμε ότι το ενδεχόμενο Β3 του να μην λειτουργεί τουλάχιστον ένα δίκτυο μπορεί να εκφραστεί ως ένωση,


Β3=Β0B1B2,

όπου τα Β0,Β1 και Β2 είναι εξ ορισμού ξένα. Άρα,


0.3=Pr(B3)=Pr(B0)+Pr(B1)+Pr(B2)=0.05+0.1+Pr(B2),

οπότε βρίσκουμε πως Pr(B2)=0.15 ή 15%.

Λήμμα 3.1

Για οποιοδήποτε ενδεχόμενο Α και οποιοδήποτε μέτρο πιθανότητας , έχουμε:


(A)=1-(A).
(3.1)
Απόδειξη:

Έστω ότι το Α είναι υποσύνολο του χώρου πιθανότητας Ω, όπου, από τη δεύτερη ιδιότητα του ορισμού ενός μέτρου πιθανότητας, έχουμε (Ω)=1.

Προφανώς μπορούμε να εκφράσουμε το Ω ως την ένωση Ω=AA, όπου εξ ορισμού τα Α και Α είναι ξένα. Άρα, από την τρίτη ιδιότητα του ορισμού του μέτρου πιθανότητας, 1=(Ω)=(A)+(A), που αποδεικνύει τη ζητούμενη σχέση (3.1).


Παράδειγμα 3.3

Ρίχνουμε ένα δίκαιο ζάρι 2 φορές, οπότε ο χώρος πιθανότητας Ω αποτελείται από τα 36 δυνατά αποτελέσματα:


Ω = {11,12,13,14,15,16



  21,22,,26



   



  61,62,,66}.

Όπως και στο Παράδειγμα 3.1, εφόσον το ζάρι είναι δίκαιο, λογικά υποθέτουμε ότι το καθένα από τα 36 στοιχειώδη ενδεχόμενα έχει την ίδια πιθανότητα, δηλαδή 1/36. Θα υπολογίσουμε την πιθανότητα των εξής ενδεχομένων:


A = «ασόδυο»={12,21},

B = «εξάρες»={66},

Γ = «6 την πρώτη φορά»={61,62,63,64,65,66},

Δ = «σύνολο 6»={15,24,33,42,51}.

Για το Α έχουμε, από τις πιο πάνω υποθέσεις,


Pr(A) = Pr({12,21})=Pr({12}{21})=Pr({12})+Pr({21})


= 136+136=1180.0555,

όπου και πάλι χρησιμοποιήσαμε το γεγονός ότι τα στοιχειώδη ενδεχόμενα είναι πάντοτε ξένα μεταξύ τους. Για το Β απλώς έχουμε, Pr(B)=Pr{66}=1/36, άρα υπάρχει διπλάσια πιθανότητα να φέρουμε ασόδυο από το να φέρουμε εξάρες.

Με την ίδια λογική, για το Γ έχουμε,


Pr(Γ) = Pr({61}{62}{63}{64}{65}{66})


= Pr({61})+Pr({62})+Pr({63})+Pr({64})+Pr({65})+Pr({66})


= 6/36=1/6,

δηλαδή μόλις αποδείξαμε το διαισθητικά προφανές – ότι η πιθανότητα του να φέρουμε 6 την πρώτη φορά είναι 1/6. Και ακολουθώντας πάλι την ίδια λογική, εύκολα υπολογίζουμε ότι, εφόσον το Δ αποτελείται από 5 στοιχεία και όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα, Pr(Δ)=5/36. Αυτή η παρατήρηση ισχύει πιο γενικά, όπως διατυπώνεται στο πιο κάτω λήμμα.

Λήμμα 3.2

Αν όλα τα στοιχειώδη ενδεχόμενα ενός (πεπερασμένου) χώρου πιθανότητας Ω είναι ισοπίθανα, τότε η πιθανότητα ενός οποιουδήποτε ενδεχομένου ΑΩ είναι ίση με:


Pr(A)=#A#Ω=πλήθος στοιχείων του Απλήθος στοιχείων του Ω.
Απόδειξη:

Έστω ότι ο χώρος πιθανότητας Ω={ω1,ω2,,ωn} αποτελείται από τα #Ω=n στοιχεία ωi, για i=1,2,,n, έστω το μέτρο πιθανότητας, και έστω p η πιθανότητα ενός οποιουδήποτε στοιχειώδους ενδεχομένου, δηλαδή p=Pr{ωi} για κάθε i. Από τις ιδιότητες του ορισμού του μέτρου πιθανότητας έχουμε,


1=(Ω)=(i=1n{ωi})=i=1n({ωi})=np,

άρα έχουμε p=1/n.

Έστω τώρα ένα οποιοδήποτε ενδεχόμενο Α={α1,α2,,αk} που αποτελείται από #A=k στοιχεία. Τότε έχουμε,


(Α)=(i=1k{αi})=i=1n({αi})=kp=k1n=#A#Ω.

3.2 Πέντε «κανόνες πιθανότητας»

Από τον ορισμό του μέτρου πιθανότητας και τα δύο λήμματα που αποδείξαμε πιο πάνω, προκύπτουν κάποιες βασικές ιδιότητες τις οποίες θα χρησιμοποιούμε συχνά. Για να αναφερόμαστε σε αυτές πιο εύκολα, τις παραθέτουμε περιληπτικά στην επόμενη σελίδα.

Απόδειξη:

Έστω δύο ενδεχόμενα ΑB. Το B μπορεί να εκφραστεί ως Β=ΑB1 όπου το Β1 αποτελείται από τα στοιχεία του B που δεν περιέχονται στο Α. Άρα τα Α και Β1 είναι ξένα, και συνεπώς, από την τρίτη ιδιότητα του ορισμού του μέτρου πιθανότητας, (B)=(A)+(B1), αλλά αφού όλες οι πιθανότητες είναι εξ ορισμού μεγαλύτερες ή ίσες του μηδενός, αυτό συνεπάγεται ότι (B)(A), και μας δίνει την Ιδιότητα 2.



Εφόσον εξ ορισμού τα και Ω είναι ξένα, από τον ορισμό του μέτρου πιθανότητας έχουμε,

1=(Ω)=(Ω)=(Ω)+()=1+(),

άρα ()=0. Και εφόσον A για κάθε A, από την Ιδιότητα 2, (A)()=0. Παρομοίως, οποιοδήποτε Α είναι υποσύνολο του Ω, άρα, (A)(Ω)=1, και έχουμε αποδείξει την Ιδιότητα 1.


Η Ιδιότητα 3 είναι μέρος του ορισμού, και οι Ιδιότητες 4 και 5 προκύπτουν από το Λήμμα 3.1 και το Λήμμα 3.2 αντίστοιχα.
Κανόνες πιθανότητας (1–5)

Για οποιοδήποτε μέτρο πιθανότητας :

  1. 1. 

    ()=0, (Ω)=1, και 0(A)1, για κάθε ενδεχόμενο Α.

  2. 2. 

    Αν AB, τότε (A)(B).

  3. 3. 

    Αν τα ενδεχόμενα Α1,Α2, είναι ξένα (δηλαδή ΑiAj= για κάθε ij), τότε:


    (Α1Α2)=(A1)+(A2)+.
  4. 4. 

    (A)=1-(A), για κάθε ενδεχόμενο Α.

  5. 5. 

    Αν όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα, τότε για κάθε ενδεχόμενο Α:


    Pr(A)=#A#Ω=πλήθος στοιχείων του Απλήθος στοιχείων του Ω.

3.3 Γενικός ορισμός του μέτρου πιθανότητας

Αν ο χώρος πιθανότητας είναι διακριτός (δηλαδή είτε πεπερασμένος είτε άπειρος αλλά αριθμήσιμος), τότε ο ορισμός που δώσαμε για το μέτρο πιθανότητας σε αυτό το κεφάλαιο είναι μαθηματικά πλήρης και απολύτως επαρκής για όλες τις αντίστοιχες εφαρμογές. Αλλά για την περίπτωση άπειρων και μη αριθμήσιμων χώρων πιθανότητας, ο ορισμός αυτός είναι απαραίτητο να τροποποιηθεί. Ο λόγος μπορεί να εξηγηθεί από το εξής παράδειγμα.

Έστω ότι θέλουμε να ορίσουμε την έννοια ενός «τυχαίου πραγματικού αριθμού» στο διάστημα [0,1]. Σε αυτή την περίπτωση κάθε ενδεχόμενο Α είναι ένα υποσύνολο του διαστήματος [0,1], και το Α περιγράφει το ενδεχόμενο ο τυχαίος αυτός αριθμός να ανήκει στο Α. Για παράδειγμα, αν το Α=[0,1/2], λογικά θα θέλαμε να ορίσουμε ένα μέτρο πιθανότητας που να μας λέει ότι η πιθανότητα ένας τυχαίος πραγματικός αριθμός μεταξύ 0 και 1 να είναι μικρότερος ή ίσος με 1/2, ισούται με 1/2. Με άλλα λόγια, να έχει (A)=1/2. Γενικά, θα θέλαμε για κάθε υποδιάστημα Β του [0,1], η τιμή του μέτρου πιθανότητας (Β) να ισούται με το μήκος αυτού του διαστήματος.

Εδώ συμβαίνει κάτι πραγματικά αξιοσημείωτο και μάλλον απροσδόκητο. Μπορεί να αποδειχθεί πως είναι ΑΔΥΝΑΤΟΝ να οριστεί ένα μέτρο πιθανότητας στο Ω=[0,1] το οποίο να ικανοποιεί τις τρεις συνθήκες του ορισμού μας και επίσης να δίνει, για κάθε υποδιάστημα [0,1],


(B)=μήκος τουΒ.

Η βαθύτερη αιτία της δυσκολίας είναι η ύπαρξη κάποιων πολύ πολύπλοκων, κατά κάποιον τρόπο παθολογικών, υποσυνόλων Β του [0,1].

Η λύση σε αυτό το πρόβλημα είναι να περιορίσουμε τα υποσύνολα του χώρου πιθανότητας Ω στα οποία απαιτούμε να ορίζεται το μέτρο πιθανότητας. Αυτή η παρατήρηση αποτελεί την αφετηρία μιας μεγάλης υποπεριοχής της μαθηματικής ανάλυσης, η οποία ονομάζεται θεωρία μέτρου, αλλά με την οποία δεν θα ασχοληθούμε περαιτέρω επί του παρόντος και γενικά σε αυτό το βιβλίο. Αρκεί να θυμάστε πως, όταν ο χώρος πιθανότητας δεν είναι αριθμήσιμος, υπάρχουν κάποια σπανιότατα παθολογικά ενδεχόμενα για τα οποία δεν μπορούμε να ορίσουμε την πιθανότητά τους.

Περισσότερες (πολύ περισσότερες) πληροφορίες γι’ αυτό το ζήτημα και για τη θεωρία μέτρου εν γένει μπορείτε να βρείτε σε πιο προχωρημένα βιβλία μαθηματικής ανάλυσης ή πιθανοτήτων.

3.4 Ασκήσεις

  1. 1. 

    Η πιθανότητα της διαφοράς. Να δείξετε, χρησιμοποιώντας τους κανόνες πιθανότητας αυτού του κεφαλαίου, ότι για οποιαδήποτε δύο ενδεχόμενα E,F:


    Pr(EF)=Pr(E)-Pr(EF).

    Σημείωση. Το σύνολο EF περιλαμβάνει όλα τα στοιχεία του E αν αφαιρέσουμε τα στοιχεία του F, γι’ αυτό συχνά καλείται η διαφορά του E από το F, και συμβολίζεται E-F.

  2. 2. 

    Περίεργα ζάρια. Έστω ένα (όχι απαραίτητα δίκαιο) ζάρι για το οποίο γνωρίζουμε ότι η πιθανότητα να έρθει 1 ή 2 είναι 1/3, ενώ η πιθανότητα να έρθει 2 ή 3 είναι επίσης 1/3. Ποια είναι η μέγιστη δυνατή και η ελάχιστη δυνατή τιμή για την πιθανότητα να έρθει 2; Δώστε από ένα συγκεκριμένο παράδειγμα ενός μέτρου πιθανότητας για την καθεμία από τις ακραίες δυνατές τιμές αυτής της πιθανότητας.

  3. 3. 

    Τυχαία συνάντηση. Ο Σταύρος και ο Γιάννης έχουν ορίσει να συναντηθούν σε ένα μπαρ. Ο Σταύρος έχει έρθει στην ώρα του, αλλά για τον Γιάννη γνωρίζουμε ότι μπορεί να εμφανιστεί οποιαδήποτε στιγμή μέσα στις επόμενες δύο ώρες, χωρίς προτίμηση σε κάποια στιγμή ή διάστημα. Ορίζουμε τα ακόλουθα ενδεχόμενα: Α=«Ο Γιάννης έρχεται εντός της πρώτης ώρας», Β=«Ο Γιάννης έρχεται εντός του τελευταίου μισάωρου», C=«Ο Γιάννης έρχεται με τουλάχιστον μισή ώρα καθυστέρηση».

    1. (α’) 

      Ορίστε έναν κατάλληλο χώρο πιθανότητας και ένα μέτρο πιθανότητας, και υπολογίστε τις πιθανότητες των ενδεχόμενων A,B,C,AB,AC,BC.

    2. (β’) 

      Υπολογίστε τις πιθανότητες των ενδεχόμενων AB, AC, BC.

  4. 4. 

    Ένωση τριών ενδεχόμενων. Να δείξετε ότι, για οποιαδήποτε τρία ενδεχόμενα A,B και C,


    Pr(ABC)=Pr(A)+Pr(AB)+Pr(ABC).
    (3.2)
  5. 5. 

    Ένας χώρος πιθανότητας με 3 στοιχεία. Ένα τυχαίο πείραμα έχει χώρο πιθανότητας το σύνολο Ω={a,b,c}. Έστω πως κάποιο μέτρο πιθανότητας ικανοποιεί τις σχέσεις, ({a,c})=9/16 και ({a,b})=3/4. Χρησιμοποιήστε τους κανόνες πιθανότητας αυτού του κεφαλαίου για να υπολογίσετε τις πιθανότητες όλων των στοιχειωδών ενδεχομένων.

  6. 6. 

    Τι λένε οι πιθανοθεωρίστες στα παιδιά τους. Στην Αττική, το 95% των εγκλημάτων συμβαίνει τη νύχτα, και το 54% συμβαίνει μέσα στην Αθήνα. Αν μόνο 2% των εγκλημάτων συμβαίνουν μέρα στην Αθήνα, τι ποσοστό συμβαίνει νύχτα στην Αθήνα; Τι ποσοστό συμβαίνει νύχτα έξω από την Αθήνα;

  7. 7. 

    Διαιρέτες. Επιλέγουμε έναν τυχαίο αριθμό από το σύνολο Ω={1,2,3,,600}. Ποια η πιθανότητα να:

    1. (α’) 

      διαιρείται με το 2;

    2. (β’) 

      διαιρείται με το 3;

    3. (γ’) 

      διαιρείται και με το 2 και με το 3;

    4. (δ’) 

      διαιρείται με τουλάχιστον ένα από τα δύο;

    5. (ε’) 

      διαιρείται με το 2 αλλά όχι με το 3;

  8. 8. 

    Άλλη μια τυχαία συνάντηση. Ο Σταύρος και ο Γιάννης έχουν δώσει ραντεβού σε ένα μπαρ, και έχουν συμφωνήσει να συναντηθούν εντός μίας συγκεκριμένης ώρας. Καθένας όμως μπορεί να έρθει οποιαδήποτε χρονική στιγμή μέσα σε αυτή την ώρα, χωρίς να δείχνει κάποια προτίμηση σε κάποια στιγμή ή εύρος στιγμών, και χωρίς να επηρεάζεται από το τι θα κάνει ο άλλος. Μοντελοποιήστε το χώρο πιθανότητας αυτού του πειράματος, ορίστε κάποιο μέτρο πιθανότητας που να συμφωνεί με το πραγματικό πρόβλημα, και ακολούθως χρησιμοποιήστε αυτό το μέτρο για να υπολογίσετε ποια είναι η πιθανότητα να μην περιμένει ο πρώτος που θα έρθει τον δεύτερο για περισσότερο από ένα τέταρτο της ώρας. [Υπόδειξη. Μελετήστε το τετράγωνο [0,1]×[0,1]={(x,y):  0x1,  0y1}2.]

  9. 9. 

    Το μέτρο πιθανότητας είναι συνεχής συνάρτηση.

    1. (α’) 

      Έστω μια οποιαδήποτε ακολουθία ενδεχόμενων A1,A2, σε κάποιο χώρο πιθανότητας Ω. Έστω, επιπλέον, ότι τα Ai «μεγαλώνουν», δηλαδή A1A2A3. Ορίζουμε ως Α την (άπειρη) ένωσή τους, δηλαδή το σύνολο που αποτελείται από τα στοιχεία που ανήκουν σε τουλάχιστον ένα από τα Ai. Το A συμβολίζεται ως:


      A=i=1Ai=limiAi.

      Να δείξετε ότι, για οποιοδήποτε μέτρο πιθανότητας ,


      limi(Ai)=(limiAi).
    2. (β’) 

      Έστω μια ακολουθία ενδεχόμενων B1,B2, που μικραίνουν, δηλαδή B1B2B3, και έστω Β η άπειρη τομή τους, δηλαδή το σύνολο Β αποτελείται από όλα τα στοιχεία που ανήκουν σε όλα τα Βi. Το Β συμβολίζεται ως:


      Β=i=1Βi=limiBi.

      Να δείξετε ότι, για οποιοδήποτε μέτρο πιθανότητας ,


      limi(Bi)=(limiBi).

    Παρατηρήστε ότι οι πιο πάνω ιδιότητες δείχνουν ότι το όριο στο αριστερό σκέλος υπάρχει, και ότι μπορούμε να αλλάξουμε τη σειρά του ορίου και της πιθανότητας, εφόσον βέβαια ορίζεται το όριο των συνόλων. Αυτή είναι μια ιδιότητα που χαρακτηρίζει τις συνεχείς συναρτήσεις f: και τα συνήθη όρια, αλλά η έννοια της συνέχειας μπορεί να γενικευτεί στο μέτρο πιθανότητας και τα πιο πάνω αποτελέσματα δείχνουν ότι η συνάρτηση είναι πράγματι «συνεχής».

    Υπόδειξη. Για το πρώτο σκέλος, παρατηρήστε πως,


    A=A1(A2A1)(A3A2),

    δηλαδή το σύνολο A μπορεί να γραφεί σαν την ένωση ξένων μεταξύ τους ενδεχόμενων. Για το δεύτερο σκέλος, χρησιμοποιήστε το πρώτο.



Κεφάλαιο 4 Πιθανότητες και συνδυαστική

[Επιστροφή στα περιεχόμενα]


    Όπως είδαμε σε κάποια παραδείγματα των προηγουμένων κεφαλαίων, συχνά συναντάμε καταστάσεις όπου όλες οι δυνατές εκφάνσεις ενός τυχαίου πειράματος έχουν την ίδια πιθανότητα. Αυτά αποτελούν μια επιμέρους αλλά σημαντική κατηγορία προβλημάτων, και σε αυτό το κεφάλαιο θα δούμε πώς μπορούν να επιλυθούν εύκολα με τη χρήση κάποιων απλών αποτελεσμάτων της συνδυαστικής. Η αφετηρία μας είναι ο κανόνας πιθανότητας #5 τον οποίο είδαμε στο προηγούμενο κεφάλαιο:

Κανόνας πιθανότητας #5
    Αν όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα, τότε, για κάθε ενδεχόμενο Α:

Pr(A)=#A#Ω=πλήθος στοιχείων του Απλήθος στοιχείων του Ω.

Για να εφαρμοστεί αυτός ο κανόνας, προφανώς πρέπει να είμαστε σε θέση να υπολογίσουμε το πλήθος των στοιχείων που περιέχονται σε διάφορα σύνολα – συγκεκριμένα στο χώρο πιθανότητας Ω και στο ενδεχόμενο Α το οποίο μας ενδιαφέρει σε κάθε περίπτωση. Η συνδυαστική είναι ο μαθηματικός τομέας που μας προσφέρει ακριβώς τα εργαλεία που χρειαζόμαστε για αυτούς τους υπολογισμούς. Πιο κάτω θα δούμε μια σειρά από σχετικά απλά αποτελέσματα της συνδυαστικής, και μέσα από παραδείγματα θα δείξουμε με ποιους τρόπους αυτά τα αποτελέσματα χρησιμοποιούνται για την απάντηση ερωτημάτων σε προβλήματα πιθανοτήτων.

4.1 Διατάξεις, συνδυασμοί, επιλογές και πιθανότητες

Ξεκινάμε υπενθυμίζοντας μια πολύ απλή ιδιότητα:

Ιδιότητα 4.1  Όταν συνδυάζονται δύο πειράματα, εκ των οποίον το πρώτο έχει Ν δυνατά αποτελέσματα και το δεύτερο έχει Μ δυνατά αποτελέσματα, τότε το νέο πείραμα έχει Μ×N δυνατά αποτελέσματα. Πιο αυστηρά μαθηματικά μιλώντας, αν το σύνολο A περιγράφει όλα τα δυνατά αποτελέσματα του πρώτου πειράματος και αντίστοιχα το B τα αποτελέσματα του δεύτερου, τότε όλα τα δυνατά αποτελέσματα του συνδυασμού των δύο πειραμάτων περιγράφεται από το καρτεσιανό τους γινόμενο,

A×B={(a,b):aA,bB},

και το πλήθος των στοιχείων του προφανώς ικανοποιεί:


#(A×B)=(#A)(#B).

Παράδειγμα 4.1

(α’) Εφόσον η ρίψη ενός ζαριού έχει 6 δυνατά αποτελέσματα, οι δύο διαδοχικές ρίψεις έχουν 6×6=36 δυνατά αποτελέσματα, οι τρεις διαδοχικές ρίψεις έχουν 6×6×6=216 δυνατά αποτελέσματα, και γενικά οι k διαδοχικές ρίψεις έχουν 6k δυνατά αποτελέσματα.

(β’) Επιλέγουμε έναν από τους 5 υπολογιστές ενός εργαστηρίου (5 δυνατά αποτελέσματα) και αποφασίζουμε να του εγκαταστήσουμε λειτουργικό σύστημα windows ή linux (2 δυνατά αποτελέσματα). Συνολικά υπάρχουν 5×2=10 δυνατά αποτελέσματα.


Παράδειγμα 4.2

Τρία άτομα, ας τους πούμε Α, Β και Γ, τρέχουν σε έναν αγώνα 100 μέτρων. Υποθέτουμε ότι η τελική κατάταξη είναι εντελώς τυχαία. Ποια είναι η πιθανότητα να κερδίσει ο Β;

Κατ’ αρχάς παρατηρούμε ότι ο χώρος πιθανότητας είναι το σύνολο όλων των δυνατών διατάξεων των Α, Β και Γ:


Ω={123,132,213,231,312,321},

όπου, για παράδειγμα, το 132 μας λέει πως ο Α βγήκε πρώτος, ο Β τρίτος και ο Γ δεύτερος. Το ενδεχόμενο που μας ενδιαφέρει, δηλαδή το να κερδίσει ο Β, αντιστοιχεί στο σύνολο {213,312}. Εφόσον «η τελική κατάταξη είναι εντελώς τυχαία», υποθέτουμε ότι όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα, και από τον κανόνα πιθανότητας #5 έχουμε,


Pr(«κέρδισε ο Β»)=Pr({213,312})=#{213,312}#Ω=26=1/3,

όπως είναι και διαισθητικά προφανές.

Εδώ απλώς απαριθμήσαμε όλες τις δυνατές κατατάξεις για τα 3 άτομα. Αλλά αν, αντί για τρεις, συμμετείχαν στον αγώνα 100 άνθρωποι, πόσες δυνατές κατατάξεις θα υπήρχαν; Μπορούμε να σκεφτούμε την τελική κατάταξη ως το αποτέλεσμα του συνδυασμού 100 επιμέρους «πειραμάτων»: Για την πρώτη θέση έχουμε 100 επιλογές. Έχοντας αποφασίσει ποιος είναι πρώτος, για τη δεύτερη θέση έχουμε 99 επιλογές, κ.ο.κ. Έτσι, εφαρμόζοντας διαδοχικά την Ιδιότητα 4.1, για την τελική κατάταξη έχουμε,


100×99×98××3×2×1=100!,

δυνατές κατατάξεις, δηλαδή 100! δυνατούς τρόπους που μπορούν να διαταχθούν 100 άτομα. Με το ίδιο ακριβώς σκεπτικό καταλήγουμε στο εξής συμπέρασμα:

Ιδιότητα 4.2

Υπάρχουν Ν! δυνατές διατάξεις Ν αντικειμένων.


Παρατήρηση:
Θυμίζουμε πως για κάθε ακέραιο αριθμό Ν1 το «Ν παραγοντικό» συμβολίζεται ως Ν! και ορίζεται ως το γινόμενο Ν!=Ν(Ν-1)21. Επίσης, για λόγους ευκολίας ορίζουμε συμβατικά το 0!=1.
Παράδειγμα 4.3

Έστω ότι στις βουλευτικές εκλογές συμμετέχουν 42 κόμματα. Άρα υπάρχουν 42!1051 δυνατές κατατάξεις, αλλά πόσες δυνατές κατατάξεις έχουμε για τα 3 πρώτα κόμματα; Μπορούμε να σκεφτούμε το τελικό αποτέλεσμα ως το συνδυασμό τριών επιμέρους «πειραμάτων»: Για την πρώτη θέση έχουμε 42 επιλογές. Έχοντας αποφασίσει ποιο κόμμα είναι πρώτο, για τη δεύτερη θέση έχουμε 41, και παρομοίως για την τρίτη 40 επιλογές. Εφαρμόζοντας διαδοχικά την Ιδιότητα 4.1, το πλήθος των τελικών κατατάξεων για τα τρία πρώτα κόμματα είναι,


42×41×40=68880.

Γενικά, μπορούμε να ρωτήσουμε πόσες διαφορετικές διατάξεις μπορούμε να πετύχουμε, επιλέγοντας k από N αντικείμενα. Με το ίδιο σκεπτικό, έχουμε Ν επιλογές για το πρώτο, (Ν-1) για το δεύτερο, κ.ο.κ., μέχρι το αντικείμενο k, για το οποίο έχουμε (Ν-k+1) επιλογές. Άρα, από την Ιδιότητα 4.1, βρίσκουμε πως το πλήθος των τελικών διατάξεων είναι:


Ν(Ν-1)(N-k+2)(N-k+1) = Ν(Ν-1)(N-k+1)(N-k)!(N-k)!


= N!(N-k)!.

Έχουμε έτσι αποδείξει το εξής:

Ιδιότητα 4.3  Το πλήθος όλων των δυνατών διατάξεων k αντικειμένων που επιλέγονται από N αντικείμενα ισούται με:

N!(N-k)!.

Παράδειγμα 4.4

Έστω ότι έχουμε μια συνηθισμένη τράπουλα 52 φύλλων. Από την Ιδιότητα 4.2 υπάρχουν 52!8×1067 δυνατές διατάξεις για τα φύλλα της τράπουλας!

Αν επιλέξουμε 3 φύλλα στην τύχη, πόσες δυνατές (διατεταγμένες) τριάδες υπάρχουν; Από την Ιδιότητα 4.3, το πλήθος τους είναι,


52!(52-3)!=52×51×50×49!49!=52×51×50=132600.

Αν υποθέσουμε τώρα ότι η επιλογή των τριών φύλλων είναι εντελώς τυχαία, ποια είναι η πιθανότητα του ενδεχομένου Α να επιλέξουμε τρεις άσους; Εδώ ο χώρος πιθανότητας Ω αποτελείται από όλες τις δυνατές τριάδες φύλλων, που, όπως υπολογίσαμε, είναι #Ω=132600, και εφόσον η επιλογή είναι εντελώς τυχαία υποθέτουμε ότι όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα. Ως υποσύνολο του Ω, το ενδεχόμενο Α αποτελείται από όλες τις δυνατές τριάδες άσων. Η Ιδιότητα 4.3 λοιπόν μας λέει ότι, εφόσον εξετάζουμε τις διατάξεις k=3 φύλλων που μπορούν να επιλεχθούν από N=4 (δηλαδή από τους τέσσερις άσους), έχουμε #Α=4!(4-3)!=4!/1!=24. Άρα, από τον κανόνα πιθανότητας #5 έχουμε,


Pr(«επιλέξαμε 3 άσους»)=Pr(A)=#A#Ω=24132600=155250.02%.

Παράδειγμα 4.5

Αν επιλέξουμε 5 άτομα από μια ομάδα 100 ατόμων, η Ιδιότητα 4.3 μας λέει πως υπάρχουν,


100!(100-5)!διατάξεις δυνατών 5άδων.

Αλλά αν δεν μας ενδιαφέρει η διάταξη, δηλαδή η σειρά με την οποία επιλέγουμε τα 5 άτομα, πόσες διαφορετικές πεντάδες υπάρχουν; Γενικά, πόσες ομάδες k αντικειμένων μπορούν να προκύψουν, όταν αυτά επιλέγονται από N αντικείμενα; Έστω ότι το πλήθος τους είναι x, δηλαδή υπάρχουν x μη διατεταγμένες ομάδες k αντικειμένων. Από την Ιδιότητα 4.2, κάθε τέτοια ομάδα μπορεί να διαταχθεί με k! τρόπους. Άρα, το συνολικό πλήθος των διατεταγμένων ομάδων είναι xk!. Αλλά, από την Ιδιότητα 4.3, αυτό ισούται με Ν!/(Ν-k)!. Άρα έχουμε,


xk!=Ν!(Ν-k)!,δηλαδήx=N!k!(N-k)!.

Έχουμε λοιπόν αποδείξει:

Ιδιότητα 4.4

Το πλήθος όλων των δυνατών συνδυασμώνμη διατεταγμένων επιλογών) k αντικειμένων που επιλέγονται από N αντικείμενα ισούται με,


(Nk)=N!k!(N-k)!,

όπου το (Nk) είναι ο συνήθης διωνυμικός συντελεστής.


Παράδειγμα 4.6

Όπως στο Παράδειγμα 4.5, επιλέγουμε 5 άτομα από 100. Αν δεν μας ενδιαφέρει η σειρά επιλογής, υπάρχουν,


100!5!(100-5)!=100×99×98×96×96×95!5!95!=75287520,

δυνατές πεντάδες που μπορούμε να επιλέξουμε.

Έστω τώρα ότι τα 100 άτομα αποτελούνται από 40 άνδρες και 60 γυναίκες, και ότι η επιλογή μας είναι εντελώς τυχαία. Θα εξετάσουμε τα εξής ερωτήματα:

  • Πόσες πεντάδες μπορούν να σχηματιστούν με 2 άνδρες και 3 γυναίκες;

  • Ποια η πιθανότητα να επιλέξουμε μόνο μία γυναίκα;

  • Ποια η πιθανότητα να μην επιλέξουμε καμία γυναίκα;

Για το πρώτο ερώτημα παρατηρούμε ότι το πείραμα μπορεί να χωριστεί σε δύο μέρη. Βάσει της Ιδιότητας 4.4 μπορούμε να επιλέξουμε 2 άνδρες από τους 40 με (402) τρόπους, και 3 γυναίκες από τις 60 με (603) τρόπους. Άρα, ο συνδυασμός αυτών των δύο επιλογών, βάσει της Ιδιότητας 4.1, έχει,


(402)(603)=40!60!2!38!3!57!=40×39×60×59×582×3×2=26691600,

δυνατά αποτελέσματα.

Για τα άλλα δύο ερωτήματα, ορίζουμε το χώρο πιθανότητας Ω ως το σύνολο όλων των δυνατών (μη διατεταγμένων) επιλογών 5 ατόμων από 100 (εφόσον σε αυτό το πρόβλημα δεν μας απασχολεί η σειρά με την οποία επιλέγονται), οπότε βάσει της Ιδιότητας 4.4 βρίσκουμε όπως παραπάνω ότι #Ω=(1005)=75287520. Ορίζουμε επίσης και τα δύο ενδεχόμενα,


A = {όλες οι πεντάδες που αποτελούνται από 4 άνδρες και μία γυναίκα},

B = {όλες οι πεντάδες που αποτελούνται μόνο από άντρες}.

Με την ίδια συλλογιστική που χρησιμοποιήσαμε για το πρώτο ερώτημα έχουμε, από τις Ιδιότητες 4.4 και 4.1, ότι,


#Α = (404)(601)==5483400,

#B = (405)==658008.

[Παρατηρήστε πως στον υπολογισμό του #Β δεν συμπεριλάβαμε την επιλογή της «καμίας γυναίκας από τις 60», αλλά αυτό δεν επηρεάζει το αποτέλεσμα διότι το πλήθος των τρόπων με τους οποίους μπορεί να γίνει αυτή η επιλογή ισούται με (600)=60!0!60!=1.]

Αφού θεωρούμε ότι η επιλογή γίνεται «εντελώς τυχαία», μπορούμε να εφαρμόσουμε τον πέμπτο κανόνα πιθανότητας, έτσι ώστε,


Pr(«επιλέξαμε μόνο μία γυναίκα») = Pr(A)=#A#Ω=5483400752875200.0728,

Pr(«δεν επιλέξαμε καμία γυναίκα») = Pr(Β)=#Β#Ω=658008752875200.0087.

Παράδειγμα 4.7

Επιλέγουμε τυχαία 3 βιβλία από 10, που αποτελούνται από 5 συγγράμματα μαθημάτων και 5 εγχειρίδια (manual) υπολογιστών. Ποια η πιθανότητα να είναι όλα εγχειρίδια; Να είναι δύο εγχειρίδια κι ένα σύγγραμμα;

Ακριβώς όπως και στο προηγούμενο παράδειγμα, εφόσον δεν μας ενδιαφέρει η σειρά με την οποία επιλέγονται τα βιβλία, ορίζουμε,


Ω = {«όλες οι μη διατεταγμένες τριάδες βιβλίων»},

A = {«οι μη διατεταγμένες τριάδες εγχειριδίων»},

B = {«οι μη διατεταγμένες τριάδες με 2 εγχειρίδια και ένα σύγγραμμα»},

και υπολογίζουμε,


#Ω = (103)=120,

#A = (53)=10,

#B = (52)(51)=50,

οπότε έχουμε τις πιθανότητες,


Pr(«επιλέξαμε 3 manual») = Pr(A)=#A#Ω=10120=112,

Pr(«επιλέξαμε 2 manual και ένα σύγγραμα») = Pr(Β)=#Β#Ω=50120=512.

Παράδειγμα 4.8

Σε κάποιες εκλογές είναι υποψήφιοι 3 φοιτητές και 7 καθηγητές. Εκλέγονται τυχαία τρεις και ζητάμε την πιθανότητα να εκλεγούν τουλάχιστον ένας φοιτητής και τουλάχιστον ένας καθηγητής. Πάλι με την ίδια συλλογιστική όπως στα δύο παραπάνω παραδείγματα, εφόσον δεν μας ενδιαφέρει η διάταξη των τριών ατόμων, υπολογίζουμε τη ζητούμενη πιθανότητα ως,


Pr(«εκλέγονται 1 Φ και 1 Κ»)

=Pr({«εκλέγονται 1 Φ και 2 Κ»}{«εκλέγονται 2 Φ και 1 Κ»})

=Pr(«εκλέγονται 1 Φ και 2 Κ»)+Pr(«εκλέγονται 2 Φ και 1 Κ»),

επειδή τα δύο ενδεχόμενα στη δεύτερη γραμμή παραπάνω είναι ξένα. Άρα, τελικά έχουμε,


Pr(«εκλέγονται 1 Φ και 1 Κ»)=(31)(72)(103)+(32)(71)(103)=2140+740=  0.7.

Ας υποθέσουμε τώρα πως, ανάλογα με τη σειρά εκλογής, αυτοί που εκλέγονται παίρνουν διαφορετικούς ρόλους σε μια επιτροπή – ο πρώτος γίνεται πρόεδρος, ο δεύτερος γραμματέας και ο τρίτος ταμίας. Ποια είναι η πιθανότητα να εκλεγεί φοιτητής πρόεδρος, και καθηγητές γραμματέας και ταμίας; Εφόσον εδώ μας απασχολεί και η σειρά με την οποία επιλέγονται τα «αντικείμενα» (δηλαδή τα μέλη της επιτροπής), υπολογίζουμε αυτή την πιθανότητα βάσει του χώρου πιθανότητας Ω, ο οποίος περιέχει όλες τις διατεταγμένες τριάδες, δηλαδή περιέχει 10!/(10-3)!=720 στοιχεία. Άρα, η πιθανότητα του ενδεχομένου που μας ενδιαφέρει, βάσει της Ιδιότητα 4.3 ισούται με:


3!(3-1)!7!(7-2)!720=7400.175.

Παράδειγμα 4.9

Σε 3 επεξεργαστές πρέπει να κατανεμηθούν 12 διεργασίες, δίνοντας 4 διεργασίες στον κάθε επεξεργαστή. Με πόσους τρόπους μπορεί να γίνει αυτός ο καταμερισμός;

Για να απαντήσουμε, χωρίζουμε το πρόβλημα σε τρία μέρη. Αρχικά επιλέγουμε 4 διεργασίες από τις 12 για τον πρώτο επεξεργαστή, πράγμα που (βάσει της Ιδιότητας 4.4) μπορεί να γίνει με (124) τρόπους. Κατόπιν, επιλέγουμε 4 διεργασίες από τις υπόλοιπες 8 για τον δεύτερο επεξεργαστή, πράγμα που μπορεί να γίνει με (84) τρόπους. Και τέλος οι 4 διεργασίες που απομένουν πηγαίνουν στον τρίτο επεξεργαστή. Χρησιμοποιώντας την Ιδιότητα 4.1, συνολικά αυτός ο καταμερισμός μπορεί να γίνει με:


(124)(84)=12!4!8!8!4!4!=12!4!4!4!τρόπους.

Στη γενική του μορφή, ακριβώς ο ίδιος συλλογισμός μάς δίνει:

Ιδιότητα 4.5

Για να μοιραστούν Ν αντικείμενα σε Μ ομάδες, όπου η πρώτη αποτελείται από k1 αντικείμενα, η δεύτερη από k2 αντικείμενα κ.ο.κ. ως την ομάδα Μ η οποία αποτελείται από kΜ αντικείμενα, υπάρχουν,


(Nk1k2kM)=N!k1!k2!kM!δυνατοί συνδυασμοί,

όπου το (Nk1k2kM) είναι ο πολυωνυμικός συντελεστής. [Δεδομένου φυσικά ότι το άθροισμα k1+k2++kM=Ν].


Παρατήρηση: Αν έχουμε μόνο Μ=2 ομάδες και Ν αντικείμενα, τότε για k1=k αναγκαστικά θα έχουμε k2=N-k και η Ιδιότητα 4.5 λέει πως υπάρχουν N!k!(N-k)! τρόποι να μοιράσουμε Ν αντικείμενα σε δύο ομάδες των k και (N-k), αντίστοιχα. Αυτό είναι ταυτόσημο με το περιεχόμενο της Ιδιότητας 4.4, άρα η Ιδιότητα 4.5 αποτελεί γενίκευση της 4.4.


Παράδειγμα 4.10

Έχουμε 20 υπολογιστές, που αποτελούνται από 10 PC και 10 Apple, και τους μοιράζουμε τυχαία σε τρία clusters, που αποτελούνται από 10, 5 και 5 υπολογιστές αντίστοιχα. Ποιες είναι οι πιθανότητες των ενδεχομένων Α και Β πιο κάτω;


A = {«όλα τα PC στο ίδιο cluster»},

B = {«4 PC στο πρώτο cluster, 3 PC στο δεύτερο και 3 PC στο τρίτο»}.

Ο χώρος πιθανότητας Ω, που περιγράφει αυτό το πείραμα, αποτελείται από όλους τους δυνατούς τρόπους με τους οποίους 20 αντικείμενα μπορούν να χωριστούν σε τρεις ομάδες των 10, 5 και 5 αντικειμένων. Άρα, από την Ιδιότητα 4.5, έχουμε,


#Ω=(2010 5 5)=20!10!  5!  5!.

Επιπλέον, οι υπολογιστές κατατάσσονται σε clusters τυχαία, οπότε υποθέτουμε ότι όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα και θα χρησιμοποιήσουμε και πάλι τον πέμπτο κανόνα πιθανότητας για να υπολογίσουμε την πιθανότητα του Α και του Β.

Για το Α παρατηρούμε πως «όλα τα PC στο ίδιο cluster» είναι ακριβώς ισοδύναμο με το «όλα τα PC στο πρώτο cluster». Άρα, το πλήθος των στοιχείων του Α ισούται με το πλήθος των τρόπων που μπορούν τα 10 Apple να μοιραστούν σε δύο clusters με 5 το καθένα, δηλαδή (105). Συνεπώς,


Pr(A)=Pr(«όλα τα PC στο ίδιο cluster»)=(105)(2010 5 5)=10-6.

Τέλος, για το Β, έχουμε όλους τους δυνατούς τρόπους με τους οποίους τα 10 PC μπορούν να μοιραστούν σε 3 clusters με αναλογία 4-3-3, σε συνδυασμό με όλους τους τρόπους με τους οποίους τα 10 Apple μπορούν να μοιραστούν σε 3 clusters με αναλογία 6-2-2. Άρα:


Pr(Β) = Pr(«4 PC στο πρώτο cluster, 3 PC στο δεύτερο και 3 PC στο τρίτο»)


= #A#Ω=(104 3 3)(106 2 2)(2010 5 5)


= 10!  10!  10!  5!,5!20!  4!  3!  3!  6!  2!  2!=0.195.

4.2 Πέντε «κανόνες αρίθμησης»

Στο κεφάλαιο αυτό ως τώρα διατυπώσαμε κάποιες βασικές ιδιότητες της συνδυαστικής τις οποίες θα χρησιμοποιούμε συχνά. Για να αναφερόμαστε σε αυτές πιο εύκολα, τις παραθέτουμε περιληπτικά πιο κάτω.

Κανόνες αρίθμησης
  1. 1. 

    Αν ένα πείραμα έχει Ν δυνατά αποτελέσματα και ένα άλλο Μ δυνατά αποτελέσματα, τότε ο συνδυασμός τους έχει Μ×N δυνατά αποτελέσματα.

  2. 2. 

    Υπάρχουν Ν! δυνατές διατάξεις Ν αντικειμένων.

  3. 3. 

    Υπάρχουν


    N!(N-k)!

    δυνατές διατάξεις k αντικειμένων που επιλέγονται από N.

  4. 4. 

    Υπάρχουν


    (Nk)=N!k!(N-k)!

    δυνατοί συνδυασμοίμη διατεταγμένες επιλογές) k αντικειμένων που επιλέγονται από N αντικείμενα.

  5. 5. 

    Υπάρχουν


    (Nk1k2kM)=N!k1!k2!kM!

    δυνατοί συνδυασμοί βάσει των οποίων μπορούν να μοιραστούν Ν αντικείμενα σε Μ ομάδες, όπου η πρώτη αποτελείται από k1 αντικείμενα, η δεύτερη από k2 αντικείμενα κ.ο.κ. ως την ομάδα Μ η οποία αποτελείται από kΜ αντικείμενα [για k1+k2++kM=Ν].

4.3 Ασκήσεις

  1. 1. 

    Μέτρημα. Πόσες δυνατές εκδοχές υπάρχουν στο καθένα από τα παρακάτω πειράματα;

    1. (α’) 

      Επιλέγουμε με τη σειρά 3 από 12 αντικείμενα, χωρίς επανατοποθέτηση.

    2. (β’) 

      Στρίβουμε ένα νόμισμα 6 φορές.

    3. (γ’) 

      Επιλέγουμε 20 από 100 άτομα για μια δημοσκόπηση, χωρίς επανατοποθέτηση.

    4. (δ’) 

      Ρίχνουμε ένα ζάρι 7 φορές.

    5. (ε’) 

      Βάζουμε 13 ανθρώπους να κάτσουν σε μια σειρά.

    6. (στ’) 

      Μοιράζουμε με τη σειρά 8 φύλλα από μια συνηθισμένη τράπουλα 52 φύλλων.

    7. (ζ’) 

      Ρίχνουμε ένα νόμισμα 4 φορές και ένα ζάρι 2 φορές.

  2. 2. 

    Επιλογές με επανατοποθέτηση. Ο κανόνας αρίθμησης #4 λέει πως, αν επιλέξουμε k αντικείμενα από n χωρίς επανατοποθέτηση, υπάρχουν (nk) ομάδες k αντικειμένων που μπορούμε να επιλέξουμε. Τι θα γινόταν αν επιλέγαμε k αντικείμενα ανάμεσα σε n, επιτρέποντας την επανατοποθέτηση (και χωρίς να έχει σημασία η σειρά επιλογής); Μερικά παραδείγματα:

    1. (α’) 

      Για να φτιάξουμε μια πίτσα, επιλέγουμε 4 υλικά από 7 διαθέσιμα, χωρίς όμως να μας νοιάζει ποιο θα μπει πρώτο, και επιτρέπεται να βάλουμε πολλές δόσεις από κάτι, μπορούμε, για παράδειγμα, να βάλουμε διπλό τυρί.

    2. (β’) 

      Πρέπει να αγοράσουμε 15 αρκουδάκια επιλέγοντας από 5 διαφορετικά είδη, και μπορούμε να αγοράσουμε πολλές φορές το ίδιο είδος.

  3. 3. 

    1-2-Χ. Η ομάδα μας παίζει στην έδρα της 9 διαδοχικά παιχνίδια με αντίπαλες ομάδες. Με πόσους τρόπους μπορούμε να έχουμε 4 νίκες (δηλαδή «1»), 3 ισοπαλίες (δηλαδή «Χ»), και 2 ήττες (δηλαδή «2»);

  4. 4. 

    Τράπουλα. Μοιράζουμε στην τύχη 10 φύλλα από μια συνηθισμένη τράπουλα 52 φύλλων. Ποια η πιθανότητα να περιέχει η μοιρασιά:

    1. (α’) 

      κανέναν άσο;

    2. (β’) 

      το πολύ τρεις άσους;

  5. 5. 

    Poker. Ένας παίκτης του πόκερ παίρνει 5 φύλλα από μια κανονική τράπουλα 52 φύλλων. Ποια είναι η πιθανότητα να έχει:

    1. (α’) 

      καρέ (δηλαδή 4 ίδια φύλλα, για παράδειγμα 4 άσους ή 4 ντάμες);

    2. (β’) 

      φουλ (δηλαδή ένα ζευγάρι και μία τριάδα, για παράδειγμα 3 άσους και 2 ρηγάδες);

    3. (γ’) 

      χρώμα (δηλαδή όλα κούπες ή όλα σπαθιά ή όλα μπαστούνια ή όλα καρό);

  6. 6. 

    Ξενοδοχείο Ακρόπολις. Έξι φίλοι συμφωνούν να συναντηθούν στο ξενοδοχείο Ακρόπολις των Αθηνών. Συμβαίνει όμως να υπάρχουν 4 ξενοδοχεία με το ίδιο όνομα. Κάθε ένας από τους 6 φίλους διαλέγει στην τύχη να πάει σε ένα από αυτά.

    1. (α’) 

      Ποιος είναι εδώ ο χώρος πιθανότητας; Πόσα στοιχεία περιλαμβάνει;

    2. (β’) 

      Ποια είναι η πιθανότητα να συναντηθούν ανά ζεύγη (εννοείται σε τρία διαφορετικά ξενοδοχεία);

    3. (γ’) 

      Ποια είναι η πιθανότητα να βρεθούν δύο μόνοι τους και άλλοι τέσσερις σε δύο ζεύγη;

  7. 7. 

    Superleague. H Superleague έχει 16 ομάδες και όλες πρέπει να παίξουν με όλες, ακριβώς δύο φορές, μία φορά σε κάθε έδρα. Πόσοι αγώνες πρέπει να γίνουν συνολικά;

  8. 8. 

    Λόττο. Για να κερδίσουμε το Λόττο πρέπει να προβλέψουμε 6 αριθμούς ανάμεσα στους 1,2,3,,49, χωρίς διάταξη και χωρίς επανατοποθέτηση. Ποια είναι η πιθανότητα να κερδίσουμε παίζοντας μόνο μία στήλη;

  9. 9. 

    Εύκολες και δύσκολες ασκήσεις. Σε ένα μάθημα οι φοιτητές χωρίζονται σε τρεις ομάδες, και στην κάθε ομάδα δίνονται 6 ασκήσεις οι οποίες επιλέγονται τυχαία, και χωρίς επανατοποθέτηση, από ένα σύνολο 18 ασκήσεων. Αν, από τις 18 ασκήσεις, οι 3 είναι εύκολες και οι 15 δύσκολες, ποια είναι η πιθανότητα και οι τρεις ομάδες να έχουν από μία εύκολη άσκηση;

  10. 10. 

    Μέτρημα αποτελεσμάτων.

    1. (α’) 

      Πόσοι διαφορετικοί αναγραμματισμοί μπορούν να γίνουν με τα γράμματα της λέξης ΚΥΠΡΟΣ; Αντίστοιχα, πόσοι για τη λέξη ΣΤΑΥΡΟΣ; Για τη λέξη ΣΙΣΙΝΙ; (Οι αναγραμματισμοί δεν χρειάζεται να υπάρχουν στο λεξικό!)

    2. (β’) 

      Μια ομάδα χορού περιλαμβάνει 12 γυναίκες και 7 άντρες. Με πόσους διαφορετικούς τρόπους μπορούμε να σχηματίσουμε 3 ζευγάρια, καθένα αποτελούμενο από μία γυναίκα και έναν άντρα;

    3. (γ’) 

      Με την παραγγελία μιας πίτσας μπορούμε να επιλέξουμε 6 από 20 υλικά. Πόσοι συνδυασμοί υπάρχουν αν τα υλικά μπορούν να επαναλαμβάνονται; Πόσοι συνδυασμοί υπάρχουν αν δεν επαναλαμβάνονται; [Και στις δυο περιπτώσεις, δεν έχει σημασία η σειρά επιλογής των υλικών.]



Κεφάλαιο 5 Ανεξαρτησία και δεσμευμένη πιθανότητα

[Επιστροφή στα περιεχόμενα]


Ας πούμε πως ένας μετεωρολόγος μάς πληροφορεί ότι, με βάση τα ιστορικά στατιστικά στοιχεία του καιρού στην Αθήνα, βρέχει μία στις 9 μέρες. Αν για κάποιο λόγο μάς ενδιαφέρει τι καιρό κάνει τις Κυριακές (γιατί, π.χ., τις Κυριακές κάνουμε πικ-νικ στην Πάρνηθα), λογικά θα υποθέσουμε ότι μία στις 9 Κυριακές βρέχει. Αυτός ο συλλογισμός ισχύει γιατί έχουμε, έμμεσα, υποθέσει πως το αν βρέχει ή όχι σήμερα είναι ανεξάρτητο από το ποια μέρα της εβδομάδας είναι.

Αντίθετα, αν μας ενδιαφέρει ακριβώς τι καιρό κάνει τις μέρες που έχει συννεφιά, θα ήταν λάθος να υποθέσουμε ότι μία στις 9 συννεφιασμένες μέρες βρέχει – το ποσοστό θα είναι προφανώς μεγαλύτερο, γιατί η συννεφιά δεν είναι ανεξάρτητη από τη βροχή.

Το κεντρικό αντικείμενο αυτού του κεφαλαίου είναι η μαθηματική περιγραφή του πότε δύο ενδεχόμενα είναι ανεξάρτητα, και η μελέτη του πώς επηρεάζονται οι πιθανότητες δύο ενδεχομένων από το εάν αυτά είναι ή δεν είναι ανεξάρτητα. Παράλληλα, θα διατυπώσουμε και κάποιους ακόμα κανόνες πιθανότητας, οι οποίοι συμπληρώνουν εκείνους που είδαμε στο Κεφάλαιο 3.

5.1 Ανεξάρτητα ενδεχόμενα και δεσμευμένη πιθανότητα

Παράδειγμα 5.1

Ρίχνουμε ένα δίκαιο ζάρι 2 φορές. Όπως στο Παράδειγμα 3.3, ο χώρος πιθανότητας αποτελείται από τα 36 δυνατά αποτελέσματα των δύο ρίψεων και όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα. Ορίζουμε όπως πριν τα ενδεχόμενα,


Β = «εξάρες»,

Γ = «6 την πρώτη φορά»,

και επιπλέον το ενδεχόμενο Ε=«6 τη δεύτερη φορά», όπου παρατηρούμε ότι το Β μπορεί να εκφραστεί ως Β=ΓE.

Για τις πιθανότητες αυτών των ενδεχομένων, χρησιμοποιώντας τον πέμπτο κανόνα πιθανότητας, εύκολα υπολογίζουμε:


Pr(B)=136καιPr(Γ)=Pr(E)=16.

Από αυτό το αποτέλεσμα προκύπτει η σχέση,


136=Pr(B)=Pr(ΓE)=Pr(Γ)Pr(E)=1616,

δηλαδή Pr(ΓE)=Pr(Γ)Pr(E). Αυτή είναι μια πολύ σημαντική παρατήρηση, αλλά εξίσου σημαντικό είναι να παρατηρήσουμε πως αυτή η σχέση δεν ισχύει για οποιαδήποτε δύο ενδεχόμενα. Για παράδειγμα,


136=Pr(B)=Pr(ΒΓ)Pr(B)Pr(Γ)=16136.
Ορισμός 5.1 (Ανεξάρτητα ενδεχόμενα)

Δύο ενδεχόμενα Α και Β είναι στατιστικά ανεξάρτητα, ή απλά, ανεξάρτητα, αν και μόνο αν:


Pr(AB)=Pr(A)Pr(B).

Ο κάθε κανόνας πιθανότητας και ο κάθε κανόνας αρίθμησης που έχουμε δει ως τώρα αντιστοιχούν σε κάποιο συγκεκριμένο μαθηματικό αποτέλεσμα (και το ίδιο ισχύει για τους κανόνες πιθανότητας #7–10, που θα δούμε στη συνέχεια). Αντίθετα, ο κανόνας πιθανότητας #6, που θα διατυπώσουμε τώρα, μας παρέχει έναν τρόπο για να «μοντελοποιούμε» κάποια προβλήματα, δηλαδή μας δίνει μια γέφυρα μεταξύ της διαισθητικής περιγραφής ενός παραδείγματος και της αντίστοιχης αυστηρά μαθηματικής διατύπωσής του.

Κανόνας Πιθανότητας #6. Όταν δύο ενδεχόμενα Α,Β είναι «λογικά ανεξάρτητα», δηλαδή το εάν συμβεί το ένα δεν επηρεάζει το εάν συμβεί το άλλο, τότε θεωρούμε πως είναι και (στατιστικά) ανεξάρτητα, δηλαδή πως Pr(AB)=Pr(A)Pr(B).

Παράδειγμα 5.2

Ένα δίκτυο κινητής τηλεφωνίας εξυπηρετεί 30 συνδρομητές στο κέντρο μιας πόλης και 20 συνδρομητές στην περιφέρεια. Από τους 30 του κέντρου, οι 3 έχουν συσκευές Nokia και οι 27 Ericsson, ενώ στην περιφέρεια υπάρχουν 15 Nokia και 5 Ericsson. Επιλέγουμε τυχαία έναν συνδρομητή από την κάθε περιοχή, και εξετάζουμε τα ενδεχόμενα:


K = «το τηλ. από το κέντρο είναι Nokia»,

Π = «το τηλ. από την περιφέρεια είναι Nokia».

Εφόσον τα δύο ενδεχόμενα αντιστοιχούν σε δύο διαφορετικές επιλογές, είναι φυσικό να υποθέσουμε πως είναι λογικά ανεξάρτητα. Σε αυτό το απλό παράδειγμα, η ανεξαρτησία τους μπορεί εύκολα και να επιβεβαιωθεί μαθηματικά, χωρίς να χρειαστούμε τον κανόνα πιθανότητας #6.

Μια που οι επιλογές είναι τυχαίες, τα στοιχειώδη ενδεχόμενα που αντιστοιχούν σε αυτά τα δύο «πειράματα» είναι ισοπίθανα, οπότε, από τον κανόνα πιθανότητας #5, έχουμε,


Pr(K)=330=110,Pr(Π)=1520=34.

Αν όμως εξετάσουμε τις δύο επιλογές ως ένα πείραμα, τότε υπάρχουν συνολικά 30×20=600 δυνατές επιλογές, ενώ το ενδεχόμενο KΠ, δηλαδή να επιλέξουμε συσκευή Nokia και τις δύο φορές, περιέχει 3×15=45 στοιχεία. Άρα,


Pr(KΠ)=45600=340=11034=Pr(K)Pr(Π),

και συνεπώς τα K,Π είναι πράγματι ανεξάρτητα.


Παράδειγμα 5.3

Έστω ότι στρίβουμε 4 φορές ένα νόμισμα, το οποίο έρχεται Κορώνα με πιθανότητα p, για κάποιο (γνωστό σε μας) p(0,1). Εδώ ο χώρος πιθανότητας Ω αποτελείται από τα 2×2×2×2=16 δυνατά αποτελέσματα (π.χ., ΚΓΚΚ ή ΓΓΓΚ κ.ο.κ.) των τεσσάρων ρίψεων. Αλλά, αν το νόμισμα δεν είναι δίκαιο (δηλαδή αν το p1/2) τα στοιχειώδη ενδεχόμενα δεν είναι ισοπίθανα, οπότε δεν μπορούμε να χρησιμοποιήσουμε τον κανόνα πιθανότητας #5 για τους υπολογισμούς πιθανοτήτων.

Από την άλλη, λογικά μπορούμε να θεωρήσουμε ότι οι διαδοχικές ρίψεις είναι ανεξάρτητες μεταξύ τους, άρα μπορούμε να υπολογίσουμε την πιθανότητα ενός στοιχειώδους ενδεχομένου, όπως π.χ. του {KΓKK}, εφαρμόζοντας τον κανόνα πιθανότητας #6, ως,


Pr({Κ την πρώτη φορά}{Γ τη 2η}{Κ την 3η}{Κ την 4η})

=Pr({Κ την πρώτη φορά})Pr({Γ τη 2η})Pr({Κ την 3η})Pr({Κ την 4η})

=p(1-p)pp=(1-p)p3,

όπου θεωρούμε ότι τα τέσσερα παραπάνω ενδεχόμενα είναι (λογικά, και συνεπώς στατιστικά) ανεξάρτητα.

Υπενθυμίζουμε την Παρατήρηση 2 που ακολουθούσε το Παράδειγμα 3.1 στην αρχή του Κεφαλαίου 3, βάσει της οποίας (σε έναν διακριτό χώρο πιθανότητας), για να υπολογίσουμε την πιθανότητα οποιουδήποτε ενδεχομένου της μορφής Α={ω1,ω2,,ωk}, αρκεί να γνωρίζουμε την πιθανότητα των στοιχειωδών ενδεχομένων {ωi}, οπότε:


Pr(A)=Pr({ω1})+Pr({ω2})++Pr({ωk}).

Συνδυάζοντας αυτή την παρατήρηση με το γεγονός ότι, στο παράδειγμά μας, η ανεξαρτησία μάς επιτρέπει να υπολογίσουμε την πιθανότητα για κάθε στοιχειώδες ενδεχόμενο, καταλήγουμε στο ότι μπορούμε να υπολογίσουμε την πιθανότητα οποιουδήποτε ενδεχομένου.

Για παράδειγμα, αν Α=«τέσσερις φορές το ίδιο αποτέλεσμα», τότε έχουμε:


Pr(A) = Pr({KKKK,ΓΓΓΓ})


= Pr({KKKK}{ΓΓΓΓ})


= Pr({KKKK})+Pr({ΓΓΓΓ})


= p4+(1-p)4.

Με τον ίδιο τρόπο θα προσεγγίσουμε και το επόμενο παράδειγμα.


Παράδειγμα 5.4

Έστω ότι υπάρχουν τρεις συνδέσεις σε ένα δίκτυο, και η καθεμία ενεργοποιείται, ανεξάρτητα από τις άλλες δύο, με πιθανότητα 1/4. Εξετάζουμε ποιες συνδέσεις είναι ενεργές μία δεδομένη στιγμή, οπότε ο χώρος πιθανότητας Ω αποτελείται από τα 8 στοιχεία που περιγράφουν τις αντίστοιχες 8 δυνατές καταστάσεις. Για παράδειγμα, το στοιχείο ΕΕΑ του Ω περιγράφει την κατάσταση όπου οι δύο πρώτες συνδέσεις είναι ενεργές και η τρίτη ανενεργή.

Ποια είναι η πιθανότητα του ενδεχομένου Β=«ακριβώς μία σύνδεση είναι ενεργή»; Εφόσον τα στοιχειώδη ενδεχόμενα εδώ δεν είναι ισοπίθανα, θα ακολουθήσουμε την ίδια λογική όπως και στο προηγούμενο παράδειγμα:


Pr(B) = Pr({EAA,AEA,AAE})=Pr({EAA}{AEA}{AAE})


= Pr({EAA})+Pr({AEA})+Pr({AAE}).

Και δεδομένου ότι η κάθε σύνδεση είναι ενεργή (με πιθ. 1/4) ή ανενεργή (με πιθ. 3/4) ανεξάρτητα από τις άλλες, έχουμε,


Pr(B)=143434+341434+343414=2764.

Παρατήρηση:
Όταν δύο ενδεχόμενα Α,Β είναι ανεξάρτητα, η ανεξαρτησία τους μας επιτρέπει να εκφράσουμε την πιθανότητα της τομής τους Pr(AB) ως το γινόμενο των επιμέρους πιθανοτήτων τους, Pr(A)Pr(B). Στη γενική περίπτωση όπου τα Α,Β μπορεί να μην είναι ανεξάρτητα, η αντίστοιχη ιδιότητα εκφράζεται με τη χρήση της δεσμευμένης πιθανότητας:
Ορισμός 5.2

(Δεσμευμένη πιθανότητα)

Για οποιαδήποτε δύο ενδεχόμενα Α,B έχουμε,


Pr(AB)=Pr(A)Pr(B|A),

όπου η δεσμευμένη πιθανότητα του 𝚩 δεδομένου του 𝚨 ορίζεται αντιστοίχως ως


Pr(B|A)=Pr(AB)Pr(A),

όποτε το ενδεχόμενο A έχει μη μηδενική πιθανότητα.


Παρατηρήσεις:

  1. 1. 

    Αφού προφανώς Pr(AB)=Pr(BA) για κάθε Α,Β, από τον ορισμό προκύπτει πως πάντοτε έχουμε:


    Pr(AB)=Pr(A)Pr(B|A)=Pr(B)Pr(A|B).
    (5.1)

    Όπως θα δούμε σε αρκετά απ’ τα πιο κάτω παραδείγματα, η σχέση (5.1) θα μας φανεί πολύ συχνά χρήσιμη. Γι’ αυτόν το λόγο καταγράφεται στην περίληψη στο τέλος του κεφαλαίου ως «κανόνας πιθανότητας #7».

  2. 2. 

    Τα ενδεχόμενα Α,Β είναι εξ ορισμού ανεξάρτητα αν και μόνο αν Pr(AB)=Pr(A)Pr(B). Αλλά από τη σχέση (5.1) βλέπουμε πως αυτό ισχύει αν και μόνο Pr(A|B)=Pr(A), ή, ισοδύναμα, αν και μόνο αν Pr(B|A)=Pr(B).

  3. 3. 

    Γενικά Pr(A|B)Pr(B|A), όπως, λόγου χάρη, στο αμέσως επόμενο παράδειγμα.

Παράδειγμα 5.5

Μια εταιρία πληροφορικής απασχολεί 40 Έλληνες και 30 αλλοδαπούς εργαζόμενους, εκ των οποίων κάποιοι είναι τεχνικοί και κάποιοι προγραμματιστές:


Έλληνες αλλοδαποί
τεχνικοί 22 25
προγραμματιστές 18 5

Επιλέγουμε τυχαία έναν από τους 70 εργαζομένους, και εξετάζουμε τα ενδεχόμενα:


T = «επελέγη τεχνικός»,

Ε = «επελέγη Έλληνας».

Εφόσον η επιλογή είναι τυχαία, από τον κανόνα πιθανότητας #5 έχουμε,


Pr(T)=22+2570=4770καιPr(E)=4070=47.

Παρομοίως, η πιθανότητα να επιλέξουμε έναν Έλληνα τεχνικό είναι,


Pr(ET)=2270,

το οποίο προφανώς δεν ισούται με (47/70)×(4/7), άρα τα ενδεχόμενα Ε και Τ δεν είναι ανεξάρτητα.

Έστω τώρα πως γνωρίζουμε ότι το άτομο που επελέγη είναι τεχνικός. Ποια η πιθανότητα να είναι Έλληνας; Από τον ορισμό της δεσμευμένης πιθανότητας, αυτό ισούται με:


Pr(E|T)=Pr(ET)Pr(T)=22/7047/70=2247.

Σε αυτό το παράδειγμα μπορούμε να ελέγξουμε αν το αποτέλεσμα συμφωνεί με τη διαίσθησή μας για το τι θα πει «πιθανότητα ενός ενδεχομένου δεδομένου ενός άλλου» ως εξής: Εφόσον γνωρίζουμε πως το επιλεγμένο άτομο είναι τεχνικός, διαισθητικά το πείραμά μας είναι ισοδύναμο με μια τυχαία επιλογή μεταξύ των 22+25=47 τεχνικών. Και εφόσον από αυτούς τους 47 οι 22 είναι Έλληνες, λογικά θα περιμέναμε η πιθανότητα του να επιλέξουμε έναν Έλληνα να ισούται με 22/47, το οποίο πράγματι επιβεβαιώνεται από τον προηγούμενό μας υπολογισμό, ο οποίος έγινε βάσει του ορισμού.

Τέλος, μπορούμε να εξετάσουμε την «αντίστροφη» περίπτωση: Ποια είναι η πιθανότητα να επιλέξαμε τεχνικό δεδομένου ότι επιλέξαμε κάποιον Έλληνα; Όπως και πριν, από τον ορισμό της δεσμευμένης πιθανότητας βρίσκουμε,


Pr(T|E)=Pr(ET)Pr(T)=22/7040/70=2240=1120.

Στο επόμενο λήμμα καταγράφουμε μια απλή ιδιότητα της δεσμευμένης πιθανότητας, η οποία είναι ανάλογη του κανόνα πιθανότητας #4 για τις απλές πιθανότητες που είδαμε στο Κεφάλαιο 3.

Λήμμα 5.1

Για οποιαδήποτε δύο ενδεχόμενα Α,Β, έχουμε:


Pr(A|B)=1-Pr(A|B).
Απόδειξη:

Ξεκινώντας από τον ορισμό της δεσμευμένης πιθανότητας, βρίσκουμε,


Pr(A|B) = Pr(AB)Pr(B)


= Pr(AB)+Pr(AB)-Pr(AB)Pr(B)


= Pr((AB)(AB))-Pr(AB)Pr(B)


= Pr(B)-Pr(AB)Pr(B)


= 1-Pr(AB)Pr(B)


= 1-Pr(A|B),

όπου στο πρώτο βήμα εφαρμόσαμε τον Ορισμό 5.2, στο τρίτο βήμα χρησιμοποιήσαμε τον κανόνα πιθανότητας #3, στο τελευταίο βήμα εφαρμόσαμε τον Ορισμό 5.2, και στο τέταρτο βήμα χρησιμοποιήσαμε την προφανή ιδιότητα ότι το ενδεχόμενο Β μπορεί να εκφραστεί ως «τα στοιχεία του Β που ανήκουν στο Α μαζί με τα στοιχεία του Β που δεν ανήκουν στο Α», δηλαδή, Β=(AB)(AB), και το γεγονός ότι τα ενδεχόμενα (AB) και (AB) είναι εξ ορισμού ξένα.


Παράδειγμα 5.6
11Στην πρώτη του ανάγνωση, αυτό το παράδειγμα ίσως φαίνεται δυσκολότερο και πιο πολύπλοκο από τα προηγούμενα. Όπως θα δούμε πιο κάτω σε αυτό το κεφάλαιο, αποτελεί ειδική περίπτωση της χρήσης ενός πολύ σημαντικού αποτελέσματος που θα διατυπώσουμε λεπτομερώς στον κανόνα πιθανότητας #10, τον λεγόμενο «κανόνα του Bayes».

Έστω πως, σε έναν πληθυσμό 10 εκατομμυρίων ανθρώπων, 20,000 άτομα είναι φορείς του ιού HIV. Επιλέγεται ένα άτομο τυχαία και του γίνεται μια εξέταση για HIV, η οποία έχει ποσοστό σφάλματος 5%, δηλαδή,


Pr(αποτέλεσμα εξέτασης θετικό|όχι φορέας του HIV)=  0.05,

καιPr(αποτέλεσμα εξέτασης αρνητικό|φορέας του HIV)=  0.05.

H σημαντική ερώτηση εδώ για τον εξεταζόμενο είναι: Αν το αποτέλεσμα της εξέτασης είναι θετικό (δηλαδή υποστηρίζει πως ο εξεταζόμενος είναι φορέας του ιού), ποια είναι η πιθανότητα ο εξεταζόμενος να είναι πράγματι φορέας;

Ίσως φαίνεται εκ πρώτης όψεως «προφανές» πως η απάντηση είναι 95%, αλλά, όπως θα δούμε, η σωστή απάντηση είναι πολύ διαφορετική.

Για να προσεγγίσουμε το πρόβλημα συστηματικά, ορίζουμε τα ενδεχόμενα,


Θ = «αποτέλεσμα εξέτασης θετικό»,

καιΗ = «ο εξεταζόμενος είναι φορέας του HIV»,

και καταγράφουμε τα δεδομένα του προβλήματος:


Pr(H)=2000010000000=21000=0.002,Pr(Θ|H)=Pr(Θ|H)=0.05.
(5.2)

Η ζητούμενη πιθανότητα είναι η Pr(H|Θ).

Ξεκινάμε υπολογίζοντας την πιθανότητα του ενδεχομένου Θ, δηλαδή του να βγει θετικό το αποτέλεσμα της εξέτασης ενός τυχαία επιλεγμένου ατόμου. Εκφράζοντας το Θ ως την ένωση δύο ξένων ενδεχομένων, Θ=(ΘH)(ΘH), έχουμε,


Pr(Θ)=Pr(ΘH)+Pr(ΘH),

και χρησιμοποιώντας τη σχέση (5.1), που προέκυψε από τον ορισμό της δεσμευμένης πιθανότητας,


Pr(Θ) = Pr(Θ|H)Pr(H)+Pr(Θ|H)Pr(H)


= (1-Pr(Θ|H))Pr(H)+Pr(Θ|H)(1-Pr(H)),

όπου στο δεύτερο βήμα χρησιμοποιήσαμε το Λήμμα 5.1 και τον κανόνα πιθανότητας #4. Αντικαθιστώντας τις τιμές των πιθανοτήτων (5.2),


Pr(Θ)=(1-0.05)  0.002+0.05(1-0.002)  0.0518.
(5.3)

Τώρα είμαστε σε θέση να απαντήσουμε το βασικό μας ερώτημα: Δεδομένου ότι η εξέταση βγήκε θετική, ποια η πιθανότητα να είναι φορέας του HIV ο εξεταζόμενος; Από τον ορισμό της δεσμευμένης πιθανότητας και τη σχέση (5.1), με τον ίδιο συλλογισμό όπως προηγουμένως βρίσκουμε:


Pr(H|Θ)=Pr(ΘH)Pr(Θ)=Pr(Θ|H)Pr(H)Pr(Θ)=[1-Pr(Θ|H)]Pr(H)Pr(Θ).

Τέλος, αντικαθιστώντας τις τιμές των πιθανοτήτων από τα δεδομένα (5.2) και τον υπολογισμό (5.3), έχουμε,


Pr(H|Θ)=(1-0.05)  0.0020.05180.0367=3.76%

Βλέπουμε, λοιπόν, πως η πιθανότητα ο εξεταζόμενος να είναι φορέας του HIV δεδομένου πως το αποτέλεσμα της εξέτασης είναι θετικό, είναι σημαντικά μικρότερη από την πρώτη μας διαισθητική απάντηση που ήταν βασισμένη στο σκεπτικό ότι για το 95% των περιπτώσεων η εξέταση δίνει το σωστό αποτέλεσμα! Η διαφορά αυτή προκύπτει από το ότι αρχικά δεν λάβαμε υπόψη μας πως ο εξεταζόμενος επιλέχθηκε τυχαία από έναν πληθυσμό στον οποίο πολύ σπάνια συναντάμε έναν φορέα του HIV. Η αρχική πιθανότητα (2 στους χίλιους) να είναι φορέας φυσικά αυξάνεται (στο 3.76%) λόγω του θετικού αποτελέσματος της εξέτασης, αλλά δεν φτάνει ως το 95% όπως αρχικά φανταζόμασταν.

5.2 Περαιτέρω ιδιότητες

Παράδειγμα 5.7

Σε ένα εργαστήριο υπάρχουν 150 PC, εκ των οποίων τα 120 είναι συνδεδεμένα στο internet, τα 45 είναι συνδεδεμένα με ένα δίκτυο εκτυπωτών, και 30 είναι και στα δύο δίκτυα. Επιλέγουμε ένα PC στην τύχη:

  • (i)

    Αν διαπιστώσουμε ότι είναι συνδεδεμένο με το δίκτυο εκτυπωτών, ποια η πιθανότητα να είναι και στο internet;

  • (ii)

    Ποια η πιθανότητα να είναι συνδεδεμένο σε τουλάχιστον ένα από τα δύο δίκτυα;

Εδώ ο χώρος πιθανότητας Ω αποτελείται από τα 150 PC, και τα ενδεχόμενα που μας ενδιαφέρουν για το πρώτο ερώτημα είναι τα I=«το επιλεγμένο PC είναι στο internet» και Ε=«το επιλεγμένο PC είναι στο δίκτυο εκτυπωτών». Εφόσον η επιλογή είναι τυχαία, εφαρμόζοντας τον κανόνα πιθανότητας #5 βρίσκουμε τις πιθανότητες Pr(I)=120/150=4/5, Pr(E)=45/150=3/10 και Pr(IE)=30/150=1/5.

Για το πρώτο ερώτημα, από τον ορισμό της δεσμευμένης πιθανότητας έχουμε:


Pr(I|E)=Pr(IE)Pr(E)=1/53/10=23.

[Σε αυτό το απλό παράδειγμα, να ελέγξουμε την απάντηση και διαισθητικά: Εφόσον η επιλογή μας γίνεται «δεδομένου ότι το PC έχει εκτυπωτή», είναι σαν να ζητάμε την πιθανότητα να επιλέξουμε, από τα 45 PC που έχουν εκτυπωτή, ένα από εκείνα τα 30 που είναι και στο internet, συνεπώς η ζητούμενη πιθανότητα θα ισούται με 30/45=2/3.]

Για το ερώτημα (ii), έχουμε,


Pr(IE)=#(IE)#Ω.

Για να υπολογίσουμε το πλήθος των στοιχείων του συνόλου IE, παρατηρούμε πως ισχύει ότι,


#Ι+#Ε=#(ΙE)+#(IE),

δηλαδή προσθέτοντας τα στοιχεία του Ι και του Ε έχουμε τα στοιχεία της ένωσής τους, αλλά τα στοιχεία που ανήκουν και στα δύο σύνολα (δηλαδή στην τομή τους) συμπεριλαμβάνονται δύο φορές στο #Ι+#Ε, γι’ αυτόν το λόγο τα προσθέτουμε άλλη μία φορά στο δεξί μέρος της πιο πάνω σχέσης. Άρα έχουμε,


Pr(IE) = #(IE)#Ω


= #I+#E-#(IE)#Ω


= #I#Ω+#E#Ω-#(IE)#Ω


= Pr(I)+Pr(E)-Pr(IE)


= 120150+45150-30150=23.

Παρατηρούμε πως ο πιο πάνω υπολογισμός αποδεικνύει και τη σχέση,


Pr(IE)=Pr(I)+Pr(E)-Pr(IE),

η οποία ισχύει και γενικά:

Κανόνας Πιθανότητας #8. Για οποιαδήποτε ενδεχόμενα Α,Β:

Pr(AB)=Pr(A)+Pr(B)-Pr(AB).
(5.4)
Απόδειξη:

Αρκεί απλά να εφαρμόσουμε δύο φορές τον κανόνα πιθανότητας #3: Η ένωση ΑB μπορεί να εκφραστεί ως η ένωση των δύο ξένων ενδεχομένων A(AB), οπότε,


Pr(AB)+Pr(AB)=Pr(A(AB))+Pr(AB)=Pr(A)+Pr(AB)+Pr(AB),

και αφού εξ ορισμού τα (AB) και (AB) είναι ξένα,


Pr(AB)+Pr(AB)=Pr(A)+Pr((AB)(AB))=Pr(A)+Pr(B),

που μας δίνει την (5.4).


Παρατήρηση: Αν τα ενδεχόμενα Α,Β είναι ξένα, τότε ΑB=, και αφού εξ ορισμού Pr()=0, η σχέση (5.4) γίνεται, Pr(AB)=Pr(A)+Pr(B). Άρα μπορούμε να θεωρήσουμε τον κανόνα πιθανότητας #8 ως μια γενίκευση του κανόνα πιθανότητας #3, τον οποίο είδαμε στο Κεφάλαιο 3.


Παράδειγμα 5.8

Από ένα στοκ 200 routers, μεταξύ των οποίων 3 είναι ελαττωματικοί, επιλέγουμε τυχαία 20 για ένα δίκτυο. Ποια είναι η πιθανότητα να επιλέξαμε ακριβώς έναν ελαττωματικό;

Έστω Α το ενδεχόμενο που περιγράφει την πιο πάνω περίπτωση. Το Α είναι υποσύνολο του χώρου πιθανότητας Ω, ο οποίος αποτελείται από όλες τις (μη διατεταγμένες) εικοσάδες routers τις οποίες μπορούμε να διαλέξουμε από τους 200. Από τον κανόνα αρίθμησης #4 έχουμε #Ω=(20020), και συνδυάζοντας τους κανόνες αρίθμησης #1 και #4 βρίσκουμε #Α=(31)(19719). Όπως στο Κεφάλαιο 4, χρησιμοποιώντας τον κανόνα πιθανότητας #5 και αντικαθιστώντας τις πιο πάνω τιμές, έχουμε,


Pr(A)=#A#Ω=(31)(19719)(20020)=0.245.

Τώρα ας υποθέσουμε ότι παρατηρούμε το δίκτυο να λειτουργεί προβληματικά (άρα έχουμε επιλέξει τουλάχιστον έναν ελαττωματικό router). Ποια είναι η πιθανότητα να έχουμε επιλέξει ακριβώς έναν ελαττωματικό router; Αν ορίσουμε το ενδεχόμενο,


Β=«επιλέξαμε τουλάχιστον έναν ελαττωματικό router»,

τότε η ζητούμενη πιθανότητα είναι,


Pr(A|B)=Pr(AB)Pr(B)=Pr(A)Pr(B),

αφού το ΑB=A (γιατί;). Η Pr(A) υπολογίστηκε πιο πάνω, και παρομοίως έχουμε,


Pr(B) = 1-Pr(B)


= 1-Pr(«δεν επιλέξαμε κανέναν ελαττωματικό router»)


= 1-#B#Ω


= 1-(19720)(20020)


0.2722,

συνεπώς,


Pr(A|B)=Pr(A)Pr(B)0.2450.27220.9=  90%.

Σημείωση. Ο κανόνας πιθανότητας #3 του Κεφαλαίου 3 μάς επιτρέπει να υπολογίσουμε την πιθανότητα Pr(AB) για δύο ξένα ενδεχόμενα Α,Β, και ο κανόνας πιθανότητας #8, που είδαμε πιο πάνω, μάς δίνει ένα γενικότερο αποτέλεσμα που ισχύει και όταν τα Α,Β δεν είναι ξένα. Το επόμενό μας αποτέλεσμα είναι μια σχετική ανισότητα, η οποία είναι πολύ χρήσιμη και επίσης ισχύει γενικά. Για παραδείγματα εφαρμογών του δείτε την Ενότητα 8.3 του Κεφαλαίου 8 και τις αντίστοιχες εκεί ασκήσεις.

Λήμμα 5.2 (Φράγμα ένωσης)

Για οποιαδήποτε ενδεχόμενα Α1,Α2,,AN (είτε είναι ξένα, είτε όχι) ισχύει η ανισότητα:


Pr(A1A2AN) = Pr(i=1NAi)


i=1NPr(Ai)=Pr(A1)+Pr(A2)++Pr(An).
Απόδειξη:

Παρατηρούμε ότι η περίπτωση Ν=2 προκύπτει άμεσα από τον κανόνα πιθανότητας #8: Εφόσον όλες οι πιθανότητες είναι μεγαλύτερες ή ίσες του μηδενός,


Pr(A1A2)=Pr(Α1)+Pr(A2)-Pr(A1A2)Pr(Α1)+Pr(A2).

Για την περίπτωση Ν=3, χρησιμοποιούμε την περίπτωση Ν=2 δύο φορές:


Pr(A1A2A3) = Pr(A1(A2A3))


Pr(A1)+Pr(A2A3)


Pr(Α1)+Pr(A2)+Pr(A3).

Η γενική περίπτωση αποδεικνύεται με τον ίδιο τρόπο, επαγωγικά.


Παράδειγμα 5.9

Έστω ότι έχουμε δύο νομίσματα· ένα δίκαιο με Pr(K)=1/2, και ένα που έχει πιθανότητα 2/3 να έρθει Κορώνα. Επιλέγουμε ένα από τα δύο στην τύχη και το στρίβουμε δύο φορές:

  1. 1.

    Ποια η πιθανότητα να φέρουμε Γ την πρώτη φορά;

  2. 2.

    Ποια η πιθανότητα να φέρουμε ΓΓ;

  3. 3.

    Δεδομένου ότι φέραμε ΓΓ, ποια η πιθανότητα να έχουμε επιλέξει το δίκαιο νόμισμα;

Για το πρώτο ερώτημα, παρατηρούμε ότι δεν μπορεί να υπολογιστεί άμεσα η ζητούμενη πιθανότητα αν δεν γνωρίζουμε ποιο νόμισμα έχει επιλεγεί. Ορίζουμε λοιπόν τα ενδεχόμενα:


A1 = «φέραμε Γ την πρώτη φορά»,

A2 = «φέραμε Γ τη δεύτερη φορά»,

Β = «φέραμε 2 φορές Γ»=Α1A2,

Δ = «επιλέξαμε το δίκαιο νόμισμα».

Από το πρόβλημα μας δίνεται ότι Pr(A1|Δ)=Pr(A2|Δ)=12 και Pr(A1|Δ)=Pr(A2|Δ)=13. Για να υπολογίσουμε τη ζητούμενη πιθανότητα Pr(A1), εκφράζουμε το Α1 ως την ένωση δύο ξένων ενδεχομένων, Α1=(Α1Δ)(A1Δ), οπότε,


Pr(Α1) = Pr(Α1Δ)+Pr(A1Δ)          [καν. πιθ. #3]
(5.5)


= Pr(Α1|Δ)Pr(Δ)+Pr(A1|Δ)Pr(Δ)        [σχέση (5.1)]


= 1212+1312=512.

Με τον ίδιο ακριβώς τρόπο βρίσκουμε πως και Pr(A2)=5/12, και, για το δεύτερο ερώτημα, παρομοίως έχουμε,


Pr(Β) = Pr(ΒΔ)+Pr(ΒΔ)


= Pr(Β|Δ)Pr(Δ)+Pr(Β|Δ)Pr(Δ)


= 121212+131312


= 1372.

[Παρενθετικά αναφέρουμε την εξής ενδιαφέρουσα παρατήρηση: Αν γνωρίζουμε την πιθανότητα p=Pr(K) με την οποία ένα νόμισμα έρχεται Κορώνα, τότε τα αποτελέσματα διαδοχικών ρίψεων είναι ανεξάρτητα. Αλλά αν δεν γνωρίζουμε την p, η ανεξαρτησία δεν ισχύει! Π.χ., με το τυχαία επιλεγμένο νόμισμα αυτού του παραδείγματος, η πιθανότητα να φέρουμε Γράμματα είναι 5/12 αλλά η πιθανότητα να φέρουμε δύο φορές Γράμματα είναι 13/72 το οποίο δεν ισούται με (5/12)2. Ο λόγος είναι πως, όταν δεν γνωρίζουμε τα στατιστικά χαρακτηριστικά του νομίσματος, κάθε ρίψη μάς δίνει κάποια πληροφορία για το νόμισμα, η οποία επηρεάζει την πρόβλεψή μας για τα αποτελέσματα των μελλοντικών ρίψεων.]

Πριν εξετάσουμε το τρίτο ερώτημα, σημειώνουμε πως, για οποιαδήποτε δύο ενδεχόμενα Α,Β, εκφράζοντας το Α ως (ΑB)(AB) όπως στην (5.5), και εφαρμόζοντας τον κανόνα πιθανότητας #3 σε συνδυασμό με τον ορισμό της δεσμευμένης πιθανότητας, όπως πιο πάνω, βρίσκουμε:

Κανόνας πιθανότητας #9: «Κανόνας συνολικής πιθανότητας».

Για οποιαδήποτε ενδεχόμενα Α,Β:


Pr(Α)=Pr(A|B)Pr(B)+Pr(A|B)Pr(B).

Γενικότερα, αν τα ενδεχόμενα Β1,Β2,,BN είναι ξένα (δηλ., ΒiBj= για κάθε ij) και καλύπτουν όλο το Ω (δηλ., B1B2BN=Ω), τότε:


Pr(A)=Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)++Pr(A|BN)Pr(BN).

[Άσκηση. Αποδείξτε την τελευταία παραπάνω γενική περίπτωση.]


Παράδειγμα 5.9, συνέχεια Το τρίτο ερώτημα του παραδείγματος ρωτά, δεδομένου ότι φέραμε ΓΓ, ποια είναι η πιθανότητα Pr(Δ|B) να έχουμε επιλέξει το δίκαιο νόμισμα; Χρησιμοποιώντας τον ορισμό της δεσμευμένης πιθανότητας δύο φορές, βλέπουμε πως η ζητούμενη πιθανότητα Pr(Δ|B) μπορεί να εκφραστεί ως προς τη γνωστή πιθανότητα Pr(Β|Δ)=(1/2)(1/2)=1/4:


Pr(Δ|B)=Pr(BΔ)Pr(B)=Pr(Β|Δ)Pr(Δ)Pr(B)=(1/4)(1/2)13/72=8130.615.
(5.6)

Αρχικά η πιθανότητα να επιλέξουμε το δίκαιο νόμισμα είναι 1/2. Αλλά, δεδομένου ότι το νόμισμα που επιλέξαμε έφερε 2 φορές Γράμματα, είναι λιγότερο πιθανό να επιλέξαμε το νόμισμα που 2 στις 3 φορές φέρνει Κορώνα και πιθανότερο να επιλέξαμε το δίκαιο. Ο υπολογισμός (5.6) μάς λέει ακριβώς πόσο πιο πιθανό είναι να έχουμε επιλέξει το δίκαιο νόμισμα.

Η γενίκευση αυτού του παραδείγματος είναι το αντικείμενο της επόμενης ενότητας, αλλά, πριν το εξετάσουμε αναλυτικά, επανερχόμαστε στο Παράδειγμα 2.4 του τηλεπαιχνιδιού Monty Hall από το Κεφάλαιο 2.


Παράδειγμα 5.10 (Παιχνίδι Monty Hall, συνέχεια)

Θυμηθείτε το πρόβλημα του τηλεπαιχνιδιού Monty Hall, που είδαμε στο Παράδειγμα 2.4 του Κεφαλαίου 2. Εδώ θα εξετάσουμε το βασικό ερώτημα που προκύπτει: Τι είναι πιο συμφέρον για τον παίκτη, να αλλάξει κουρτίνα ή να διατηρήσει την αρχική του επιλογή; Με άλλα λόγια, ποια από τις δύο στρατηγικές τού δίνει μεγαλύτερη πιθανότητα να κερδίσει το δώρο;

Αν και, διαισθητικά, θα φανταζόμασταν ίσως πως δεν υπάρχει διαφορά ανάμεσα στις δύο περιπτώσεις, η απάντηση ενδεχομένως να σας εκπλήξει.

Όπως στο Παράδειγμα 2.4, θεωρούμε πως υπάρχουν τρεις κουρτίνες, οι A,B και C, και πως τα αποτελέσματα του παιχνιδιού (δηλαδή τα στοιχεία του χώρου πιθανότητας Ω) είναι της μορφής (X,X,X), όπου το πρώτο X συμβολίζει την κουρτίνα που επιλέγει αρχικά ο παίκτης, το δεύτερο την κουρτίνα που αποκαλύπτεται, και το τρίτο την κουρτίνα που επιλέγει ο παίκτης στο τέλος. Υποθέτουμε ότι το δώρο είναι πίσω από την κουρτίνα A, και επίσης πως η αρχική επιλογή του παίκτη είναι τυχαία, δηλαδή πως τα ενδεχόμενα «ο παίκτης πρώτα επιλέγει την Α», «ο παίκτης πρώτα επιλέγει την B» και «ο παίκτης πρώτα επιλέγει την C» έχουν πιθανότητα 1/3 το καθένα.

Στρατηγική 1. Έστω πως ο παίκτης αλλάζει πάντα κουρτίνα. Τότε θα κερδίσει αν και μόνο αν αρχικά επιλέξει την κουρτίνα Β ή C. Επειδή τα αντίστοιχα ενδεχόμενα είναι ξένα, η πιθανότητα να κερδίσει είναι 1/3+1/3=2/3. Βλ. Σχήμα 5.1.

Σχήμα 5.1: Η πρώτη στρατηγική του Παραδείγματος 5.10. Στο πρώτο βήμα ο παίκτης επιλέγει μία κουρτίνα με πιθανότητα 1/3. Στο δεύτερο βήμα, αν έχει επιλέξει την κουρτίνα A με το δώρο, ο παρουσιαστής ανοίγει μία από τις δύο άλλες τυχαία (με πιθ. 1/2), ενώ αν έχει επιλέξει την B ή την C ο παρουσιαστής ανοίγει την άλλη κουρτίνα που δεν περιέχει το δώρο. Στο τρίτο βήμα ο παίκτης πάντα αλλάζει την αρχική επιλογή του. Δεξιά φαίνονται οι τέσσερις δυνατές καταλήξεις του παιχνιδιού μαζί με τις αντίστοιχες πιθανότητές τους. Αυτές στις οποίες ο παίκτης κερδίζει είναι σημειωμένες με «*». Άρα, η πιθανότητα να κερδίσει είναι 1/3+1/3=2/3.

Στρατηγική 2. Ο παίκτης δεν αλλάζει ποτέ κουρτίνα. Τότε κερδίζει αν και μόνο αν επιλέξει αρχικά την κουρτίνα Α, δηλαδή με πιθανότητα μόνο 1/3! Βλ. Σχήμα 5.2.

Σχήμα 5.2: Η δεύτερη στρατηγική του Παραδείγματος 5.10. Τα δύο πρώτα βήματα είναι τα ίδια με πριν, ενώ στο τρίτο βήμα ο παίκτης διατηρεί την αρχική επιλογή του. Δεξιά πάλι φαίνονται οι τέσσερις δυνατές καταλήξεις και οι πιθανότητές τους. Αυτές στις οποίες ο παίκτης κερδίζει είναι σημειωμένες με «*», οπότε εδώ η πιθανότητα να κερδίσει είναι μόνο 1/6+1/6=1/3!
Συνεπώς, συμφέρει τον παίκτη να αλλάζει πάντα κουρτίνα, ανεξαρτήτως του τι θα κάνει ο τηλεπαρουσιαστής!

5.3 Ο κανόνας του Bayes

Σε πολλά επιστημονικά αλλά και καθημερινά προβλήματα, συχνά προκύπτει το εξής ερώτημα: Αν γνωρίζουμε την τιμή μιας δεσμευμένης πιθανότητας Pr(A|B), πώς μπορούμε να υπολογίσουμε την πιθανότητα Pr(B|A), όπου οι ρόλοι των ενδεχομένων Α και Β έχουν αντιστραφεί; Φερειπείν, στο Παράδειγμα 5.9 πιο πάνω, ήταν προφανές ότι η πιθανότητα να φέρουμε δύο φορές «Γ», δεδομένου ότι έχουμε ένα δίκαιο νόμισμα, είναι 25%, αλλά το ζητούμενο ήταν να εκτιμήσουμε πόσο πιθανό ήταν να είχαμε επιλέξει το δίκαιο νόμισμα δεδομένου ότι φέραμε δύο φορές «Γ».

Ο κανόνας του Bayes αποτελεί το βασικό εργαλείο για την επίλυση τέτοιου είδους προβλημάτων. Μια από τις σημαντικότερες και πιο συνηθισμένες τέτοιες περιπτώσεις αφορούν, όπως στο Παράδειγμα 5.6, προβλήματα που σχετίζονται με τεστ διαγνωστικών εξετάσεων. Εκεί, κατά κανόνα γνωρίζουμε τη στατιστική συμπεριφορά του τεστ κάτω από ελεγχόμενες συνθήκες, π.χ., ξέρουμε την πιθανότητα ένα τεστ εγκυμοσύνης να έχει θετικό αποτέλεσμα δεδομένου ότι η εξεταζόμενη είναι έγκυος. Αλλά για εκείνην που κάνει το τεστ το σημαντικό ερώτημα είναι «δεδομένου ότι το τεστ είναι θετικό, πόσο πιθανό είναι να είμαι έγκυος»; Παρομοίως, σε δικαστικές διαμάχες, συχνά παρουσιάζονται στοιχεία της εξής μορφής: Αν ο κατηγορούμενος ήταν αθώος, η πιθανότητα να βρισκόταν το DNA του στο σημείο του εγκλήματος είναι μικρή. Στην πραγματικότητα όμως το δικαστήριο το ενδιαφέρει η «αντίστροφη» πιθανότητα: Δεδομένου ότι η αστυνομία εντόπισε το DNA του εκεί, ποια η πιθανότητα να είναι αθώος;


Χρησιμοποιώντας τον ορισμό της δεσμευμένης πιθανότητας, όπως στη σχέση (5.6), και εφαρμόζοντας κατόπιν τον κανόνα συνολικής πιθανότητας, προκύπτει το εξής γενικό αποτέλεσμα:


Κανόνας πιθανότητας #10: «Κανόνας του Bayes». Για οποιαδήποτε ενδεχόμενα Α,Β:

Pr(B|A)=Pr(A|B)Pr(B)Pr(A)=Pr(A|B)Pr(B)Pr(A|B)Pr(B)+Pr(A|B)Pr(B).

Γενικότερα, αν τα ενδεχόμενα Β1,Β2,,BN είναι ξένα (δηλ., ΒiBj= για κάθε ij) και καλύπτουν όλο το Ω (δηλ., B1B2BN=Ω), τότε:


Pr(B1|A) = Pr(A|B1)Pr(B1)Pr(A)


= Pr(A|B1)Pr(B1)Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)++Pr(A|BN)Pr(BN).

Παρενθετικά αναφέρουμε ότι ο κανόνας του Bayes αποτελεί την αφετηρία μιας πολύ σημαντικής επιστημονικής περιοχής, της στατιστικής κατά Bayes, η οποία είναι εξαιρετικά ενεργή ερευνητικά, και η οποία τα τελευταία 20 περίπου χρόνια έχει βρει εφαρμογές σε κεντρικά θέματα σχεδόν ολόκληρου του φάσματος της επιστήμης και της τεχνολογίας.


Παράδειγμα 5.11

Σε κάποιον πληθυσμό, 2% των ανθρώπων πάσχει από μια ασθένεια. Ένας τυχαία επιλεγμένος άνθρωπος κάνει ένα διαγνωστικό τεστ γι’ αυτή την ασθένεια, όπου οι πιθανότητες σφάλματος του τεστ είναι:


Pr(αρνητικό τεστ|ασθενής)=0.5%,

Pr(θετικό τεστ|όχι ασθενής)=5%.

Δεδομένου ότι το τεστ είναι αρνητικό, ποια η πιθανότητα παρ’ όλα αυτά να έχει την ασθένεια;

Ορίζουμε τα ενδεχόμενα,


Θ = «θετικό τεστ»,

A = «ασθενής»,

οπότε τα δεδομένα του προβλήματος είναι,


Pr(A)=0.02,Pr(Θ|A)=0.005,Pr(Θ|A)=0.05,

και η ζητούμενη πιθανότητα είναι η Pr(Α|Θ). Από τον κανόνα του Bayes έχουμε,


Pr(A|Θ) = Pr(Θ|A)Pr(A)Pr(Θ|A)Pr(A)+Pr(Θ|A)Pr(A)


= Pr(Θ|A)Pr(A)Pr(Θ|A)Pr(A)+[1-Pr(Θ|A)][1-Pr(A)],

όπου στο δεύτερο βήμα χρησιμοποιήσαμε τον κανόνα πιθανότητας #4 και το Λήμμα 5.1. Αντικαθιστώντας τώρα τις τιμές των πιο πάνω πιθανοτήτων από τα δεδομένα μας, εύκολα υπολογίζουμε,


Pr(A|Θ)=0.005×0.020.005×0.02+0.95×0.9810-4.
Παράδειγμα 5.12

Ανακοινώνεται από την εταιρία Dell ότι, από τα PC ενός συγκεκριμένου μοντέλου που κυκλοφορούν στην αγορά:

– το 25% είναι ελλατωματικά,

– το 25% έχουν σημαντικό ρίσκο να παρουσιάσουν πρόβλημα,

– το 50% δεν έχουν κανένα πρόβλημα από τα δύο.

Διανέμεται από την εταιρία ένα πρόγραμμα διάγνωσης των προβλημάτων, το οποίο είναι 99% ακριβές, δηλαδή,


Pr(Θ|(ER))=Pr(Θ|E)=Pr(Θ|R)=1%,

όπου τα ενδεχόμενα Θ,E,R, ορίζονται ως,


Θ = «θετικό αποτέλεσμα διαγνωστικού τεστ»,

E = «ελαττωματικό PC»,

R = «PC με ρίσκο προβλήματος».

Κάνουμε στο PC μας αυτό το διαγνωστικό τεστ και βγαίνει αρνητικό. Ποια η πιθανότητα ο υπολογιστής μας πράγματι να μην έχει κανένα από τα δύο προβλήματα;

Εδώ ο κανόνας του Bayes μάς δίνει,


Pr((ER)|Θ)

=Pr(Θ|(ER))Pr((ER))Pr(Θ|(ER))Pr((ER))+Pr(Θ|E)Pr(E)+Pr(Θ|R)Pr(R),

όπου παρατηρούμε ότι τα E,R,(ER) είναι ξένα και η ένωσή τους ισούται με ολόκληρο το χώρο πιθανότητας Ω. Αντικαθιστώντας, όπως και στο προηγούμενο παράδειγμα, τις τιμές από τα δεδομένα του προβλήματος υπολογίζουμε,


Pr((ER)|Θ)=0.99×0.50.99×0.5+0.01×0.25+0.01×0.25=  0.99.

Άρα, σε κάποιες (πολύ ειδικές) περιπτώσεις, μπορεί να έχουμε και Pr(A|B)=Pr(B|A), όπως εδώ έχουμε Pr((ER)|Θ)=Pr(Θ|(ER)).

Παράδειγμα 5.13

Έστω ότι έχουμε τρία ζάρια, όπου το πρώτο είναι δίκαιο, το δεύτερο δεν έρχεται ποτέ 6, και το τρίτο έχει Pr(«6»)=2/3. Επιλέγουμε ένα στην τύχη, το ρίχνουμε δύο φορές και φέρνουμε 66. Ποια η πιθανότητα να επιλέξαμε το δίκαιο ζάρι;

Ορίζουμε τα ενδεχόμενα Δ,Α2,Α3 ως «επιλέξαμε το δίκαιο ζάρι», «επιλέξαμε το δεύτερο ζάρι» και «επιλέξαμε το τρίτο ζάρι», αντίστοιχα. Επιπλέον ορίζουμε το ενδεχόμενο Ε=«φέραμε 66». Βάσει του κανόνα του Bayes,


Pr(Δ|E) = Pr(E|Δ)Pr(Δ)Pr(E|Δ)Pr(Δ)+Pr(E|A2)Pr(A2)+Pr(E|A3)Pr(A3)


= (1/6)(1/6)(1/3)(1/6)(1/6)(1/3)+0×(1/3)+(2/3)(2/3)(1/3)


= 116,

πράγμα το οποίο συμφωνεί με τη διαίσθησή μας: Εφόσον φέραμε 2 φορές «6», είναι πολύ πιθανότερο να επιλέξαμε ένα ζάρι το οποίο έχει πιθανότητα 2/3 να φέρει «6», παρά ένα δίκαιο ζάρι.

5.4 Ακόμα πέντε «κανόνες πιθανότητας»

Σ’ αυτό το κεφάλαιο διατυπώσαμε ακόμα 5 κανόνες πιθανότητας, οι οποίοι συμπληρώνουν εκείνους του Κεφαλαίου 3. Για ευκολότερη αναφορά και χρήση, τους παραθέτουμε περιληπτικά πιο κάτω.

Κανόνες πιθανότητας (6–10)

Για οποιαδήποτε δύο ενδεχόμενα Α,Β:

  • 6. 

    Εάν τα ενδεχόμενα Α,Β είναι «λογικά ανεξάρτητα», τότε θεωρούμε πως είναι και (στατιστικά) ανεξάρτητα, δηλαδή:


    Pr(AB)=Pr(A)Pr(B).
  • 7. 

    Pr(AB)=Pr(A)Pr(B|A)=Pr(B)Pr(A|B), όπου η δεσμευμένη πιθανότητα ορίζεται ως,


    Pr(A|B) = Pr(AB)Pr(B).
  • 8. 

    Pr(AB)=Pr(A)+Pr(B)-Pr(AB).

  • 9. 

    Κανόνας συνολικής πιθανότητας:


    Pr(Α)=Pr(A|B)Pr(B)+Pr(A|B)Pr(B).
  • 10. 

    Κανόνας του Bayes:


    Pr(B|A)=Pr(A|B)Pr(B)Pr(A)=Pr(A|B)Pr(B)Pr(A|B)Pr(B)+Pr(A|B)Pr(B).

5.5 Ασκήσεις

  1. 1. 

    Ένωση τριών ενδεχόμενων. Να δείξετε ότι, για οποιαδήποτε τρία ενδεχόμενα A,B και C, η πιθανότητα της ένωσης Pr(ABC) ισούται με:


    Pr(A)+Pr(B)+Pr(C)-Pr(AB)-Pr(AC)-Pr(BC)+Pr(ABC).
  2. 2. 

    Πιθανότητα ακριβώς ενός ενδεχομένου. Δείξτε ότι η πιθανότητα να πραγματοποιηθεί ακριβώς ένα από τα ενδεχόμενα Α, Β είναι ίση με:


    Pr(A)+Pr(B)-2Pr(ΑΒ).
  3. 3. 

    Τράπουλα. Μοιράζουμε στην τύχη 10 φύλλα από μια συνηθισμένη τράπουλα 52 φύλλων. Ποια η πιθανότητα η μοιρασιά να περιέχει τουλάχιστον έναν άσο και τουλάχιστον μία φιγούρα (δηλαδή βαλέ, ντάμα ή ρήγα);

  4. 4. 

    Ιδιότητες δεσμευμένης πιθανότητας. Έστω τρία οποιαδήποτε ενδεχόμενα A,B και C.

    1. (α’) 

      Να δείξετε ότι Pr(ABC)=Pr(A)Pr(B|A)Pr(C|AB).

    2. (β’) 

      Να βρεθεί η δεσμευμένη πιθανότητα Pr(A|B) αν ΑΒ=, αν AB, και αν BA.

    3. (γ’) 

      Να δείξετε ότι Pr(A|B)>Pr(A) αν και μόνο αν Pr(Β|Α)>Pr(B).

    Βεβαιωθείτε ότι κατανοείτε διαισθητικά γιατί ισχύουν τα παραπάνω.

  5. 5. 

    Ρίψεις ζαριού. Ρίχνουμε ένα δίκαιο ζάρι δύο φορές. Υποθέτουμε ότι οι ρίψεις είναι ανεξάρτητες μεταξύ τους. Έστω τα ακόλουθα ενδεχόμενα:

    1. (α’) 

      A= «το άθροισμα είναι ζυγό»,

    2. (β’) 

      B= «το άθροισμα είναι μονό»,

    3. (γ’) 

      C= «το άθροισμα είναι ίσο με 7»,

    4. (δ’) 

      D= «φέραμε δύο φορές το ίδιο»,

    5. (ε’) 

      E= «η πρώτη ζαριά ήρθε 6»,

    6. (στ’) 

      F= «το πρώτο ζάρι είναι 1»,

    7. (ζ’) 

      G= «το άθροισμα είναι ίσο με 6».

    Είναι ή όχι τα πιο κάτω ζεύγη ενδεχόμενων ανεξάρτητα;

    (α’) Α, Β, (β’) Β, C, (γ’) D, E, (δ’) C, F, (ε’) G, F.

  6. 6. 

    Δύο δοχεία. Έστω δύο διαφορετικά τμήματα, εκ των οποίων το πρώτο αποτελείται από m1 φοιτητές και w1 φοιτήτριες, ενώ το δεύτερο αποτελείται από m2 φοιτητές και w2 φοιτήτριες. Επιλέγουμε ένα τμήμα στην τύχη, χωρίς κάποια προτίμηση, και εκ των υστέρων επιλέγουμε τυχαία ένα άτομο από αυτό το τμήμα. Έστω F το ενδεχόμενο να επιλέξουμε το πρώτο τμήμα, και έστω Μ το ενδεχόμενο να επιλέξουμε φοιτητή.

    Ποια είναι η σχέση που πρέπει να ικανοποιούν τα m1,m2,w1,w2 ώστε να είναι ανεξάρτητα τα ενδεχόμενα F και Μ;

  7. 7. 

    Poker με δεσμευμένες πιθανότητες. Όπως στην Άσκηση 5 του Κεφαλαίου 4, ένας παίκτης του πόκερ παίρνει 5 φύλλα από μια κανονική τράπουλα 52 φύλλων. Χρησιμοποιώντας δεσμευμένες πιθανότητες και όχι τους κανόνες αρίθμησης του Κεφαλαίου 4, υπολογίστε τις πιθανότητες να έχει:

    1. (α’) 

      καρέ (δηλαδή 4 ίδια φύλλα, για παράδειγμα 4 άσους ή 4 ντάμες);

    2. (β’) 

      φουλ (δηλαδή ένα ζευγάρι και μία τριάδα, για παράδειγμα 3 άσους και 2 ρηγάδες);

    3. (γ’) 

      χρώμα (δηλαδή όλα κούπες ή όλα σπαθιά ή όλα μπαστούνια ή όλα καρό);

  8. 8. 

    Τεστ πολλαπλών απαντήσεων. Ένας μαθητής απαντά μια ερώτηση πολλαπλών απαντήσεων, με N δυνατές απαντήσεις. Αν ο μαθητής δεν ξέρει την απάντηση, επιλέγει μία από τις δυνατές απαντήσεις στην τύχη, χωρίς κάποια προτίμηση. Αν η πιθανότητα να ξέρει την απάντηση είναι p, ποια είναι η δεσμευμένη πιθανότητα να ήξερε την απάντηση δεδομένου ότι απάντησε σωστά;

  9. 9. 

    Δεσμευμένο μέτρο πιθανότητας. Έστω ενδεχόμενο B σε κάποιο χώρο πιθανότητας Ω, με Pr(B)>0. Να δείξετε ότι η συνάρτηση (A), η οποία ορίζεται ως (A)=Pr(A|B) για κάθε ενδεχόμενο Α, είναι ένα μέτρο πιθανότητας, δηλαδή ικανοποιεί τις συνθήκες:

    1. (α’) 

      Pr(A|B)0 για κάθε ενδεχόμενο A.

    2. (β’) 

      Pr(Ω|B)=1.

    3. (γ’) 

      Αν τα Ai,i=1,2, είναι ξένα ενδεχόμενα, τότε:


      Pr(i=1AiB)=i=1Pr(Ai|B).
  10. 10. 

    Συνέπειες ανεξαρτησίας. Να δείξετε ότι, αν τα Α και Β είναι ανεξάρτητα ενδεχόμενα, τότε τα ζεύγη Α και Β, A και Β, και Α και B είναι επίσης ανεξάρτητα. Μπορείτε να ερμηνεύσετε διαισθητικά το αποτέλεσμα; Υπόδειξη. Όπως στον κανόνα συνολικής πιθανότητας, το ενδεχόμενο A μπορεί να εκφραστεί ως ένωση δύο ξένων ενδεχομένων, A=(AB)(AB).

  11. 11. 

    Ανεξαρτησία και δέσμευση. Έστω τρία οποιαδήποτε ενδεχόμενα A,B και C.

    1. (α’) 

      Να δείξετε ότι Pr(ABC)=1-Pr(A|BC)Pr(B|C)Pr(C).

    2. (β’) 

      Να δείξετε ότι, αν το ενδεχόμενο A είναι ανεξάρτητο από τον εαυτό του, τότε αναγκαστικά θα έχουμε είτε Pr(A)=0 ή Pr(A)=1.

    3. (γ’) 

      Να δείξετε ότι αν Pr(A)=0 ή Pr(A)=1, τότε το A είναι ανεξάρτητο του B για οποιοδήποτε ενδεχόμενο Β.

  12. 12. 

    Κι άλλη τράπουλα. Επιλέγουμε 5 χαρτιά (ανεξαρτήτως της σειράς) στην τύχη από μια συνηθισμένη τράπουλα.

    1. (α’) 

      Ποια η πιθανότητα να επιλέξαμε 4 άσους και μία φιγούρα;

    2. (β’) 

      Ποια η πιθανότητα, δεδομένου ότι επιλέξαμε ακριβώς μία φιγούρα, τα άλλα 4 φύλλα να είναι άσοι;

    3. (γ’) 

      Ποια η πιθανότητα να επιλέξαμε 4 φιγούρες και έναν άσο;

    4. (δ’) 

      Είναι ή όχι τα ενδεχόμενα στο (α’) και στο (γ’) ανεξάρτητα; Αποδείξτε την απάντησή σας.

  13. 13. 

    Κανόνας δεσμευμένης συνολικής πιθανότητας. Να δείξετε πως, για τρία οποιαδήποτε ενδεχόμενα E,F και G, έχουμε:


    Pr(E|F)=Pr(E|GF)Pr(G|F)+Pr(E|GF)Pr(G|F).
  14. 14. 

    Μεσογειακή αναιμία. Σε κάποιο πληθυσμό, το 8% των ατόμων έχει το στίγμα της μεσογειακής αναιμίας. Έστω ότι ένα τυχαία επιλεγμένο άτομο κάνει μια εξέταση για να διαπιστώσει αν έχει το στίγμα ή όχι. Η εξέταση δεν είναι απόλυτα ακριβής, και η πιθανότητα το αποτέλεσμα να βγει θετικό, ενώ δεν υπάρχει στίγμα, είναι 10%. Επιπλέον, η πιθανότητα να βγει το αποτέλεσμα αρνητικό, ενώ υπάρχει στίγμα, είναι 1%.

    1. (α’) 

      Ποια η πιθανότητα να έχει στίγμα κάποιος που κάνει την εξέταση και προκύπτει θετικό αποτέλεσμα;

    2. (β’) 

      Ποια είναι η αντίστοιχη πιθανότητα για κάποιον που κάνει την εξέταση δύο ανεξάρτητες φορές, και προκύπτει θετικό αποτέλεσμα την πρώτη φορά και αρνητικό αποτέλεσμα τη δεύτερη;

  15. 15. 

    Ανεπιθύμητες εγκυμοσύνες. Από το σύνολο των γυναικών που κάνουν ένα τεστ εγκυμοσύνης, μόνο το 12% είναι έγκυες. Έστω ότι το τεστ έχει τις εξής πιθανότητες σφάλματος: Pr(θετικό | όχι έγκυος) = 1% και Pr(αρνητικό | έγκυος) = 3%.

    1. (α’) 

      Ποια η πιθανότητα να είναι έγκυος μια γυναίκα η οποία κάνει το τεστ και βγαίνει θετικό;

    2. (β’) 

      Ποια είναι η αντίστοιχη πιθανότητα για μια γυναίκα που κάνει το τεστ 2 ανεξάρτητες φορές και βγει την πρώτη θετικό και τη δεύτερη αρνητικό;

  16. 16. 

    Απάτη. Έστω ότι υποπτευόμαστε πως κάποιος χρησιμοποιεί ένα κάλπικο ζάρι, το οποίο δεν φέρνει ποτέ «6» και μάλιστα στην πλευρά του «6» έχει σημειωμένο το «1». Αλλά δεν είμαστε σίγουροι, οπότε θεωρούμε ότι υπάρχουν ίσες πιθανότητες να χρησιμοποιεί είτε ένα τέτοιο κάλπικο ζάρι είτε ένα δίκαιο. Όταν τον κατηγορούμε ότι σε έξι συνεχόμενες ζαριές έφερε τα αποτελέσματα 1,5,2,1,1,2, τα οποία δεν περιέχουν ούτε ένα «6», εκείνος διατείνεται ότι «Σιγά! Αυτό μια χαρά μπορεί να συμβεί και με το δίκαιο ζάρι!». Εμείς όμως τον αποστομώνουμε υπολογίζοντας πως η πιθανότητα να είναι δίκαιο το ζάρι δεδομένων αυτών των αποτελεσμάτων είναι μόλις μία στις εννιά! Αποδείξτε ότι έχουμε δίκιο.



Κεφάλαιο 6 Διακριτές τυχαίες μεταβλητές

[Επιστροφή στα περιεχόμενα]


Σε σύνθετα προβλήματα των πιθανοτήτων, όπως π.χ. σε προβλήματα ανάλυσης πολύπλοκων δικτύων ή στη στατιστική ανάλυση μεγάλων δεδομένων, η λεπτομερής, στοιχείο-προς-στοιχείο περιγραφή του πλήρους χώρου πιθανότητας Ω είναι εξαιρετικά χρονοβόρα, και συχνά είναι και περιττή. Όπως θα δούμε σε αυτό το κεφάλαιο, η έννοια της τυχαίας μεταβλητής μάς επιτρέπει να παρακάμψουμε την πιο πάνω διαδικασία.22Ορισμένα από τα αποτελέσματα που θα δούμε απαιτούν κάποιες επιπλέον τεχνικές υποθέσεις, οι οποίες όμως δεν επηρεάζουν την ουσία τους. Περαιτέρω λεπτομέρειες δίνονται στην Ενότητα 6.3.


Παράδειγμα 6.1

Ρίχνουμε ένα δίκαιο νόμισμα Ν φορές, και ορίζουμε τις εξής τυχαίες ποσότητες: Για κάθε i=1,2,,N, έστω:


Xi={1,αν φέραμε Κ τη φορά i,0,αν φέραμε Γ τη φορά i.

Τα Xi είναι τυχαίες μεταβλητές, και το κάθε Xi περιγράφει το αποτέλεσμα της ρίψης i.

Παρομοίως, αν ορίσουμε την ποσότητα Y ως το πλήθος από Κορώνες στις Ν ρίψεις, τότε το Y είναι μια άλλη τυχαία μεταβλητή η οποία μπορεί και να εκφραστεί ως,


Y=X1+X2++XN.

6.1 Ορισμός και βασικές ιδιότητες

Ορισμός 6.1

(Τυχαία μεταβλητή)

  1. 1. 

    (Διαισθητικά) Μια τυχαία μεταβλητή (Τ.Μ.) είναι μια οποιαδήποτε ποσότητα που εξαρτάται από την έκβαση ενός τυχαίου πειράματος.

  2. 2. 

    (Μαθηματικά) Μια τυχαία μεταβλητή (Τ.Μ.) X είναι μια οποιαδήποτε συνάρτηση X:Ω για κάποιο χώρο πιθανότητας Ω.


Παράδειγμα 6.2

Στο Παράδειγμα 6.1, ο χώρος πιθανότητας Ω αποτελείται από όλες τις 2Ν δυνατές Ν-άδες αποτελεσμάτων για τις Ν ρίψεις. Π.χ., το στοιχείο KKKΩ (N φορές) αντιστοιχεί στο να φέρουμε Ν φορές Κορώνα.

Αν θέλαμε να ορίσουμε τις τυχαίες μεταβλητές Xi απολύτως σχολαστικά, θα λέγαμε ότι, για κάθε ωΩ,


Xi(ω)={1,αν στη θέση i του ω έχουμε Κ,0,αν στη θέση i του ω έχουμε Γ.

Με την ίδια λογική, η Τ.Μ. Y που περιγράφει το πλήθος από Κορώνες στις N ρίψεις θα μπορούσε να οριστεί σαν συνάρτηση στο Ω ως Y(ω)=«πλήθος από Κ στο ω» ή, εναλλακτικά, όπως πριν,


Y(ω)=X1(ω)+X2(ω)++XN(ω).
Ορισμός 6.2
  1. 1. 

    Το σύνολο όλων των δυνατών (πραγματικών) τιμών που μπορεί να πάρει μια τυχαία μεταβλητή X είναι το σύνολο τιμών της X και συμβολίζεται SX ή απλά S.

  2. 2. 

    Μια τυχαία μεταβλητή X είναι διακριτή αν το σύνολο τιμών της είναι είτε πεπερασμένο είτε άπειρο αλλά αριθμήσιμο.

  3. 3. 

    Η πυκνότηταδιακριτή συνάρτηση πυκνότητας πιθανότητας) μια διακριτής Τ.Μ. X με σύνολο τιμών SX είναι η συνάρτηση P:SX[0,1], που ορίζεται ως:33Σημειώνουμε ότι, σε μεγάλο μέρος της βιβλιογραφίας, η συνάρτηση P(x) την οποία εδώ ονομάζουμε πυκνότητα μιας διακριτής Τ.Μ., συχνά λέγεται μάζα της X.


    P(x)=Pr(X=x),για κάθεxS.

Παρατήρηση:
Από αυστηρά μαθηματική σκοπιά, μια τυχαία μεταβλητή X που ορίζεται ως συνάρτηση σε κάποιο χώρο πιθανότητας Ω, έχει σύνολο τιμών το πεδίο τιμών της συνάρτησης X:Ω, δηλαδή το σύνολο SX={x:f(ω)=xγια κάποιοωΩ}. Τότε, δεδομένου κάποιου μέτρου πιθανότητας στο Ω, η πυκνότητα της X ορίζεται ως,

P(x)=({ωΩ:X(ω)=x}),για κάθεxS.

Παράδειγμα 6.3

Στο Παράδειγμα 6.1 όλες οι Τ.Μ. Xi έχουν σύνολο τιμών SXi={0,1} και όλες έχουν την ίδια πυκνότητα P που είναι: P(1)=1/2 και P(0)=1/2. Η Τ.Μ. Y έχει σύνολο τιμών το SY={0,1,2,,N}, και αποτελεί ειδική περίπτωση μιας σημαντικής ομάδας τυχαίων μεταβλητών – των τυχαίων μεταβλητών με «διωνυμική κατανομή» – τις οποίες θα εξετάσουμε αναλυτικά στο επόμενο κεφάλαιο.

Η πυκνότητα της Y μπορεί να υπολογιστεί σχετικά εύκολα μέσω των κανόνων αρίθμησης και πιθανότητας των προηγούμενων κεφαλαίων. Για παράδειγμα (θεωρώντας πως τα ενδεχόμενα που αφορούν τα αποτελέσματα των διαδοχικών ρίψεων είναι ανεξάρτητα) έχουμε,


P(0) = Pr(Y=0)


= Pr(«φέραμε Ν φορές Γ»)


= Pr(X1=0καιX2=0καιXN=0)


= Pr(X1=0)Pr(X2=0)Pr(XN=0)


= 121212=  2-N.

Στο Κεφάλαιο 7 θα δούμε αναλυτικά τον λεπτομερή υπολογισμό των υπόλοιπων τιμών της πυκνότητας της Τ.Μ. Y.

Ιδιότητες. Η πυκνότητα P μιας διακριτής Τ.Μ. X με σύνολο τιμών SX έχει τις εξής ιδιότητες:
  1. 1. 

    0P(x)1, για κάθε xSX.

  2. 2. 

    xSXP(x)=1.

  3. 3. 

    Pr(XT)=xTP(x),    για οποιοδήποτε TSX.

Απόδειξη:

Εφόσον κάθε P(x) είναι μια πιθανότητα, η πρώτη ιδιότητα είναι προφανής.

Η τρίτη ιδιότητα είναι συνέπεια του κανόνα πιθανότητας #3 του Κεφαλαίου 3. Εφόσον τα ενδεχόμενα {X=x} για διαφορετικά xSX είναι ξένα μεταξύ τους, έχουμε:


Pr(XT)=Pr(xT{X=x})=xTPr({X=x})=xTP(x).

Τέλος η δεύτερη ιδιότητα είναι ειδική περίπτωση της τρίτης: Αν θέσουμε T=SX, η τρίτη ιδιότητα μας δίνει,


xSXP(x)=Pr(XSX),

το οποίο ισούται με 1, από τον ορισμό του συνόλου τιμών.

Ορισμός 6.3

Η συνάρτηση κατανομής μιας Τ.Μ. X είναι η συνάρτηση F:[0,1] που ορίζεται ως,


F(x)=Pr(Xx),

για κάθε x.


Παρατηρήσεις:

  1. 1. 

    Από τον ορισμό της συνάρτησης κατανομής και την τρίτη ιδιότητα της πυκνότητας πιο πάνω, βλέπουμε πως η συνάρτηση κατανομής F(x) μιας διακριτής Τ.Μ. μπορεί εύκολα να υπολογιστεί από την πυκνότητά της μέσω της σχέσης,


    F(x)=Pr(Xx)=yS:yxP(x).
    (6.1)
  2. 2. 

    Παρατηρούμε ότι, αν x>x, τότε {Xx}{Xx}, και από τον κανόνα πιθανότητας #2,


    F(x)=Pr(Xx)Pr(Xx)=F(x),

    άρα η F είναι αύξουσα συνάρτηση.

    Επίσης, αφού προφανώς Pr(X<)=1, έχουμε limx+F(x)=1. Παρομοίως, αφού προφανώς Pr(X-)=0, έχουμε limx-F(x)=0. Για την αυστηρή τεκμηρίωση αυτών των δύο ορίων δείτε την Άσκηση 2 στο τέλος του Κεφαλαίου.

Παράδειγμα 6.4

Στρίβουμε ένα νόμισμα με Pr(K)=p για κάποιο p(0,1), σε συνεχόμενες, ανεξάρτητες ρίψεις. Όπως και στα προηγούμενα παραδείγματα, για κάθε i=1,2,,N ορίζουμε τις Τ.Μ.,


Xi={1,αν φέραμε Κ τη φορά i,0,αν φέραμε Γ τη φορά i,

όπου κάθε Xi περιγράφει το αποτέλεσμα της ρίψης i. Όπως πριν, όλες οι Xi έχουν το ίδιο σύνολο τιμών SXi=SX={0,1} και την ίδια πυκνότητα P που ικανοποιεί, P(1)=p και P(0)=1-p. Στο Σχήμα 6.1 βλέπουμε τη γραφική αναπαράσταση της συνάρτησης κατανομής F(x) των Xi. Εφόσον η Xi παίρνει μόνο τις τιμές 0 και 1, για x<0 η πιθανότητα F(x)=Pr(Xx) ισούται με μηδέν, και για x1 έχουμε F(x)=Pr(Xx)=1. Τέλος αν το x ανήκει στο διάστημα [0,1), τότε,


F(x)=Pr(Xx)=Pr(X=0)=P(0)=1-p.
Σχήμα 6.1: Γραφική αναπαράσταση της συνάρτησης κατανομής F(x) των Xi.

Ορίζουμε επίσης την Τ.Μ. Ζ=«πρώτη φορά που θα έρθει Κ», δηλαδή, έχουμε Ζ=m αν η πρώτη φορά που φέραμε Κ είναι στη ρίψη m:


Ζ={1,ανX1=1,2,ανX1=0,X2=1,3,ανX1=X2=0,X3=1,m,ανX1=X2==Xm-1=0,Xm=1.

Η Z έχει σύνολο τιμών όλους τους φυσικούς αριθμούς, SΖ=={1,2,} και η πυκνότητά της, PZ, είναι,


PZ(1) = Pr(Z=1)=Pr(X1=1)=p,

PZ(2) = Pr(Z=2)=Pr(X1=0καιX2=1)=(1-p)p,

και γενικά, για κάθε m1,


PZ(m)=Pr(Z=2)=Pr(X1==Xm-1=0καιXm=1)=(1-p)m-1p,
(6.2)

όπου φυσικά έχουμε χρησιμοποιήσει το γεγονός ότι τα αποτελέσματα των διαδοχικών ρίψεων είναι ανεξάρτητα. Η συνάρτηση κατανομής FZ της Z μπορεί εύκολα να υπολογιστεί όπως πιο πάνω για τις Xi. Αφού η Z παίρνει μόνο τις τιμές 1,2,3,, για x<1 έχουμε FZ(x)=Pr(Xx)=0, και για οποιοδήποτε x1,


FZ(x)=Pr(Xx)=Pr(Xx),

όπου το x συμβολίζει το ακέραιο μέρος ενός πραγματικού αριθμού x. Συνεπώς, η FZ(x) ισούται με 1-Pr(X>x), και παρατηρούμε ότι το να έχουμε X>k για κάποιο k είναι ισοδύναμο με τον να φέραμε k φορές Γ στις πρώτες k ρίψεις. Άρα, τελικά έχουμε,


FZ(x)=1-Pr(xφορέςΓ)=1-(1-p)x,για κάθεx1.

Οι γραφικές αναπαραστάσεις της πυκνότητας PZ(m) και της συνάρτησης κατανομής FZ(x) δίνονται στο Σχήμα 6.2.

Σχήμα 6.2: Γραφική αναπαράσταση της πυκνότητας και της συνάρτησης κατανομής της Τ.Μ. Ζ.
Παρατήρηση: Στο πιο πάνω παράδειγμα, τι θα συνέβαινε αν φέρναμε Γ επ’ άπειρο; Αν, δηλαδή, όλα τα Xi ήταν ίσα με μηδέν, οπότε θα είχαμε Z=; Εκ πρώτης όψεως φαίνεται να έχουμε παραλείψει αυτή την εκδοχή, αλλά στην πραγματικότητα το ενδεχόμενο {Z=} έχει πιθανότητα μηδέν, όπως εύκολα αποδεικνύεται. Για παράδειγμα, από τον κανόνα πιθανότητας #2 βλέπουμε πως,

Pr(Z=)Pr(Z>m)=1-FZ(m)=(1-p)m,

για οποιοδήποτε m1, και το δεξί μέρος πιο πάνω τείνει στο μηδέν καθώς m. Άρα, αναγκαστικά έχουμε Pr(Z=)=0 και κατά συνέπεια μπορούμε ασφαλώς να παραλείψουμε αυτό το ενδεχόμενο από το σύνολο τιμών της Z.


Παράδειγμα 6.5

Συνεχίζοντας το Παράδειγμα 6.4, έστω τώρα πως το νόμισμα είναι δίκαιο (p=1/2), και πως κάποιος μας προτείνει να παίξουμε το εξής παιχνίδι: Θα του δώσουμε 2.50 ευρώ και θα στρίψουμε το νόμισμα μέχρι την πρώτη φορά που θα φέρουμε Κ. Αν φέρουμε Κ με την πρώτη, θα μας δώσει ένα ευρώ. Αν φέρουμε Γ και μετά Κ, θα μας δώσει δύο ευρώ. Και, γενικά, αν φέρουμε (m-1) φορές Γ και για πρώτη φορά φέρουμε Κ τη φορά m, θα μας δώσει m ευρώ (βλ. Ενότητα 2.1).

Είναι ή όχι δίκαιη η αμοιβή των δυόμισι ευρώ; Ποια θα ήταν μια δίκαιη αμοιβή; Πώς θα μπορούσαμε να την υπολογίσουμε;

Πριν απαντήσουμε, παρατηρούμε πως, γνωρίζοντας την πυκνότητα PZ της Z από το προηγούμενο παράδειγμα, μπορούμε εύκολα να υπολογίσουμε κάποιες απλές πιθανότητες. Για παράδειγμα, η πιθανότητα να πάρουμε σ’ αυτό το παιχνίδι μεταξύ 2 και 5 ευρώ είναι,


Pr(2X5) = Pr({X=2}{X=3}{X=4}{X=5})


= Pr(X=2)+Pr(X=3)+Pr(X=4)+Pr(X=5)


= PZ(2)+PZ(3)+PZ(4)+PZ(5)


= (12)2+(12)3+(12)4+(12)5


= 1532.

Επιστρέφοντας στο θέμα της δίκαιης αμοιβής, μια λογική σκέψη είναι η ακόλουθη. Ας φανταστούμε ότι παίζουμε το ίδιο παιχνίδι πολλές φορές συνεχόμενα. Αφού το αποτέλεσμα εξαρτάται από τις (τυχαίες) ρίψεις του νομίσματος, κάθε φορά θα παίρνουμε ένα διαφορετικό ποσό. Μακροπρόθεσμα, μια «δίκαιη» αμοιβή θα μπορούσε να θεωρηθεί ο μέσος όρος του ποσού που παίρνουμε ανά παιχνίδι.

Μεταφράζοντας την πιο πάνω σκέψη με λίγο μεγαλύτερη μαθηματική ακρίβεια, κατ’ αρχάς παρατηρούμε πως το ποσό που θα πάρουμε σ’ αυτό το τυχερό παιχνίδι ισούται με την Τ.Μ. Z του προηγούμενου παραδείγματος. Εκεί υπολογίσαμε την πυκνότητά της Z στη σχέση (6.2), οπότε θέτοντας p=1/2, έχουμε,


PΖ(m)=Pr(Z=m)=Pr(«παίρνουμε m ευρώ»)=(12)m,για κάθεm=1,2,.

Διαισθητικά, τη φράση «με πιθανότητα 1/2 θα πάρουμε 1 ευρώ» μπορούμε να την ερμηνεύσουμε ως «μακροπρόθεσμα, τις μισές φορές θα πάρουμε 1 ευρώ» παρομοίως, για κάθε m1 περιμένουμε πως, μακροπρόθεσμα, το ποσοστό των φορών που θα πάρουμε m ευρώ θα είναι P(m). Άρα, το κατά-μέσο-όρο-μακροπρόθεσμο ποσό που θα πάρουμε θα ισούται με,


1PZ(1)+2PZ(2)++mPZ(m)+=m=1mPΖ(m)=m=1m12m.
(6.3)

Αφού το άθροισμα της πιο πάνω σειράς είναι ίσο με 2, συμπεραίνουμε πως τα 2 ευρώ θα ήταν μια δίκαιη αμοιβή.44Για τον λεπτομερή υπολογισμό των σειρών m=1m  2-m, m=1m2 2-m, και για άλλα σχετικά αποτελέσματα, βλ. την Ενότητα 7.3 του επόμενου κεφαλαίου.

Ο συλλογισμός που μας οδήγησε στον υπολογισμό (6.3) μας οδηγεί και στον πιο κάτω γενικό ορισμό.

6.2 Μέση τιμή, διασπορά, ανεξαρτησία

Ορισμός 6.4

Η μέση τιμήαναμενόμενη τιμή, ή προσδοκώμενη τιμή) μιας διακριτής Τ.Μ. X με σύνολο τιμών το S και πυκνότητα P(x), ορίζεται ως:


μ=E(X)=xSxP(x).
(6.4)

Γενικότερα, για οποιαδήποτε συνάρτηση f:S, η μέση τιμή της νέας Τ.Μ. f(X) ορίζεται ως:


E[f(X)]=xSf(x)P(x).
(6.5)

[Στην Άσκηση 1 στο τέλος του κεφαλαίου θα δείξετε πως ο δεύτερος ορισμός είναι στην πραγματικότητα συνέπεια του πρώτου.]


Παράδειγμα 6.6

Όπως υπολογίσαμε στο Παράδειγμα 6.5, η μέση τιμή της Τ.Μ. Z είναι,


Ε(Ζ)=m=1mPΖ(m)=m=1m2-m=2.

Αν, τώρα, το ποσό που παίρναμε στο τέλος του παιχνιδιού ήταν Ζ2 και όχι Ζ, τότε θα μπορούσαμε να υπολογίσουμε τη δίκαιη αμοιβή για το νέο παιχνίδι από τη μέση τιμή του Ζ2, ως,3


Ε(Ζ2)=m=1m2PΖ(m)=m=1m2  2-m=6.
Ορισμός 6.5

Η διασπορά μιας διακριτής Τ.Μ. X με μέση τιμή μ είναι:


σ2=Var(X)=E[(X-μ)2].
(6.6)

Η τυπική απόκλιση της X είναι: σ=Var(X).


Παρατηρήσεις:
  1. 1. 

    Διαισθητικά, η μέση τιμή μ μιας Τ.Μ. X μας λέει ότι οι τιμές της X «τείνουν να κυμαίνονται» γύρω από την τιμή μ. Παρομοίως, η διασπορά σ2 της X δίνει μια ποσοτική ένδειξη του πόσο μεγάλες τείνουν να είναι αυτές οι διακυμάνσεις. Συγκεκριμένα, από τον ορισμό βλέπουμε ότι η διασπορά είναι η «μέση τετραγωνική απόκλιση» της X από το μ, δηλαδή η μέση τιμή του τετραγώνου της απόστασης της τυχαίας τιμής X από τη μέση τιμή της.

  2. 2. 

    Συνδυάζοντας τον ορισμό της διασποράς (6.6) με τον γενικό ορισμό της μέσης τιμής (6.5), προκύπτει ότι, για κάθε διακριτή Τ.Μ. X με σύνολο τιμών S και πυκνότητα P(x), η διασπορά ισούται με:


    σ2=Var(X)=xS(x-μ)2P(x).
    (6.7)
  3. 3. 

    Από την έκφραση (6.7) αμέσως προκύπτει πως η διασπορά πάντοτε είναι Var(X)0. Επιπλέον, η μόνη περίπτωση η διασπορά να ισούται με μηδέν είναι αν όλοι οι όροι του αθροίσματος, (x-μ)2P(x), είναι μηδενικοί, πράγμα που μπορεί να συμβεί μόνο αν η T.M. X ισούται με τη σταθερά μ με πιθανότητα ένα! Στην Άσκηση 3 στο τέλος του κεφαλαίου θα δούμε μια ενδιαφέρουσα ιδιότητα τέτοιου είδους τετριμμένων «ντετερμινιστικών» Τ.Μ.

  4. 4. 

    Ξεκινώντας από τη σχέση (6.7), έχουμε ότι η διασπορά Var(X) μπορεί να εκφραστεί ως,


    xS(x-μ)2P(x) = xS(x2-2xμ+μ2)P(x)


    = xSx2P(x)-2μxSxP(x)+μ2xSP(x).

    Το πρώτο άθροισμα εδώ ισούται με E(X2) από την (6.5), το δεύτερο άθροισμα ισούται με E(X)=μ εξ ορισμού, και το τρίτο άθροισμα ισούται με 1 από την αντίστοιχη ιδιότητα της πυκνότητας. Συνεπώς, Var(X)=E(X2)-2μ2+μ2=E(X2)-μ2, και άρα έχουμε αποδείξει πως η διασπορά μιας οποιασδήποτε διακριτής Τ.Μ. X με μέση τιμή μ μπορεί εναλλακτικά να εκφραστεί:


    σ2=Var(X)=E(X2)-μ2.
    (6.8)
Παράδειγμα 6.7

Έστω μια Τ.Μ. X με την ίδια πυκνότητα όπως οι Τ.Μ. Xi του Παραδείγματος 6.4, δηλαδή X=1 ή 0, με πιθανότητα p ή (1-p), αντίστοιχα. Η X έχει σύνολο τιμών το S={0,1} και πυκνότητα P(1)=p, P(0)=1-p, για κάποιο δεδομένο p(0,1).

Η μέση τιμή και η διασπορά της X εύκολα υπολογίζονται ως,


μ = E(X)=  0P(0)+1P(1)=p,

σ2 = Var(X)=E(X2)-μ2=02P(0)+12P(1)-p2


= p-p2=p(1-p),

όπου για τη διασπορά χρησιμοποιήσαμε την έκφραση (6.8).

Παρατηρούμε ότι τα αποτελέσματα αυτά συμφωνούν με τη διαίσθησή μας πως, όσο μεγαλώνει η πιθανότητα p με την οποία έχουμε X=1, τόσο πιο πολύ τείνει η Τ.Μ. να παίρνει τη μεγαλύτερη από τις δύο τιμές της, και αντιστοίχως μεγαλώνει και η μέση τιμή της E(X)=p. Παρομοίως, στο Σχήμα 6.3 όπου δίνεται η γραφική αναπαράσταση της διασποράς της X ως συνάρτηση της παραμέτρου p, βλέπουμε πως η διασπορά είναι μεγαλύτερη όσο πιο κοντά είναι το p στο 1/2, άρα έχουμε μεγάλη διασπορά όταν οι τιμές της Τ.Μ. είναι πιο «τυχαίες» ή λιγότερο «προβλέψιμες».

Σχήμα 6.3: Γραφική αναπαράσταση της διασποράς μιας δυαδικής Τ.Μ. X (με τιμές X=1 με πιθ. p και X=0 με πιθ. (1-p)) ως συνάρτηση της παραμέτρου p.
Παράδειγμα 6.8

Για την Τ.Μ. Z στο Παράδειγμα 6.5 βρήκαμε πως η μέση τιμή της είναι μ=E(Z)=2, και στο Παράδειγμα 6.6 υπολογίσαμε πως E(Z2)=6. Συνεπώς, από τη σχέση (6.8), η διασπορά της Z ισούται με,


σ2=Var(Z)=E(Z2)-[E(Z)]2=6-22=2.

Παράδειγμα 6.9

Σε ένα τυχερό παιχνίδι, το κέρδος μας, έστω X, ισούται με 1 ευρώ ή με -3 ευρώ, με πιθανότητες 2/3 και 1/3 αντίστοιχα. Άρα η μέση τιμή του κέρδους μας είναι,


μ=E(X)=123+(-3)13=-13,

και συμπεραίνουμε πως, αν παίξουμε αυτό το παιχνίδι πολλές φορές, μακροπρόθεσμα θα βγούμε χαμένοι. Επιπλέον, από τον τύπο (6.8), το X έχει διασπορά,


Var(X)=E(X2)-μ2=1223+(-3)213-(-13)2=3293.5556,

και τυπική απόκλιση σ=32/91.886.

Στο Θεώρημα 6.1 θα εξετάσουμε τη μέση τιμή και τη διασπορά του αθροίσματος δύο τυχαίων μεταβλητών. Για τη διατύπωση των σχετικών ιδιοτήτων θα χρειαστούμε την εξής γενίκευση της έννοιας της ανεξαρτησίας:

Ορισμός 6.6 (Ανεξάρτητες Τ.Μ.)
  1. 1. 

    Δύο διακριτές Τ.Μ. X και Y με σύνολα τιμών SX,SY αντίστοιχα είναι ανεξάρτητες αν, για κάθε xSX,ySY τα ενδεχόμενα {X=x} και {Y=y} είναι ανεξάρτητα. Ισοδύναμα, οι X,Y είναι ανεξάρτητες αν και μόνο αν,


    Pr(X=x,Y=y)=Pr(X=x)Pr(Y=y),

    για κάθε xSX,ySY, όπου, χάριν συντομίας, συμβολίζουμε ως Pr(X=x,Y=y) την πιθανότητα του ενδεχομένου {X=xκαιY=y}.

  2. 2. 

    Οι διακριτές Τ.Μ. X1,X2,,XN είναι ανεξάρτητες αν και μόνο αν,


    Pr(X1=x1,X2=x2,,XN=xN)=Pr(X1=x1)Pr(X2=x2)Pr(XN=xN),

    για κάθε N-άδα τιμών x1SX1,x2SX2,,xNSXN, όπου SXi είναι το σύνολο τιμών της κάθε Xi.

  3. 3. 

    Οι διακριτές Τ.Μ. Xi σε μια άπειρη ακολουθία X1,X2, είναι ανεξάρτητες, αν οι Τ.Μ. X1,X2,,XN είναι ανεξάρτητες για κάθε N1.

Οι παρακάτω ιδιότητες αποτελούν κάποια από τα βασικότερα εργαλεία των πιθανοτήτων.

Θεώρημα 6.1 (Ιδιότητες μέσης τιμής και διασποράς) Για οποιεσδήποτε διακριτές Τ.Μ. X,Y και σταθερές a,b:
  • 1. 

    E(aX+bY)=aE(X)+bE(Y).

  • 2. 

    Var(aX+b)=a2Var(X).

Αν οι Τ.Μ. X,Y είναι ανεξάρτητες, τότε:

  • 3. 

    Ε(XY)=Ε(X)Ε(Y).

  • 4. 

    Var(X+Y)=Var(X)+Var(Y).

  • 5. 

    Pr(XTκαιYT)=Pr(XT)Pr(YT), για οποιαδήποτε υποσύνολα ΤSX, ΤSY.


Παρατήρηση: Η πρώτη ιδιότητα του θεωρήματος εύκολα επεκτείνεται και για οποιοδήποτε (πεπερασμένο) πλήθος N τυχαίων μεταβλητών. Για παράδειγμα, για Ν=3, χρησιμοποιώντας την Ιδιότητα 1 δύο φορές βρίσκουμε,


E(X1+X2+X3)=E[(X1+X2)+X3]=E(X1+X2)+E(X3)=E(X1)+E(X2)+E(X3).

Παρομοίως, έχουμε τη γενική περίπτωση,


Ε(i=1NXi)=i=1nE(Xi).

[Στο ίδιο πλαίσιο, μια χρήσιμη άσκηση είναι η εξής: Διατυπώστε και αποδείξτε την προφανή γενίκευση της Ιδιότητας 4 για N τυχαίες μεταβλητές.]


Πριν δώσουμε την απόδειξη, θα δούμε ένα παράδειγμα της χρήσης κάποιων από αυτές τις ιδιότητες και ένα χρήσιμο τεχνικό αποτέλεσμα.


Παράδειγμα 6.10

Παίζουμε 5 φορές «Κορώνα-Γράμματα» με ένα δίκαιο νόμισμα, όπου κερδίζουμε 1 ευρώ κάθε φορά που έρχεται Κ και χάνουμε 1 ευρώ όποτε έρχεται Γ. Έστω οι Τ.Μ. X1,X2,X3,X4,X5 όπου κάθε Xi=±1 με πιθανότητα 1/2. Εξετάζουμε 2 παραλλαγές του παιχνιδιού:

A. Παίζουμε 5 φορές κανονικά το παιχνίδι, με συνολικό κέρδος Y=X1+X2+X3+X4+X5.

B. Παίζουμε μόνο μία φορά, αλλά κερδίζοντας ή χάνοντας 5 ευρώ αντί για ένα, οπότε έχουμε συνολικό κέρδος Ζ=5X1.

Από τον ορισμό των Xi έχουμε, για κάθε i,


E(Xi) = 1(1/2)+(-1)(1/2)=0,

Var(Xi) = E(Xi2)-02=12(1/2)+(-1)2(1/2)=1.

Χρησιμοποιώντας την πρώτη ιδιότητα του θεωρήματος, μπορούμε να υπολογίσουμε το «προσδοκώμενο» κέρδος,


E(Y) = E(X1+X2+X3+X4+X5)


= E(X1)+E(X2)+E(X3)+E(X4)+E(X5)


= 0,

E(Z) = E(5X1)=5E(X1)


= 0,

άρα και στις δύο περιπτώσεις το μέσο κέρδος είναι μηδενικό.

Για τις διασπορές των δύο παιχνιδιών, από τις Ιδιότητες 2 και 4 βρίσκουμε, αντίστοιχα,


Var(Y) = Var(X1+X2+X3+X4+X5)


= Var(X1)+Var(X2)+Var(X3)+Var(X4)+Var(X5)


= 5,

και Var(Z)=Var(5X1)=52Var(X1)=25. Παρατηρούμε λοιπόν πως, αν και τα δύο παιχνίδια έχουν την ίδια αναμενόμενη απόδοση, το δεύτερο έχει πολύ μεγαλύτερες διακυμάνσεις, συνεπώς και πολύ μεγαλύτερο ρίσκο.

Λήμμα 6.1

Για οποιεσδήποτε δύο διακριτές Τ.Μ. X,Y και για κάθε xSX έχουμε,


Pr(X=x)=ySYPr(X=x,Y=y),

όπου, πάλι χάριν συντομίας, συμβολίζουμε την πιθανότητα του ενδεχομένου {X=xκαιY=y} ως Pr(X=x,Y=y).

Απόδειξη του Λήμματος 6.1:

Η απόδειξη είναι παρόμοια με εκείνη του κανόνα συνολικής πιθανότητας στο Κεφάλαιο 5. Έστω ένα δεδομένο στοιχείο xSX. Για κάθε ySY ορίζουμε το ενδεχόμενο,


Εy={X=xκαιY=y},

και παρατηρούμε πως,


{X=x}=ySY{X=x,Y=y}=ySYEy.

Εφόσον τα Ey είναι όλα ξένα μεταξύ τους, το αποτέλεσμα προκύπτει από τον κανόνα πιθανότητας #3.

Απόδειξη του Θεωρήματος 6.1:

1. Για να υπολογίσουμε τη μέση τιμή του aX+bY παρατηρούμε ότι η νέα διακριτή Τ.Μ. Ζ=aX+bY έχει σύνολο τιμών,


SZ={ax+bx:γιαxSX,ySY},

και παίρνει κάθε τιμή στο SZ με αντίστοιχη πιθανότητα, Pr(X=x,Y=y). Άρα,


E(aX+bY) = xSX,ySY(ax+by)Pr(X=x,Y=y)


= axSX,ySYxPr(X=x,Y=y)



+bxSX,ySYyPr(X=x,Y=y)


= axSX[xySYPr(X=x,Y=y)]



+bySY[yxSXPr(X=x,Y=y)]


=(a) axSXxPr(X=x)+bySYyPr(Y=y)


= aE(X)+bE(Y),

όπου στο βήμα (a) χρησιμοποιήσαμε το Λήμμα 6.1.

2. Εφαρμόζοντας τη σχέση (6.8) στην Τ.Μ. (aX+b) έχουμε,


Var(aX+b) = E[(aX+b)2]-(E[aX+b])2


=(b) E[a2X2+2abX+b2]-[aE(X)+b]2


=(c) a2E(X2)+2abE(X)+b2-a2(E(X))-22abE(X)-b2


= a2(E(X2)-(E(X)))2


=(d) a2Var(X),

όπου στο βήμα (b) εφαρμόσαμε την Ιδιότητα 1 στον δεύτερο όρο του αθροίσματος, στο βήμα (c) εφαρμόσαμε την Ιδιότητα 1 στον πρώτο όρο, και στο βήμα (d) χρησιμοποιήσαμε πάλι τη σχέση (6.8).

Έστω τώρα ότι οι X,Y είναι ανεξάρτητες.

3. Με το ίδιο σκεπτικό όπως στην απόδειξη της πρώτης ιδιότητας, υπολογίζουμε τη μέση τιμή της Τ.Μ. XY ως,


E(XY) = xSX,ySYxyPr(X=x,Y=y)


=(e) xSX,ySYxyPr(X=x)Pr(Y=y)


= [xSXxPr(X=x)][ySYyPr(Y=y)]


= E(X)E(Y),

όπου στο βήμα (e) χρησιμοποιήσαμε τον ορισμό της ανεξαρτησίας δύο τυχαίων μεταβλητών.

4. Εφαρμόζοντας τη σχέση (6.8) στην Τ.Μ. (X+Y) έχουμε,


Var(X+Y)=E[(X+Y)2]-(E[X+Y])2,

και από την Ιδιότητα 1,


Var(X+Y) = E[X2+2XY+Y2]-(E(X)+E(Y))2


= E(X2)+2E(XY)+E(Y2)-(E(X))-22E(X)E(Y)-(E(Y))2


=(f) E(X2)-(E(X))+2E(Y2)-(E(Y))2


=(g) Var(X)+Var(Y),

όπου χρησιμοποιήσαμε στο βήμα (f) την Ιδιότητα 3 και στο βήμα (g) τη σχέση (6.8).

5. Ο υπολογισμός για την απόδειξη της τελευταίας ιδιότητας είναι παρόμοιος με εκείνον στην Ιδιότητα 3. Παρατηρώντας ότι τα ενδεχόμενα {X=x,Y=y}, που αντιστοιχούν σε διαφορετικά ζεύγη τιμών (x,y), είναι ξένα και χρησιμοποιώντας τον ορισμό της ανεξαρτησίας,


Pr(XT,YT) = Pr(xT,yT{X=x,Y=y})


= xT,yTPr(X=x,Y=y)


= xT,yTPr(X=x)Pr(Y=y)


= [xTPr(X=x)][yTPr(Y=y)]


= Pr(XT)Pr(YT),

ολοκληρώνουμε την απόδειξη.

6.3 Μετρησιμότητα και άπειρες τιμές

Κλείνουμε αυτό το κεφάλαιο με ορισμένες επιπλέον λεπτομέρειες, από τη σκοπιά της αυστηρής μαθηματικής προσέγγισης, για κάποιους από του ορισμούς και τα αποτελέσματα που είδαμε.

6.3.1 Ορισμός τυχαίας μεταβλητής

Στην Ενότητα 3.3 του τρίτου κεφαλαίου σημειώσαμε πως, σε κάποιες περιπτώσεις που ο χώρος πιθανότητας δεν είναι πεπερασμένος ή αριθμήσιμος, το μέτρο πιθανότητας δεν μπορεί να οριστεί για όλα τα υποσύνολα του Ω. Ένα αντίστοιχο φαινόμενα εμφανίζεται και στις τυχαίες μεταβλητές. Σε περιπτώσεις που ο χώρος πιθανότητας είναι μη αριθμήσιμος, μπορεί να υπάρχουν συναρτήσεις X:Ω για τις οποίες κάποιες πιθανότητες της μορφής Pr(Xa) να μην μπορούν να ορισθούν. Αυτό συμβαίνει διότι κάποια από τα αντίστοιχα ενδεχόμενα,


{Xa}={ωΩτέτοια ώστεX(ω)a}Ω,

μπορεί να είναι παθολογικά (με την έννοια που περιγράψαμε στην Ενότητα 3.3), ή μη μετρήσιμα όπως λέγονται στα μαθηματικά. Τέτοιου είδους παθολογικές συναρτήσεις ονομάζονται «μη μετρήσιμες» και δεν τις θεωρούμε τυχαίες μεταβλητές.

Η γενική λύση σε αυτό το πρόβλημα είναι να περιορίσουμε τις συναρτήσεις X:Ω τις οποίες χρησιμοποιούμε ως τυχαίες μεταβλητές. Ο ακριβής προσδιορισμός αυτών των «καλών» συναρτήσεων αποτελεί μέρος της περιοχής της μαθηματικής ανάλυσης που ονομάζεται θεωρία μέτρου, με την οποία δεν θα ασχοληθούμε περαιτέρω. Περισσότερες πληροφορίες για αυτά τα ζητήματα μπορείτε να βρείτε σε πιο προχωρημένα βιβλία μαθηματικής ανάλυσης ή πιθανοτήτων.

Ο τρόπος με τον οποίο εμείς θα αποφύγουμε τέτοιου είδους παθολογίες είναι ορίζοντας τις Τ.Μ. που θέλουμε να χρησιμοποιήσουμε μέσω της πυκνότητάς τους. Έστω, για παράδειγμα, πως θέλουμε να χρησιμοποιήσουμε μια Τ.Μ. X η οποία να παίρνει τις τιμές,


X={1,με πιθ. 1/2,2,με πιθ. 1/4,3,με πιθ. 1/8,4,με πιθ. 1/8,

δηλαδή να έχει σύνολο τιμών S={1,2,3,4} και πυκνότητα P(x) με P(1)=1/2, P(2)=1/4, P(3)=P(4)=1/8. Πώς μπορεί να οριστεί μια τέτοια Τ.Μ. X ως συνάρτηση X:Ω σε κάποιο χώρο πιθανότητας Ω; Απλά θέτοντας Ω=S, ορίζοντας X(ω)=ω για κάθε ω=1,2,3,4, και ορίζοντας ένα μέτρο πιθανότητας που για τα στοιχειώδη ενδεχόμενα θα έχει,


({1})=P(1)=1/2,({2})=P(2)=1/4,

({3})=P(3)=1/8,({4})=P(4)=1/8.

Τότε, για καθεμία από τις τιμές k=1,2,3,4 της X,


Pr(X=k)=Pr({ωτέτοια ώστεX(ω)=k})=({k})=P(k),

όπως και ήταν το ζητούμενο.

Γενικά, μια οποιαδήποτε διακριτή Τ.Μ. με δεδομένη πυκνότητα P σε κάποιο σύνολο τιμών S μπορεί να οριστεί ως συνάρτηση σε κάποιον διακριτό χώρο πιθανότητας Ω με τον ίδιο τρόπο. Θέτουμε Ω=S, ορίζουμε το μέτρο πιθανότητας για όλα τα στοιχειώδη ενδεχόμενα ως,


({ω})=P(ω),για κάθεωS=Ω,

και τέλος θέτουμε X(ω)=ω. Έτσι, η X πράγματι παίρνει την κάθε τιμή xS με πιθανότητα P(x):


Pr(X=x)=Pr({ωτέτοια ώστεX(ω)=x})=({x})=P(x).

Μια αντίστοιχη κατασκευή θα μας επιτρέψει να ορίσουμε και όλες τις συνεχείς Τ.Μ. που θα χρειαστούμε αργότερα, βλ. Ενότητα 10.3 του Κεφαλαίου 10.

6.3.2 Ορισμοί E(X),Var(X), και επιπλέον συνθήκες

Έστω μια διακριτή Τ.Μ. X με πυκνότητα P σε κάποιο σύνολο τιμών S. Αν το S δεν είναι πεπερασμένο (όπως π.χ. για την Τ.Μ. Z του Παραδείγματος 6.5), τότε η μέση τιμή E(X) της X δίνεται από ένα άπειρο άθροισμα, το οποίο όμως, όπως γνωρίζουμε από τα βασικά αποτελέσματα του διαφορικού λογισμού, μπορεί να παίρνει τις τιμές ±, ή και να μην ορίζεται καν. (Για ένα παράδειγμα μιας διακριτής Τ.Μ. με άπειρη μέση τιμή δείτε την Άσκηση 4 στο τέλος του κεφαλαίου.) Για να αποφύγουμε τεχνικά ζητήματα τα οποία ξεφεύγουν κατά πολύ από τα ζητούμενα του παρόντος βιβλίου, υιοθετούμε τις πιο κάτω συμβατικές υποθέσεις, οι οποίες θα παραμείνουν εν ισχύ σε όλα τα υπόλοιπα κεφάλαια.


Συμβάσεις

  • • 

    Πάντοτε, όταν λέμε πως «η διακριτή Τ.Μ. X έχει μέση τιμή μ=E(X)», εμμέσως υποθέτουμε ότι το άθροισμα της σειράς που δίνει την E(X) ορίζεται, και ότι η τιμή του είναι πεπερασμένη.

  • • 

    Πάντοτε, όταν λέμε ότι «η διακριτή Τ.Μ. X έχει διασπορά σ2=Var(X)», εμμέσως υποθέτουμε ότι η μέση τιμή μ=E(X) ορίζεται και είναι πεπερασμένη, και πως το άθροισμα της σειράς που δίνει την Var(X) ορίζεται και δίνει πεπερασμένο αποτέλεσμα.

  • • 

    Όποτε διατυπώνεται μια ιδιότητα για τη μέση τιμή (ή τη διασπορά), εμμέσως υποθέτουμε πως η αντίστοιχη μέση τιμή (αντίστοιχα, διασπορά) ορίζεται και είναι πεπερασμένη.

Για παράδειγμα, η εναλλακτική έκφραση για τη διασπορά που δώσαμε στη σχέση (6.8) ισχύει εφόσον η μέση τιμή μ και η διασπορά σ2 ορίζονται και είναι πεπερασμένες. Παρομοίως, η πρώτη ιδιότητα του Θεωρήματος 6.1 ισχύει εφόσον οι μέσες τιμές E(X) και E(Y) ορίζονται και είναι πεπερασμένες. Αντίστοιχες υποθέσεις καλύπτουν και τις Ιδιότητες 2, 3 και 4.

Τέλος, σημειώνουμε πως η θεωρία μέτρου επιτρέπει τον ορισμό της μέσης τιμής και της διασποράς κάτω από πιο γενικές συνθήκες, και παρέχει μαθηματικά εργαλεία τα οποία μας επιτρέπουν να διατυπώσουμε γενικότερες μορφές των αντίστοιχων ιδιοτήτων. Αλλά αυτές οι γενικεύσεις αφορούν λεπτά μαθηματικά ζητήματα και επιπλέον δεν μας είναι απαραίτητες. Κατά συνέπεια, δεν θα επεκταθούμε προς αυτή την κατεύθυνση.

6.4 Ασκήσεις

  1. 1. 

    Μέση τιμή συναρτήσεων Τ.Μ. Στον Ορισμό 6.4 ορίσαμε τη μέση τιμή της f(X) μέσω του τύπου (6.5). Αλλά η Y=f(X) είναι και η ίδια μια τυχαία μεταβλητή, με τη δική της πυκνότητα, έστω Q(y), και το δικό της σύνολο τιμών, έστω S. Δείξτε πως, αν εφαρμόσουμε τον τύπο του ορισμού (6.4) για τη μέση τιμή της Y, το αποτέλεσμα ισούται με εκείνο του γενικότερου τύπου (6.5) για τη μέση τιμή της f(X).

  2. 2. 

    Η συνάρτηση κατανομής στο ±. Χρησιμοποιώντας τα αποτελέσματα της Άσκησης 9 του Κεφαλαίου 3, αποδείξτε πως, για οποιαδήποτε διακριτή Τ.Μ. X με συνάρτηση κατανομής F(x), πάντοτε έχουμε:


    limxF(x)=1,καιlimx-F(x)=0.

    Παρατηρήστε ότι ακριβώς η ίδια απόδειξη ισχύει για οποιαδήποτε Τ.Μ., όχι απαραίτητα διακριτή.

  3. 3. 

    Ντετερμινιστικές Τ.Μ. Στην τρίτη παρατήρηση της Ενότητας 6.2 είδαμε πως μια Τ.Μ. έχει διασπορά Var(X)=0, αν και μόνο αν παίρνει μία και μόνο μία τιμή, με πιθανότητα 1. Τέτοιες τετριμμένες περιπτώσεις Τ.Μ. ονομάζονται ντετερμινιστικές. Αποδείξτε πως μια ντετερμινιστική Τ.Μ. X είναι ανεξάρτητη από οποιαδήποτε άλλη διακριτή Τ.Μ. Y.

  4. 4. 

    Άπειρη μέση τιμή. Έστω μια Τ.Μ. X με σύνολο τιμών το S=={1,2,} και πυκνότητα,


    P(k)=Ck2,για κάθεk1.
    1. (α’) 

      Υπολογίστε την τιμή της σταθεράς C. Υπόδειξη. k=1(1/k2)=π2/6.

    2. (β’) 

      Αποδείξτε πως η μέση τιμή E(X)=+.

  5. 5. 

    Ανεξαρτησία και μέση τιμή. Δώστε ένα παράδειγμα δύο διακριτών Τ.Μ. X,Y για τις οποίες ισχύει ότι,


    E(XY)=E(X)E(Y),

    αλλά δεν είναι ανεξάρτητες. [Σημείωση. Αυτή η άσκηση ίσως σας φανεί σημαντικά ευκολότερη αφού διαβάσετε το Κεφάλαιο 9.]

  6. 6. 

    Ανεξαρτησία και διασπορά. Δώστε ένα παράδειγμα δύο διακριτών Τ.Μ. X,Y με διασπορές που να ικανοποιούν Var(X)=Var(Y)>0, αλλά τέτοιες ώστε να έχουμε Var(X+Y)=0.

  7. 7. 

    Δύο ζάρια. Ρίχνουμε διαδοχικά δύο δίκαια ζάρια, και, όπως συνήθως, περιγράφουμε το αποτέλεσμα ως ένα από τα 36 στοιχεία του χώρου πιθανότητας:


    Ω={11,12,,16,21,,26,,61,,66}.

    Έστω X1 και X2 τα αποτελέσματα των δύο ρίψεων, όπου υποθέτουμε ότι οι ρίψεις είναι ανεξάρτητες μεταξύ τους. Επιπλέον, ορίζουμε τις τυχαίες μεταβλητές Y=max{X1,X2} και Z=min{X1,X2}. Για καθεμία από τις Τ.Μ. X1,X2,Y,Z:

    1. (α’) 

      Βρείτε το σύνολο τιμών.

    2. (β’) 

      Περιγράψτε, για καθεμία από τις τιμές που μπορεί να πάρει η Τ.Μ., το αντίστοιχο ενδεχόμενο (π.χ. το {X1=4}) ως υποσύνολο του χώρου πιθανότητας.

    3. (γ’) 

      Υπολογίστε την πυκνότητα και τη συνάρτηση κατανομής της.

    4. (δ’) 

      Υπολογίστε τη μέση τιμή και τη διασπορά της.

  8. 8. 

    Πού να βρω γυναίκα να σου μοιάζει. Σε κάποιο πάρτυ πηγαίνουν Ν ανδρόγυνα και χωρίζονται σε δύο διαφορετικά δωμάτια άντρες-γυναίκες. Φεύγοντας, οι γυναίκες πια έχουν μεθύσει, και η καθεμία παίρνει στην τύχη έναν από τους άντρες και πηγαίνει σπίτι της. Έστω X το πλήθος των σωστών ζευγαριών που φεύγουν από το πάρτυ. Να βρεθούν η μέση τιμή και η διασπορά της X. [Υπόδειξη. Ίσως σας φανεί βολικό να χρησιμοποιήσετε τις βοηθητικές τυχαίες μεταβλητές Xi, i=1,2,,N, όπου Xi=1 αν η γυναίκα i πάρει τον δικό της άντρα, και Xi=0 στην αντίθετη περίπτωση.]

  9. 9. 

    Συνέλιξη. Έστω δύο ανεξάρτητες διακριτές T.M. X,Y, που παίρνουν ακέραιες τιμές και έχουν πυκνότητες PX(x), PY(y), αντίστοιχα. Να δειχθεί ότι η νέα Τ.Μ. X+Y έχει πυκνότητα:


    PX+Y(m)=k=-PX(k)PY(m-k),m.

    [Παρατήρηση. Η πιο πάνω έκφραση είναι γνωστή ως η συνέλιξη των δύο πυκνοτήτων PX(x) και PY(y), και εμφανίζεται συχνά στα μαθηματικά. Στο Κεφάλαιο 15 θα δούμε και τη συνεχή εκδοχή της.]

  10. 10. 

    Άλλα δύο ζάρια. Ρίχνουμε διαδοχικά δύο δίκαια ζάρια. Έστω X1 και X2 τα αποτελέσματα των δύο ρίψεων, οι οποίες υποθέτουμε πως είναι ανεξάρτητες. Έστω επίσης οι τυχαίες μεταβλητές V=X1+X2 και W=X1-X2.

    Για τις V,W:

    1. (α’) 

      Βρείτε το σύνολο τιμών.

    2. (β’) 

      Περιγράψτε, για καθεμία από τις τιμές που μπορεί να πάρει η Τ.Μ., το αντίστοιχο ενδεχόμενο (π.χ. το {V=2}) ως υποσύνολο του χώρου πιθανότητας.

    3. (γ’) 

      Υπολογίστε την πυκνότητα και τη συνάρτηση κατανομής της.

    4. (δ’) 

      Υπολογίστε τη μέση τιμή και τη διασπορά της, χωρίς να χρησιμοποιήσετε το Θεώρημα 6.1.

  11. 11. 

    Δέκα μπάλες. Έστω πως από 10 μπάλες, οι οποίες είναι αριθμημένες από το 1 έως το 10, επιλέγουμε τυχαία 3 χωρίς επανατοποθέτηση. Έστω Y ο μέγιστος αριθμός από τις τρεις μπάλες που επιλέξαμε, και Z ο ελάχιστος. Να προσδιορίσετε την πυκνότητα και τη συνάρτηση κατανομής των Y και Z.

  12. 12. 

    Περιορισμοί στις παραμέτρους. Μια Τ.Μ. X παίρνει τις τιμές -2, -1, 0, 1, και 2. Η πυκνότητά της P(x) είναι:


    P(-2)=P(2)=110,P(-1)=P(1)=a,P(0)=b.
    1. (α’) 

      Ποιες είναι οι επιτρεπτές τιμές του a και του b; Ποια σχέση πρέπει να ικανοποιείται μεταξύ των a και b;

    2. (β’) 

      Ποιο ζευγάρι τιμών (a,b) μεγιστοποιεί τη μέση τιμή της X;

    3. (γ’) 

      Υπολογίστε τη διασπορά της X αν a=0.

  13. 13. 

    Επιζώντα ζευγάρια. Έστω μια πόλη με n ζεύγη ανδρών-γυναικών (δηλαδή με συνολικό πληθυσμό 2n ατόμων.) Αν υποθέσουμε ότι m τυχαία άτομα πεθαίνουν, να υπολογιστεί η μέση τιμή του πλήθους των ζευγαριών που παραμένουν. [Σημείωση. Το πρόβλημα αυτό διατυπώθηκε για πρώτη φορά από τον Daniel Bernoulli, το 1768. Υπόδειξη. Όπως και στην Άσκηση 8, ίσως σας φανεί βολικό να χρησιμοποιήσετε κάποιες βοηθητικές τυχαίες μεταβλητές.]

  14. 14. 

    Τρία ζάρια. Υπολογίσετε την πυκνότητα και τη συνάρτηση κατανομής του αθροίσματος των αποτελεσμάτων τριών (ανεξάρτητων) δίκαιων ζαριών.

  15. 15. 

    Παιχνίδι. Σε ένα παιχνίδι, ο παίκτης έχει τυχαίο κέρδος X=-5,0,2, ή 10 ευρώ, με αντίστοιχες πιθανότητες 16, 12, 16, 16.

    1. (α’) 

      Υπολογίστε τη μέση τιμή και τη διασπορά του κέρδους του σε μία παρτίδα.

    2. (β’) 

      Υπολογίστε τη μέση τιμή και τη διασπορά του συνολικού του κέρδους σε τρεις ανεξάρτητες παρτίδες.

  16. 16. 

    Η μέθοδος της δεύτερης ροπής. Έστω μια Τ.Μ. X με σύνολο τιμών το S={0,1,2,}, με μέση τιμή μ=E(X) και διασπορά σ2=Var(X). Δείξτε πως, αν η τυπική απόκλιση σ της X είναι σημαντικά μικρότερη από τη μέση τιμή μ, τότε η πιθανότητα το X να ισούται με μηδέν είναι μικρή.

    Συγκεκριμένα, αποδείξτε πως,


    Pr(X=0)(σμ)2.
  17. 17. 

    Εναλλακτική έκφραση της E(X). Έστω μια διακριτή τυχαία μεταβλητή X με σύνολο τιμών το S={0,1,2,} και (πεπερασμένη) μέση τιμή E(X). Αποδείξτε πως η E(X) μπορεί εναλλακτικά να εκφραστεί ως,


    E(X)=k=1Pr(Xk).
  18. 18. 

    Αποστάσεις μεταξύ πυκνοτήτων. Έστω δύο πυκνότητες P(x) και Q(x) στο ίδιο πεπερασμένο σύνολο S. H 1-απόσταση μεταξύ της P και της Q ορίζεται ως,


    d1(P,Q)=xS|P(x)-Q(x)|,

    και η χ2-απόσταση της Q από την P ορίζεται ως,


    dχ2(P,Q)=xS(P(x)-Q(x))2Q(x).
    1. (α’) 

      Παρατηρήστε ότι και για τις δύο αυτές αποστάσεις πάντοτε έχουμε d1(P,Q)0 και dχ2(P,Q)0. Επιπλέον, παρατηρήστε ότι d1(P,Q)=0 αν και μόνο αν PQ, δηλαδή αν P(x)=Q(x), για κάθε xS, και ότι το ίδιο ισχύει και για την dχ2(P,Q).

    2. (β’) 

      Έστω μια Τ.Μ. X με πυκνότητα Q στο S, και έστω η συνάρτηση f(x)=|P(x)-Q(x)|Q(x). Εξετάζοντας τη διασπορά Var(f(X)) της Τ.Μ. f(X), αποδείξτε ότι η χ2-απόσταση είναι πιο «ισχυρή» από την 1-απόσταση, υπό την έννοια ότι, για οποιεσδήποτε δύο πυκνότητες P και Q, έχουμε,


      d1(P,Q)dχ2(P,Q).



Κεφάλαιο 7 Διακριτές κατανομές

[Επιστροφή στα περιεχόμενα]


Στο προηγούμενο κεφάλαιο είδαμε πως η έννοια της τυχαίας μεταβλητής (Τ.Μ.), δηλαδή μιας τυχαίας ποσότητας X που προσδιορίζεται από το σύνολο τιμών της S και την πυκνότητά της P, μας επιτρέπει να περιγράφουμε προβλήματα που μας ενδιαφέρουν με πιο σύντομο και σαφή τρόπο, χωρίς να αναγκαζόμαστε κάθε φορά να ορίζουμε σχολαστικά τον πλήρη χώρο πιθανότητας Ω και το αντίστοιχο μέτρο πιθανότητας . Το επόμενο βήμα σε αυτήν τη διαδικασία της πιο αφαιρετικής περιγραφής, είναι η καταγραφή κάποιων σημαντικών τύπων τυχαίων μεταβλητών, ιδιαίτερα χρήσιμων στην πράξη, οι οποίοι εμφανίζονται συχνά σε βασικά προβλήματα των πιθανοτήτων.

Σ’ αυτό το κεφάλαιο θα εντοπίσουμε πέντε τέτοιες κατηγορίες τυχαίων μεταβλητών και θα δείξουμε με παραδείγματα κάποιες από τις συνήθεις περιπτώσεις όπου χρησιμοποιούνται. Επιπλέον θα αποδείξουμε ορισμένες ιδιότητές τους (π.χ., θα υπολογίσουμε τη μέση τιμή και τη διασπορά τους), έτσι ώστε να μπορούμε να τις χρησιμοποιούμε χωρίς να απαιτείται η επανάληψη των ίδιων υπολογισμών σε κάθε επιμέρους πρόβλημα.

7.1 Κατανομές Bernoulli, διωνυμική και γεωμετρική

Η πιο απλή τυχαία μεταβλητή είναι εκείνη που παίρνει μόνο δύο τιμές, οι οποίες, στην απλούστερη περίπτωση είναι το «0» και το «1»:

Ορισμός 7.1

Μια διακριτή Τ.Μ. X λέμε πως έχει κατανομή Bernoulli με παράμετρο p, για κάποιο p(0,1), αν έχει σύνολο τιμών το S={0,1} και πυκνότητα P με τιμές P(1)=p και P(0)=1-p. Για συντομία, αυτό συμβολίζεται: XBern(p).


Παρατηρήσεις:

  1. 1. 

    Ο πιο πάνω ορισμός απλά λέει πως μια Τ.Μ. X έχει κατανομή Bernoulli όταν παίρνει μόνο τις τιμές 0 και 1, και η παράμετρος p της κατανομής είναι η πιθανότητα το X να ισούται με 1, δηλαδή p=Pr(X=1)=P(1).

  2. 2. 

    Οι πιο συχνές χρήσεις τυχαίων μεταβλητών με κατανομή Bernoulli είναι είτε για την περιγραφή δυαδικών δεδομένων (bits), είτε ως «δείκτες» που προσδιορίζουν αν κάποιο σημαντικό γεγονός έχει συμβεί ή όχι. Για παράδειγμα, μια Τ.Μ. X μπορεί να παίρνει την τιμή 1 αν κάποιο σύστημα παρουσιάζει σφάλμα, αν ο αλγόριθμός μας εκτελέστηκε κανονικά, αν μια κλήση σε ένα δίκτυο τηλεφωνίας ολοκληρώθηκε, αν κάποιος ασθενής θεραπεύτηκε, αν μια άλλη Τ.Μ. Y πάρει τιμή Yy κ.ο.κ., και στην αντίθετη περίπτωση να παίρνει την τιμή 0. Σε αρκετά παραδείγματα του προηγούμενου κεφαλαίου, π.χ, είδαμε τέτοιες Τ.Μ. να περιγράφουν τα αποτελέσματα διαδοχικών ρίψεων ενός νομίσματος. Στις Ασκήσεις 2 και 3 στο τέλος του κεφαλαίου θα δούμε κάποιες απλές ιδιότητες για τέτοιες δείκτριες, όπως συχνά ονομάζονται, τυχαίες μεταβλητές.

  3. 3. 

    Όπως δείξαμε στο Παράδειγμα 6.7 του προηγούμενου κεφαλαίου, μια Τ.Μ. XBern(p) έχει μέση τιμή μ=E(X)=p και διασπορά σ2=Var(X)=p(1-p). Η συνάρτηση κατανομής F(x) της X υπολογίστηκε στο Παράδειγμα 6.4,


    F(x)={0,ανx<0,1-p,αν  0x<1,1,ανx1.

    και η γραφική της αναπαράσταση δίνεται στο Σχήμα 6.1.

  4. 4. 

    Αν και ο αυστηρός ορισμός που δώσαμε πιο πάνω περιορίζει τις δυνατές τιμές της παραμέτρου p στο διάστημα (0,1), θα μπορούσαμε να επιτρέψουμε και τις ακραίες τιμές p=0 και p=1. Σε αυτές τις τετριμμένες περιπτώσεις, προφανώς η X είναι απλά μια σταθερά: X=0 με πιθανότητα 1 όταν p=0, και X=1 με πιθανότητα 1 όταν p=1.

Παράδειγμα 7.1

Έστω πως στρίβουμε N φορές ένα νόμισμα με Pr(Κορώνα)=p, για κάποιο p(0,1). Όπως στο Παράδειγμα 6.4, μπορούμε να περιγράψουμε τα αποτελέσματα των διαδοχικών ρίψεων ορίζοντας N ανεξάρτητες Τ.Μ. X1,X2,,XN, όπου η κάθε XiBern(p) και Xi=1 αν φέραμε Κ τη φορά i, ενώ Xi=0 αν φέραμε Γ.

Όπως στο Παράδειγμα 6.3, παρατηρούμε πως το πλήθος των φορών που φέραμε Κορώνα στις N ρίψεις, έστω Y, μπορεί να εκφραστεί ως:


Y=X1+X2++XN=i=1NXi.

Η Τ.Μ. Y έχει σύνολο τιμών SY={0,1,,N}. Για να υπολογίσουμε την πυκνότητά της, εξετάζουμε το χώρο πιθανότητας Ω του πειράματος, ο οποίος αποτελείται από στοιχεία της μορφής,


ω=ΓKKK,

που περιγράφουν τα αποτελέσματα των N ρίψεων. Π.χ., το πιο πάνω ω περιγράφει το αποτέλεσμα όπου φέραμε Γ την πρώτη φορά και Κ τις επόμενες N-1 φορές.

Εφόσον το νόμισμα δεν είναι απαραίτητα δίκαιο (δηλαδή δεν μας δίνεται ότι p=1/2), δεν μπορούμε να θεωρήσουμε ότι όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα. Για τον υπολογισμό των τιμών της πυκνότητας P(k)=Pr(Y=k) της Y θα χρησιμοποιήσουμε το γεγονός ότι οι διαδοχικές ρίψεις (δηλαδή οι Τ.Μ. Xi) είναι ανεξάρτητες. Όπως έχουμε ήδη παρατηρήσει, για να ορίσουμε ένα μέτρο πιθανότητας σε έναν πεπερασμένο χώρο πιθανότητας Ω, αρκεί να ορίσουμε το ({ω}) για κάθε στοιχειώδες ενδεχόμενο {ω}. Για παράδειγμα, για το στοιχειώδες ενδεχόμενο που αντιστοιχεί στο ω=ΓKKK όπως πιο πάνω, έχουμε,


({ω}) = Pr({ΓKKK})


= Pr(X1=0,X2=1,X3=1,,XN=1)


= Pr(X1=0)Pr(X2=1)Pr(X3=1)Pr(XN=1)


= p(1-p)(1-p)(1-p)


= p(1-p)N-1,

όπου στο τρίτο βήμα χρησιμοποιήσαμε την ανεξαρτησία των Xi. Παρομοίως, έστω Ak το υποσύνολο του Ω που αποτελείται από όλα τα ωΩ που περιέχουν k φορές Κ και N-k φορές Γ. Τότε έχουμε, με το ίδιο σκεπτικό όπως πριν,


({ω})=pk(1-p)N-k,για κάθεωAk,

και αυτό ισχύει για κάθε δυνατή τιμή του k=0,1,,N.

Έχοντας τώρα ορίσει το μέτρο πιθανότητας για όλα τα στοιχειώδη ενδεχόμενα, υπολογίζουμε την πυκνότητα της Y ως εξής. Για k=0,1,,N,


P(k) = Pr(Y=k)


= Pr({όλα τα ω με k φορές Κ και (N-k) φορές Γ})


= Pr(Ak)


= Pr(ωAk{ω}),

και αφού τα στοιχειώδη ενδεχόμενα είναι πάντα ξένα μεταξύ τους, και ({ω})=pk(1-p)N-k για κάθε ωAk,


P(k)=ωAkPr({ω})=(#Ak)×(pk(1-p)N-k).

Τέλος, παρατηρούμε ότι, από τον κανόνα αρίθμησης #4, υπάρχουν (Nk) τρόποι να διατάξουμε k Κορώνες και N-k Γράμματα, άρα #Ak=(Nk) και συνεπώς:


P(k)=Pr(Y=k)=(Nk)pk(1-p)N-k,για κάθεkSY={0,1,,K}.
Ορισμός 7.2

Μια διακριτή Τ.Μ. Y λέμε πως έχει διωνυμική κατανομή με παραμέτρους N και p, για κάποια N1 και p(0,1), αν έχει σύνολο τιμών το S={0,1,,N} και πυκνότητα:


P(k)=Pr(Y=k)=(Nk)pk(1-p)N-k,για κάθεkS={0,1,,N}.

Για συντομία, αυτό συμβολίζεται: YΔιων(N,p).


Παρατηρήσεις:

  1. 1. 

    Μια Τ.Μ. Y με διωνυμική κατανομή με παραμέτρους N και p, περιγράφει το πλήθος των «επιτυχιών» σε N διαδοχικά, ανεξάρτητα, όμοια πειράματα, όπου σε κάθε πείραμα η πιθανότητα επιτυχίας ισούται με p. Εδώ, βέβαια, «επιτυχία» θεωρείται το γεγονός που μας ενδιαφέρει στο εκάστοτε πρόβλημα – π.χ. το να φέρουμε Κ με κάποιο νόμισμα, την εμφάνιση σφάλματος σε κάποιο σύστημα, την ορθή εκτέλεση ενός αλγόριθμου κλπ.

  2. 2. 

    Όπως είδαμε στο Παράδειγμα 7.1, μια Τ.Μ. YΔιων(N,p) μπορεί πάντα να εκφραστεί ως το άθροισμα Y=X1+X2++XN, N ανεξάρτητων Τ.Μ. XiBern(p). Συνεπώς, χρησιμοποιώντας την Ιδιότητα 1 του Θεωρήματος 6.1, το Y έχει μέση τιμή,


    μ=E(Y)=E(i=1NXi)=i=1NE(Xi),

    και, αφού κάθε Bernoulli Τ.Μ. Xi με παράμετρο p έχει μέση τιμή E(Xi)=p, έχουμε,


    μ=E(Y)=Np.

    Παρομοίως, εφόσον τα Xi είναι ανεξάρτητα μπορούμε να εφαρμόσουμε την Ιδιότητα 4 του Θεωρήματος 6.1, σε συνδυασμό με το γεγονός ότι κάθε Xi έχει Var(Xi)=p(1-p), για να υπολογίσουμε τη διασπορά του Y ως,


    σ2=Var(Y)=Var(i=1NXi)=i=1NVar(Xi)=Np(1-p).
  3. 3. 

    Όταν το N=1, προφανώς η Y=X1 είναι απλά μια Τ.Μ. με κατανομή Bern(p). Και όπως στην περίπτωση της κατανομής Bernoulli, αν το p πάρει μία από τις δύο ακραίες τιμές p=0 ή 1, τότε με πιθανότητα 1 έχουμε Y=0 ή Y=Ν, αντίστοιχα.

Μία από τις πιο συνηθισμένες περιπτώσεις χρήσης της διωνυμικής κατανομής είναι σε προβλήματα «επιλογών με επανατοποθέτηση» όπως το ακόλουθο.


Παράδειγμα 7.2

Ένα mailbox περιέχει M μηνύματα email, εκ των οποίων τα k έχουν κάποιο ιό. Από τα M μηνύματα επιλέγουμε Μ/3 με επανατοποθέτηση. Έστω X το (τυχαίο) πλήθος των μηνυμάτων από αυτά που επιλέξαμε τα οποία έχουν τον ιό. Εδώ η X εκφράζει το πλήθος των «επιτυχιών» (όπου επιτυχία εδώ θεωρούμε την επιλογή ενός μηνύματος με τον ιό) ανάμεσα σε N=M/3 διαδοχικά πειράματα, τα οποία είναι εξ ορισμού ανεξάρτητα, και το καθένα έχει πιθανότητα επιτυχίας ίση με p=k/M. Άρα η XΔιων(M3,kM). Μπορούμε λοιπόν να κάνουμε μερικούς απλούς υπολογισμούς.

Ποια είναι η πιθανότητα να κολλήσουμε τον ιό από τα επιλεγμένα μηνύματα; Είναι η πιθανότητα να έχουμε επιλέξει τουλάχιστον ένα «μολυσμένο» μήνυμα, δηλαδή να έχουμε X1,


Pr(X1) = 1-Pr(X=0)=1-P(0)=1-(M/30)(kM)0(1-kM)N


= 1-(1-kM)(M/3),

όπου χρησιμοποιήσαμε τον τύπο της πυκνότητας μιας διωνυμικής Τ.Μ. Παρομοίως, εφαρμόζοντας τον αντίστοιχο τύπο για τη μέση τιμή έχουμε,


«μέσο πλήθος μηνυμάτων με ιό σε αυτά που επιλέξαμε»=Ε(X)=M3kM=k3,

το οποίο παρατηρούμε πως δεν εξαρτάται από το συνολικό πλήθος M των μηνυμάτων. Τέλος, αν έχουμε k=4 μολυσμένα μηνύματα ανάμεσα σε M=120, τότε, με N=120/3=40 και p=4/120=1/30, η πιθανότητα να έχουμε επιλέξει το πολύ δύο που να έχουν τον ιό είναι,


Pr(X2) = P(0)+P(1)+P(2)


= (400)p0(1-p)40+(401)p1(1-p)39+(402)p2(1-p)38  0.852.

Παράδειγμα 7.3

Όπως στο Παράδειγμα 6.4, στρίβουμε ένα νόμισμα με Pr(Κορώνα)=p για κάποιο p(0,1), σε συνεχόμενες, ανεξάρτητες ρίψεις, και για κάθε i=1,2,, ορίζουμε τις ανεξάρτητες Τ.Μ.,


Xi={1,αν φέραμε Κ τη φορά i,0,αν φέραμε Γ τη φορά i,

όπου η κάθε XiBern(p). Έστω Z η πρώτη χρονική στιγμή που φέρνουμε Κ, δηλαδή το μικρότερο i1 τέτοιο ώστε Xi=1. Στο Παράδειγμα 6.4 είδαμε πως η Z έχει σύνολο τιμών το SZ=={1,2,} και πυκνότητα P(m)=(1-p)m-1p, για κάθε ακέραιο m1.

Ορισμός 7.3

Μια διακριτή Τ.Μ. Z λέμε πως έχει γεωμετρική κατανομή με παράμετρο p, για κάποιο p(0,1), αν έχει σύνολο τιμών το S=={1,2,} και πυκνότητα:


P(k)=Pr(Ζ=k)=(1-p)k-1p,για κάθεkS={1,2,}.

Για συντομία, αυτό συμβολίζεται: ZΓεωμ(p).


Παρατήρηση: Μια Τ.Μ. Z με γεωμετρική κατανομή με παράμετρο p, περιγράφει τη χρονική στιγμή της πρώτης επιτυχίας σε μια σειρά από διαδοχικά, ανεξάρτητα, όμοια πειράματα, όπου σε κάθε πείραμα η πιθανότητα επιτυχίας ισούται με p. Αν τα αποτελέσματα των πειραμάτων περιγράφονται από μια σειρά ανεξάρτητων τυχαίων μεταβλητών XiBern(p) (όπου Xi=1 αν έχουμε επιτυχία τη φορά i), τότε η Z μπορεί να εκφραστεί ως:


Ζ=min{i1:Xi=1}.

Παράδειγμα 7.4

Κάθε πακέτο δεδομένων που περνάει από έναν συγκεκριμένο κόμβο κάποιου δικτύου, «χάνεται» με πιθανότητα p=0.01%, ανεξάρτητα από την τύχη των υπόλοιπων πακέτων. Έστω X το πρώτο πακέτο που χάνεται (ή, πιο σχολαστικά, ο αύξων αριθμός του πρώτου πακέτου που χάνεται), έτσι ώστε XΓεωμ(p). Για να διευκολυνθούμε στον παρακάτω υπολογισμό, ορίζουμε τις ανεξάρτητες Τ.Μ. W1,W2,, όπου κάθε WiBern(p) περιγράφει αν το πακέτο i χάθηκε (Wi=1) ή όχι (Wi=0).

Ποια είναι η πιθανότητα το πρώτο πακέτο που χάθηκε να είναι μετά τα 10,000 πρώτα; Χρησιμοποιώντας την ανεξαρτησία των Wi:


Pr(X>10000) = Pr(Wi=0για κάθεi=1,2,,10000)


= Pr(W1=0)Pr(W2=0)Pr(W10000=0)


= (1-p)10000=(0.9999)100000.3679.
Θεώρημα 7.1 (Ιδιότητες της γεωμετρικής κατανομής) Έστω XΓεωμ(p). Η X έχει τις εξής ιδιότητες:
  1. 1. 

    Ουρά: Για κάθε ακέραιο m1:


    Pr(X>m)=(1-p)m.
  2. 2. 

    Συνάρτηση κατανομής: F(x)=0 για x<1 και:


    F(x)=1-(1-p)x,γιαx1.
  3. 3. 

    Ιδιότητα έλλειψης μνήμης: Για κάθε ζευγάρι ακεραίων m,n1:


    Pr(Xm+n|X>n)=Pr(Xm).

    Δηλαδή, η πιθανότητα Pr(Xm+n|X>n) είναι ανεξάρτητη του n, και ίση με εκείνη που αντιστοιχεί στο n=0, δηλαδή, Pr(Xm).

  4. 4. 

    Μέση τιμή: E(X)=1p.

  5. 5. 

    Διασπορά: Var(X)=1-pp2.

Απόδειξη:

Όπως στο Παράδειγμα 7.4, ορίζουμε τις ανεξάρτητες Τ.Μ. WiBern(p) και θέτουμε το X ίσο με το μικρότερο i1 τέτοιο ώστε Wi=1.

Για την πρώτη ιδιότητα, παρατηρούμε πως το X είναι μεγαλύτερο από m αν και μόνο αν τα πρώτα m από τα Wi είναι όλα ίσα με 0, οπότε,


Pr(X>m) = Pr(W1=0,W2=0,,Wm=0)


= Pr(W1=0)Pr(W2=0)Pr(Wm=0)=(1-p)m.

Η συνάρτηση κατανομής, ακριβώς όπως στην Ιδιότητα 2, έχει ήδη υπολογιστεί στο Παράδειγμα 6.4.

Για την Ιδιότητα 3, χρησιμοποιούμε τον ορισμό της δεσμευμένης πιθανότητας σε συνδυασμό με την Ιδιότητα 1:


Pr(Xm+n|X>n) = Pr(Xm+nκαιX>n)Pr(X>n)


= Pr(Xm+n)Pr(X>n)


= Pr(X>m+n-1)Pr(X>n)


= (1-p)m+n-1(1-p)n


= (1-p)m-1


= Pr(X>m-1)


= Pr(Xm).

Για τον υπολογισμό της μέσης τιμής θα χρησιμοποιήσουμε τον τύπο για την έκφραση μιας σειράς που σχετίζεται με μια άπειρη γεωμετρική πρόοδο. Λεπτομέρειες δίνονται στην Ενότητα 7.3. Συγκεκριμένα, εφαρμόζοντας τον τύπο (7.8) με x=1-p, βρίσκουμε:


E(X) = k=1kP(k)=k=0k(1-p)k-1p=p1-pk=0k(1-p)k


= p1-p1-p[1-(1-p)]2=1p.

Παρομοίως, εφαρμόζοντας τον τύπο (7.9) με x=1-p, βρίσκουμε,


E(X2) = k=1k2P(k)=k=0k2(1-p)k-1p=p1-pk=0k2(1-p)k


= p1-p(1-p)(1-p+1)[1-(1-p)]3=2-pp2,

και, τέλος, υπολογίζουμε,


Var(X)=E(X2)-[E(X)]2=2-pp2-1p2=1-pp2,

η οποία μας δίνει τη διασπορά της X, ολοκληρώνοντας την απόδειξη.


Παράδειγμα 7.5

Ένας φάκελος αρχείων σε κάποιο PC περιέχει 100 αρχεία, εκ των οποίων τα 70 είναι αρχεία pdf και τα 30 είναι mp3. Επιλέγουμε 3 στην τύχη με επανατοποθέτηση. Παρατηρούμε πως το πλήθος X των αρχείων pdf που επιλέξαμε έχει κατανομή XΔιων(3,70/100). Συνεπώς, η πιθανότητα να επιλέξαμε τουλάχιστον 2 αρχεία pdf είναι,


Pr(X2) = 1-Pr(X<2)=1-P(0)-P(1)


= 1-(30)(0.7)0(0.3)3-(31)(0.7)1(0.3)2


0.784.

Παρομοίως, το μέσο πλήθος αρχείων pdf που επιλέξαμε είναι,


E(X)=3×70100=2.1.

Τέλος, αν συνεχίζαμε να επιλέγουμε αρχεία (πάλι με επανατοποθέτηση) μέχρι την πρώτη φορά που θα είχαμε ένα pdf, τότε το συνολικό πλήθος, έστω Z, των επιλεγμένων αρχείων θα είχε κατανομή ZΓεωμ(70/100), και βάσει της παραπάνω ιδιότητας έλλειψης μνήμης θα μπορούσαμε να υπολογίσουμε,


Pr(θα επιλέξουμε τουλάχιστον 2 ακόμα|επιλέξαμε ήδη 3) = Pr(Z3+2|Z>3)


= Pr(Z2)


= Pr(Z>1)


= (1-70100)1


= 0.3,

όπου χρησιμοποιήσαμε και την πρώτη ιδιότητα του Θεωρήματος 7.1.

Κλείνουμε αυτή την ενότητα με ένα διάσημο παράδειγμα.


Παράδειγμα 7.6 (Το πρόβλημα γενεθλίων) Ας υποθέσουμε πως βρίσκομαι σε ένα δωμάτιο μαζί με άλλα 29 άτομα. Ποια είναι η πιθανότητα κάποιος άλλος να έχει γενέθλια την ίδια μέρα με εμένα;

Έστω n=29 Τ.Μ. Xi, όπου Xi=1 αν το άτομο i έχει τα ίδια γενέθλια με εμένα, αλλιώς Xi=0, για κάθε i=1,2,,29 (θεωρώντας ότι εγώ είμαι ο τριακοστός). Υποθέτουμε πως τα Xi είναι ανεξάρτητες Τ.Μ., προφανώς με κατανομή Bernoulli, και με παράμετρο,


p=Pr(ο άνθρωπος i έχει τα ίδια γενέθλια με εμένα)=1365.

Άρα,


Pr(υπάρχει κάποιος με τα ίδια γενέθλια)

   =  1-Pr(κανείς με τα ίδια γενέθλια)

   =  1-Pr(X1=0,X2=0,,Xn=0)

   =  1-Pr(X1=0)Pr(X2=0)Pr(Xn=0)

   =  1-(1-p)n

   =  1-(364365)29

     0.076=7.6%.

Ας εξετάσουμε τώρα μια απλή παραλλαγή αυτού του προβλήματος ρωτώντας ποια είναι η πιθανότητα, ανάμεσα στα 30 άτομα, να υπάρχουν τουλάχιστον δύο που θα έχουνε γενέθλια την ίδια μέρα; Αν υποθέσουμε και πάλι πως τα γενέθλια των διαφορετικών ατόμων είναι ανεξάρτητα μεταξύ τους και πως η κάθε ημερομηνία έχει την ίδια πιθανότητα, δηλαδή 1/365, βρίσκουμε πως,


Pr(υπάρχουν τουλάχιστον 2 με ίδια γενέθλια)

   =  1-Pr(όλοι μεταξύ τους έχουν διαφορετικά γενέθλια)

   =  1-Pr({ο 2ος διαφορετικά από τον 1ο}

         {ο 3ος διαφορετικά από τους δύο πρώτους}

         {ο 30ος διαφορετικά από τους 29 πρώτους})

   =  1-364365363365336365 0.7=  70%.

Δηλαδή, με μόλις 30 άτομα σε ένα δωμάτιο, το πιθανότερο είναι να υπάρχουν τουλάχιστον δύο με τα ίδια γενέθλια! (Δοκιμάστε το την επόμενη φορά που θα βρεθείτε με μια αρκετά μεγάλη παρέα, είναι μια καλή ευκαιρία να κερδίσετε ένα γενναίο στοίχημα.)


Παρατήρηση:
Το πρώτο ερώτημα του πιο πάνω παραδείγματος θα μπορούσαμε να το σκεφτούμε σαν ένα πρόβλημα επιλογής με επανατοποθέτηση: Βάζουμε τις 365 μέρες του χρόνου σε μια σακούλα, επιλέγουμε μία από τις 365 για τα γενέθλια του πρώτου ατόμου, μετά επιλέγουμε μία ημερομηνία για τον δεύτερο πάλι από όλες τις 365 κ.ο.κ.

Αντίθετα, ο υπολογισμός βάσει του οποίου απαντήθηκε το δεύτερο ερώτημα θυμίζει επιλογή χωρίς επανατοποθέτηση: Επιλέγουμε μία από τις 365 ημέρες του χρόνου για τα γενέθλια του πρώτου ατόμου, κατόπιν επιλέγουμε μία από τις υπόλοιπες 364 για τον δεύτερο, μετά μία από τις 363 που απομένουν για τον τρίτο, κλπ.

Όπως αναφέραμε πιο πάνω, στα προβλήματα επιλογής με επανατοποθέτηση συχνά μας είναι χρήσιμη η διωνυμική κατανομή. Στην επόμενη ενότητα θα δούμε την αντίστοιχη κατανομή – την υπεργεωμετρική – η οποία προκύπτει σε προβλήματα επιλογής χωρίς επανατοποθέτηση.

7.2 Υπεργεωμετρική και Poisson κατανομή

Παράδειγμα 7.7

Ξεκινάμε εξετάζοντας μια γενική μορφή του προβλήματος των τυχαίων επιλογών χωρίς επανατοποθέτηση. Έστω πως,


απόΝαντικείμεναόπου{τα k είναι τύπου Ι,τα Ν-k είναι τύπου ΙΙ,

επιλέγουμε τυχαία n, χωρίς επανατοποθέτηση. [Υποθέτουμε ότι Nkn.] Έστω η Τ.Μ.,


Y=«πλήθος αντικειμένων τύπου Ι ανάμεσα σε αυτά που επιλέξαμε»,

η οποία περιγράφει την ποσότητα που μας ενδιαφέρει εδώ. Η Y έχει, εξ ορισμού, σύνολο τιμών το S={0,1,,n}, και η πυκνότητά της είναι εύκολο να υπολογιστεί:

Για οποιοδήποτε m=0,1,,n, η P(m)=Pr(Y=m) είναι η πιθανότητα του ενδεχομένου «επιλέξαμε m αντικείμενα τύπου Ι και (n-m) τύπου ΙΙ». Από τους κανόνες αρίθμησης του Κεφαλαίου 4 σε συνδυασμό με τον κανόνα πιθανότητας #5 έχουμε,


P(m)=(km)(N-kn-m)(Nn).
Ορισμός 7.4

Μια διακριτή Τ.Μ. Y λέμε πως έχει υπεργεωμετρική κατανομή με παραμέτρους N,k και n, για ακεραίους nkN, αν έχει σύνολο τιμών το S={0,1,,n} και πυκνότητα:


P(m)=Pr(Y=m)=(km)(N-kn-m)(Nn),για κάθεmS={0,1,2,,n}.

Για συντομία, αυτό συμβολίζεται: YΥπερ(N,k,n).


Παράδειγμα 7.8

Έστω πως επιλέγουμε τυχαία τρία φύλλα από μια συνηθισμένη τράπουλα. Ποια είναι η πιθανότητα να επιλέξαμε ακριβώς μία φιγούρα;

Αν ορίσουμε την Τ.Μ. X ως το πλήθος από φιγούρες που επιλέξαμε, τότε (αφού η τράπουλα περιέχει 12 φιγούρες) η X έχει κατανομή Υπερ(52,12,3) και η ζητούμενη πιθανότητα ισούται με,


Pr(X=1)=P(1)=(121)(52-123-1)(523)0.4235.

Παρατήρηση: Αν στο Παράδειγμα 7.7 επιλέγαμε τυχαία n αντικείμενα με επανατοποθέτηση, τότε η Y θα είχε κατανομή Διων(n,k/N) αλλά, εφόσον εδώ δεν έχουμε επανατοποθέτηση, η Y έχει κατανομή Υπερ(N,k,n).


Ακολουθώντας κάποια από τα ίδια βήματα της μεθοδολογίας με την οποία εξετάσαμε ορισμένες από τις ιδιότητες της διωνυμικής κατανομής, μπορούμε να ορίσουμε κι εδώ n τυχαίες μεταβλητές Bernoulli, οι οποίες να εκφράζουν τα αποτελέσματα των διαδοχικών επιλογών: Έστω, για κάθε i=1,2,,n:

Xi={1αν στην επιλογή i έχουμε αντικ. τύπου Ι,0αν στην επιλογή i έχουμε αντικ. τύπου ΙI.

Τότε, όπως και στην περίπτωση της διωνυμικής κατανομής, η Y μπορεί να εκφραστεί,


Y=i=1nXi.

Κατ’ αρχάς παρατηρούμε πως, σε αντίθεση με την περίπτωση της διωνυμικής κατανομής, οι Τ.Μ. Xi δεν είναι ανεξάρτητες. Για παράδειγμα, εύκολα υπολογίζουμε πως,


Pr(X2=1|X1=0) = kN-1,

ενώPr(X2=1|X1=1) = k-1N-1.
(7.1)

Από την άλλη μεριά, λόγω της συμμετρίας του προβλήματος, όλες οι Bernoulli Τ.Μ. Xi έχουν την ίδια παράμετρο. Ένας τρόπος για να πεισθούμε γι’ αυτό είναι να σκεφτούμε πως, αντί να επιλέξουμε n αντικείμενα χωρίς επανατοποθέτηση το ένα μετά το άλλο, ισοδύναμα πραγματοποιούμε το εξής πείραμα. Διατάσσουμε με τυχαίο τρόπο τα N αντικείμενα και μετά επιλέγουμε τα n πρώτα. Προφανώς, η πιθανότητα σε καθεμία από τις πρώτες n θέσεις να έχουμε αντικείμενο τύπου Ι είναι k/N, άρα, η παράμετρος pi της κάθε Xi είναι ίδια:


pi=Pr(Xi=1)=kN,για κάθεi=1,2,,n.

Εφαρμόζοντας τώρα την πρώτη ιδιότητα του Θεωρήματος 6.1, βρίσκουμε την εξής έκφραση για τη μέση τιμή μιας Τ.Μ. YΥπερ(N,k,n):


μ=E(Y)=E(i=1nXi)=i=1nE(Xi)=nkN.
(7.2)

Ένας παρόμοιος αλλά λίγο πιο πολύπλοκος υπολογισμός μάς επιτρέπει να υπολογίσουμε και τη διασπορά της Y:


Var(Y)=nk(N-k)(N-n)N2(N-1).
(7.3)

Λεπτομέρειες για την απόδειξη της (7.3) δίνονται στην Άσκηση 18 στο τέλος του κεφαλαίου.


Παράδειγμα 7.9

Συνεχίζοντας το Παράδειγμα 7.8, μπορούμε να υπολογίσουμε το μέσο πλήθος από φιγούρες μεταξύ των 3 φύλλων που επιλέξαμε από τον τύπο (7.2) ως, E(Y)=31252=913.

Παράδειγμα 7.10

Έστω πως, από τα 10 εκατομμύρια άτομα ενός πληθυσμού, οι 100 χιλιάδες έχουν στο σπίτι τους σύνδεση internet μέσω γραμμής ADSL. Από αυτό τον πληθυσμό επιλέγουμε τυχαία, για μια έρευνα αγοράς, 150 άτομα, χωρίς επανατοποθέτηση. Τότε, το πλήθος, έστω X, των ανθρώπων με σύνδεση ADSL ανάμεσα στους επιλεγμένους έχει κατανομή XΥπερ(107,105,150).

Αν, αντίθετα, η επιλογή των ατόμων γίνει με επανατοποθέτηση, τότε το πλήθος Y των ανθρώπων με ADSL που θα επιλέξουμε θα έχει κατανομή YΔιων(150,0.01), αφού η πιθανότητα να επιλεγεί κάποιος με ADSL είναι p=105/107=0.01. Παρότι η πυκνότητα της Y μας είναι γνωστή, ο υπολογισμός των τιμών της πυκνότητας αυτής είναι αριθμητικά δύσκολος διότι απαιτεί τη χρήση τιμών της μορφής n! για μεγάλα n. Π.χ.,


Pr(Y=10)=(15010)p10(1-p)140=150!10!  140!,

όπου, για παράδειγμα, το 140! είναι μια ποσότητα της τάξης του 10241.

Προκειμένου να αποφύγουμε τέτοιου είδους υπολογισμούς με αστρονομικά μεγέθη (οι οποίοι συχνά οδηγούν σε μεγάλα αριθμητικά σφάλματα στην πράξη), θα χρησιμοποιήσουμε την πιο κάτω προσέγγιση για το n! όταν το n παίρνει μεγάλες τιμές. Η απόδειξή της δίνεται στην Ενότητα 7.4.

Λήμμα 7.1 (Τύπος του Stirling)  Υπάρχει κάποια σταθερά C>0 τέτοια ώστε, για μεγάλες τιμές του n, η τιμή του n! μπορεί να προσεγγιστεί ως,

n!Cnnne-n.

Πιο συγκεκριμένα, έχουμε,


n!Cnnne-n1,καθώς τοn.


Σημείωση. Αν και δεν θα μας χρειαστεί, η τιμή της σταθεράς C στο Λήμμα 7.1 μπορεί να υπολογιστεί ακριβώς με κάποιο επιπλέον κόπο, και είναι C=2π.


Παράδειγμα 7.11

Έστω πως σε ένα χρονικό διάστημα Ν δευτερολέπτων, όπου θεωρούμε πως το Ν είναι «μεγάλο», συμβαίνει ένα τυχαίο πλήθος Y γεγονότων, και κατά μέσο όρο συμβαίνουν E(Y)=λ τέτοια γεγονότα. Πιο συγκεκριμένα, θεωρούμε πως για κάθε δευτερόλεπτο είτε συμβαίνει ένα γεγονός είτε όχι, και αυτά είναι ανεξάρτητα μεταξύ τους. Ορίζουμε λοιπόν N ανεξάρτητες Τ.Μ. XiBern(p), όπου η κάθε Xi=1 αν έχουμε γεγονός το δευτερόλεπτο i, αλλιώς Xi=0. Τότε, το συνολικό πλήθος Y ισούται με το άθροισμα των Xi, και συνεπώς XΔιων(N,p).

Εφόσον υποθέτουμε πως E(Y)=λ αλλά μια διωνυμική Τ.Μ. έχει E(Y)=Np, θα πρέπει να θέσουμε την πιθανότητα p=λ/N. Όπως παρατηρήσαμε στο τελευταίο παράδειγμα, η διωνυμική κατανομή είναι δύσχρηστη για μεγάλα N. Το ακόλουθο θεώρημα μας λέει πως, σε αυτή την περίπτωση, μπορεί να προσεγγιστεί αποτελεσματικά από μια άλλη, πολύ πιο εύχρηστη, κατανομή.

Θεώρημα 7.2 (Ορισμός κατανομής Poisson) Έστω λ>0 μια δεδομένη σταθερά, και έστω για κάθε Ν μια Τ.Μ. YN με κατανομή Διων(N,λ/N) και πυκνότητα PN(k)=Pr(YN=k), για k=0,1,,N.

Καθώς το N οι τιμές της πυκνότητας PN(k) συγκλίνουν στις αντίστοιχες τιμές της πυκνότητας P(k) μιας Τ.Μ. Z με κατανομή Poisson με παράμετρο λ, δηλαδή με σύνολο τιμών το S={0,1,2,} και πυκνότητα,


P(k)=e-λλkk!,γιαkS={0,1,2,}.

Με άλλα λόγια, για κάθε k=0,1,2,, έχουμε,


PN(k)=(Nk)(λN)k(1-λN)N-kP(k)=e-λλkk!,
(7.4)

καθώς το N.

Σημείωση. Για συντομία, το ότι μια Τ.Μ. Z έχει κατανομή Poisson με παράμετρο λ συμβολίζεται ως εξής: ZPoisson(λ). Η κατανομή Poisson έχει δύο συνηθισμένες χρήσεις. Η μία είναι για να περιγράψει το πλήθος των γεγονότων που συμβαίνουν σε μια δεδομένη χρονική περίοδο, όταν αυτά συμβαίνουν με τον «πιο τυχαίο δυνατό τρόπο» και το μόνο που είναι γνωστό είναι το μέσο πλήθος τους. Η δεύτερη είναι προσέγγιση της διωνυμικής κατανομής. Οι ακριβείς συνθήκες κάτω από τις οποίες η κατανομή Poisson μάς δίνει πράγματι μια καλή προσέγγιση για τη διωνυμική δίνονται επιγραμματικά στο πιο κάτω πόρισμα, το οποίο είναι άμεση απόρροια του Θεωρήματος 7.2.

Πόρισμα 7.1 (Poisson προσέγγιση στη διωνυμική) Έστω πως μια τυχαία μεταβλητή Y έχει κατανομή Διων(N,p), με παραμέτρους N,p που να ικανοποιούν τις εξής συνθήκες:
  • • 

    το N είναι αρκετά «μεγάλο», δηλαδή N100,

  • • 

    το p είναι αρκετά «μικρό», δηλαδή p<1/25,

  • • 

    το γινόμενό Νp είναι της τάξεως του 1.

Τότε η κατανομή της Y μπορεί να προσεγγιστεί από την κατανομή μιας Τ.Μ. ZPoisson(λ) με λ=Np υπό την έννοια ότι:


Pr(Y=k)Pr(Z=k)=e-λλkk!,για κάθεk=0,1,2,.

Για την απόδειξη του Θεωρήματος 7.2 θα χρησιμοποιήσουμε τις πιο κάτω εκφράσεις για την εκθετική συνάρτηση f(x)=ex. Η πρώτη μπορεί να ληφθεί ως ο ορισμός της ex και τη θεωρούμε γνωστή. Λεπτομέρειες για την απόδειξη της τρίτης έκφρασης, η οποία είναι μια ισχυρότερη μορφή της δεύτερης, δίνονται στην Άσκηση 19 στο τέλος του κεφαλαίου.

Λήμμα 7.2 (Εκθετική συνάρτηση) Για κάθε πραγματική τιμή x, η εκθετική συνάρτηση ex μπορεί να εκφραστεί ως:
  1. 1. 

    Η σειρά:


    ex=k=0xkk!.
  2. 2. 

    Το όριο:


    ex=limn(1+xn)n.

Επιπλέον, για μια οποιαδήποτε ακολουθία πραγματικών αριθμών {xn} που τείνουν στο x καθώς το n, έχουμε:


   ex=limn(1+xnn)n.
(7.5)
() Απόδειξη του Θεωρήματος 7.2:

Έστω λ>0 και k0 δεδομένα. Η ιδέα της απόδειξης είναι απλή: Θα εφαρμόσουμε τον τύπο του Stirling στην πυκνότητα PN(k) της διωνυμικής κατανομής. Θυμίζουμε ότι, όπως στο Λήμμα 7.1, η ακριβής διατύπωση του τύπου του Stirling μάς λέει πως υπάρχει μια σταθερά C και μια ακολουθία πραγματικών αριθμών {cn} που τείνει στο ένα, τέτοια ώστε, n!=cnCnnne-n, για κάθε n. Αντικαθιστώντας αυτή την έκφραση στα παραγοντικά N! και (N-k)! που εμφανίζονται στην PN(k),


PN(k) = (Nk)(λN)k(1-λN)N-k
(7.6)


= N!(N-k)!k!(λN)k(N-λN)N-k


= cNCNNNe-NcN-kC(N-k)N-kN-ke-(N-k)1k!(λN)k(N-λN)N(NN-λ)k.

Θέτοντας dN=cN/cN-k, παρατηρώντας ότι dN1 καθώς N, και απλοποιώντας, βρίσκουμε,


PN(k) = 1k!e-k(NN-k)NNN-k(N-k)k(λN)k(N-λN)N(NN-λ)kdN


= 1k!e-k(N-λN-k)N11-k/N(λ(N-k)N-λ)kdN


= 1k!e-k[1-1N(λ-k1-k/N)]N11-k/N[λ1-k/N1-λ/N]kdN.

Το τελευταίο παραπάνω γινόμενο αποτελείται από έξι όρους. Καθώς το N, οι δύο πρώτοι είναι σταθεροί, και ο τέταρτος και ο έκτος τείνουν στο 1. Παρομοίως, ο πέμπτος όρος τείνει στο λk. Για τον βασικότερο όρο, τον τρίτο, χρησιμοποιώντας την τρίτη έκφραση (7.5) από το Λήμμα 7.2, με xN=λ-k1-k/N, και παρατηρώντας πως τα xN τείνουν στο x=λ-k καθώς το N, έχουμε,


[1-1N(λ-k1-k/N)]Nek-λ.

Τέλος, συνδυάζοντας όλα τα παραπάνω, καθώς το N,


PN(k)1k!e-kek-λλk=e-λλkk!,

και έχουμε αποδείξει τη ζητούμενη σχέση (7.4).


Παρατήρηση: Το μόνο σημείο στην παραπάνω απόδειξη όπου εφαρμόστηκε ο τύπος του Stirling ήταν για να δεχθεί, στην έκφραση (7.6), ότι ο όρος N!/((N-k)!Nk) τείνει στο 1 καθώς το N. Αλλά αυτό μπορεί εύκολα να αποδειχθεί και απευθείας, παρατηρώντας ότι,


N!(N-k)!Nk=N(N-1)(N-k+1)Nk,

το οποίο είναι ο λόγος δύο πολυωνύμων (ως προς N) βαθμού k, με πρώτο όρο Nk και στα δύο, και συνεπώς τείνει στο 1 καθώς το N.


Παράδειγμα 7.12

Επανερχόμαστε στο Παράδειγμα 7.10, όπου το ζητούμενο ήταν να υπολογίσουμε την πιθανότητα Pr(Y=10) για μια Τ.Μ. YΔιων(150,0.01). Εδώ το γινόμενο 150×0.01=1.5, και προφανώς ικανοποιούνται και οι τρεις συνθήκες του Πορίσματος 7.1. Συνεπώς μπορούμε να προσεγγίσουμε την κατανομή της Y μέσω της κατανομής Poisson(λ) με λ=1.5, έτσι ώστε:


Pr(Y=10)e-1.5(1.5)1010!3.5×10-6.

Στο επόμενό μας αποτέλεσμα υπολογίζονται η μέση τιμή και η διασπορά μιας Τ.Μ. με κατανομή Poisson.

Θεώρημα 7.3

Αν ZPoisson(λ), τότε:


Ε(Ζ)=λκαιVar(Z)=λ.
Απόδειξη:

Για τη μέση τιμή έχουμε,


μ=E(Z)=k=0kP(k)=k=0ke-λλkk!=e-λk=0kλkk!.

Το άθροισμα της πιο πάνω σειράς υπολογίζεται στην επόμενη ενότητα, και δίνεται από τον τύπο (7.10). Εφαρμόζοντάς τον, με x=λ, βρίσκουμε,


μ=E(Z)=e-λλeλ=λ.

Παρομοίως υπολογίζεται και η μέση τιμή της Z2 ως,


E(Z2)=k=0k2e-λλkk!=e-λk=0k2λkk!,

και, εφαρμόζοντας τον αντίστοιχο τύπο (7.11) με x=λ, προκύπτει πως,


E(Z2)=e-λλ(1+λ)eλ=λ(1+λ).

Συνεπώς, η διασπορά της Z είναι ίση με,


σ2=Var(Z)=E(Z2)-[E(Z)]2=λ(1+λ)-λ2=λ,

ολοκληρώνοντας την απόδειξη.


Κλείνουμε αυτή την ενότητα με ένα ακόμα παράδειγμα.


Παράδειγμα 7.13

Έστω πως σε καθένα από 1000 αντικείμενα δίνουμε τυχαία έναν αριθμό από το 1 ως το 1000 (επιτρέποντας σε δύο αντικείμενα να έχουν τον ίδιο αριθμό), και μας ενδιαφέρει το (τυχαίο) πλήθος X των αντικειμένων που έχουν τον αριθμό 1. Τότε, το X έχει κατανομή Διων(N,p) με παραμέτρους N=1000 και p=1/1000=0.001. Εφόσον το γινόμενο Np=1, βάσει του Πορίσματος 7.1, η κατανομή του X μπορεί να προσεγγιστεί από την Poisson(λ), με λ=Np=1.

Συνεπώς, μπορούμε, π.χ., να υπολογίσουμε (ή, πιο σωστά, να προσεγγίσουμε) την πιθανότητα να έχουν 2 ή 3 αντικείμενα τον αριθμό 1 ως,


Pr(X=2ήX=3)=Pr(X=2)+Pr(X=3)e-1122!+e-1133!=23e-10.245.

7.3 Η γεωμετρική και συναφείς σειρές

Εδώ συγκεντρώνουμε μερικά απλά αποτελέσματα που συχνά φαίνονται χρήσιμα σε προβλήματα που σχετίζονται με Τ.Μ. με γεωμετρική κατανομή.

Ξεκινάμε από την απλή παρατήρηση ότι, για κάθε x και κάθε n1,


(1+x+x2++xn)(1-x)=1-xn+1.

[Αν αυτή η σχέση δεν σας είναι προφανής, αποδείξτε την με επαγωγή.] Υποθέτοντας ότι x1 και διαιρώντας και τα δύο μέρη με το (1-x), έχουμε τον γνωστό τύπο για το άθροισμα των όρων μιας γεωμετρικής προόδου:


k=0nxk=1-xn+11-x,για κάθεx1.

Αν περιοριστούμε τώρα σε τιμές του x με |x|<1, τότε προφανώς το xn+10 καθώς το n, άρα, περνώντας στο όριο, προκύπτει ο τύπος του αθροίσματος μιας γεωμετρικής σειράς,


g(x)=k=0xk=11-x,για κάθε|x|<1.
(7.7)

Από τον ορισμό της συνάρτησης g(x) στον τύπο (7.7) έχουμε δύο διαφορετικές εκφράσεις για την g(x), μία ως σειρά και μία ως το 1/(1-x). Μπορούμε επομένως να υπολογίσουμε την παράγωγο g(x) με δύο τρόπους: Αφού η παράγωγος ενός αθροίσματος ισούται με το άθροισμα των παραγώγων,


g(x)=ddx(k=0xk)=k=0ddx(xk)=k=0kxk-1,

αλλά και,


g(x)=ddx(11-x)=1(1-x)2.

Εξισώνοντας τις δύο παραπάνω εκφράσεις και πολλαπλασιάζοντας και τα δύο μέρη με το x, προκύπτει το αποτέλεσμα:


h(x)=k=0κxk=x(1-x)2,για κάθε|x|<1.
(7.8)

Επαναλαμβάνοντας την ίδια διαδικασία, μπορούμε να υπολογίσουμε την παράγωγο της νέας συνάρτησης h(x) με δύο τρόπους ως,


h(x) = ddx(k=0kxk)=k=0ddx(kxk)=k=0k2xk-1

ήh(x) = ddx(x(1-x)2)=(1-x)2+2x(1-x)(1-x)4=1+x(1-x)3.

Εξισώνοντας όπως πριν τις δύο εκφράσεις για την παράγωγο και πολλαπλασιάζοντας και τα δύο μέρη με το x, προκύπτει:


k=0κ2xk=x(1+x)(1-x)3,για κάθε|x|<1.
(7.9)

7.4 Η συνάρτηση ex, δυναμοσειρές, τύπος του Stirling

Σε αυτή την ενότητα θα υπολογίσουμε τις τιμές δύο σειρών που σχετίζονται με την κατανομή Poisson, και θα αποδείξουμε τον τύπο του Stirling όπως περιγράφεται στο Λήμμα 7.1.

Ξεκινάμε θυμίζοντας, όπως στο Λήμμα 7.2, ότι, για κάθε πραγματικό αριθμό x, η εκθετική συνάρτηση μπορεί να εκφραστεί μέσω του αναπτύγματος του Taylor ως μια δυναμοσειρά:


f(x)=ex=k=0xkk!,για κάθεx.

Εφόσον για την εκθετική συνάρτηση ισχύει πως f(x)=f(x), παίρνοντας την παράγωγο ως προς x και στα δύο μέρη της πιο πάνω σχέσης έχουμε,


ex=k=0kxk-1k!=1xk=0kxkk!,

όπου χρησιμοποιήσαμε τη γνωστή ιδιότητα πως η παράγωγος ενός αθροίσματος ισούται με το άθροισμα των παραγώγων. Άρα έχουμε αποδείξει πως, για κάθε x,


xex=k=0kxkk!.
(7.10)

Επαναλαμβάνοντας την ίδια διαδικασία ακόμη μία φορά, παίρνοντας παραγώγους έχουμε,


ddx(xex)=(x+1)ex=ddx(k=0kxkk!)=k=0kddx(xkk!),

και συνεπώς,


(x+1)ex=k=0k2xk-1k!=1xk=0k2xkk!,

ή, απλοποιώντας,


x(x+1)ex=k=0k2xkk!.
(7.11)

()
Απόδειξη του Λήμματος 7.1:

Κατ’ αρχάς παρατηρούμε πως, παίρνοντας λογαρίθμους, αρκεί να αποδείξουμε πως, για κάποια σταθερά C>0,


logn!-(n+12)logn+nlogC,καθώς τοn,
(7.12)

όπου με log συμβολίζουμε τον φυσικό λογάριθμο με βάση το e (ο οποίος μερικές φορές συμβολίζεται και ως ln).

Για κάθε t>0 ορίζουμε το ολοκλήρωμα,


I(t)=0tlogtdt=tlogt-t,

και επίσης (για k1) ορίζουμε τις ακολουθίες,


ak = 12logk-k-1/2klogxdx=k-1/2klogkxdx,

bk = kk+1/2logxdx-12logk=kk+1/2logxkdx.

Από τον ορισμό των δύο ακολουθιών, η διαφορά τους ισούται με,


ak-bk=k-1/2k+1/2logkxdx=-k-1/2k+1/2logxdx+logk,

οπότε, αθροίζοντας τις διαφορές,


k=1n-1(ak-bk)=log((n-1)!)-1/2n-1/2logxdx,

έχουμε,


k=1n-1(ak-bk)+an = log((n-1)!)+12logn-1/2n-1/2logxdx-n-1/2nlogxdx


= logn!-12logn-1/2nlogxdx.

Τώρα προσθέτοντας και αφαιρώντας το ολοκλήρωμα I(1/2), βρίσκουμε,


k=1n-1(ak-bk)+an = logn!-12logn-0nlogxdx+Ι(1/2)


= logn!-(n+12)logn+n+Ι(1/2).

Συνεπώς, για να αποδείξουμε τη ζητούμενη σχέση (7.12), αρκεί να δείξουμε πως το αριστερό μέρος της παραπάνω σχέσης, δηλαδή το k=1n-1(ak-bk)+an, τείνει σε κάποιο (πεπερασμένο) όριο καθώς το n.

Παρατηρούμε πως, μετά από μια απλή αλλαγή μεταβλητών, οι ακολουθίες {ak} και {bk} μπορούν να εκφραστούν ως,


ak = 01/2log(11-tk) dt ,

bk = 01/2log(1+tk) dt,

απ’ όπου εύκολα προκύπτει πως an0 καθώς n, και πως η διαφορά τους,


ak-bk=-01/2log(1-t2k2) dt =01/2log(1+t2k2-t2) dt 0.

Άρα, για να ολοκληρώσουμε την απόδειξη, αρκεί να δείξουμε πως η σειρά k=1(ak-bk) (των θετικών όρων ak-bk) συγκλίνει σε κάποιο πεπερασμένο άθροισμα.

Από την απλή ανισότητα (βλ. Λήμμα 7.3 πιο κάτω) log(1+x)x έχουμε,


log(1+t2k2-t2)t2k2-t2,

και εφόσον η συνάρτηση g(t)=t2k2-t2 είναι αύξουσα ως προς t (γιατί;), για τις τιμές του t στο σχετικό ολοκλήρωμα έχουμε g(t)g(1) και,


log(1+t2k2-t2)1k2-12k2,

όπου η τελευταία στοιχειώδης ανισότητα ισχύει για κάθε k2. Τελικά, λοιπόν, βρίσκουμε πως,


ak-bk=01/2log(t2k2-t2)𝑑t1k2,

και αφού η σειρά k=1(1/k2)<, τότε συγκλίνει και η ζητούμενη σειρά, ολοκληρώνοντας την απόδειξη.


Κλείνουμε αυτό το κεφάλαιο με μια στοιχειώδη ανισότητα την οποία χρησιμοποιήσαμε ήδη πιο πάνω και η οποία θα μας φανεί χρήσιμη και αργότερα.

Λήμμα 7.3

Για κάθε πραγματικό αριθμό x>-1 έχουμε log(1+x)x ή, ισοδύναμα:


ex1+x,για κάθεx.
(7.13)

Σχήμα 7.1: Σχηματική αναπαράσταση της ανισότητας στο Λήμμα 7.3.
Απόδειξη:

Έστω η συνάρτηση q(x)=ex-x-1. Αρκεί να δείξουμε πως q(x)0 για κάθε x, και εφόσον q(0)=0 αρκεί να δείξουμε πως η παράγωγος q(x)0 για x0 και q(x)0 για x0. Πράγματι, έχουμε q(x)=ex-1, το οποίο προφανώς ικανοποιεί τις ζητούμενες συνθήκες. Η ανισότητα (7.13) αναπαρίσταται γραφικά και στο Σχήμα 7.1.

7.5 Ασκήσεις

  1. 1. 

    Overbooking. Ένα αεροπλάνο έχει 50 θέσεις, και έχουν γίνει κρατήσεις από 55 επιβάτες. Η πιθανότητα καθένας από αυτούς να έρθει στο αεροδρόμιο είναι 90%, ανεξάρτητα από τους υπόλοιπους. Ποια είναι η πιθανότητα κάποιοι επιβάτες που θα φθάσουν στο αεροδρόμιο να είναι υπεράριθμοι;

  2. 2. 

    Δείκτριες τυχαίες μεταβλητές.

    1. (α’) 

      Έστω ένα οποιοδήποτε ενδεχόμενο A με πιθανότητα p=(A), και έστω η «δείκτρια» Τ.Μ. X, που παίρνει την τιμή X=1 όταν συμβαίνει το A, και X=0 όταν δεν συμβαίνει. Ποια είναι η κατανομή του X;

    2. (β’) 

      Έστω μια οποιαδήποτε Τ.Μ. Y με συνάρτηση κατανομής F(y). Για δεδομένο x, η δείκτρια συνάρτηση hx:{0,1} ορίζεται ως,


      hx(y)={1,ανyx,0,ανy>x.

      Δείξτε πως Ε[hx(Y)]=F(x).

  3. 3. 

    Η ουρά της μέσης τιμής. Έστω μια διακριτή Τ.Μ. Y η οποία παίρνει πάντα τιμές μεγαλύτερες ή ίσες του μηδενός και έχει πεπερασμένη μέση τιμή E(Y). Δείξτε πως, καθώς το x,


    E(Y[1-hx(Y)])0,

    όπου hx(y) είναι οι δείκτριες συναρτήσεις που ορίσαμε στην Άσκηση 2. Ερμηνεύστε διαισθητικά αυτό το αποτέλεσμα.

  4. 4. 

    Ελάχιστο δύο γεωμετρικών τυχαίων μεταβλητών. Έστω X και Y δύο ανεξάρτητες τυχαίες μεταβλητές, με παραμέτρους p1 και p2 αντίστοιχα. Υπολογίστε την πυκνότητα της τυχαίας μεταβλητής Z=min(X,Y). Μπορείτε να ερμηνεύσετε διαισθητικά το αποτέλεσμα; Υπόδειξη. Ίσως σας βοηθήσει να υπολογίσετε πρώτα την πιθανότητα Pr(Zk).

  5. 5. 

    Άθροισμα Poisson. Αν οι τυχαίες μεταβλητές X και Y είναι ανεξάρτητες, με κατανομή Poisson(λ) και Poisson(μ) αντίστοιχα, να δείξετε ότι η τυχαία μεταβλητή X+Y έχει κατανομή Poisson(λ+μ). Υπόδειξη. Το διωνυμικό θεώρημα λέει πως (a+b)n=k=0n(nk)akbn-k.

  6. 6. 

    Ταυτότητα Vandermonde. Αποδείξτε την ταυτότητα Vandermonde,


    k=0m(n1k)(n2m-k)=(n1+n2m),
    (7.14)

    όπου n1,n2,m. Χρησιμοποιήστε επιχειρήματα που βασίζονται αποκλειστικά στη συνδυαστική. Υπενθυμίζεται πως, κατά σύμβαση, θέτουμε (n0)=1 για κάθε n, και (nk)=0 για κάθε k>n.

  7. 7. 

    Άθροισμα διωνυμικών Τ.Μ. Χρησιμοποιήστε την ταυτότητα Vandermonde της Άσκησης 6, προκειμένου να δείξετε ότι το άθροισμα δύο διωνυμικών Τ.Μ. X,Y με παραμέτρους n1,p και n2,p αντίστοιχα, ανεξάρτητων μεταξύ τους, έχει Διων(n1+n2,p) κατανομή.

    Επίσης εξηγήστε πως θα μπορούσαμε να αποδείξουμε το ίδιο αποτέλεσμα χωρίς να χρειαστεί να κάνουμε υπολογισμούς.

  8. 8. 

    Διάφορες κατανομές. Παρακάτω ορίζονται κάποιες τυχαίες μεταβλητές. Περιγράψτε την κατανομή και τις αντίστοιχες παραμέτρους καθεμίας από αυτές.

    1. (α’) 

      Ρίχνουμε διαδοχικές (ανεξάρτητες) ζαριές με δύο ζάρια, μέχρι την 1η φορά που θα φέρουμε διπλή. Έστω Y= συνολικό πλήθος από ζαριές που ρίξαμε.

    2. (β’) 

      Επιλέγουμε στην τύχη, με επανατοποθέτηση, 6 φύλλα από μια τράπουλα. Έστω X το πλήθος από κούπες που επιλέξαμε.

    3. (γ’) 

      Όπως στο (β’), αλλά χωρίς επανατοποθέτηση.

    4. (δ’) 

      Ρίχνουμε 20 φορές ένα νόμισμα με Pr(Κορώνα)=0.3. Έστω Z= το πλήθος των φορών που φέραμε Γράμματα.

  9. 9. 

    Ουρά στην τράπεζα. Σε μια τράπεζα, κάθε πεντάλεπτο υπάρχει πιθανότητα 5% να έρθει ένας νέος πελάτης. Υποθέτουμε πως οι αφίξεις πελατών σε διαφορετικά πεντάλεπτα είναι ανεξάρτητες, πως ποτέ δεν έρχονται δύο ή παραπάνω πελάτες σε ένα δεδομένο πεντάλεπτο, και ορίζουμε:


    X = πλήθος πελατών που έφτασαν τις πρώτες 2 ώρες,

    Y = το πρώτο 5λεπτo κατά το οποίο έφτασε πελάτης.
    1. (α’) 

      Ποια είναι η κατανομή του X;

    2. (β’) 

      Βρείτε την πιθανότητα να έρθουν ακριβώς 3 πελάτες τις πρώτες δύο ώρες.

    3. (γ’) 

      Ποια είναι η κατανομή του Y;

    4. (δ’) 

      Κατά μέσο όρο πόσα λεπτά θα περιμένουν οι υπάλληλοι μέχρι την άφιξη του πρώτου πελάτη;

    5. (ε’) 

      Δεδομένου ότι δεν ήρθε κανείς τις πρώτες 2 ώρες, ποια είναι η πιθανότητα να μην έρθει κανείς και κατά την επόμενη μισή ώρα;

  10. 10. 
    Επιθέσεις μηνυμάτων spam. Κάποιος διαφημιστής στέλνει ένα email στους 10 χιλιάδες λογαριασμούς του domain aueb.gr ζητώντας τον αριθμό της πιστωτικής κάρτας του παραλήπτη. Από προηγούμενες προσπάθειές του γνωρίζει ότι οι διαφορετικοί χρήστες ανταποκρίνονται ανεξάρτητα ο ένας από τον άλλον, και η πιθανότητα να απαντήσει κάποιος με τα ζητούμενα στοιχεία είναι 0.018%. Ποια είναι η πιθανότητα να του απαντήσουν τουλάχιστον τρεις χρήστες;
  11. 11. 

    Τα «ν» του Βαρουφάκη. Ως γνωστόν, ο πρώην υπουργός Οικονομικών κύριος Γιάνης Βαρουφάκης αρέσκεται στο να γράφει το μικρό του όνομα με ένα «ν» αντί για δύο. Στα κείμενα που ανεβαίνουν σε ένα δημοσιογραφικό σάιτ, με πιθανότητα 0.3% ο διορθωτής κάνει λάθος και γράφει το όνομά του με δύο «ν», ανεξάρτητα από φορά σε φορά. Αν σε έναν μήνα το όνομα του κ. Βαρουφάκη αναφέρθηκε 800 φορές:

    1. (α’) 

      Εκφράστε το συνολικό πλήθος από «ν» που χρησιμοποιήθηκαν για όλες τις φορές που γράφτηκε το όνομά του, ως το άθροισμα μιας σταθεράς και μιας Τ.Μ. με γνωστή κατανομή. Ποια είναι αυτή η κατανομή;

    2. (β’) 

      Υπολογίστε μια προσέγγιση για την πιθανότητα το συνολικό πλήθος από «ν» που χρησιμοποιήθηκαν να είναι ίσο με 810.

  12. 12. 

    Άσχετος φοιτητής. Σε ένα διαγώνισμα υπάρχουν 250 ερωτήσεις πολλαπλής επιλογής. Ο εξεταζόμενος έχει παρανοήσει εντελώς το αντικείμενο του μαθήματος, και η πιθανότητα να απαντήσει σωστά είναι (πολύ χειρότερη από το να απαντούσε τυχαία!) μόνο 0.5% για την κάθε ερώτηση, ανεξαρτήτως των υπολοίπων ερωτήσεων. Βρείτε μια προσέγγιση της πιθανότητας ο εξεταζόμενος να απαντήσει σωστά σε ακριβώς τρεις ερωτήσεις.

  13. 13. 

    Δύο διαφορετικές δημοσκοπήσεις. Σε κάποιον πληθυσμό M ψηφοφόρων, 3Μ/10 άτομα, δηλαδή το 30%, είναι ψηφοφόροι κάποιου συγκεκριμένου κόμματος. Για να προβλέψει το ποσοστό αυτού του κόμματος στις εκλογές, μια εταιρία δημοσκοπήσεων διαλέγει τυχαία, ομοιόμορφα και με επανατοποθέτηση Ν άτομα από τον πληθυσμό, και καταγράφει το πλήθος Y εκείνων που δήλωσαν ψηφοφόροι του. Ως πρόβλεψη του εκλογικού αποτελέσματος του κόμματος, δίνει το ποσοστό Y/N των ψηφοφόρων του στο τυχαίο δείγμα της.

    1. (α’) 

      Ποια είναι η κατανομή του Y; Ποια είναι η μέση τιμή και η διασπορά της πρόβλεψης του ποσοστού Y/N;

    2. (β’) 

      Επαναλάβετε το προηγούμενο ερώτημα στην περίπτωση που η επιλογή γίνεται χωρίς επανατοποθέτηση. Συγκρίνετε με τα προηγούμενα αποτελέσματα. Ποια μέθοδος είναι πιο συμφέρουσα;

  14. 14. 

    Βελάκια. Ρίχνουμε δέκα βελάκια σε ένα στόχο, με κλειστά μάτια. Οι διαδοχικές ρίψεις είναι ανεξάρτητες, και η πιθανότητα να πετύχουμε τον στόχο είναι μόνο 1%.

    1. (α’) 

      Ποια η πιθανότητα ακριβώς 2 βελάκια να πέτυχαν τον στόχο;

    2. (β’) 

      Αν αντί για 10, ρίχναμε 140 βελάκια, βρείτε μια προσέγγιση της ίδιας πιθανότητας.

  15. 15. 

    Γινόμενο Bernoulli. Έστω n ανεξάρτητες τυχαίες μεταβλητές, X1,X2,,Xn, όπου η κάθε XiBern(pi), και έστω Ζ το γινόμενό τους. Παρατηρήστε πως το γινόμενο έχει επίσης κατανομή Bernoulli και υπολογίστε την παράμετρό της:

    (α’) Χρησιμοποιώντας το Θεώρημα 6.1, και (β’) χωρίς να χρησιμοποιήσετε το Θεώρημα 6.1.

  16. 16. 

    Χρηματιστήριο. Στο χρηματιστήριο, κάθε μέρα η τιμή μιας μετοχής αυξάνεται κατά 1 ευρώ με πιθανότητα 14%, αλλιώς μένει σταθερή, και οι αλλαγές αυτές είναι ανεξάρτητες από τη μία μέρα στην άλλη. Έστω ότι το πρωί της 1ης μέρας η τιμή είναι 100 ευρώ, και έστω Y1 η μεταβολή της τιμής κατά την 1η μέρα, Y2 η μεταβολή της τιμής κατά τη 2η μέρα, και γενικά Yi η μεταβολή της τιμής κατά τη μέρα i.

    1. (α’) 

      Ποια είναι η κατανομή των τυχαίων μεταβλητών Yi;

    2. (β’) 

      Έστω X η συνολική διαφορά της τιμής μετά από ένα μήνα (δηλαδή 30 ημέρες). Ποια είναι η κατανομή της τυχαίας μεταβλητής X;

    3. (γ’) 

      Ποια είναι η πιθανότητα του ενδεχόμενου Ε ότι μετά από ένα μήνα η τιμή θα είναι μεταξύ 110 και 112 ευρώ (συμπεριλαμβανομένων);

    4. (δ’) 

      Αν Z είναι η τιμή μετά από 60 μέρες, να βρεθεί η μέση τιμή και η διασπορά της.

    5. (ε’) 

      Αν αντί για 1 ευρώ, η τιμή αυξανόταν κατά δύο ευρώ ή έμενε σταθερή (με τις ίδιες πιθανότητες), να βρεθεί η μέση τιμή και η διασπορά της τιμής της μετοχής μετά από δύο μήνες.

  17. 17. 

    XOR Bernoulli. Έστω X και Y δύο ανεξάρτητες Τ.Μ. οι οποίες περιγράφουν δύο τυχαία bits στην εκτέλεση ενός προγράμματος. Έστω ότι η XBern(1/4), η YBern(1/2), και έστω μια νέα Τ.Μ. η Z=XXORY.

    1. (α’) 

      Η Ζ είναι δυαδική Τ.Μ. άρα έχει κατανομή Βernoulli. Να βρεθεί η παράμετρός της.

    2. (β’) 

      Είναι η Ζ ανεξάρτητη από τη X ή όχι; Αποδείξτε την απάντησή σας.

  18. 18. 

    Διασπορά υπεργεωμετρικής κατανομής. Στην παρατήρηση που ακολουθεί το Παράδειγμα 7.8 είδαμε πως μια Τ.Μ. YΥπερ(N,k,n) μπορεί να εκφραστεί ως το άθροισμα n Τ.Μ. X1,X2,,Xn οι οποίες έχουν όλες κατανομή Bern(k/N) αλλά δεν είναι ανεξάρτητες. Εδώ θα αποδείξουμε τον τύπο (7.3) για τη διασπορά της Y.

    1. (α’) 

      Δείξτε πως:


      E(Y2)=i=1nj=1nE(XiXj).
    2. (β’) 

      Εξηγήστε γιατί, με βάση τον συλλογισμό που χρησιμοποιήσαμε για τον υπολογισμό της μέσης τιμής, όλοι οι όροι στο παραπάνω άθροισμα ικανοποιούν:


      E(XiXj) = E(X1X2),για κάθεij,

      και     E(Xi2) = E(X12)=E(X1),για κάθεi.
    3. (γ’) 

      Υπολογίστε την παράμετρο της Bernoulli τυχαίας μεταβλητής X1X2.

    4. (δ’) 

      Χρησιμοποιώντας τα τρία πιο πάνω βήματα, δείξτε πως:


      E(Y2)=nkN+n(n-1)kNk-1N-1.
    5. (ε’) 

      Χρησιμοποιώντας το αποτέλεσμα του βήματος (δ’), αποδείξτε τον τύπο (7.3) για τη διασπορά της Y.

  19. 19. 

    Αναπαράσταση της ex. Η τρίτη ιδιότητα του Λήμματος 7.2 λέει ότι, για οποιαδήποτε πραγματική ακολουθία {xn} που τείνει στο x καθώς το n, ισχύει η σχέση (7.5):


    ex=limn(1+xnn)n.

    Στα τρία πιο κάτω βήματα θα δούμε την απόδειξή της.

    1. (α’) 

      Χρησιμοποιώντας το ανάπτυγμα Taylor, δείξτε ότι για οποιοδήποτε y>-1, έχουμε,


      log(1+y)=y-y22(1+ζ)2,

      για κάποιο ζ τέτοιο ώστε |ζ||y|.

    2. (β’) 

      Χρησιμοποιήστε το προηγούμενο σκέλος για να δείξετε ότι υπάρχει κάποιο n01 και μια φραγμένη ακολουθία {ξn}, τέτοια ώστε:


      nlog(1+xnn)=xn-12nξn,γιαnn0.
    3. (γ’) 

      Εξηγήστε πως το πιο πάνω αποτέλεσμα συνεπάγεται ότι ισχύει η (7.5).

ΠΟΛΥΜΕΣΙΚΟ ΥΛΙΚΟ ΚΕΦΑΛΑΙΟΥ

1

Κινούμενο σχήμα 7.1: Η πυκνότητα και η συνάρτηση κατανομής μιας διωνυμικής Τ.Μ. X καθώς μεταβάλλεται το πλήθος των πειραμάτων N, για σταθερή πιθανότητα επιτυχίας p=0.5.
[Καθώς αυξάνεται η τιμή της παραμέτρου Ν, η πυκνότητα και η συνάρτηση κατανομής πλησιάζουν τις αντίστοιχες της λεγόμενης "κανονικής κατανομής" (με την ίδια μέση τιμή και διασπορά) την οποία θα συναντήσουμε παρακάτω κατά την μελέτη των Τ.Μ. με συνεχή κατανομή.]

2

Κινούμενο σχήμα 7.2: Η πυκνότητα και η συνάρτηση κατανομής μιας διωνυμικής Τ.Μ. X καθώς μεταβάλλεται η πιθανότητα επιτυχίας p, για σταθερό πλήθος πειραμάτων N=20.

3

Κινούμενο σχήμα 7.3: Η πυκνότητα και η συνάρτηση κατανομής μιας γεωμετρικής Τ.Μ. καθώς μεταβάλλεται η πιθανότητα επιτυχίας p του κάθε πειράματος.

5

Κινούμενο σχήμα 7.4: Η πυκνότητα και η συνάρτηση κατανομής μιας υπεργεωμετρικής T.M. X με παραμέτρους (πλήθος αντικειμένων) N=100, (πλήθος αντικειμένων τύπου Ι) n και (πλήθος αντικειμένων που επιλέγουμε) k. H Τ.Μ. X εκφράζει το πλήθος των αντικειμένων τύπου I που βρέθηκαν μεταξύ των k που επιλέξαμε. Σε αυτό το κινούμενο σχήμα, το k μεταβάλλεται μεταξύ των τιμών k=5 και k=N=100.

5

Κινούμενο σχήμα 7.5: Η πυκνότητα και η συνάρτηση κατανομής μιας υπεργεωμετρικής Τ.Μ. X με παραμέτρους N=100, k=50, και n μεταβαλλόμενο μεταξύ των τιμών n=2 και n=100.

4

Κινούμενο σχήμα 7.6: Η πυκνότητα και η συνάρτηση κατανομής μιας Τ.Μ. Poisson καθώς μεταβάλλεται η παράμετρος λ. [Καθώς αυξάνεται η τιμή της παραμέτρου λ, η πυκνότητα και η συνάρτηση κατανομής πλησιάζουν τις αντίστοιχες της λεγόμενης "κανονικής κατανομής" (με την ίδια μέση τιμή και διασπορά) την οποία θα συναντήσουμε παρακάτω κατά την μελέτη των Τ.Μ. με συνεχή κατανομή.]

5

Κινούμενο σχήμα 7.7: Η πυκνότητα και η συνάρτηση κατανομής μιας διωνυμικής Τ.Μ. καθώς αυξάνεται το πλήθος των πειραμάτων N και μειώνεται η πιθανότητα επιτυχίας p του κάθε πειράματος έτσι ώστε το γινόμενο Np να παραμένει σταθερό και ίσο με Np=5. Παρατηρήστε ότι η πυκνότητα και η συνάρτηση κατανομής συγκλίνουν στις αντίστοιχες μιας Τ.Μ. Poisson με παράμετρο λ=Np.



Κεφάλαιο 8 Παραδείγματα πιθανοκρατικής ανάλυσης αλγορίθμων

[Επιστροφή στα περιεχόμενα]


Σ’ αυτό το κεφάλαιο θα αναπτύξουμε κάποια πιο ρεαλιστικά παραδείγματα εφαρμογών των πιθανοτήτων στην πληροφορική. Σε μια πρώτη ανάγνωση του βιβλίου, ο αναγνώστης που θέλει απλά να εξοικειωθεί με τις βασικές ιδέες και τεχνικές των πιθανοτήτων, μπορεί ασφαλώς να το προσπεράσει.

Στις Ενότητες 8.1 και 8.2 θα εξετάσουμε δύο κλασικά προβλήματα της επιστήμης υπολογιστών, και θα δούμε πως για το καθένα από αυτά υπάρχει μια μέθοδος να λυθεί χρησιμοποιώντας έναν «randomized» (ή τυχαιοκρατικό) αλγόριθμο. Όπως αναφέραμε στο εισαγωγικό Κεφάλαιο 1, υπάρχουν αρκετά προβλήματα τα οποία επιλύονται πολύ πιο αποτελεσματικά αν επιτρέψουμε στον αλγόριθμο που χρησιμοποιούμε να πραγματοποιεί ορισμένα τυχαία βήματα κατά την εκτέλεσή του. Με προσεκτικό σχεδιασμό, αυτή η μέθοδος μπορεί να μειώσει σημαντικά την πολυπλοκότητα του αλγορίθμου. Το τίμημα αυτής της επιτάχυνσης είναι πως, λόγω της τυχαιότητας, υπάρχει πάντα κάποια πιθανότητα το αποτέλεσμα να είναι εσφαλμένο. Και πάλι με προσεκτικό σχεδιασμό ωστόσο, μπορούμε να εγγυηθούμε ότι η πιθανότητα αυτή θα είναι αποδεκτά μικρή, όπως θα δούμε λεπτομερώς παρακάτω.

Κατόπιν, στις Ενότητες 8.3 και 8.4 θα δούμε δύο παραδείγματα πιθανοκρατικής ανάλυσης αλγορίθμων. Συγκεκριμένα, θα παρουσιάσουμε δύο σχετικά απλούς, γνωστούς αλγορίθμους, και θα παρατηρήσουμε πως η κλασική τους πολυπλοκότητα (δηλαδή η πολυπλοκότητά τους για τη χειρότερη περίπτωση των δεδομένων εισόδου) είναι σχετικά μεγάλη. Αντίθετα, η συμπεριφορά τους πάνω σε τυχαία δεδομένα είναι πολύ διαφορετική: Η πολυπλοκότητά τους είναι σημαντικά μικρότερη με πιθανότητα πολύ κοντά στο 100%. Αυτό το φαινόμενο – ένας αλγόριθμος να είναι σχεδόν πάντα πολύ αποτελεσματικότερος από ό,τι στη χειρότερη δυνατή περίπτωση – είναι αρκετά συχνό και παίζει ιδιαίτερα σημαντικό ρόλο σε πολλές πρακτικές εφαρμογές.

Είναι επίσης αξιοσημείωτο πως, παρότι τα αποτελέσματα που θα αποδείξουμε είναι ισχυρά και έχουν ουσιαστικό πρακτικό ενδιαφέρον στο πλαίσιο σύγχρονων προβλημάτων της πληροφορικής, η μαθηματική τους ανάλυση είναι σχετική απλή και δεν απαιτεί τίποτα παραπάνω από κάποιες από τις απλούστερες τεχνικές των πιθανοτήτων τις οποίες έχουμε συναντήσει στα Κεφάλαια 2 έως 6.

Κάποιες ενδιαφέρουσες επεκτάσεις και γενικεύσεις των τεσσάρων αυτών παραδειγμάτων δίνονται στις ασκήσεις στο τέλος του κεφαλαίου.

8.1 Eπαλήθευση ισότητας πολυωνύμων

Εδώ εξετάζουμε το πρόβλημα της επαλήθευσης ισότητας πολυωνύμων. Τα δεδομένα μας είναι δύο πολυώνυμα βαθμού n,


f(x) = a0+a1x+a2x2++an-1xn-1+xn

g(x) = (x-b1)(x-b2)(x-bn),

και το ζητούμενο είναι να προσδιορίσουμε αν είναι τα ίδια, δηλαδή αν f(x)=g(x) για κάθε x, ή όχι. Αν και δεν θα επεκταθούμε περαιτέρω, απλά σημειώνουμε πως αυτό το πρόβλημα και οι διάφορες προσεγγίσεις που έχουν αναπτυχθεί για τη λύση του έχουν μεγάλο εύρος πρακτικών εφαρμογών.

Θα δούμε τρεις μεθόδους, εκ των οποίων η τρίτη είναι ένας απλός randomized αλγόριθμος, και θα εκτιμήσουμε την πολυπλοκότητά τους. Για να απλοποιήσουμε την ανάλυση, η πολυπλοκότητα θα υπολογιστεί βάσει του πλήθους των πολλαπλασιασμών που απαιτεί η κάθε μέθοδος, δηλαδή θα αγνοήσουμε τις προσθέσεις και τις πράξεις που απαιτούνται για να υψώσουμε κάποιο πραγματικό αριθμό x σε μια ακέραια δύναμη k (βλ. την Άσκηση 3 στο τέλος του κεφαλαίου για μια πιο λεπτομερή ανάλυση).


1. Σύγκριση συντελεστών. Η πιο προφανής μέθοδος είναι να αναπτύξουμε το γινόμενο στην περιγραφή του g(x) ώστε να έρθει στην ίδια μορφή με το f(x), και να συγκρίνουμε τους αντίστοιχους συντελεστές.

Ο πολλαπλασιασμός (x-b1)(x-b2) των δύο πρώτων όρων απαιτεί έναν πολλαπλασιασμό για να βρούμε το b1b2. Στη συνέχεια, ο πολλαπλασιασμός του αποτελέσματος,


x2-(b1+b2)x+b1b2,

με τον επόμενο όρο (x-b3) δίνει το x3-(b1+b2+b3)x2+[b1b2-b3(b1+b2)]x-b1b2b3 και απαιτεί 2 επιπλέον πολλαπλασιασμούς.

Γενικά, στο βήμα k πολλαπλασιάζουμε το αποτέλεσμα του προηγούμενου βήματος (που είναι ένα πολυώνυμο βαθμού k) με τον επόμενο όρο (x-bk+1), πράγμα που απαιτεί k επιπλέον πολλαπλασιασμούς (για να βρούμε το γινόμενο του bk+1 με τον καθένα από τους k συντελεστές του προηγούμενου πολυωνύμου). Συνολικά, το πλήθος των πολλαπλασιασμών που απαιτούνται είναι,


1+2++(n-1)=k=1n-1k=(n-1)n2=12n2-12n.

Άρα, για μεγάλα n, η πολυπλοκότητα της μεθόδου αυτής είναι O(n2), δηλαδή «της τάξης του n2» ή «τετραγωνική».55Εδώ χρησιμοποιήσαμε τον τύπο για το άθροισμα των όρων μιας αριθμητικής προόδου k=1nk=n(n+1)/2. Η Άσκηση 2 στο τέλος του κεφαλαίου δίνει κάποιες λεπτομέρειες για την απόδειξή του.


2. Σύγκριση ριζών. Η αναπαράσταση του g(x) μάς λέει πως έχει n πραγματικές ρίζες, τις b1,b2,,bn. Εφόσον ένα άλλο πολυώνυμο βαθμού n θα είναι ίσο με το g(x) αν και μόνο αν έχουν τις ίδιες ρίζες, μπορούμε να υπολογίσουμε τις τιμές f(bi) για κάθε i=1,2,,n. Αν όλες είναι ίσες με το μηδέν, τότε τα δύο πολυώνυμα θα είναι τα ίδια, ενώ αν f(bi)0 για κάποιο i, θα είναι διαφορετικά.

Ο υπολογισμός του κάθε f(bi) απαιτεί n πολλαπλασιασμούς, και η επανάληψη για όλα τα i=1,2,,n απαιτεί συνολικά n2 πολλαπλασιασμούς. Και πάλι λοιπόν έχουμε έναν αλγόριθμο με πολυπλοκότητα της τάξης του n2.


3. Ένας randomized αλγόριθμος. Έστω τώρα πως επιλέγουμε έναν τυχαίο ακέραιο X μεταξύ του 1 και του 100n. Δηλαδή το X είναι μια τυχαία μεταβλητή με σύνολο τιμών το S={1,2,,100n} και πυκνότητα P(x)=1100n για κάθε xS. Υπολογίζουμε τις τιμές f(X) και g(X), και αν είναι ίσες δηλώνουμε πως τα δύο πολυώνυμα είναι τα ίδια, ενώ αν f(X)g(X) δηλώνουμε πως είναι διαφορετικά.

Πριν εξετάσουμε την πιθανότητα να δώσουμε λάθος αποτέλεσμα, παρατηρούμε ότι η πολυπλοκότητα αυτού του randomized αλγορίθμου είναι μόλις 2n, δηλαδή γραμμική ως προς το n και άρα σημαντικά μικρότερη από εκείνη των δύο προηγουμένων μεθόδων.

Έστω τώρα Pe=Pr(«error») η πιθανότητα σφάλματος του αλγορίθμου. Εξετάζουμε δύο περιπτώσεις. Αν τα f(x) και g(x) είναι ίσα, τότε θα έχουμε πάντοτε f(X)=g(X) και ο αλγόριθμος θα δίνει τη σωστή απάντηση, άρα Pe=0. Αν τα f(x) και g(x) είναι διαφορετικά, τότε η διαφορά τους f(x)-g(x) είναι ένα πολυώνυμο βαθμού το πολύ n-1. Κατά συνέπεια θα έχει το πολύ n-1 πραγματικές ρίζες, τις οποίες συμβολίζουμε ως {ρ1,ρ2,,ρk} για κάποιον ακέραιο kn-1. Στην περίπτωση, λοιπόν, που τα f(x) και g(x) είναι διαφορετικά, μπορούμε να εκφράσουμε την πιθανότητα σφάλματος ως εξής:


Pe = Pr(f(X)=g(X))


= Pr(f(X)-g(X)=0)


= Pr(X{ρ1,ρ2,,ρk})


= i=1kPr(X=ρi).

Αν κάποιο ρi είναι ακέραιος μεταξύ 1 και 100n, τότε Pr(X=ρi)=1100n, και αν όχι τότε Pr(X=ρi)=0. Σε κάθε περίπτωση, Pr(X=ρi)1100n, οπότε,


Pek1100n1%,

όπου στο δεύτερο βήμα χρησιμοποιήσαμε το γεγονός ότι το k είναι το πολύ n-1 και το προφανές φράγμα n-1n.

Συνεπώς, με τη χρήση τυχαιότητας στο σχεδιασμό του αλγορίθμου, πετύχαμε και μεγάλη μείωση της πολυπλοκότητας και μικρή πιθανότητα σφάλματος. Συγκεκριμένα, όταν το αποτέλεσμα του αλγορίθμου είναι «fg», είμαστε βέβαιοι ότι είναι σωστό. Ενώ, όταν το αποτέλεσμα είναι «fg», ξέρουμε ότι η πιθανότητα να είναι πράγματι ίσα τα δύο πολυώνυμα είναι τουλάχιστον 99%.

8.2 Εύρεση ελαχιστιαίου cut set σε γράφους

Σκεφτείτε ένα δίκτυο n υπολογιστών όπου ο κάθε υπολογιστής είναι συνδεδεμένος με κάποιους, αλλά όχι απαραίτητα όλους, από τους υπόλοιπους. Ένα παράδειγμα ενός τέτοιου δικτύου n=6 υπολογιστών δίνεται στο Σχήμα 8.1, όπου έχουμε συμβολίσει τον κάθε υπολογιστή i με τον αντίστοιχο κόμβο i, για i=1,2,,n, και δύο υπολογιστές i,j είναι συνδεδεμένοι αν και μόνο αν οι αντίστοιχοι κόμβοι στον γράφο συνδέονται με την ακμή ij.

Σχήμα 8.1: Σχηματική αναπαράσταση του γράφου που περιγράφει ένα δίκτυο έξι υπολογιστών και τις αντίστοιχες μεταξύ τους συνδέσεις.

Δύο υπολογιστές i,j στο πιο πάνω δίκτυο μπορούν να επικοινωνήσουν αν είναι άμεσα συνδεδεμένοι, αν δηλαδή η αντίστοιχη ακμή ij περιέχεται στον γράφο, ή αν υπάρχει ένα μονοπάτι ακμών που να ξεκινάει από τον i και να καταλήγει στον j. Για παράδειγμα, οι κόμβοι 1 και 2 επικοινωνούν άμεσα, ενώ οι 2 και 5 επικοινωνούν μέσω του μονοπατιού (23,35).

Σε πολλών ειδών πραγματικά επικοινωνιακά δίκτυα (φυσικά, πολύ μεγαλύτερα και πιο πολύπλοκα από το παραπάνω απλοϊκό παράδειγμα), μας ενδιαφέρει να μπορούν όλοι οι κόμβοι να επικοινωνήσουν μεταξύ τους, δηλαδή, στον γράφο που τα αναπαριστά να υπάρχει τουλάχιστον ένα μονοπάτι ακμών που να συνδέει οποιουσδήποτε δύο κόμβους. Όταν αυτό συμβαίνει, λέμε ότι ο γράφος είναι συνδεδεμένος ή συνεκτικός.

Έστω λοιπόν ένας (μη κατευθυνόμενος) γράφος (V,E), όπου το V={1,2,,n} είναι το σύνολο των n=#V κόμβων του και E είναι το σύνολο των ακμών του, και όπου η ακμή eE που συνδέει τους κόμβους i και j συμβολίζεται ως e=ij. Ας υποθέσουμε ότι ο γράφος (V,E) είναι συνδεδεμένος. Αν, π.χ., αυτός ο γράφος περιγράφει ένα επικοινωνιακό δίκτυο, μας ενδιαφέρει να γνωρίζουμε πόσο ευαίσθητο είναι το δίκτυο σε δυσλειτουργίες ή βλάβες κάποιων από τις συνδέσεις του. Για παράδειγμα, ποιο είναι το μικρότερο πλήθος συνδέσεων που, αν πάψουν να λειτουργούν, θα υπάρχουν κάποιοι κόμβοι που δε θα μπορούν να επικοινωνήσουν μεταξύ τους; Με άλλα λόγια, ποιο είναι το μέγεθος του μικρότερου υποσυνόλου CE, τέτοιο ώστε, αν αφαιρέσουμε τις ακμές που περιέχονται στο C, ο νέος γράφος δεν θα είναι πια συνδεδεμένος;

Στα διακριτά μαθηματικά κάθε τέτοιο σύνολο CE ονομάζεται cut set (ή «σύνολο αποκοπτουσών ακμών»). Εάν επιπλέον ένα cut set C έχει την ιδιότητα να έχει μέγεθος μικρότερο ή ίσο με εκείνο οποιουδήποτε άλλου cut set, τότε ονομάζεται «ελαχιστιαίο cut set» ή πιο απλά min-cut. Για παράδειγμα, στο γράφο του Σχήματος 8.1 παρατηρούμε πως τα C1={12,13}, C2={24,34,35} και C3={46,56} είναι cut sets και πως τα C1 και C3 είναι min-cuts.

Πέραν των εφαρμογών που αναφέραμε παραπάνω, το πρόβλημα της εύρεσης ενός min-cut σε ένα γράφο είναι και θεωρητικά ενδιαφέρον. Για παράδειγμα, δεν υπάρχει κάποιος προφανής τρόπος να βρούμε σχετικά εύκολα ένα min-cut, παρά μόνο να εξετάσουμε όλα τα δυνατά cut sets και να επιλέξουμε το μικρότερο. Αλλά το πλήθος των cut sets ενός γράφου με n κόμβους είναι Γn=2n-1-1, το οποίο είναι προφανώς απαγορευτικά (εκθετικά) μεγάλο για ρεαλιστικές τιμές του n.

Για δούμε ότι πράγματι υπάρχουν Γn υποψήφια cut sets, παρατηρούμε πως κάθε cut set αντιστοιχεί σε ένα διαχωρισμό των κόμβων V του γράφου σε δύο (ξένα) υποσύνολα K1 και K2, τέτοια ώστε κανένας κόμβος στο K1 να μην επικοινωνεί με οποιονδήποτε κόμβο στο K2 και η ένωσή τους να μας δίνει όλους τους κόμβους, δηλαδή V=K1K2. Κάθε τέτοιος διαχωρισμός αντιστοιχεί ακριβώς σε ένα cut set, το οποίο αποτελείται από τις ακμές που συνδέουν κάποιο στοιχείο του K1 με κάποιο στοιχείο του K2. Άρα, κάθε cut set μπορεί να περιγραφεί από την επιλογή ενός υποσυνόλου K1 του V, όπου φυσικά υπάρχουν 2n-2 υποψήφια υποσύνολα (μια που δεν συμπεριλαμβάνουμε το κενό σύνολο και ολόκληρο το V). Αλλά επειδή οι ρόλοι των K1 και K2 είναι συμμετρικοί, κάθε cut set μπορεί να περιγραφεί μέσω δύο διαχωρισμών, απλά αντιστρέφοντας τους ρόλους του K1 και του K2. Συνεπώς, το πλήθος όλων των δυνατών διαχωρισμών, δηλαδή το πλήθος όλων των υποψήφιων cut sets, είναι πράγματι Γn=(2n-2)/2=2n-1-1.

Ο παρακάτω randomized αλγόριθμος μάς δίνει μια απλή και σχετικά χαμηλής πολυπλοκότητας μέθοδο για την εύρεση ενός min-cut σε έναν οποιονδήποτε γράφο, με μεγάλη πιθανότητα. Η κεντρική ιδέα του αλγορίθμου είναι η έννοια της συνένωσης δύο κόμβων.

Ο αλγόριθμος του Karger (1993) Έστω ένας μη κατευθυνόμενος, συνδεδεμένος γράφος (V,E) με n=#V κόμβους.
  • • 

    Επιλέγουμε τυχαία και ομοιόμορφα μία από τις ακμές e=ij του γράφου, και συνενώνουμε τους δύο κόμβους i και j σε έναν. Συμβολίζουμε τον νέο κόμβο i,j, αφαιρούμε την ακμή ij και διατηρούμε όλες τις υπόλοιπες.

  • • 

    Π.χ., ξεκινώντας από τον γράφο στο πρώτο διάγραμμα του Σχήματος 8.2, αν επιλέξουμε την ακμή 34 όπως φαίνεται στο δεύτερο διάγραμμα, καταλήγουμε στον γράφο του τρίτου διαγράμματος.

  • • 

    Παρατηρούμε τώρα ότι ένας κόμβος του νέου γράφου θα συμβολίζεται με δύο αριθμούς αντί για έναν, και ότι κάποιοι κόμβοι μπορεί να συνδέονται με παραπάνω από μία ακμές.

  • • 

    Συνεχίζουμε επαγωγικά: Επιλέγουμε τυχαία και ομοιόμορφα μία από τις υπάρχουσες ακμές του νέου γράφου και επαναλαμβάνουμε την ίδια διαδικασία: Συνενώνουμε τους δύο κόμβους που συνδέει η επιλεγμένη ακμή, συμβολίζουμε τον νέο κόμβο με το σύνολο των συμβόλων που περιέγραφαν τους δύο κόμβους, αφαιρούμε τις ακμές που τους συνέδεαν μεταξύ τους και διατηρούμε όλες τις υπόλοιπες.

  • • 

    Π.χ., ξεκινώντας από το γράφο στο τρίτο διάγραμμα του Σχήματος 8.2, αν επιλέξουμε την ακμή 14 όπως φαίνεται στο τέταρτο διάγραμμα, καταλήγουμε στο γράφο του πέμπτου διαγράμματος.

  • • 

    Η ίδια διαδικασία επαναλαμβάνεται για ακριβώς (n-2) βήματα, οπότε και θα έχουμε αναγκαστικά καταλήξει σε ένα γράφο με ακριβώς δύο κόμβους.



Σχήμα 8.2: Παράδειγμα της εκτέλεσης του αλγορίθμου του Karger σε έναν απλό γράφο. Σε κάθε βήμα, η ακμή που επιλέγεται συμβολίζεται με διακεκομμένη γκρίζα γραμμή.


Παρατηρήσεις:
  1. 1.

    Το αποτέλεσμα του αλγορίθμου του Karger είναι ο διαχωρισμός όλων των κόμβων του αρχικού γράφου σε δύο ομάδες που συνδέονται μεταξύ τους μέσω όλων των ακμών του αρχικού γράφου οι οποίες συνέδεαν κάποιον κόμβο της πρώτης ομάδας με κάποιον της δεύτερης. Συνεπώς, το σύνολο των ακμών στο οποίο καταλήγει ο αλγόριθμος πάντοτε αντιστοιχεί σε ένα cut set. Για παράδειγμα, στο Σχήμα 8.3 καταλήγουμε στο cut set C={35,45}, το οποίο εύκολα βλέπουμε πως είναι και min-cut για αυτόν το γράφο.

  2. 2.

    Στο Σχήμα 8.3 βλέπουμε μια διαφορετική πιθανή έκβαση του αλγορίθμου του Karger, όπου καταλήγουμε σε ένα διαφορετικό cut set, το C={12,13,14}, το οποίο προφανώς δεν είναι min-cut. Άρα παρατηρούμε πως ο αλγόριθμος δεν μας δίνει πάντα ένα min-cut ως αποτέλεσμα.



Σχήμα 8.3: Ένα διαφορετικό παράδειγμα της εκτέλεσης του αλγορίθμου του Karger.

Το επόμενο θεώρημα μάς δίνει πολύ ακριβείς πληροφορίες για το πώς ακριβώς και πόσο αποτελεσματικά μπορεί να εφαρμοστεί ο πιο πάνω αλγόριθμος στην πράξη.

Θεώρημα 8.1

Έστω ένας οποιοσδήποτε μη κατευθυνόμενος, συνδεδεμένος γράφος (V,E) με n=#V κόμβους.

  • 1. 

    Αν εφαρμόσουμε τον αλγόριθμο του Karger, η πιθανότητα Ps το cut set στο οποίο θα καταλήξουμε να είναι και min-cut για αυτόν το γράφο δεν μπορεί να είναι αυθαίρετα μικρή· συγκεκριμένα,


    Ps=Pr(«success»)2n(n-1).
  • 2. 

    Αν εφαρμόσουμε τον αλγόριθμο του Karger σε n(n-1)logn ανεξάρτητες επαναλήψεις, και ως αποτέλεσμα πάρουμε το μικρότερο από όλα τα cut sets στα οποία θα καταλήξουμε, η πιθανότητα Pe το τελικό αποτέλεσμα να μην είναι min-cut είναι μικρή· συγκεκριμένα,66Θυμίζουμε πως με log συμβολίζουμε τον φυσικό λογάριθμο με βάση το e, ο οποίος μερικές φορές συμβολίζεται και ως ln.


    Pe=Pr(«error»)1n2.

Πριν την απόδειξη, παραθέτουμε κάποιες σημαντικές παρατηρήσεις σχετικά με το παραπάνω αποτέλεσμα και με το γενικό πρόβλημα της εύρεσης min-cuts σε γράφους.


Παρατηρήσεις:

  1. 1.

    Ο πιο απλός τρόπος να κατασκευάσουμε ένα cut set είναι να επιλέξουμε όλες τις ακμές ενός συγκεκριμένου κόμβου· προφανώς, αν τις αφαιρέσουμε, τότε ο γράφος χωρίζεται σε δύο μέρη (τον συγκεκριμένο κόμβο και όλους τους υπόλοιπους) τα οποία δεν συνδέονται μεταξύ τους. Κατά συνέπεια, το πλήθος των στοιχείων που περιέχει ένα min-cut θα είναι πάντα μικρότερο ή ίσο του πλήθους των ακμών που συνδέονται με οποιονδήποτε κόμβο. Ή, αντίστροφα, αν υπάρχει κάποιο min-cut CΕ το οποίο περιέχει k στοιχεία, τότε ο κάθε κόμβος του γράφου θα έχει τουλάχιστον k ακμές.

  2. 2.

    Εφόσον κάθε επανάληψη του αλγορίθμου του Karger απαιτεί (n-2) βήματα, ο αλγόριθμος που περιγράφεται στο δεύτερο μέρος του θεωρήματος απαιτεί n(n-1)(logn)(n-2) βήματα, και άρα η πολυπλοκότητα του είναι της τάξης Ο(n3logn). Επιπλέον, για πρακτικά ρεαλιστικές τιμές του n η πιθανότητα σφάλματος είναι αμελητέα· π.χ., για n100, η πιθανότητα σφάλματος είναι το πολύ 0.01%.

  3. 3.

    Υπάρχει μια τροποποίηση της μεθόδου που είδαμε στο θεώρημα, ο αλγόριθμος Karger-Stein, ο οποίος επιτρέπει την εύρεση ενός min-cut με μεγάλη πιθανότητα και με πολυπλοκότητα της τάξης O(n2(logn)r) για κάποιο r.

    Από την άλλη μεριά, παρατηρούμε πως υπάρχουν γράφοι με O(n2) πλήθος ακμών (όπως για παράδειγμα ο πλήρης γράφος σε n κόμβους) και πως για να βρούμε κάποιο min-cut πρέπει να εξετάσουμε την κάθε ακμή τουλάχιστον μία φορά (για να διαπιστώσουμε αν ο γράφος που προκύπτει είναι συνδεδεμένος). Συνεπώς, η μικρότερη δυνατή πολυπλοκότητα οποιουδήποτε ντετερμινιστικού αλγορίθμου για την εύρεση κάποιου min-cut είναι τουλάχιστον της τάξης των O(n2) βημάτων.

    Ο καλύτερος γνωστός ως σήμερα ντετερμινιστικός αλγόριθμος γι’ αυτό το πρόβλημα, απαιτεί O(mn+n2logn) βήματα, όπου m=#E είναι το πλήθος των ακμών του αρχικού γράφου.

  4. 4.

    Χρησιμοποιώντας κάποιους από τους υπολογισμούς που θα κάνουμε στην απόδειξη του θεωρήματος πιο κάτω, στην Άσκηση 5 στο τέλος του κεφαλαίου θα δείξετε το ακόλουθο ενδιαφέρον πόρισμα: Για οποιονδήποτε γράφο με n κόμβους, υπάρχουν το πολύ (n2) min-cuts.

  5. 5.

    Έχοντας δει το αποτέλεσμα του θεωρήματος, μια εύλογη ερώτηση είναι η εξής: Δεν θα ήταν ευκολότερο, αντί να χρησιμοποιήσουμε τον αλγόριθμο του Karger, απλά να επιλέξουμε στην τύχη ένα οποιοδήποτε cut set πολλές φορές και να πάρουμε ως αποτέλεσμα ενός υποψηφίου min-cut το μικρότερο από αυτά; Όπως θα δείξετε στην Άσκηση 6 στο τέλος του κεφαλαίου, αυτή η μέθοδος δεν είναι αποτελεσματική, γιατί η πιθανότητα ένα τυχαία επιλεγμένο cut set να είναι και min-cut είναι σημαντικά μικρότερη από την αντίστοιχη πιθανότητα Ps του αλγορίθμου του Karger.

Απόδειξη του Θεωρήματος 8.1:

Όπως έχουμε ήδη παρατηρήσει, σε κάποιον γράφο (V,E) μπορούν να υπάρχουν περισσότερα από ένα min-cuts. Έστω CΕ ένα συγκεκριμένο από αυτά τα min-cuts, και έστω k=#C το πλήθος των στοιχείων του. Όπως αναφέραμε στην πρώτη από τις παραπάνω παρατηρήσεις, ο κάθε κόμβος του γράφου θα έχει τουλάχιστον k ακμές, άρα το συνολικό πλήθος #E των ακμών του θα είναι τουλάχιστον #Ekn/2.

Κατ’ αρχάς θα υπολογίσουμε ένα φράγμα για την πιθανότητα του ενδεχομένου:


S={το αποτέλεσμα του αλγορίθμου είναι τοC}.

Ορίζουμε για κάθε i=1,2,,n-2 τα ενδεχόμενα,


Si={στο βήμα i ο αλγόριθμος 𝛿𝜀𝜈 επέλεξε κάποια ακμή από το C},

και παρατηρούμε πως το C θα είναι το αποτέλεσμα του αλγορίθμου αν και μόνο αν σε κανένα βήμα δεν επιλεγεί κάποια ακμή του, δηλαδή,


S=i=1n-2Si.

Οπότε, από τον ορισμό της δεσμευμένης πιθανότητας (και τη γενίκευσή του στην Άσκηση 4 του Κεφαλαίου 5) έχουμε:


Pr(S)=Pr(S1)i=2n-2Pr(Si|S1S2Si-1).
(8.1)

Για την πρώτη πιθανότητα, εφόσον η επιλογή στο πρώτο βήμα γίνεται ομοιόμορφα ανάμεσα σε όλες τις ακμές του γράφου, έχουμε πως,


Pr(S1)=1-Pr(S1)=1-#C#E1-kkn/2=n-2n,
(8.2)

όπου χρησιμοποιήσαμε την παραπάνω παρατήρηση πως #Ekn/2.

Τώρα, δεδομένου ότι στα πρώτα i-1 βήματα δεν έχει επιλεχθεί καμία ακμή του C, έχουμε έναν νέο γράφο (Vi,Ei) ο οποίος περιέχει (n-(i-1)) κόμβους και επίσης ακόμα περιέχει το min-cut C, που έχει k στοιχεία. Άρα, ο νέος γράφος έχει τουλάχιστον k(n-(i-1))/2 ακμές, και για καθεμία από τις υπόλοιπες πιθανότητες στο γινόμενο της σχέσης (8.1), με τον ίδιο συλλογισμό όπως πριν βρίσκουμε,


Pr(Si|S1S2Si-1) = 1-Pr(Si|S1S2Si-1)
(8.3)


= 1-#C#E


1-kk(n-i+1)/2


= n-i-1n-i+1.

Αντικαθιστώντας τα φράγματα των σχέσεων (8.2) και (8.3) στην (8.1), έχουμε,


Pr(S)n-2n×n-3n-1×n-4n-2××35×24×13,

όπου σχεδόν όλοι οι όροι απλοποιούνται (εκτός από τους δύο πρώτους παρονομαστές και τους δύο τελευταίους αριθμητές) ώστε,


Pr(S)2n(n-1).

Τέλος, παρατηρούμε πως το ενδεχόμενο S είναι υποσύνολο του ενδεχομένου «success», μια που έχουμε επιτυχία του αλγορίθμου αν καταλήξει στο C ή σε οποιοδήποτε άλλο min-cut. Οπότε, από τον δεύτερο κανόνα πιθανότητας, τελικά βρίσκουμε,


Ps=Pr(«success»)Pr(C)2n(n-1),

κι έτσι έχουμε αποδείξει το πρώτο μέρος του θεωρήματος.

Για το δεύτερο μέρος, ορίζουμε για κάθε j=1,2,,Rn τα ενδεχόμενα,


Fj={στην εκτέλεση j ο αλγόριθμος 𝛿𝜀𝜈 κατέληξε σε min-cut},

όπου Rn=n(n-1)logn είναι το πλήθος των επαναλήψεων, και παρατηρούμε πως, για κάθε j, από το πρώτο μέρος έχουμε,


Pr(Fj)=1-Pr(Fj)=1-Ps(1-2n(n-1)).
(8.4)

Συνεπώς, εφόσον έχουμε «error» αν και μόνο αν σε καθεμία από τις ανεξάρτητες επαναλήψεις j δεν καταλήξει ο αλγόριθμος σε min-cut, βρίσκουμε ότι,77Στον υπολογισμό της πιθανότητας Pe εμμέσως υποθέτουμε ότι το πλήθος Rn=n(n-1)logn των επαναλήψεων είναι ακέραιος αριθμός. Άσκηση. Αν το Rn δεν είναι ακέραιος, δείξτε πως μπορούμε να επαναλάβουμε τα ίδια ακριβώς βήματα για Rn=n(n-1)logn και να καταλήξουμε στο ίδιο ακριβώς αποτέλεσμα.


Pe=Pr(«error») = Pr(j=1RnFj)


=(a) j=1RnPr(Fj)


= (1-Ps)Rn


(b) (1-2n(n-1))n(n-1)logn


(c) (e-2n(n-1))n(n-1)logn


= e-2logn=1n2,

το οποίο είναι και το ζητούμενο αποτέλεσμα. Στον πιο πάνω υπολογισμό, στο βήμα (a) χρησιμοποιήσαμε το γεγονός ότι οι επαναλήψεις είναι ανεξάρτητες μεταξύ τους, στο (b) εφαρμόσαμε το φράγμα της σχέσης (8.4), και στο (c) χρησιμοποιήσαμε την απλή ανισότητα του Λήμματος 7.3, με x=-2n(n-1).

8.3 String matching

Πολλοί αλγόριθμοι επεξεργασίας σήματος, συμπίεσης, κλπ., οι οποίοι δρουν σε ακολουθίες ψηφιακών δεδομένων, εκτελούν κάποιο είδος «string matching» (ή ταίριασμα ακολουθιών), δηλαδή ανιχνεύουν συγκεκριμένα μοτίβα στα δεδομένα τα οποία κατόπιν εκμεταλλεύονται για την πιο αποτελεσματική επεξεργασία τους. Σε αυτή την ενότητα θα εξετάσουμε ένα πολύ απλό τέτοιο παράδειγμα.

Έστω ότι ένας αλγόριθμος εκτελείται με δεδομένα εισόδου μια ακολουθία x1,x2,,xn από bits xi, και ο χρόνος εκτέλεσής του ισούται με το μήκος της μεγαλύτερης ακολουθίας συνεχόμενων «1» μεταξύ των xi.

Προφανώς η πολυπλοκότητα αυτού του αλγορίθμου ισούται με n, αφού στη χειρότερη περίπτωση θα έχουμε x1,x2,,xn=1,1,,1. Θα δείξουμε πως, αν τα δεδομένα εισόδου είναι τυχαία, δηλαδή προκύπτουν από μια ακολουθία ανεξάρτητων Bern(1/2) τυχαίων μεταβλητών X1,X2,,Xn, τότε, για μεγάλα n, η πολυπλοκότητα του αλγορίθμου δεν ξεπερνά το 2log2n, με μεγάλη πιθανότητα. Συγκεκριμένα, ορίζοντας μια νέα τυχαία μεταβλητή,


Ln=μέγιστο μήκος από συνεχόμενα «1» στα X1,X2,,Xn,

τότε,


Pr(Ln2log2n)1-1n.
(8.5)

Πριν αποδείξουμε την (8.5) παρατηρούμε πως υπάρχει δραματικά μεγάλη διαφορά μεταξύ του n και του (2log2n) για ρεαλιστικές τιμές του n. Για παράδειγμα, αν έχουμε n=106= ένα εκατομμύριο bits, δηλαδή 125 KB, τότε το (2log2n) είναι λίγο μικρότερο από 40, και η πιθανότητα να έχουμε πολυπλοκότητα μεγαλύτερη από 40 είναι το πολύ 1/n=10-6!

Θα αποδείξουμε την εξής σχέση, η οποία είναι ισοδύναμη (από τον κανόνα πιθανότητας #4 του Κεφαλαίου 3) με την (8.5):


Pr(Ln>2log2n)1n.
(8.6)

Θέτουμε k=2log2n, και για κάθε i=1,2,,n-k+1, ορίζουμε τα ενδεχόμενα,


Εi = «k συνεχόμενα “1” ξεκινώντας από τη θέση i»


= {Xi=Xi+1==Xi+k-1=1}.

Παρατηρούμε πως θα υπάρχει στα Xi μια ακολουθία από «1» με μήκος τουλάχιστον k αν και μόνο αν σε κάποια θέση i ξεκινάει μια ακολουθία από «1» μήκους k. Συνεπώς,


Pr(Ln>2log2n)=Pr(Ln>k)=Pr(i=1n-k+1Ei).

Εφαρμόζοντας τώρα το φράγμα ένωσης του Λήμματος 5.2,


Pr(Ln>2log2n)i=1n-k+1Pr(Ei),

όπου η πιθανότητα του κάθε ενδεχομένου Ei είναι,


Pr(Ei)=Pr(Xi=1,Xi+1=1,,Xi+k-1=1)=(12)k,

άρα,


Pr(Ln>2log2n)(n-k+1)2-k.

Τέλος, χρησιμοποιώντας το προφανές φράγμα (n-k+1)n, αντικαθιστώντας την τιμή του k και απλοποιώντας την πιο πάνω έκφραση, βρίσκουμε,


Pr(Ln>2log2n)n2-2log2n=n2log2(n-2)=1n,

το οποίο είναι ακριβώς το ζητούμενο φράγμα (8.6).88Όπως και στην απόδειξη του Θεωρήματος 8.1, στον πιο πάνω υπολογισμό έχουμε εμμέσως υποθέσει ότι το k=2log2n είναι ακέραιος. Άσκηση. Αν το 2log2n δεν είναι ακέραιος αριθμός, δείξτε πως μπορούμε να επαναλάβουμε τα ίδια ακριβώς βήματα για k=2log2n και να καταλήξουμε στο ίδιο ακριβώς φράγμα.

8.4 Γρήγορη ταξινόμηση δεδομένων

Το πρόβλημα ταξινόμησης είναι ένα από τα πιο θεμελιώδη προβλήματα της πληροφορικής. Δεδομένης μιας λίστας Λ=[x1,x2,,xn], που περιέχει n στοιχεία xi, το ζητούμενο είναι, με τον πιο αποτελεσματικό και γρήγορο τρόπο, να ταξινομηθεί η λίστα δηλαδή να αναδιαταχθούν τα στοιχεία της με βάση κάποιο συγκεκριμένο κριτήριο. Για παράδειγμα, αν τα xi είναι πραγματικοί αριθμοί μπορεί να τους διατάξουμε από τον μικρότερο προς τον μεγαλύτερο, ή, αν είναι λέξεις ενός κειμένου, μπορούμε να τις ταξινομήσουμε αλφαβητικά. Η μορφή των δεδομένων και το συγκεκριμένο κριτήριο δεν έχουν σημασία, αρκεί να καθορίζεται σαφώς, για κάθε ζευγάρι στοιχείων x και y, ποιο είναι «μεγαλύτερο» και ποιο «μικρότερο», δηλαδή ποιο από τα δύο πρέπει να τοποθετηθεί νωρίτερα στη νέα λίστα. Για να αποφύγουμε τεχνικές λεπτομέρειες που δεν παρουσιάζουν κανένα ενδιαφέρον, από εδώ και στο εξής θα θεωρούμε πάντα πως τα στοιχεία x1,x2,,xn της λίστας Λ είναι όλα διαφορετικά μεταξύ τους.

Μια μέθοδος θεωρούμε πως είναι «αποτελεσματική και γρήγορη» όπως είπαμε πιο πάνω, αν το πλήθος από ζευγάρια στοιχείων xi,xj τα οποία απαιτεί να συγκριθούν είναι σχετικά μικρό. Για παράδειγμα, η προφανής, απλοϊκή μέθοδος ταξινόμησης είναι να συγκρίνουμε το κάθε xi με όλα τα υπόλοιπα. Αυτό απαιτεί n(n-1) συγκρίσεις και άρα έχει πολυπλοκότητα της τάξης του n2.

Εδώ θα παρουσιάσουμε τον αλγόριθμο quicksort (ή «γρήγορη ταξινόμηση») και θα αναλύσουμε τη συμπεριφορά του. Αν και έχει και αυτός πολυπλοκότητα O(n2) στη χειρότερη περίπτωση, όπως θα δούμε αυτή η περίπτωση είναι μάλλον σπάνια. Κατά μέσο όρο, ο quicksort απαιτεί μόνο O(nlogn) συγκρίσεις για να ταξινομήσει n στοιχεία, και στην πράξη έχει παρατηρηθεί πως συχνά είναι γρηγορότερος από άλλους αλγορίθμους με πολυπλοκότητα O(nlogn). Για αυτόν το λόγο έχει υιοθετηθεί ευρύτατα ως η κύρια μέθοδος ταξινόμησης σε πολλά συστήματα υπολογιστών (π.χ. το λειτουργικό σύστημα Unix), και στις βιβλιοθήκες πολλών γλωσσών προγραμματισμού, όπως η C/C++ και η Java, στις οποίες είναι υλοποιημένος στη συνάρτηση qsort.

Ο αλγόριθμος quicksort (Hoare, 1960) Ο quicksort ανήκει στην κατηγορία των «divide and conquer» (δηλαδή, «διαίρει και βασίλευε») αλγορίθμων, όπου το αρχικό πρόβλημα διασπάται σε μικρότερα προβλήματα και το καθένα από αυτά λύνεται ξεχωριστά.

Δεδομένης μιας λίστας Λ=[x1,x2,,xn] που περιέχει n διαφορετικά στοιχεία, επαναλαμβάνουμε τα πιο κάτω βήματα αναδρομικά:

  1. 1. 

    Αν η λίστα Λ που εξετάζουμε είναι κενή ή περιέχει μόνο ένα στοιχείο, την επιστρέφουμε ως έχει.

  2. 2. 

    Αν η λίστα Λ που εξετάζουμε έχει δύο ή περισσότερα στοιχεία, επιλέγουμε ένα από αυτά, έστω x, ως «οδηγό», συγκρίνουμε όλα τα υπόλοιπα στοιχεία της με τον οδηγό, και κατασκευάζουμε δύο νέες λίστες:

    • Στη λίστα Λ1 τοποθετούμε όλα τα στοιχεία που είναι μικρότερα του x.

    • Στη λίστα Λ2 τοποθετούμε όλα τα στοιχεία που είναι μεγαλύτερα του x.

  3. 3. 

    Για καθεμία από τις δύο λίστες Λ1 και Λ2 επαναλαμβάνουμε τα βήματα (1.) και (2.).

  4. 4. 

    Επιστρέφουμε τη νέα λίστα με τη διάταξη Λ1,x,Λ2.


Παρατηρήσεις:

  1. 1.

    Η περιγραφή του αλγορίθμου αφήνει ανοιχτό το θέμα του πώς επιλέγουμε ένα στοιχείο της κάθε λίστας ως οδηγό. Μια και θέλουμε να σχεδιάσουμε έναν αλγόριθμο ο οποίος να έχει καλή συμπεριφορά κάτω από γενικές συνθήκες, δεν μπορούμε να θεωρήσουμε πως έχουμε κάποια εκ των προτέρων γνώση για τη δομή και τη φύση των δεδομένων. Άρα, εφόσον δεν μπορούμε να προϋποθέσουμε τίποτα για την αρχική διάταξη των xi, λογικά φαίνεται αδιάφορο το πώς θα επιλέξουμε τους οδηγούς. Γι’ αυτόν το λόγο, και για λόγους απλότητας στην περιγραφή και την υλοποίηση του αλγορίθμου, υιοθετούμε τη σύμβαση ότι, για κάθε λίστα, ως οδηγός θα επιλέγεται πάντα το πρώτο στοιχείο της.

    Μια εξαίρεση σε αυτό το πρωτόκολλο αποτελεί η περίπτωση της randomized μορφής του quicksort. Στο Θεώρημα 8.3 στο τέλος αυτής της ενότητας θα δούμε πως, και στην περίπτωση που επιλέξουμε τους οδηγούς τυχαία, η συμπεριφορά του αλγορίθμου δεν αλλάζει ουσιαστικά.

  2. 2.

    Για να είναι απολύτως πλήρης η περιγραφή του αλγορίθμου υιοθετούμε και την επιπλέον σύμβαση ότι, μετά την επιλογή του οδηγού, η σχετική θέση που έχουν τα υπόλοιπα στοιχεία στις δύο νέες λίστες είναι η ίδια με την αρχική σχετική τους θέση. Έτσι, αν, για παράδειγμα, εκτελέσουμε ένα βήμα του quicksort στην λίστα Λ=[2,5,1,4,3] και επιλέξουμε το πρώτο στοιχείο, δηλαδή το 2, ως οδηγό, τότε το αποτέλεσμα είναι η τριάδα: [1],  2,[5,4,3].

  3. 3.

    Η εκτέλεση του αλγορίθμου σε μια απλή περίπτωση περιγράφεται αναλυτικά στο Παράδειγμα 8.1. Όπως αναφέραμε και στην αρχή, στη χειρότερη περίπτωση η πολυπλοκότητα του quicksort είναι της τάξης των n2 συγκρίσεων· στο Παράδειγμα 8.2 θα δούμε ένα απλό σενάριο στο οποίο πράγματι συμβαίνει αυτό. Αλλά το βασικό μας αποτέλεσμα, όπως προκύπτει από τη λεπτομερή πιθανοκρατική ανάλυση του Θεωρήματος 8.2, είναι το εξής: Για τυχαία δεδομένα, το μέσο πλήθος συγκρίσεων που απαιτεί η εκτέλεση του quicksort είναι κατά προσέγγιση 2nlogn, το οποίο είναι σημαντικά μικρότερο του n2 για μεγάλα n.


Παράδειγμα 8.1

Έστω πως ξεκινάμε με τη λίστα,


Λ=[5,3,2,4,1,6,7].

Στο πρώτο βήμα, επιλέγοντας ως οδηγό το 5, δημιουργούμε τις δύο νέες λίστες Λ1=[3,2,4,1] και Λ2=[6,7] και καταλήγουμε στο αποτέλεσμα:


[3,2,4,1],  5,[6,7].

Στο επόμενο βήμα επαναλαμβάνουμε την ίδια διαδικασία, μία φορά για την καθεμία από τις δύο παραπάνω λίστες. Επιλέγοντας ως οδηγούς το 3 και το 6, αντίστοιχα, έχουμε το αποτέλεσμα:


[2,1],  3,[4],  5, 6,[7].

Τέλος, παρατηρούμε ότι, από τις τέσσερις λίστες που προέκυψαν, μόνο η πρώτη περιέχει περισσότερα από ένα στοιχεία. Επιλέγοντας για αυτήν το 2 ως οδηγό, φτάνουμε στο τελικό αποτέλεσμα της ταξινομημένης λίστας:


[1],  2, 3,[4],  5, 6,[7].

Παράδειγμα 8.2

Έστω τώρα πως η αρχική μας λίστα είναι η Λ=[n,n-1,,2,1]. Επιλέγοντας το στοιχείο n ως οδηγό, μετά από (n-1) συγκρίσεις η πρώτη νέα λίστα που δημιουργούμε είναι η Λ1=[n-1,n-2,2,1] και η δεύτερη είναι κενή. Έτσι καταλήγουμε στο αποτέλεσμα [n-1,n-2,2,1],n. Επαναλαμβάνοντας την ίδια διαδικασία, μετά από (n-2) συγκρίσεις έχουμε το αποτέλεσμα [n-2,n-3,2,1],n-1,n, και συνεχίζοντας με αυτό τον τρόπο, μετά από (n-1) βήματα καταλήγουμε στην πλήρως ταξινομημένη λίστα 1,2,,n. Συνολικά, το πλήθος των συγκρίσεων που πραγματοποιήσαμε είναι,


k=1n-1(n-k)=k=1n-1k=(n-1)n2,

το οποίο είναι της τάξης του n2, και όπου χρησιμοποιήσαμε και πάλι τον τύπο για το άθροισμα μιας αριθμητικής προόδου όπως στην Ενότητα 8.1.

Θεώρημα 8.2 (Πιθανοκρατική ανάλυση του quicksort)

Έστω πως ο quicksort εκτελείται σε μια λίστα n διαφορετικών στοιχείων Λ=[x1,x2,,xn], όπου ως οδηγό επιλέγουμε πάντα το πρώτο στοιχείο της κάθε λίστας.

Αν τα δεδομένα είναι τυχαία, δηλαδή αν η αρχική διάταξη των xi είναι επιλεγμένη ανάμεσα σε όλες τις n! δυνατές διατάξεις τους τυχαία και ομοιόμορφα (δηλαδή καθεμία από τις n! διατάξεις έχει πιθανότητα 1/n!), τότε η μέση τιμή του πλήθους συγκρίσεων που απαιτεί η εκτέλεση του quicksort ισούται με:


2nlogn+O(n)συγκρίσεις.
Απόδειξη:

Έστω Μ=[y1,y2,,yn] η ταξινομημένη μορφή της λίστας Λ. Για κάθε i,j τέτοια ώστε 1i<jn, ορίζουμε μια Τ.Μ. Zij ως:


Zij={1,αν το yi και το yj κάποια στιγμή συγκρίνονται,0,αν όχι.

Η κάθε Zij είναι μια Τ.Μ. με κατανομή Bern(pij), της οποίας η παράμετρος pij=Pr(Zij=1) είναι ίση με την πιθανότητα το yi και το yj να συγκριθούν κάποια στιγμή κατά τη διάρκεια της εκτέλεσης του αλγορίθμου. Η σημαντική παρατήρηση εδώ είναι πως αυτό συμβαίνει αν και μόνο αν, κατά την εκτέλεση του quicksort, το πρώτο στοιχείο μεταξύ των {yi,yi+1,,yj} το οποίο επιλέγεται ως οδηγός είναι το yi ή το yj.

Γιατί ισχύει αυτή η ισοδυναμία; Κατ’ αρχάς παρατηρούμε δύο πράγματα. Πρώτον ότι, εφόσον πάντα καταλήγουμε σε λίστες με ένα ή κανένα στοιχείο, αποκλείεται καθ’ όλη τη διάρκεια εκτέλεσης του αλγορίθμου να μην επιλεγεί κανένα από τα {yi,yi+1,,yj} ως οδηγός. Δεύτερον, ότι τα στοιχεία μιας οποιασδήποτε λίστας μόνο με οδηγούς συγκρίνονται. Οπότε, αν κάποιο στοιχείο y{yi,yi+1,,yj}, διαφορετικό από τα yi και yj, επιλεγεί πρώτο ως οδηγός, τότε τα yi και yj σίγουρα θα καταλήξουν σε διαφορετικές υπο-λίστες και ποτέ δεν θα συγκριθούν μεταξύ τους. Τέλος, αν το πρώτο στοιχείο μεταξύ των {yi,yi+1,,yj} που επιλεγεί ως οδηγός είναι, π.χ., το yi, τότε σίγουρα ως εκείνη την ώρα τα yi και yj θα έχουν παραμείνει στην ίδια υπο-λίστα, και αναγκαστικά το yj θα συγκριθεί με τον οδηγό yi. Παρομοίως και για την περίπτωση που το πρώτο στοιχείο μεταξύ των {yi,yi+1,,yj} που επιλεγεί ως οδηγός είναι το yj.

Επιπλέον, λόγω της συμμετρίας του προβλήματος, αφού δηλαδή η αρχική διάταξη των δεδομένων είναι εντελώς τυχαία, η πιθανότητα να επιλεγεί οποιοδήποτε από τα στοιχεία {yi,yi+1,,yj} πρώτο ως οδηγός, είναι η ίδια. Συνεπώς,


pij = Pr(«πρώτο από τα {yi,yi+1,,yj} θα επιλεγεί ως οδηγός το yi ή το yj»)


= 2j-i+1,

και τώρα είμαστε έτοιμοι να υπολογίσουμε τη ζητούμενη ποσότητα.

Έστω Σn η Τ.Μ. που περιγράφει το συνολικό πλήθος συγκρίσεων που απαιτεί η εκτέλεση του quicksort. Τότε:


E(Σn)=E(1i<jnZij)=1i<jnE(Zij)=i=1n-1j=i+1npij,

όπου χρησιμοποιήσαμε την πρώτη ιδιότητα της μέσης τιμής από το Θεώρημα 6.1, και το γεγονός ότι η μέση τιμή μιας Bern(p) Τ.Μ. ισούται με p. Συνεπώς,


E(Σn) = i=1n-1j=i+1n2j-i+1


=(a) i=1n-1k=2n-i+12k


=(b) k=2n2k(n+1-k)


= k=2n2(n+1)k-k=2n2,

όπου στο βήμα (a) κάναμε την αλλαγή μεταβλητής του πρώτου αθροίσματος από i σε k=j-i+1, και στο βήμα (b) παρατηρήσαμε πως οι όροι του διπλού αθροίσματος δεν εξαρτώνται απ’ το i, και πως κάθε όρος 2/k στο διπλό άθροισμα εμφανίζεται (n+1-k) φορές. Τώρα, ορίζοντας ως Sn το άθροισμα των n πρώτων όρων της αρμονικής σειράς όπως στο Λήμμα 8.1 πιο κάτω, έχουμε,


E(Σn)=2(n+1)k=2n1k-2(n-1)=2(n+1)(Sn-1)-2(n-1)=2(n+1)Sn-4n+4,

και χρησιμοποιώντας το Λήμμα 8.1 παίρνουμε το ζητούμενο αποτέλεσμα ότι, πράγματι, το μέσο πλήθος συγκρίσεων E(Σn)=2nlogn+O(n).

Λήμμα 8.1

Έστω Sn το άθροισμα των n πρώτων όρων της αρμονικής σειράς,


Sn=k=1n1k.

Για κάθε n1, η τιμή του Sn είναι πολύ κοντά στην τιμή του logn:


log(n+1)Snlogn+1.

Συνεπώς, για μεγάλα n, έχουμε Sn=logn+O(1).

Απόδειξη:

Η περίπτωση n=1 είναι τετριμμένη, αφού,


log(1+1)=log(2)=0.69311=1/1=S1=0+1=log1+1,

οπότε θεωρούμε πως n2. Χρησιμοποιώντας τον συνήθη συμβολισμό x (αντίστοιχα x) για τον μικρότερο ακέραιο ο οποίος είναι x (αντίστοιχα, για τον μεγαλύτερο ακέραιο ο οποίος είναι x), έχουμε,


logn=1n1x dx 1n1x dx =k=1n-1kk+11x dx =k=1n-11k=Sn-1.

Συνεπώς, Sn-1logn ή, ισοδύναμα, Snlog(n+1). Παρομοίως, για το άνω φράγμα βρίσκουμε,


logn=1n1x dx 1n1x dx =k=2nk-1k1x dx =k=2n1k=Sn-1,

το οποίο μας δίνει το ζητούμενο Snlogn+1.


Κλείνοντας, αναφέρουμε πως υπάρχει και μια σχετικά προφανής randomized μορφή του quicksort. Όπως περιγράφουμε στο τελευταίο μας αποτέλεσμα (το οποίο θα αποδείξετε στην Άσκηση 12), κατά μέσο όρο ο randomized quicksort έχει και αυτός πολυπλοκότητα της τάξης των 2nlogn+O(n) συγκρίσεων.

Θεώρημα 8.3 (Ανάλυση του randomized quicksort)

Έστω πως ο quicksort εκτελείται σε μια αυθαίρετη λίστα n διαφορετικών στοιχείων Λ=[x1,x2,,xn], όπου σε κάθε υπο-λίστα ως οδηγό επιλέγουμε τυχαία και ομοιόμορφα ένα από τα στοιχεία της.

Τότε, και πάλι η μέση τιμή του πλήθους συγκρίσεων που απαιτεί η εκτέλεση του quicksort ισούται με:


2nlogn+O(n)συγκρίσεις.

8.5 Ασκήσεις

  1. 1.

    Ένας άλλος randomized αλγόριθμος. Έστω πως έχουμε αποθηκευμένες σε έναν πίνακα τις τιμές κάποιας συνάρτησης F:{0,1,,n-1}{1,2,,m}, αλλά ξέρουμε πως το 1/5 των τιμών που περιέχει ο πίνακας είναι λάθος. Επίσης όμως ξέρουμε ότι η F(x) έχει την εξής ιδιότητα: F(x+ymodn)=F(x)F(y), για κάθε x και y. Περιγράψτε έναν απλό randomized αλγόριθμο ο οποίος να υπολογίζει την τιμή F(x) και να μπορεί να μας εγγυηθεί πως η πιθανότητα η τιμή που υπολογίζει να είναι σωστή, είναι τουλάχιστον 50%. Ο αλγόριθμός σας πρέπει να λειτουργεί με αυτό τον τρόπο για κάθε x, και χωρίς να ξέρουμε ποιες από τις τιμές του πίνακα είναι λάθος.

  2. 2.

    Αθροίσματα. Έστω ένας άρτιος ακέραιος n2. Το άθροισμα των ακεραίων από το 1 έως το n μπορεί να γραφτεί ως,




    1+  2++(n2-1)+n2


    + n+(n-1)++(n2+2)+(n2+1),

    και παρατηρούμε (όπως παρατήρησε και ο Gauss στην τρίτη δημοτικού) ότι το άθροισμα κάθε στήλης είναι (n+1). Εφόσον υπάρχουν n/2 στήλες, το συνολικό άθροισμα k=1nk πρέπει λοιπόν να ισούται με (n/2)(n+1).

    1. (α’)

      Δείξτε το ίδιο αποτέλεσμα για περιττά n.

    2. (β’)

      Δείξτε πως για κάθε n1 και 1mn-1,


      k=m+1n(2k)=(n+m+1)(n-m).
  3. 3.

    Μέτρηση πράξεων. Στην Ενότητα 8.1 είδαμε τρεις μεθόδους επίλυσης του προβλήματος επαλήθευσης ισότητας πολυωνύμων, εκ των οποίων η τρίτη μέθοδος ήταν ένας απλός randomized αλγόριθμος. Μετρήσαμε και για τις τρεις μεθόδους το πλήθος των πολλαπλασιασμών που απαιτούνταν. Εδώ μας ενδιαφέρει το συνολικό πλήθος των «πράξεων» που απαιτεί η καθεμία από τις τρεις μεθόδους, όπου αγνοούμε τις προσθέσεις όπως πριν, κάθε πολλαπλασιασμός μετράει για μία πράξη, και για να υψώσουμε έναν αριθμό a σε κάποιον εκθέτη k χρειάζονται (logκ) πράξεις. Για καθεμία από τις τρεις μεθόδους, υπολογίστε το πλήθος των πράξεων που χρειάζονται, όταν ο βαθμός n των πολυωνύμων είναι μεγάλος. Συγκρίνετε τις τρεις μεθόδους μεταξύ τους.

    Σημειώσεις. (1.) Μπορείτε να χρησιμοποιήσετε τον τύπο του Stirling, όπως στο Λήμμα 7.1: Για μεγάλα N, έχουμε την προσέγγιση, Ν!CNNNe-N, για κάποια σταθερά C>0. (2.) Στην πράξη, η πρόσθεση είναι πράγματι σημαντικά πιο απλή από τον πολλαπλασιασμό, και ο πιο συνηθισμένος αλγόριθμος για τον υπολογισμό της ύψωσης στη δύναμη k πράγματι απαιτεί κατά προσέγγιση (logκ) πολλαπλασιασμούς.

  4. 4.

    Μικρότερη πιθανότητα σφάλματος. Στην Ενότητα 8.1 δείξαμε ότι η πιθανότητα σφάλματος ενός απλού randomized αλγορίθμου για το πρόβλημα επαλήθευσης ισότητας δύο πολυωνύμων f(x) και g(x), είναι το πολύ 0.01. Έστω τώρα ότι αυτό το ποσοστό δεν μας είναι ικανοποιητικό και θέλουμε να μειώσουμε την πιθανότητα σφάλματος σε κάποιο δεδομένο p<0.01. Περιγράψτε δύο απλούς τρόπους με τους οποίους μπορούμε να τροποποιήσουμε τον αλγόριθμο, οι οποίοι θα έχουν πιθανότητα σφάλματος το πολύ p.

  5. 5.

    Πόσα min-cuts υπάρχουν; Έστω ότι για κάποιον συγκεκριμένο (μη κατευθυνόμενο, συνδεδεμένο) γράφο με n κόμβους, υπάρχουν ακριβώς M min-cuts, τα C1,C2,,CM. Στην απόδειξη του Θεωρήματος 8.1 είδαμε πως, για κάθε ένα από αυτά, η πιθανότητα του ενδεχομένου S(j)={το αποτέλεσμα του αλγορίθμου είναι το Cj} είναι τουλάχιστον Pr(S(j))2n(n-1), για κάθε j=1,2,,M.

    Χρησιμοποιώντας αυτό το αποτέλεσμα, αποδείξτε πως το πλήθος M των min-cuts δεν μπορεί να είναι μεγαλύτερο από (n2).

  6. 6.

    Τυχαία cut sets. Εδώ θα απαντήσετε στην ερώτηση που θέσαμε στην Παρατήρηση 5 της Ενότητας 8.2.

    Δεδομένου ενός (μη κατευθυνόμενου, συνδεδεμένου) γράφου (V,E) με n=#V κόμβους, επιλέγουμε ένα τυχαίο υποσύνολο CE των ακμών του ως εξής. Κατ’ αρχάς επιλέγουμε ένα τυχαίο σύνολο κόμβων K1V, όπου κάθε κόμβος i συμπεριλαμβάνεται στο K1 με πιθανότητα 1/2, ανεξαρτήτως των υπόλοιπων κόμβων (αν καταλήξουμε με το K1 να είναι το κενό σύνολο ή ολόκληρο το V, το απορρίπτουμε και επαναλαμβάνουμε τη διαδικασία). Δεδομένου του K1, ορίζουμε το σύνολο CE ως το σύνολο που περιέχει όλες τις ακμές eE οι οποίες συνδέουν κάποιον κόμβο του K1 με κάποιον κόμβο εκτός του K1.

    1. (α’)

      Εξηγήστε γιατί το σύνολο C είναι πάντα cut set.

    2. (β’)

      Αποδείξτε πως το C είναι ομοιόμορφα κατανεμημένο, δηλαδή πως η πιθανότητα το C να ισούται με οποιοδήποτε cut set είναι πάντα η ίδια.

    3. (γ’)

      Αποδείξτε πως η πιθανότητα Ps το τυχαίο cut set C να είναι min-cut είναι πάντα εκθετικά μικρή, και συγκεκριμένα ότι,


      Psn(n-1)2(2n-1-1).

      [Υπόδειξη. Ίσως σας φανούν χρήσιμα το αποτέλεσμα της Άσκησης 5, και η παρατήρηση πριν από την περιγραφή του αλγορίθμου του Karger πως το πλήθος όλων των cut sets του γράφου ισούται με Γn.]

    Άρα, πράγματι αυτή η μέθοδος είναι πολύ λιγότερο αποτελεσματική από τον αλγόριθμο του Karger, μια που η πιθανότητα Ps να επιλέξουμε ένα min-cut είναι εκθετικά μικρή, ενώ η πιθανότητα Ps του Θεωρήματος 8.1 είναι τουλάχιστον της τάξης του 1/n2.

  7. 7.

    Φράγμα τομής. Εδώ θα δείξετε πως, αν καθένα από τα ενδεχόμενα Α1,Α2,,An έχει πιθανότητα κοντά στο 100% να συμβεί, τότε και η πιθανότητα του να συμβούν όλα μαζί είναι κοντά στο 100%. Χρησιμοποιήστε το φράγμα ένωσης του Κεφαλαίου 5 για να αποδείξετε πως:


    Pr(i=1nAi)1+i=1nPr(Ai)-n.

    Άρα, αν Pr(Ai)1 για όλα τα i, και η πιθανότητα της τομής τους θα είναι 1.

  8. 8.

    Μια γενικότερη πιθανοκρατική ανάλυση. Στην Ενότητα 8.3 αναλύσαμε το κόστος εκτέλεσης Ln ενός αλγορίθμου που δρα σε μια ακολουθία n τυχαίων bits, X1,X2,,Xn, όπου το Ln ισούται με το μήκος της μακρύτερης ακολουθίας συνεχόμενων «1» ανάμεσα στα Xi. Υποθέτοντας ότι τα Xi είναι ανεξάρτητες Bern(1/2) τυχαίες μεταβλητές, αποδείξαμε ότι η πιθανότητα το Ln να είναι μεγαλύτερο από 2log2n τείνει στο μηδέν.

    Υποθέτοντας τώρα ότι τα Xi είναι n ανεξάρτητες Bern(p) τυχαίες μεταβλητές (για κάποιο p μεταξύ 0 και 1), αποδείξτε πως, για οποιοδήποτε ϵ>0, η πιθανότητα το Ln να είναι μεγαλύτερο από,


    k=(1+ϵlog2(1/p))log2n,

    τείνει στο μηδέν καθώς το n. Δικαιολογήστε όλα τα βήματα στον υπολογισμό σας. Πώς μεταβάλλεται ο συντελεστής του (log2n) για διαφορετικές τιμές του p; Σχολιάστε.

  9. 9.

    Προσομοίωση. Στην προηγούμενη άσκηση δείξατε ότι, για κάθε ϵ>0,


    Lnlog2n1+ϵlog2(1/p),με μεγάλη πιθανότητα,

    για μεγάλα n. Εδώ θα εξετάσουμε μέσω προσομοίωσης αν αυτό το φράγμα είναι ακριβές καθώς το n, δηλαδή αν Lnlog2n1log2(1/p). Χρησιμοποιήστε το scilab, το matlab ή όποιο άλλο προγραμματιστικό περιβάλλον σάς βολεύει για τα παρακάτω ερωτήματα.

    1. (α’)

      Επιλέξτε ένα αυθαίρετο p στο διάστημα (0.4,0.6). Αυτή η τιμή του p θα μείνει σταθερή σε όλα τα υποερωτήματα.

    2. (β’)

      Γράψτε ένα πρόγραμμα που να προσομοιώνει τις τιμές M=30000 ανεξάρτητων Bern(p) τυχαίων μεταβλητών X1,X2,,XM, και να υπολογίζει την τιμή του Ln για n=2000,4000,,30000.

    3. (γ’)

      Κάντε ένα γράφημα που να παρουσιάζει την τιμή του Ln/(log2n) ως συνάρτηση του n για τις πιο πάνω τιμές του n. Καθώς το n μεγαλώνει, παρατηρείτε να συγκλίνει η τιμή του Lnlog2n στην τιμή 1log2(1/p) ή όχι;

  10. 10.

    Μεγάλοι χρόνοι αναμονής. Έστω μια ακολουθία τυχαίων bits X1,X2, δηλαδή τα Xi είναι ανεξάρτητες Bern(1/2) T.M. Για κάθε N1 ορίζουμε μια νέα Τ.Μ., την WN, η οποία περιγράφει την πρώτη χρονική στιγμή κατά την οποία εμφανίζεται το μοτίβο 0011 μήκους 2Ν (δηλαδή πρώτα Ν «0» και μετά Ν «1») στα τυχαία bits. Συγκεκριμένα, το WΝ είναι η πρώτη θέση από την οποία ξεκινά και εμφανίζεται αυτό το μοτίβο. Π.χ. αν Ν=3 και,


    X1,X2,=00100100111100001110100101100,

    τότε WN=14. Αποδείξτε πως, για μεγάλα Ν, ο χρόνος αναμονής WN θα είναι εκθετικά μεγάλος με πιθανότητα πολύ κοντά στο 1. Συγκεκριμένα, δείξτε ότι,


    Pr(WN>2N)1-2-N.
  11. 11.

    Τυχαίες διατάξεις. Υπάρχουν n! διαφορετικές διατάξεις των στοιχείων του συνόλου {1,2,,n}. Έστω {Z1,Z2,,Zn} μια τυχαία διάταξη, επιλεγμένη ομοιόμορφα από όλες τις n! δυνατές διατάξεις, δηλαδή, με όλες τις δυνατές n! επιλογές να έχουν την ίδια πιθανότητα.

    1. (α’)

      Εξηγήστε γιατί, όταν ταξινομούμε τη λίστα {Z1,Z2,,Zn}, το κάθε στοιχείο Zi μετακινείται κατά |Zi-i| θέσεις από την αρχική του θέση μέχρι τη θέση του στην ταξινομημένη λίστα.

    2. (β’)

      Εξηγήστε γιατί η κάθε Τ.Μ. Zi έχει ομοιόμορφη κατανομή στο S={1,2,,n}, δηλαδή έχει σύνολο τιμών το S και πυκνότητα P(j)=Pr(Zi=j)=1/n, για κάθε i,j.

    3. (γ’)

      Υπολογίστε τη μέση τιμή της συνολικής απόστασης που τα στοιχεία της λίστας μετακινούνται μέχρι την τελική τους ταξινόμηση, δηλαδή την:


      E(i=1n|Zi-i|).

      Υπόδειξη. Ίσως χρειαστείτε τον τύπο για το άθροισμα μιας αριθμητικής προόδου όπως στην Άσκηση 2 παραπάνω, και τον αντίστοιχο τύπο για το άθροισμα διαδοχικών τετραγώνων:


      k=1nk2=n(n+1)(2n+1)6.
      (8.7)
  12. 12.

    Ο randomized quicksort. Εξηγήστε γιατί η απόδειξη του Θεωρήματος 8.3 είναι μια πολύ απλή τροποποίηση της απόδειξης του Θεωρήματος 8.2.



Κεφάλαιο 9 Ανισότητες, από κοινού κατανομή, Νόμος των Μεγάλων Αριθμών

[Επιστροφή στα περιεχόμενα]

9.1 Ανισότητες Markov και Chebychev

Ξεκινάμε αυτό το κεφάλαιο με δύο σημαντικά αποτελέσματα τα οποία, πέραν της μεγάλης χρησιμότητάς τους, δίνουν και μια πιο σαφή χρηστική σημασία στην έννοια της μέσης τιμής και της διασποράς.

Το πρώτο λέει πως, αν μια τυχαία μεταβλητή έχει μικρή μέση τιμή, τότε δεν μπορεί να παίρνει μεγάλες τιμές με μεγάλη πιθανότητα:

Θεώρημα 9.1 (Ανισότητα του Markov)

Έστω μια διακριτή Τ.Μ. X που παίρνει πάντα τιμές μεγαλύτερες ή ίσες του μηδενός και έχει μέση τιμή μ=E(X). Τότε:


Pr(Xc)μc,για οποιαδήποτε σταθεράc>0.
Απόδειξη:

Έστω S το σύνολο τιμών της X. Ξεκινώντας από τον ορισμό της μέσης τιμής, έχουμε,


μ=xSxP(x)=xS:xcxP(x)+xS:x<cxP(x),

όπου χωρίσαμε το άθροισμα σε δύο μέρη, αυτό που αντιστοιχεί σε τιμές xS μικρότερες του c, και τις τιμές xc. Εφόσον όλες οι τιμές xS της X είναι μεγαλύτερες ή ίσες του μηδενός, το παραπάνω τελευταίο άθροισμα είναι κι αυτό μεγαλύτερο ή ίσο του μηδενός, συνεπώς,


μxS:xcxP(x)xS:xccP(x)=cxS:xcP(x),

όπου χρησιμοποιήσαμε το γεγονός ότι στο παραπάνω άθροισμα όλα τα x είναι μεγαλύτερα ή ίσα του c. Παρατηρώντας, τέλος, πως από την τρίτη βασική ιδιότητα της πυκνότητας (βλ. Κεφάλαιο 6), το παραπάνω τελευταίο άθροισμα ισούται με Pr(Xc), έχουμε,


μcPr(Xc),

που είναι η ζητούμενη ανισότητα.


Παράδειγμα 9.1

Όπως θα δούμε πιο κάτω – ειδικά στην απόδειξη του Νόμου των Μεγάλων Αριθμών – το φράγμα που δίνει η ανισότητα Markov συχνά είναι εξαιρετικά χρήσιμο. Αλλά σε κάποιες περιπτώσεις, όπως σε αυτό το παράδειγμα, μπορεί να είναι και σχετικά ασθενές.

Έστω μια Τ.Μ. X με κατανομή Γεωμ(1/5), οπότε η X έχει μέση τιμή E(X)=11/5=5. Από την ανισότητα Markov έχουμε πως,


Pr(X15)5/15=0.3333,

ενώ στην πραγματικότητα (χρησιμοποιώντας την πρώτη ιδιότητα της γεωμετρικής κατανομής από το Θεώρημα 7.1) η πιο πάνω πιθανότητα είναι,


Pr(X15)=Pr(X>14)=(1-15)140.044,

η οποία είναι σημαντικά μικρότερη.

Αν και, πράγματι, το πιο πάνω φράγμα είναι αρκετά ασθενές, η ισχύς του έγκειται κυρίως στο γεγονός ότι δεν χρησιμοποιεί την πληροφορία πως η X έχει γεωμετρική κατανομή, και ισχύει για οποιαδήποτε τυχαία μεταβλητή X με E(X)=5.

Το επόμενο αποτέλεσμα (το οποίο προκύπτει από μια σχετικά απλή εφαρμογή της ανισότητας του Markov) λέει πως, αν μια τυχαία μεταβλητή έχει μικρή διασπορά, τότε δεν μπορεί να έχει μεγάλες διακυμάνσεις, υπό την έννοια ότι δεν μπορεί να παίρνει τιμές μακρά από τη μέση τιμή της με μεγάλη πιθανότητα:

Θεώρημα 9.2 (Ανισότητα του Chebychev)

Έστω μια διακριτή Τ.Μ. X με μέση τιμή μ=E(X) και διασπορά σ2=Var(X). Τότε:


Pr(|X-μ|c)σ2c2,για οποιαδήποτε σταθεράc>0.
Απόδειξη:

Έστω μια νέα τυχαία μεταβλητή Y=(X-μ)2 η οποία, εξ ορισμού, έχει πάντα Y0. Από τον ορισμό της διασποράς, παρατηρούμε πως E(Y)=E[(X-μ)2]=Var(X). Εφαρμόζοντας την ανισότητα του Markov για την Τ.Μ. Y βρίσκουμε,


Pr(|X-μ|c)=Pr((X-μ)2c2)=Pr(Yc2)E(Y)c2=σ2c2.


Παράδειγμα 9.2

Έστω μια Τ.Μ. X με κατανομή Υπερ(500,150,15). Από τις γνωστές ιδιότητες της υπεργεωμετρικής κατανομής στο Κεφάλαιο 7, η X έχει μέση τιμή και διασπορά,


μ = 150×15500=  4.5,

σ2 = 150×15×(500-150)×(500-15)5002×(500-1)  3.06162.

Έστω τώρα πως θέλουμε να υπολογίσουμε την Pr(|X-4.5|3), δηλαδή την πιθανότητα το X να ισούται με 0 ή με 1 ή με 8 ή με 9 κ.ο.κ. Εφόσον γνωρίζουμε την πυκνότητα της X, μπορούμε να υπολογίσουμε αυτή την πιθανότητα ως P(0)+P(1)+P(8)+P(9)++P(15). Αλλά λόγω της πολυπλοκότητας του τύπου της πυκνότητας P(x), και επιπλέον επειδή απαιτεί τον υπολογισμό παραγοντικών k! για μεγάλα k – πράγμα το οποίο, όπως παρατηρήσαμε στο Κεφάλαιο 7, μπορεί να οδηγήσει σε σημαντικά αριθμητικά σφάλματα – είναι πολύ πιο εύκολο να χρησιμοποιήσουμε την ανισότητα Chebychev για να βρούμε ένα φράγμα για τη ζητούμενη πιθανότητα:


Pr(|X-4.5|3)=Pr(|X-μ|3)σ2320.34018.

Παράδειγμα 9.3

Από εμπειρικές μετρήσεις γνωρίζουμε πως ο χρόνος απόκλισης X (σε δευτερόλεπτα) ενός συστήματος έχει μέση τιμή μ=E(X)=0 και τυπική απόκλιση σ=6 δευτερόλεπτα. Θέλουμε να βρούμε μια τιμή θ τέτοια ώστε να μπορούμε να εγγυηθούμε ότι, με πιθανότητα τουλάχιστον 99%, η χρονική απόκλιση του συστήματος δεν θα ξεπερνά τα ±θ δευτερόλεπτα. Δηλαδή, θέλουμε Pr(|X|<θ)0.99, ή, ισοδύναμα,


Pr(|X|θ)0.01.
(9.1)

Αλλά από την ανισότητα Chebychev έχουμε πως,


Pr(|X|θ)=Pr(|X-μ|θ)σ2θ2=62θ2.

Συνεπώς, για να ισχύει το ζητούμενο (9.1), αρκεί να διαλέξουμε το θ έτσι ώστε να έχουμε 36/θ20.01, για το οποίο αρκεί να διαλέξουμε θ=60 δευτερόλεπτα. Με άλλα λόγια, μπορούμε να εγγυηθούμε πως, με πιθανότητα τουλάχιστον 99%, ο χρόνος απόκλισης του συστήματος δεν θα ξεπερνά το ένα λεπτό.

9.2 Από κοινού κατανομή και συνδιακύμανση

Όταν δύο Τ.Μ. X,Y με αντίστοιχες πυκνότητες PX(x) και PY(y) είναι ανεξάρτητες, η πιθανότητα να πάρουν ένα ζευγάρι τιμών (x,y) μπορεί να υπολογιστεί απλά ως το γινόμενο,


Pr(X=x,Y=y)=PX(x)PY(y),

όπως μας λέει ο ορισμός της ανεξαρτησίας τυχαίων μεταβλητών στο Κεφάλαιο 6. Για ζευγάρια Τ.Μ. που ενδεχομένως δεν είναι ανεξάρτητες, οι αντίστοιχες πιθανότητες περιγράφονται από την από κοινού πυκνότητά τους, την οποία θα ορίσουμε αμέσως μετά το παρακάτω παράδειγμα.


Παράδειγμα 9.4

Δύο διαφορετικά προγράμματα κατανέμονται τυχαία σε τρεις υπολογιστές. Έστω Xi= «πλήθος προγραμμάτων που κατέληξαν στον υπολογιστή i», για κάθε i=1,2,3, οπότε X1+X2+X3=2. Προφανώς αυτές οι Τ.Μ. δεν είναι ανεξάρτητες – διαισθητικά τουλάχιστον: Αν ξέρουμε, π.χ., πως X1=2, τότε και τα δύο προγράμματα κατέληξαν στον πρώτο υπολογιστή, συνεπώς X2=X3=0.

Ας εξετάσουμε τώρα τις δύο μεταβλητές X1,X2. Εφόσον υποθέτουμε πως η κατανομή έγινε τυχαία, το κάθε πρόγραμμα έχει, ανεξάρτητα από το άλλο, πιθανότητα 1/3 να πάει στον κάθε έναν από τους τρεις υπολογιστές. Οπότε, για παράδειγμα η πιθανότητα να έχουμε X1=0 και X2=0, είναι η πιθανότητα του X3=2, δηλαδή και τα δύο προγράμματα να πήγαν στον τρίτο υπολογιστή:


Pr(X1=0,X2=0)=Pr(X3=2)=13×13=19.

Παρομοίως, η πιθανότητα να έχουμε X1=0 και X2=1, είναι η πιθανότητα το πρώτο πρόγραμμα να πήγε στον υπολογιστή 2 και το δεύτερο στον 3, ή αντίστροφα, δηλαδή,


Pr(X1=0,X2=1)=13×13+13×13=29.

Όλες οι πιθανότητες της μορφής Pr(X1=x1,X2=x2) μπορούν να υπολογιστούν με τον ίδιο τρόπο, όπως συνοψίζεται στον πιο κάτω πίνακα:

X1 0 1 2
X2


0 1/9 2/9 1/9
1 2/9 2/9 0
2 1/9 0 0
Ορισμός 9.1
  1. 1. 

    Η από κοινού πυκνότηταδιακριτή συνάρτηση από κοινού πυκνότητας πιθανότητας) δύο διακριτών Τ.Μ. X,Y με αντίστοιχα σύνολα τιμών SX,SY είναι η συνάρτηση P:SX×SY[0,1] που ορίζεται ως,


    P(x,y)=Pr(X=x,Y=y),για κάθεxSX,ySY.
  2. 2. 

    Η από κοινού πυκνότηταδιακριτή συνάρτηση από κοινού πυκνότητας πιθανότητας) ενός πεπερασμένου πλήθους διακριτών Τ.Μ. X1,X2,,XN όπου η κάθε Xi έχει σύνολο τιμών SXi είναι η συνάρτηση,


    P(x1,x2,,xN)=Pr(X1=x1,X2=x2,,XN=xN),

    για κάθε N-άδα τιμών x1SX1,x2SX2,,xNSXN.


Παράδειγμα 9.5

Για τις Τ.Μ. X1,X2 του Παραδείγματος 9.4, οι τιμές της από κοινού πυκνότητας P(x1,x2) συνοψίζονται στον εκεί πίνακα. Έστω, τώρα, πως θέλουμε να υπολογίσουμε από αυτές τις τιμές την πιθανότητα Pr(X1=1). Χρησιμοποιώντας τον κανόνα συνολικής πιθανότητας έχουμε,


Pr(X1=1) = Pr(X1=1,X2=0)+Pr(X1=1,X2=1)+Pr(X1=1,X2=2)


= P(1,0)+P(1,1)+P(1,2)


= 29+29+0=49.

Άρα, για να βρούμε την Pr(X1=1), αθροίσαμε όλες τις τιμές του πίνακα που αντιστοιχούσαν στην στήλη X1=1:

X1 0 1 2
X2



0 1/9 2/9 1/9 4/9
1 2/9 2/9 0 4/9
2 1/9 0 0 1/9

4/9 4/9 1/9

Με παρόμοιο τρόπο, αθροίζοντας τις τιμές στις στήλες X1=0 και X1=2 βρίσκουμε τις Pr(X1=0) και Pr(X1=2), και αντίστοιχα, αθροίζοντας τις τιμές που βρίσκονται στην κάθε γραμμή X2=x του πίνακα, βρίσκουμε τις πιθανότητες Pr(X2=x).

Λόγω του ότι οι τιμές των πιθανοτήτων Pr(Xi=x) που αφορούν μόνο μία από τις δύο Τ.Μ. μπορούν να γραφτούν, όπως πιο πάνω, στο περιθώριο του πίνακα της από κοινού πυκνότητας, οι επιμέρους πυκνότητές τους συχνά ονομάζονται περιθώριες πυκνότητες. Πριν δώσουμε τον ακριβή τους ορισμό, παρατηρούμε πως είναι τώρα εύκολο να διαπιστώσουμε και μαθηματικά ότι οι X1,X2 δεν είναι ανεξάρτητες. Με τη βοήθεια του πίνακα βλέπουμε πως:


Pr(X1=2)Pr(X2=2)=19190=Pr(X1=2,X2=2).
Ορισμός 9.2

Η περιθώρια πυκνότητα της Xi είναι η πυκνότητα PXi(xi) μίας από N διακριτές τυχαίες μεταβλητές  X1,X2,,XN, οι οποίες έχουν από κοινού πυκνότητα P(x1,,xn).

Ιδιότητες της από κοινού πυκνότητας. Έστω δύο διακριτές Τ.Μ. X,Y με σύνολα τιμών SX,SY και πυκνότητες PX(x) και PY(y), αντίστοιχα. Η από κοινού πυκνότητά τους P(x,y) έχει τις εξής ιδιότητες:
  1. 1. 

    xSX,ySYP(x,y)=1.

  2. 2. 

    PX(x)=ySYP(x,y),καιPY(y)=xSXP(x,y).

  3. 3. 

    Οι X,Y είναι ανεξάρτητες αν και μόνο αν,


    P(x,y)=PX(x)PY(y),για όλα ταxSX,ySY.

Στην Άσκηση 3 στο τέλος του κεφαλαίου σάς ζητείται να διατυπώσετε και να αποδείξετε τις φυσικές γενικεύσεις των πιο πάνω ιδιοτήτων για ένα οποιοδήποτε πεπερασμένο πλήθος N τυχαίων μεταβλητών X1,X2,,XN.


Απόδειξη:

Εφόσον για διαφορετικά ζεύγη τιμών (x,y) τα ενδεχόμενα {X=x,Y=y} είναι ξένα μεταξύ τους, και προφανώς η ένωσή τους καλύπτει όλο το Ω, από τον κανόνα συνολικής πιθανότητας έχουμε,


1 = Pr(Ω)


= Pr(xSX,ySY{X=x,Y=y})


= xSX,ySYPr(X=x,Y=y)


= xSX,ySYP(x,y),

που αποδεικνύει την πρώτη ιδιότητα. Παρότι η δεύτερη ιδιότητα έχει ήδη αποδειχθεί στο Λήμμα 6.1 του Κεφαλαίου 6, θυμίζουμε πως, για κάθε x, τα ενδεχόμενα {X=x,Y=y} είναι ξένα μεταξύ τους και η ένωσή τους για διαφορετικά y ισούται με το ενδεχόμενο {X=x}. Άρα, πάλι από τον κανόνα συνολικής πιθανότητας, έχουμε:


PX(x) = Pr(X=x)


= Pr(ySY{X=x,Y=y})


= ySYPr(X=x,Y=y)


= ySYP(x,y).

Η αντίστοιχη σχέση για την PY(y) αποδεικνύεται με τον ίδιο τρόπο. Τέλος, η τρίτη ιδιότητα είναι απλώς αναδιατυπωμένος ο ορισμός της ανεξαρτησίας διακριτών τυχαίων μεταβλητών.


Παράδειγμα 9.6

Μερικές φορές το πλήθος των τιμών που παίρνει μια Τ.Μ. Y είναι απαγορευτικά μεγάλο για να αναπαραστήσουμε σε πίνακα την από κοινού πυκνότητά της με μια άλλη Τ.Μ. X. Έστω, για παράδειγμα, πως η X ορίζεται ως,


X={2,με πιθανότητα  1/3,3,με πιθανότητα  1/3,4,με πιθανότητα  1/3,

και πως, δεδομένου ότι η X παίρνει την τιμή x, η Y έχει Γεωμ(1/x) κατανομή. Συνεπώς, τα αντίστοιχα σύνολα τιμών είναι SX={2,3,4} και SY=={1,2,}, όπου το SY προφανώς είναι άπειρο.

Η από κοινού πυκνότητα των X,Y μπορεί εύκολα να υπολογιστεί από τον ορισμό της δεσμευμένης πιθανότητας: Για mSX και nSY,


P(m,n) = Pr(X=m,Y=n)


= Pr(X=m)Pr(Y=n|X=m)


= 13(1-1m)n-11m,

όπου χρησιμοποιήσαμε τον τύπο της πυκνότητας της Γεωμ(1/m) κατανομής.

Η περιθώρια πυκνότητα της X μας είναι εξ ορισμού γνωστή και, από τη δεύτερη ιδιότητα της από κοινού πυκνότητας, μπορούμε εύκολα να υπολογίσουμε και τις τιμές της περιθώριας πυκνότητας της Y. Για παράδειγμα,


PY(1) = P(2,1)+P(3,1)+P(4,1)


= 13(1-12)1-112+13(1-13)1-113+13(1-14)1-114=1336.

Από τον ορισμό της X γνωρίζουμε πως η πιθανότητα Pr(X=4)=1/3. Αλλά δεδομένου ότι το Y=1, ποια θα ήταν η πιθανότητα να έχουμε X=4; Το X=4 αντιστοιχεί στο να έχει το Y γεωμετρική κατανομή με παράμετρο 1/4, δηλαδή με πιθανότητα επιτυχίας που είναι η μικρότερη από τις τρεις δυνατές περιπτώσεις (1/2, 1/3 ή 1/4). Άρα θεωρούμε ότι είναι μάλλον απίθανο να έχουμε X=4 δεδομένου ότι είχαμε Y=1, δηλαδή επιτυχία από το πρώτο κιόλας πείραμα. Με άλλα λόγια, περιμένουμε πως η δεσμευμένη πιθανότητα Pr(X=4|Y=1) θα είναι μικρότερη από την αρχική Pr(X=4)=1/3. Πράγματι, από τον ορισμό της δεσμευμένης πιθανότητας βρίσκουμε,


Pr(X=4|Y=1)=P(4,1)PY(1)=13(1-14)1-11413/36=313<13,

όπως αναμενόταν.


Παράδειγμα 9.7

Έστω δύο διακριτές Τ.Μ. X,Y με από κοινού πυκνότητα όπως στον πιο κάτω πίνακα:

X 0 1 2
Y



0 1/6 0 1/4 5/12
1 0 1/6 0 1/6
2 1/4 0 1/6 1/9

5/12 1/6 5/12

Όπως και στο Παράδειγμα 9.5, οι περιθώριες πυκνότητες PX(x) και PY(y) εύκολα υπολογίζονται στον πίνακα βάσει της δεύτερης ιδιότητας της από κοινού πυκνότητας. Και όπως και νωρίτερα, διαπιστώνουμε πως και εδώ οι X,Y δεν είναι ανεξάρτητες, εφόσον:


P(0,1)=051216=PX(0)PY(1).

Η συνδιακύμανση μεταξύ δύο Τ.Μ. είναι μια ποσοτική έκφραση του «πόσο μη ανεξάρτητες» είναι:

Ορισμός 9.3

Η συνδιακύμανση Cov(X,Y) μεταξύ δύο τυχαίων μεταβλητών X,Y ορίζεται ως:


Cov(X,Y)=E[(X-E(X))(Y-E(Y))].

Παράδειγμα 9.8

Για τις Τ.Μ. X1,X2 του Παραδείγματος 9.5 έχουμε,


Ε(X1)=049+149+219=23,

και παρομοίως E(X2)=2/3. Από τον ορισμό της συνδιακύμανσης και την από κοινού πυκνότητά των X1,X2, εύκολα υπολογίζουμε,


Cov(X1,X2) = 19(0-23)(0-23)+29(1-23)(0-23)+19(2-23)(0-23)



+29(0-23)(1-23)+29(1-23)(1-23)+19(0-23)(2-23)


= 29,

όπου στον υπολογισμό παραλείψαμε τα τρία ζεύγη τιμών (x1,x2) με μηδενική πιθανότητα.

Παράδειγμα 9.9

Για μια οποιαδήποτε Τ.Μ. X, μπορούμε να υπολογίσουμε τη συνδιακύμανση της X με τον εαυτό της. Από τους ορισμούς βρίσκουμε,


Cov(X,X)=E[(X-E(X))2]=Var(X)>0,

άρα η συνδιακύμανση μιας οποιασδήποτε Τ.Μ. X με τον εαυτό της είναι πάντα θετική. [Εκτός, βέβαια, από την τετριμμένη περίπτωση που η X έχει μηδενική διασπορά, δηλαδή ισούται με κάποια σταθερά με πιθανότητα 1, οπότε η διασπορά της είναι μηδέν.] Παρομοίως, η συνδιακύμανση μεταξύ της X και της -X ισούται με,


Cov(X,-X) = E[(X-E(X))(-X-E(-X))]


= E[-(X-E(X))2]


= -Var(X),

η οποία είναι πάντοτε αρνητική.



Παρατήρηση:
Μια πρώτη διαισθητική ερμηνεία της συνδιακύμανσης είναι πως, όταν έχουμε Cov(X,Y)>0, τότε οι δύο Τ.Μ. X,Y τείνουν να παίρνουν και οι δύο μεγάλες τιμές, ή και οι δύο μικρές τιμές. Αντίστοιχα, όταν Cov(X,Y)<0, τότε όταν η μία Τ.Μ. παίρνει μεγάλες τιμές η άλλη τείνει να παίρνει μικρές τιμές.

Αυτό το φαινόμενο στην ακραία του μορφή φαίνεται στο Παράδειγμα 9.9 πιο πάνω, όπου είδαμε πως, για οποιαδήποτε Τ.Μ. X, η συνδιακύμανση Cov(X,X) είναι πάντοτε θετική, ενώ η συνδιακύμανση Cov(X,-X) είναι πάντοτε αρνητική.

Ιδιότητες της συνδιακύμανσης. Έστω δύο διακριτές Τ.Μ. X,Y.
  1. 1. 

    Η συνδιακύμανση Cov(X,Y) εναλλακτικά ισούται με:


    Cov(X,Y)=E(XY)-E(X)E(Y).
    (9.2)
  2. 2. 

    Αν οι X,Y είναι ανεξάρτητες, τότε η συνδιακύμανσή τους ισούται με μηδέν, δηλαδή, Cov(X,Y)=0.

  3. 3. 

    Αν η συνδιακύμανσή Cov(X,Y) ισούται με μηδέν, αυτό δεν συνεπάγεται απαραίτητα πως οι X,Y είναι ανεξάρτητες.

  4. 4. 

    Πάντοτε έχουμε:


    Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y).
  5. 5. 

    Αν οι X,Y είναι ανεξάρτητες, τότε:


    Var(X+Y)=Var(X)+Var(Y).

Παρατηρήσεις:
  1. 1.

    Την Ιδιότητα 5 την έχουμε ήδη συναντήσει στο Θεώρημα 6.1. Εδώ θα δούμε πώς προκύπτει, εναλλακτικά, ως ειδική περίπτωση της παραπάνω Ιδιότητας 4.

  2. 2.

    Αν και ίσως δεν συνδέεται άμεσα με την ύλη που έχουμε συναντήσει ως τώρα σε αυτό το κεφάλαιο, παραθέτουμε εδώ μία σημαντική ισοδύναμη συνθήκη για την ανεξαρτησία δύο Τ.Μ., η οποία θα μας φανεί πολύ χρήσιμη στη μετέπειτα ανάπτυξη των αποτελεσμάτων μας. Η απόδειξή της δίνεται στην Άσκηση 6 στο τέλος του κεφαλαίου.

    Δύο διακριτές Τ.Μ. X,Y είναι ανεξάρτητες αν και μόνο αν, για οποιεσδήποτε συναρτήσεις f(x) και g(y), οι νέες Τ.Μ. f(X) και g(Y) είναι ανεξάρτητες.

Απόδειξη:

Για την πρώτη ιδιότητα, από τον ορισμό της συνδιακύμανσης και την πρώτη ιδιότητα του Θεωρήματος 6.1, έχουμε:


Cov(X,Y) = E[(X-E(X))(Y-E(Y))]


= E[XY-E(X)Y-XE(Y)+E(X)E(Y)]


= E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)


= E(XY)-E(X)E(Y).

Ιδιότητα 2: Αν οι X,Y είναι ανεξάρτητες, τότε από την Ιδιότητα 3 του Θεωρήματος 6.1 έχουμε E(XY)=E(X)E(Y), και αντικαθιστώντας στην (9.2) η συνδιακύμανση πράγματι ισούται με μηδέν,


Cov(X,Y)=E(XY)-E(X)E(Y)=0.

Για την τρίτη ιδιότητα αρκεί να δώσουμε ένα παράδειγμα δύο Τ.Μ. με μηδενική συνδιακύμανση, οι οποίες δεν είναι ανεξάρτητες: Έστω δύο διακριτές Τ.Μ. X,Y με από κοινού πυκνότητα όπως στον παρακάτω πίνακα:

X -1 0 1
Y



-1 0 1/4 0 1/4
0 1/4 0 1/4 1/2
1 0 1/4 0 1/4

1/4 1/2 1/4

Οι περιθώριες πυκνότητες PX(x),PY(y) έχουν επίσης υπολογιστεί στον πίνακα βάσει της Ιδιότητας 2 της από κοινού πυκνότητας. Οι X,Y δεν είναι ανεξάρτητες, αφού:


P(0,0)=01212=PX(0)PY(0).

Για τη συνδιακύμανσή τους, πρώτα υπολογίζουμε,


E(X)=(-1)14+012+114=0,

και παρομοίως E(Y)=0 αφού οι X και Y έχουν την ίδια πυκνότητα. Επιπλέον παρατηρούμε πως,


Ε(XY)=x=-1,0,1y=-1,0,1P(x,y)xy=0,

διότι όλοι οι όροι του πιο πάνω αθροίσματος είναι μηδενικοί. [Ή x=0 ή y=0 ή P(x,y)=0, για όλα τα δυνατά ζεύγη τιμών (x,y).] Άρα,


Cov(X,Y)=E(XY)-E(X)E(Y)=0-00=0.

[Παρατηρήστε πως αυτό το παράδειγμα είναι το ίδιο με εκείνο που δόθηκε για τη λύση της Άσκησης 5 του Κεφαλαίου 6.]

Για την τέταρτη ιδιότητα, ξεκινώντας από τον ορισμό της διασποράς και εφαρμόζοντας την Ιδιότητα 1 του Θεωρήματος 6.1, έχουμε,


Var(X+Y) = E[((X+Y)-E(X+Y))2]


= E[((X-E(X))+(Y-E(Y)))2]


= E[(X-E(X))]2+E[(Y-E(Y))]2+2E[(X-E(Y))(Y-E(Y))]


= Var(X)+Var(Y)+2Cov(X,Y).

Τέλος, η πέμπτη ιδιότητα είναι άμεση συνέπεια του συνδυασμού των Ιδιοτήτων 4 και 2.


Παράδειγμα 9.10

Έστω τρεις ανεξάρτητες Τ.Μ. X1,X2,X3 που έχουν όλες την ίδια πυκνότητα, και, κατά συνέπεια, την ίδια μέση τιμή μ=E(Xi). Ορίζουμε δύο νέες Τ.Μ., τις Y=X1+X2 και Z=X1+X3. Εφόσον και οι δύο εξαρτώνται από την X1 περιμένουμε πως δεν θα είναι ανεξάρτητες, και πως πιθανότατα η συνδιακύμανσή τους δεν θα είναι μηδενική. Χρησιμοποιώντας την εναλλακτική έκφραση για τη συνδιακύμανση στη σχέση (9.2), έχουμε,


Cov(Y,Z) = E(YZ)-E(Y)E(Z)


= E((X1+X2)(X1+X3))-E(X1+X2)E(X1+X3)


= E(X12+X1X3+X1X2+X2X3)-E(X1+X2)E(X1+X3)


= E(X12)+E(X1X3)+E(X1X2)+E(X2X3)



     -(E(X1))-2E(X1)E(X3)-E(X1)E(X2)-E(X2)E(X3),

όπου στο τελευταίο βήμα χρησιμοποιήσαμε την Ιδιότητα 1 του Θεωρήματος 6.1. Από το ίδιο θεώρημα επίσης γνωρίζουμε πως, λόγω της ανεξαρτησίας των Xi, έχουμε E(XiXj)=E(Xi)E(Xj). Συνεπώς, οι παραπάνω έξι όροι εκτός του πρώτου και του τέταρτου απλοποιούνται, διότι είναι όλοι ίσοι με (E(Xi))=2μ2, και χρησιμοποιώντας την εναλλακτική έκφραση της διασποράς βρίσκουμε πως Cov(Y,Z)=Var(X1).

Άρα, η συνδιακύμανση μεταξύ Y και Z όχι μόνο είναι μη μηδενική (όπως περιμέναμε), αλλά επιπλέον ισούται ακριβώς με τη «διακύμανση» (δηλαδή τη διασπορά) της Τ.Μ. X1 η οποία συνδέει τις Y και Z.


Παράδειγμα 9.11

Παρομοίως με το προηγούμενο παράδειγμα, έστω ότι από τρεις ανεξάρτητες τυχαίες μεταβλητές X1Poisson(λ), X2Poisson(μ) και X3Poisson(ν), ορίζουμε δύο νέες Τ.Μ., την Y=X1+X2 και την Z=X2+X3. Όπως είδαμε στην Άσκηση 5 του Κεφαλαίου 7, το άθροισμα δύο ανεξάρτητων Τ.Μ. με κατανομή Poisson έχει κι αυτό κατανομή Poisson, και η παράμετρός του ισούται με το άθροισμα των δύο αρχικών παραμέτρων. Άρα εδώ έχουμε YPoisson(λ+μ) και ZPoisson(μ+ν).

Ακολουθώντας τα ίδια βήματα όπως στο προηγούμενο παράδειγμα, υπολογίζουμε τη συνδιακύμανση μεταξύ Y και Z,


Cov(Y,Z) = E(YZ)-E(Y)E(Z)


= E((X1+X2)(X2+X3))-E(X1+X2)E(X2+X3)


= E(X1)E(X2)+E(X1)E(X3)+E(X22)+E(X2)E(X3)



     -E(X1)E(X2)-E(X1)E(X3)-(E(X2))-2E(X2)E(X3)


= E(X22)-(E(X2))2


= Var(X2)=μ.

Παρατηρούμε πως, παρότι οι τρεις Τ.Μ. X1,X2,X3 εδώ, σε αντίθεση με το προηγούμενο παράδειγμα, δεν έχουν ακριβώς την ίδια κατανομή (γιατί έχουν διαφορετικές παραμέτρους), καταλήγουμε στο ίδιο αποτέλεσμα: Η συνδιακύμανση μεταξύ Y και Z είναι ίση με τη διασπορά της Τ.Μ. X2 η οποία συνδέει τις Y και Z.

9.3 Ο Νόμος των Μεγάλων Αριθμών

Σε αυτό το σημείο έχουμε πλέον αναπτύξει αρκετά μαθηματικά εργαλεία ώστε να είμαστε σε θέση να διατυπώσουμε και να αποδείξουμε ίσως το πιο θεμελιώδες αποτέλεσμα της θεωρίας των πιθανοτήτων, το Νόμο των Μεγάλων Αριθμών (ή Ν.Μ.Α., για συντομία). Χωρίς να μπούμε ακόμα σε μαθηματικές λεπτομέρειες, ο Ν.Μ.Α. λέει το εξής:

Ν.Μ.Α.: Έστω πως έχουμε ένα μεγάλο πλήθος N από ανεξάρτητες τυχαίες μεταβλητές X1,X2,XN, οι οποίες έχουν όλες την ίδια «κατανομή», δηλαδή την ίδια πυκνότητα P(x) και, κατά συνέπεια, και την ίδια μέση τιμή μ=E(Xi). Τότε, με μεγάλη πιθανότητα, ο εμπειρικός μέσος όρος τους θα ισούται με τη μέση τιμή τους, δηλαδή:

1Ni=1NXiμ,με πιθανότητα1.

Πριν δώσουμε την ακριβή μαθηματική διατύπωση του Ν.Μ.Α., ας δούμε μερικά απλά αλλά πολύ σημαντικά παραδείγματα.


Παράδειγμα 9.12 (Τι θα πει «πιθανότητα»;)

Έστω πως μας ενδιαφέρει η πιθανότητα p=(A) του να συμβεί ένα συγκεκριμένο ενδεχόμενο Α. Λόγου χάρη, το Α θα μπορούσε να αντιστοιχεί στο «η θεραπεία του ασθενή ήταν επιτυχής» ή «το δίκτυο παρουσίασε σφάλμα» ή «η εκτέλεση του αλγορίθμου ολοκληρώθηκε κανονικά» ή «ανέβηκε σήμερα στο χρηματιστήριο η τιμή της μετοχής τάδε» κλπ. Ένας τρόπος για να δώσουμε ένα φυσικό νόημα στην πιθανότητα p είναι να φανταστούμε πως επαναλαμβάνεται το ίδιο ακριβώς πείραμα πάρα πολλές, ανεξάρτητες φορές, έτσι ώστε, τουλάχιστον στο διαισθητικό επίπεδο, η πιθανότητα p=(A) να αντιστοιχεί στο το ποσοστό των φορών, μακροπρόθεσμα, που συμβαίνει το Α. Ο Ν.Μ.Α. είναι ακριβώς το αποτέλεσμα εκείνο που τεκμηριώνει αυτόν τον συλλογισμό μαθηματικά.

Συγκεκριμένα, το πιο πάνω φανταστικό σενάριο μπορεί να περιγραφεί ως εξής. Έστω πως έχουμε ένα μεγάλο πλήθος N ανεξάρτητων επαναλήψεων του ίδιου πειράματος, και ας ορίσουμε, για την κάθε επανάληψη i, μια Τ.Μ. Xi που να ισούται με 1 αν το Α συνέβη τη φορά i, αλλιώς να ισούται με 0. Τότε,


«ποσοστό των φορών που συνέβη το Α»=1Ni=1NXi,

και ο Ν.Μ.Α. μας λέει πως, με πιθανότητα 1, αυτό θα ισούται με τη μέση τιμή των Xi. Εφόσον τα Xi είναι Bernoulli τυχαίες μεταβλητές, η μέση τιμή Ε(Xi) είναι απλά η πιθανότητα p του να έχουμε Xi=1, δηλαδή του να συμβεί το Α. Με άλλα λόγια:

Η πιθανότητα p του να συμβεί ένα οποιοδήποτε ενδεχόμενο Α, ισούται με τη συχνότητα με την οποία θα συμβεί, μακροπρόθεσμα, το A, σε πολλές ανεξάρτητες επαναλήψεις του ίδιου πειράματος.

Παράδειγμα 9.13 (Γιατί γίνονται δημοσκοπήσεις;)

Έστω πως σε έναν πληθυσμό K ατόμων οι K/4 είναι ψηφοφόροι κάποιου κόμματος, δηλαδή το κόμμα αυτό στις εκλογές θα πάρει ποσοστό 25%. Μια δημοσκόπηση επιλέγει στην τύχη ένα σχετικά μεγάλο πλήθος ατόμων Ν (με επανατοποθέτηση) και τα ρωτά αν θα ψηφίσουν το κόμμα αυτό. [Σε τυπικές δημοσκοπήσεις έχουμε Ν μεταξύ 1000 και 5000 ερωτηθέντων σε έναν πληθυσμό K μεταξύ 500 χιλιάδων και πολλών εκατομμυρίων ατόμων.]

Έστω Xi μια Τ.Μ. που ισούται με 1 αν το άτομο i που ρωτάται είναι ψηφοφόρος του κόμματος, και 0 αν όχι, οπότε οι Xi είναι ανεξάρτητες Τ.Μ. με κατανομή Bern(0.25). Εδώ ο Ν.Μ.Α. μας λέει πως, αν το μέγεθος Ν του δείγματος είναι αρκετά μεγάλο, τότε, με πιθανότητα 1:


«ποσοστό ερωτηθέντων που είναι ψηφοφόροι του κόμματος»=1Ni=1NXiE(Xi)=25%.

Άρα, από ένα αρκετά μεγάλο (τυχαίο) δείγμα, μπορούμε να εκτιμήσουμε το πραγματικό ποσοστό ψήφων που αυτό το κόμμα θα πάρει στις εκλογές.


Παράδειγμα 9.14 (Εκτίμηση μέσω δειγματοληψίας)
Έστω πως θέλουμε να υπολογίσουμε το μέσο ύψος y¯ (σε εκατοστά) ενός κοριτσιού ηλικίας 18 μηνών, μεταξύ των Μ κοριτσιών ενός πληθυσμού αυτής της ηλικίας. Αν yk είναι το ύψος του κοριτσιού k=1,2,,M, θέλουμε να εκτιμήσουμε το,

«μέσο ύψος»=y¯=1Mi=1Myk.

Αντί να εξετάσουμε ολόκληρο τον πληθυσμό, επιλέγουμε τυχαία, με επανατοποθέτηση, N μέλη του πληθυσμού, όπου το μέγεθος N του δείγματός μας είναι μεν σχετικά μεγάλο, αλλά είναι σημαντικά μικρότερο του συνολικού μεγέθους Μ του πληθυσμού (όπως και στο προηγούμενο παράδειγμα).

Ορίζουμε τις εξής Τ.Μ.: Έστω Xj=«ύψος του κοριτσιού j» που επιλέξαμε. Τότε τα Xj είναι ανεξάρτητα, και το κάθε Xj έχει σύνολο τιμών S={y1,y2,,yM} και πυκνότητα,


P(yk)=Pr(Xj=yk)=Pr(«επιλέξαμε το κορίτσι k»)=1M.

Άρα τα Xj έχουν μέση τιμή,


E(Xj)=k=1MykP(yk)=k=1Myk1M=1Mk=1Myk=y¯.

Αν εκτιμήσουμε λοιπόν το y¯ ως τον μέσο όρο από τα ύψη των κοριτσιών που επιλέξαμε, ο Ν.Μ.Α. είναι αυτός που μας διαβεβαιώνει πως, αν το μέγεθος Ν του δείγματός μας είναι αρκετά μεγάλο, τότε η εκτίμησή μας θα είναι ακριβής με πιθανότητα κοντά στο 100%:


«μέσο ύψος δειγμάτων»=1Ni=1NXiE(Xi)=y¯,με πιθανότητα1.

Για να διατυπώσουμε τον Ν.Μ.Α. μαθηματικά με ακρίβεια, θα χρειαστούμε την έννοια της «σύγκλισης κατά πιθανότητα». Όταν η ακολουθία που μας ενδιαφέρει αποτελείται από τυχαίες μεταβλητές X1,X2,X3,, και όχι απλά από πραγματικούς αριθμούς, πρέπει να ορίσουμε εκ νέου τι εννοούμε λέγοντας ότι «η ακολουθία συγκλίνει».

Ορισμός 9.4 (Σύγκλιση κατά πιθανότητα)

Έστω μια ακολουθία τυχαίων μεταβλητών {Xn}= {X1,X2,}, μια σταθερά c, και μια άλλη Τ.Μ. X.

  1. 1. 

    H ακολουθία τυχαίων μεταβλητών {Xn} συγκλίνει κατά πιθανότητα στη σταθερά c, αν για κάθε ϵ>0:


    Pr(|Xn-c|<ϵ)1,καθώς τοn.
  2. 2. 

    Γενικότερα, η ακολουθία τυχαίων μεταβλητών {Xn} συγκλίνει κατά πιθανότητα στην Τ.Μ. X, αν για κάθε ϵ>0:


    Pr(|Xn-X|<ϵ)1,καθώς τοn.
Θεώρημα 9.3 (Ο Νόμος των Μεγάλων Αριθμών)

Έστω μια ακολουθία από ανεξάρτητες διακριτές τυχαίες μεταβλητές X1,X2,, όπου έχουν όλες την ίδια κατανομή, δηλαδή την ίδια πυκνότητα, και κατά συνέπεια την ίδια μέση τιμή μ=E(Xi) και την ίδια διασπορά σ2=Var(Xi)<. Τότε:

  1. 1. 

    [Διαισθητικά] Για μεγάλα N, ο εμπειρικός μέσος όρος των X1,X2,,XN,


    X¯N=1Ni=1NXiμ,με μεγάλη πιθανότητα.
  2. 2. 

    [Μαθηματικά] Καθώς το N ο εμπειρικός μέσος όρος X¯N τείνει στη μέση τιμή μ κατά πιθανότητα, δηλαδή, για κάθε ϵ>0:


    Pr(|X¯N-μ|<ϵ)1,καθώς τοN.

Απόδειξη:

Η απόδειξη είναι μια απλή εφαρμογή της ανισότητας Chebychev. Χρησιμοποιώντας την πρώτη ιδιότητα του Θεωρήματος 6.1, η μέση τιμή της Τ.Μ. X¯N είναι,


E(X¯N)=E(1Ni=1NXi)=1Ni=1NE(Xi)=1NNμ=μ.

Παρομοίως, χρησιμοποιώντας τις Ιδιότητες 2 και 4 του Θεωρήματος 6.1, και το γεγονός ότι τα Xi είναι ανεξάρτητα, η διασπορά της Τ.Μ. X¯N είναι,


Var(X¯N) = Var(1Ni=1NXi)


= 1N2Var(i=1NXi)


= 1N2i=1NVar(Xi)


= 1N2Nσ2


= σ2N.

Τέλος, δεδομένου ϵ>0, από την ανισότητα Chebychev έχουμε,


Pr(|X¯N-μ|ϵ)=Pr(|X¯N-E(X¯N)|ϵ)Var(X¯N)ϵ2=σ2Nϵ2.

Άρα,


Pr(|X¯N-μ|<ϵ)=1-Pr(|X¯N-μ|ϵ)1-σ2Nϵ2,

το οποίο προφανώς τείνει στο 1, καθώς το N.


Παρατηρήσεις:

  1. 1.

    Το αποτέλεσμα του Θεωρήματος 9.3 συχνά αναφέρεται στη βιβλιογραφία ως ο «Ασθενής» Νόμος των Μεγάλων Αριθμών. Ο λόγος είναι ότι υπάρχει ένα πράγματι ισχυρότερο αποτέλεσμα, ο λεγόμενος «Ισχυρός» Νόμος των Μεγάλων Αριθμών, που μας λέει πως, κάτω από τις ίδιες συνθήκες, ο εμπειρικός μέσος όρος X¯N συγκλίνει στη μέση τιμή μ με πιθανότητα 1, όχι μόνο κατά πιθανότητα.

    Αυτή η μορφή σύγκλισης λέει το εξής: Ας εξετάσουμε τις Τ.Μ. X¯N στην πιο βασική τους μορφή, δηλαδή ως συναρτήσεις X¯N:Ω σε κάποιο χώρο πιθανότητας Ω. Για οποιοδήποτε συγκεκριμένο ωΩ, η ακολουθία {X¯N(ω):N1} είναι απλά μια ακολουθία πραγματικών αριθμών. Μπορούμε λοιπόν να εξετάσουμε το ενδεχόμενο,


    Σ={ωΩ:limNX¯N(ω)=μ}={limNX¯N=μ}.

    Λέμε ότι τα X¯N συγκλίνουν στο μ με πιθανότητα 1, αν το ενδεχόμενο Σ έχει πιθανότητα Pr(Σ)=1. Δεν είναι ιδιαίτερα δύσκολο να δειχθεί (βλ. Άσκηση 14 στο τέλος του κεφαλαίου) ότι η σύγκλιση με πιθανότητα 1 συνεπάγεται και τη σύγκλιση κατά πιθανότητα, πράγμα που εξηγεί τις σχετικές ονομασίες των δύο αυτών αποτελεσμάτων.

  2. 2.

    Αν και στη διατύπωση του Ν.Μ.Α. στο Θεώρημα 9.3 υποθέσαμε πως οι Τ.Μ. Xi έχουν πεπερασμένη διασπορά σ2=Var(Xi)<, σημειώνουμε πως αυτή η συνθήκη δεν είναι απαραίτητη και, αν ήμασταν διατεθειμένοι να υποστούμε μια κάπως πιο σύνθετη και μακροσκελή απόδειξη, θα μπορούσαμε να την αντικαταστήσουμε με την ασθενέσθερη υπόθεση ότι η μέση τιμή μ0=E(|Xi|) είναι πεπερασμένη.

  3. 3.

    Κλείνουμε με μια ακόμη παρατήρηση η οποία, αν και τεχνικής φύσεως, όπως θα δούμε σε επόμενα κεφάλαια είναι θεμελιώδους σημασίας για τις περισσότερες στατιστικές εφαρμογές των πιθανοτήτων.

    Δύο βασικά και μάλλον προφανή ερωτήματα που γεννιούνται από τον Ν.Μ.Α. είναι τα εξής:

    1. (α’)

      Πόσο μεγάλο πρέπει να είναι το πλήθος N των δειγμάτων, ώστε να έχουμε κάποια σχετική βεβαιότητα πως ο εμπειρικός μέσος όρος X¯N θα είναι αρκετά κοντά στη μέση τιμή μ;

    2. (β’)

      Αντίστοιχα, δεδομένου του πλήθους Ν, πόσο μικρή είναι η πιθανότητα το X¯N να απέχει κατά πολύ από το μ;

    Αν εξετάσουμε προσεκτικά την παραπάνω απόδειξη θα δούμε πως, πέρα από το ασυμπτωτικό αποτέλεσμα του θεωρήματος (το οποίο ισχύει μόνο καθώς το N), περιέχει και κάποιες πρώτες απαντήσεις στα πιο πάνω ερωτήματα. Συγκεκριμένα, δείξαμε πως η μέση τιμή και η διασπορά του X¯N είναι, αντίστοιχα,


    E(X¯N)=μ   και   Var(X¯N)=σ2N,για κάθεN.

    Επιπλέον βρήκαμε ένα ακριβές ποσοτικό φράγμα για την πιθανότητα ο εμπειρικός μέσος όρος X¯N να απέχει από τη μέση τιμή μ κατά τουλάχιστον ϵ:


    Pr(|X¯N-μ|ϵ)σ2Nϵ2.
    (9.3)

    Αν και μαθηματικά σωστό, το πιο πάνω φράγμα στις περισσότερες περιπτώσεις δεν είναι αρκετά ακριβές ώστε να είναι χρήσιμο στην πράξη. Με άλλα λόγια, η ζητούμενη πιθανότητα στη σχέση (9.3) είναι συνήθως σημαντικά μικρότερη από το φράγμα σ2/(Nϵ2).

    Το δεύτερο θεμελιώδες αποτέλεσμα των πιθανοτήτων, το Κεντρικό Οριακό Θεώρημα (ή Κ.Ο.Θ.), το οποίο αποτελεί το αντικείμενο του Κεφαλαίου 12, είναι αυτό που μας δίνει μια ακριβή προσέγγιση της πιθανότητας Pr(|X¯N-μ|ϵ). Συγκεκριμένα, το Κ.Ο.Θ. λέει πως, κάτω από ορισμένες συνθήκες, η κατανομή του εμπειρικού μέσου όρου X¯N μπορεί να προσεγγιστεί με μεγάλη ακρίβεια από την κανονική κατανομή.

    Η κανονική (ή γκαουσιανή) κατανομή αντιστοιχεί σε μια κατηγορία τυχαίων μεταβλητών οι οποίες έχουν ως σύνολο τιμών ολόκληρο το . Συνεπώς, πριν μπορέσουμε να διατυπώσουμε με ακρίβεια το Κ.Ο.Θ., θα πρέπει να μελετήσουμε τις συνεχείς τυχαίες μεταβλητές. Αυτό είναι το αντικείμενο του Κεφαλαίου 10 που ακολουθεί.

9.4 Ασκήσεις

  1. 1.

    Αφρικανικό χελιδόνι. Ένας βιολόγος ισχυρίζεται το εξής: «Το μέσο βάρος του αφρικανικού χελιδονιού είναι 100 γραμμάρια, ενώ το 60% των αφρικανικών χελιδονιών έχει βάρος άνω των 200 γραμμαρίων». Είναι δυνατόν αυτός ο ισχυρισμός να ευσταθεί; Εξηγήστε.

  2. 2.

    Απόσταση Τ.Μ. από τη μέση τιμή της. Για μια τυχαία μεταβλητή X με μέση τιμή μ και άγνωστη κατανομή, κάποιος στατιστικολόγος ισχυρίζεται ότι η πιθανότητα η τιμή της X να απέχει από τη μέση τιμή της κατά παραπάνω από 3μ είναι μικρή. Υποστηρίζει αυτό το συμπέρασμα διότι γνωρίζει πως, στη συγκεκριμένη περίπτωση, η διασπορά της X είναι αρκετά μικρότερη από τη μέση τιμή στο τετράγωνο (δηλαδή από το μ2). Έχει δίκιο στον ισχυρισμό του ή όχι; Αποδείξτε την απάντησή σας.

  3. 3.

    Ιδιότητες από κοινού πυκνότητας. Αν, αντί για δύο διακριτές Τ.Μ. X,Y, είχαμε ένα πεπερασμένο πλήθος X1,X2,,XN, διατυπώστε και αποδείξτε τις φυσικές γενικεύσεις των τριών ιδιοτήτων της από κοινού πυκνότητας που ακολουθούν τον Ορισμό 9.2.

  4. 4.

    Χρόνος εκτέλεσης αλγορίθμου. Ένας αλγόριθμος έχει ως δεδομένα εισόδου έναν ακέραιο αριθμό Y και μια σειρά από n bits, X1,X2,,Xn. Ο χρόνος εκτέλεσης του αλγορίθμου είναι:


    T=Y+2i=1nXi+(i=1nXi)2δευτερόλεπτα.

    Αν υποθέσουμε ότι τα Y,X1,X2,,Xn είναι ανεξάρτητες τυχαίες μεταβλητές όπου τα XiBern(1/4) και το Y παίρνει τις τιμές 0,2,5 και 9 με πιθανότητα 1/4 για την καθεμία:

    1. (α’)

      Να υπολογίσετε τον μέσο χρόνο εκτέλεσης.

    2. (β’)

      Να δείξετε ότι η πιθανότητα ο χρόνος εκτέλεσης να ξεπερνά τα n2 δευτερόλεπτα είναι το πολύ,


      116+1116n+4n2.

      [Συνεπώς, για μεγάλα n αυτή η πιθανότητα είναι το πολύ 116=6.25%.]

    3. (γ’)

      Υπολογίστε τη συνδιακύμανση μεταξύ των Τ.Μ. T και Y. Πώς εξαρτάται το αποτέλεσμα από το n; Εξηγήστε.

  5. 5.

    Μέγιστο και ελάχιστο δύο ζαριών. Ρίχνουμε ένα ζάρι δύο φορές. Έστω X1 και X2 τα αποτελέσματα των δύο ρίψεων.

    1. (α’)

      Ποια είναι η από κοινού πυκνότητα του ζεύγους X1,X2, υποθέτοντας ότι οι ρίψεις είναι ανεξάρτητες και το ζάρι είναι δίκαιο;

    2. (β’)

      Έστω X=min(X1,X2), Y=max(X1,X2). Βρείτε την από κοινού πυκνότητα των X,Y.

    3. (γ’)

      Βρείτε τις περιθώριες πυκνότητες των X,Y. Συγκρίνετε όλα τα πιο πάνω αποτελέσματά με αυτά της Άσκησης 7 του Κεφαλαίου 6.

  6. 6.

    Συναρτήσεις τυχαίων μεταβλητών. Έστω X, Y δύο διακριτές τυχαίες μεταβλητές με σύνολο τιμών ={,-1,0,1,2,}.

    1. (α’)

      Δείξτε πως, αν τα X, Y είναι ανεξάρτητα, τότε και τα X2 και Y2 είναι ανεξάρτητα.

    2. (β’)

      Βρείτε μια από κοινού πυκνότητα για την οποία τα X, Y δεν είναι ανεξάρτητα, αλλά τα X2, Y2 είναι.

    3. (γ’)

      Γενικεύοντας το πρώτο ερώτημα, εδώ θα αποδείξετε μια σημαντική παρατήρηση που κάναμε στην Ενότητα 9.2: Έστω οποιεσδήποτε δύο διακριτές Τ.Μ. X,Y με σύνολα τιμών SX,SY. Δείξτε πως οι X,Y είναι ανεξάρτητες αν και μόνο αν, για οποιεσδήποτε συναρτήσεις f:SXSX και g:SYSY, οι f(X),g(Y) είναι ανεξάρτητες.

      Γιατί αυτό το αποτέλεσμα δεν αντικρούει το προηγούμενο ερώτημα;

      [Υπόδειξη. Ίσως σας φανεί χρήσιμο να δείτε τη λύση της Άσκησης 1 του Κεφαλαίου 6.]

  7. 7.

    Το φράγμα του Chernoff. Έστω πως, για μια διακριτή Τ.Μ. X, θέλουμε να βρούμε ένα ακριβέστερο φράγμα από αυτό της ανισότητας Markov για την πιθανότητα η X να παίρνει τιμές μεγαλύτερες από κάποια σταθερά c.

    1. (α’)

      Αποδείξτε πως, για οποιοδήποτε λ>0, έχουμε το φράγμα:


      Pr(Xc)e-λcE(eλX).
      (9.4)

      Παρατηρήστε πως ενώ το αριστερό μέρος δεν εξαρτάται από το λ, το δεξί μέρος ισχύει για κάθε θετικό λ.

    2. (β’)

      Έστω τώρα πως η X έχει κατανομή Διων(n,1/2). Χρησιμοποιώντας τη σχέση (9.4), δείξτε πως, για οποιοδήποτε c0, έχουμε:


      Pr(Xnc){12e-λc[1+eλ]}n.
      (9.5)
    3. (γ’)

      Έστω πάλι πως XΔιων(n,1/2). Για n=10 και c=0.9:

      1. i.

        Υπολογίστε την τιμή του λ που μας δίνει το καλύτερο (δηλαδή το μικρότερο) δυνατό φράγμα στη σχέση (9.5), καθώς και το αντίστοιχο φράγμα γι’ αυτήν τη βέλτιστη τιμή του λ.

      2. ii.

        Υπολογίστε το αντίστοιχο φράγμα που μας δίνει η ανισότητα του Markov. Παρατηρήστε ότι είναι ασθενέστερο.

      3. iii.

        Υπολογίστε ακριβώς την πιθανότητα Pr(Xnc) και συγκρίνετε την πραγματική τιμή της με τα δύο παραπάνω φράγματα.

  8. 8.

    Συμπλήρωση πίνακα. Οι διακριτές τυχαίες μεταβλητές X και Y έχουν από κοινού κατανομή που δίνεται από τον παρακάτω πίνακα:

    X -5 -2 2 5
    Y



    PY(y)
    0 0.01 0.01 0.01

    1 0.05
    0.05 0 0.19
    2 0.07 0.07
    0.07
    3 0.15
    0 0.15
    PX(x)
    0.26 0.15

    1. (α’)

      Συμπληρώστε τις τιμές που λείπουν.

    2. (β’)

      Είναι οι X,Y ανεξάρτητες ή όχι; Αποδείξτε την απάντησή σας.

    3. (γ’)

      Υπολογίστε την Pr(Y=1|X=2).

  9. 9.

    Ενεργοποιημένες συνδέσεις. Το πλήθος των ενεργοποιημένων συνδέσεων σε ένα δίκτυο είναι X, όπου η X έχει κάποια άγνωστη κατανομή με μέση τιμή 2000 και τυπική απόκλιση 500. Αν κάποια στιγμή το πλήθος των συνδέσεων αποκλίνει από το μέσο πλήθος κατά περισσότερο από ±s, τότε το δίκτυο «πέφτει». Βρείτε μια τιμή για το s ώστε το ενδεχόμενο να πέσει το δίκτυο να έχει πιθανότητα το πολύ 1%.

  10. 10.

    Συντελεστής συσχέτισης. Ο συντελεστής συσχέτισης μεταξύ δύο τυχαίων μεταβλητών X,Y, ορίζεται ως:


    ρX,Y=Cov(X,Y)[Var(X)Var(Y)]12.

    Να δείξετε ότι, αν Y=aX+b, όπου η σταθερά a0, τότε ο συντελεστής συσχέτισης ρX,Y των X,Y, ισούται με +1 ή με -1. Πότε ισούται με +1 και πότε με -1;

  11. 11.

    Ασυσχέτιστες αλλά όχι ανεξάρτητες Τ.Μ. Εδώ θα δούμε ένα παράδειγμα, διαφορετικό από εκείνο της απόδειξης της τρίτης ιδιότητας της συνδιακύμανσης, δύο τυχαίων μεταβλητών που έχουν μηδενική συνδιακύμανση αλλά δεν είναι ανεξάρτητες.

    Έστω X, Y, ανεξάρτητες τυχαίες μεταβλητές Bernoulli με παράμετρο p=12. Να δείξετε ότι οι τυχαίες μεταβλητές V=X+Y και W=|X-Y| δεν είναι ανεξάρτητες, αλλά έχουν μηδενική συνδιακύμανση.

  12. 12.

    Σύγκλιση κατά πιθανότητα.

    1. (α’)

      Έστω μια ακολουθία {Xn}={X1,X2,} ανεξάρτητων Τ.Μ. όπου η κάθε Xn έχει κατανομή Bern(1/n). Δείξτε πως οι {Xn} συγκλίνουν στο μηδέν κατά πιθανότητα, καθώς το n.

    2. (β’)

      Εξηγήστε γιατί το αποτέλεσμα του παραπάνω ερωτήματος εξακολουθεί να ισχύει ακόμα και αν οι Τ.Μ. {Xn} δεν είναι ανεξάρτητες.

    3. (γ’)

      Μπορούμε με το ίδιο σκεπτικό να συμπεράνουμε ότι και ο Ν.Μ.Α. ισχύει αν οι Τ.Μ. {Xn} δεν είναι ανεξάρτητες; Αν ναι, αποδείξτε το. Αν όχι, εξηγήστε γιατί.

  13. 13.

    Εκτίμηση με θόρυβο.

    1. (α’)

      Έστω πως θέλουμε να εκτιμήσουμε τη μέση τιμή μ=E(X) κάποιας Τ.Μ. X, χρησιμοποιώντας τις τιμές N ανεξάρτητων Τ.Μ. X1,X2,,XN όλες με την ίδια κατανομή με την X. Αλλά αντί για τα Xi τα ίδια, το μόνο που έχουμε διαθέσιμο είναι τα δείγματα Yi=Xi+Zi, για i=1,2,,N, όπου το κάθε Yi είναι μια τυχαία μέτρηση του αντίστοιχου Xi συν κάποιο τυχαίο «θόρυβο» Zi. Υποθέτουμε ότι τα Zi είναι ανεξάρτητα από τα Xi, και επίσης ότι είναι ανεξάρτητα μεταξύ τους και όλα έχουν την ίδια κατανομή, με κάποια γνωστή μέση τιμή ν=E(Ζi).

      Περιγράψτε μια μέθοδο εκτίμησης της μέσης τιμής μ, και αποδείξτε ότι συγκλίνει στο ζητούμενο μ κατά πιθανότητα, καθώς το πλήθος των δειγμάτων N.

    2. (β’)

      Έστω τώρα πως θέλουμε να εκτιμήσουμε όχι κάποια σταθερά όπως πιο πάνω, αλλά την τυχαία τιμή κάποιας Τ.Μ. X, χρησιμοποιώντας τις τιμές N δειγμάτων Yi=X+Zi, για i=1,2,,N, όπου τα Zi είναι ανεξάρτητα από το X, είναι ανεξάρτητα μεταξύ τους και όλα έχουν την ίδια κατανομή, με γνωστή μέση τιμή ν=E(Ζi).

      Περιγράψτε μια μέθοδο εκτίμησης της X και αποδείξτε ότι συγκλίνει στην X κατά πιθανότητα, καθώς N.

  14. 14.

    Σύγκλιση με πιθανότητα 1. Έστω μια ακολουθία Τ.Μ. {Xn} σε κάποιο χώρο πιθανότητας Ω με αντίστοιχο μέτρο πιθανότητας . Υποθέτουμε ότι οι {Xn} τείνουν με πιθανότητα 1 σε κάποια T.M. X η οποία είναι επίσης ορισμένη στον Ω, δηλαδή ότι το ενδεχόμενο,


    Σ={ωΩ:limnX¯n(ω)=X(ω)}={limnX¯n=X},

    έχει πιθανότητα (Σ)=1. Ακολουθώντας τα πιο κάτω βήματα θα δείξουμε ότι οι {Xn} τείνουν στη X και κατά πιθανότητα. Έστω ϵ>0 αυθαίρετο.

    1. (α’)

      Για κάθε ακέραιο m1, ορίζουμε τα ενδεχόμενα,


      Τm = {ωΩ:|Xn(ω)-X(ω)|<ϵγια κάθεnm}


      = {|Xn-X|<ϵγια κάθεnm}.

      Εξηγήστε γιατί η ακολουθία των ενδεχομένων {Tn} είναι αύξουσα, δηλαδή T1T2T3, και γιατί έχουμε,


      Σm=1Tm.
      (9.6)
    2. (β’)

      Χρησιμοποιώντας το αποτέλεσμα της Άσκησης 9 του Κεφαλαίου 3, αποδείξτε πως (Tm)1 καθώς το m.

    3. (γ’)

      Εξηγήστε πώς τα πιο πάνω συνεπάγονται ότι οι {Xn} τείνουν στη X κατά πιθανότητα.

ΠΟΛΥΜΕΣΙΚΟ ΥΛΙΚΟ ΚΕΦΑΛΑΙΟΥ


4

Κινούμενο σχήμα 9.1: Ν.Μ.Α.: Σύγκλιση του εμπειρικού μέσου όρου ενός πλήθους ανεξάρτητων Bern(p) Τ.Μ., για  p=0.05, p=0.25 και p=0.5.

4

Κινούμενο σχήμα 9.2: Ν.Μ.Α.: Σύγκλιση του εμπειρικού μέσου όρου ενός πλήθους ανεξάρτητων Τ.Μ. με διωνυμική κατανομή, με παραμέτρους Ν=10 και για p=0.05, p=0.25, και p=0.5.



Κεφάλαιο 10 Συνεχείς τυχαίες μεταβλητές

[Επιστροφή στα περιεχόμενα]


Σε αυτό το κεφάλαιο θα εξετάσουμε τις ιδιότητες που έχουν οι συνεχείς τυχαίες μεταβλητές. Εκείνες οι Τ.Μ. X, δηλαδή, των οποίων το σύνολο τιμών δεν είναι διακριτό, όπως για παράδειγμα αν έχουμε SX=[0,1], SX=, SX=[-5,-1](2,3)[7,), κλπ.99Ο ακριβής ορισμός του όρου «συνεχής τυχαία μεταβλητή» δίνεται στην επόμενη ενότητα. Όπως και στο Κεφάλαιο 6, έτσι και εδώ ορισμένα από τα αποτελέσματα που θα δούμε απαιτούν κάποιες επιπλέον τεχνικές υποθέσεις, οι οποίες όμως δεν επηρεάζουν την ουσία τους. Κάποιες περαιτέρω λεπτομέρειες δίνονται στην Ενότητα 10.3.

Δύο βασικοί λόγοι κινούν το ενδιαφέρον μας για τις συνεχείς Τ.Μ. Ο ένας είναι προφανής: Πολλές ποσότητες που είναι σημαντικές στην πράξη, είναι από τη φύση τους συνεχείς – π.χ., ο χρόνος που διαρκεί η εκτέλεση ενός αλγορίθμου, η θερμοκρασία ενός επεξεργαστή, η απόσταση μεταξύ ενός κινητού τηλεφώνου και της κοντινότερης κεραίας με την οποία επικοινωνεί κ.ο.κ.

Ο δεύτερος λόγος είναι πιο λεπτός και σχετίζεται με το Νόμο των Μεγάλων Αριθμών, που είδαμε στον προηγούμενο κεφάλαιο. Ο Ν.Μ.Α. περιγράφει τη συμπεριφορά του εμπειρικού μέσου όρου,


X¯N=1Ni=1NXi,

όταν οι Τ.Μ. X1,X2,,XN είναι ανεξάρτητες και έχουν όλες την ίδια κατανομή. Μία από τις ισοδύναμες διατυπώσεις του Θεωρήματος 9.3 είναι πως, αν το πλήθος N των Xi είναι μεγάλο, τότε η πιθανότητα ο εμπειρικός μέσος όρος τους X¯N να απέχει σημαντικά από τη μέση τιμή τους μ είναι μικρή. Συγκεκριμένα, για κάθε ϵ>0, έχουμε,


Pr(|X¯N-μ|ϵ)0,καθώς τοN.
(10.1)

Για να χρησιμοποιήσουμε αυτό το αποτέλεσμα στην πράξη, όπως έχουμε ήδη αναφέρει, μια προφανής βασική ερώτηση που γεννιέται είναι «πόσο μικρή είναι η πιθανότητα απόκλισης στη σχέση (10.1);». Όπως θα δούμε λεπτομερώς στο Κεφάλαιο 12, η απάντηση (την οποία μας δίνει το Κεντρικό Οριακό Θεώρημα) είναι πως, κάτω από αρκετά γενικές συνθήκες, η κατανομή του εμπειρικού μέσου X¯N μπορεί να προσεγγιστεί μέσω της κατανομής μιας συνεχούς τυχαίας μεταβλητής κατανομής, συγκεκριμένα μιας Τ.Μ. που ακολουθεί τη λεγόμενη κανονική κατανομή.

Πριν αναπτύξουμε τη θεωρία που απαιτείται για να μελετήσουμε τις συνεχείς Τ.Μ. συστηματικά, ας δούμε ένα απλό παράδειγμα.


Παράδειγμα 10.1

Έστω πως ο χρόνος X (σε δευτερόλεπτα) που απαιτείται για την εκκίνηση της λειτουργίας ενός δικτύου είναι πάντοτε μεταξύ 10 και 20 δευτερολέπτων και, κατά τα άλλα, είναι «εντελώς τυχαίος». Για να περιγράψουμε το χρόνο X ως μια Τ.Μ., θα θέλαμε να έχει σύνολο τιμών SX=[10,20] και η πιθανότητα του να πάρει οποιαδήποτε τιμή σε αυτό το διάστημα να είναι κατά κάποιον τρόπο ομοιόμορφη. Π.χ., θα θέλαμε η πιθανότητα το X να είναι μεταξύ 10 και 11 δευτερολέπτων να είναι η ίδια με την πιθανότητα να έχουμε 19X20. Επιπλέον, αφού ο χρόνος X είναι «εντελώς τυχαίος», θα περιμέναμε λογικά πως θα ικανοποιεί,


Pr(10X15)=Pr(15X20)=1/2,
(10.2)

δηλαδή πως θα είναι το ίδιο πιθανό η εκκίνηση να γίνει τα πρώτα 5 ή τα τελευταία 5 δευτερόλεπτα.

Στην επόμενη ενότητα θα περιγράψουμε τον συστηματικό τρόπο με τον οποίο μπορούν να οριστούν τέτοιου είδους Τ.Μ., και στην Ενότητα 11.1 του επόμενου κεφαλαίου θα δούμε πως η Τ.Μ. X αυτού του παραδείγματος ανήκει σε μια συνηθισμένη και χρήσιμη οικογένεια τυχαίων μεταβλητών, αυτών που έχουν ομοιόμορφη κατανομή.

10.1 Συνεχείς Τ.Μ. και συνεχής πυκνότητα

Ορισμός 10.1

Μια τυχαία μεταβλητή X είναι συνεχής με πυκνότητα f(x), αν η Τ.Μ. X και η συνάρτηση f(x) ικανοποιούν τις εξής ιδιότητες:

  1. 1. 

    Η πυκνότητα f(x) είναι μια συνάρτηση f:[0,) τέτοια ώστε,


    -+f(x) dx = 1.
  2. 2. 

    Το σύνολο τιμών SX της X μπορεί να εκφραστεί ως ένωση ενός πεπερασμένου πλήθους (μη τετριμμένων) διαστημάτων πραγματικών αριθμών, και επιπλέον το SX αποτελείται από εκείνα τα x για τα οποία η πυκνότητα f(x) δεν είναι μηδενική, δηλαδή:


    SX={x:f(x)>0}.
  3. 3. 

    Για οποιαδήποτε ab, η πιθανότητα η Τ.Μ. X να πάρει κάποια τιμή στο διάστημα [a,b] μπορεί να εκφραστεί ως προς την πυκνότητα f(x) μέσω της σχέσης,


    Pr(aXb)=abf(x)dx,
    (10.3)

    όπως αναπαρίσταται στο Σχήμα 10.1.

Σχήμα 10.1: Γραφική αναπαράσταση του υπολογισμού της πιθανότητας Pr(aXb) για μια συνεχή τυχαία μεταβλητή X μέσω της πυκνότητάς f(x). Παρατηρούμε πως η πιθανότητα Pr(aXb) είναι ίση με το εμβαδόν μεταξύ του καμπύλης y=f(x) και του άξονα x, ανάμεσα στα σημεία a και b.
Παρατηρήσεις:
  1. 1.

    Ο λόγος για τον οποίο στον ορισμό απαιτούμε τα διαστήματα που απαρτίζουν το σύνολο τιμών της X να είναι μη τετριμμένα, δηλαδή να μην είναι της μορφής [a,a], είναι διότι τέτοια διαστήματα αποτελούνται από μόνο ένα στοιχείο, [a,a]={a}. Αν η X είχε, για παράδειγμα, σύνολο τιμών το,


    SX=[0,0][1,1][2,2]={0,1,2},

    τότε προφανώς θα ήταν διακριτή και όχι συνεχής.

  2. 2.

    Θυμίζουμε πως, από τον Ορισμό 6.3 του Κεφαλαίου 6, η συνάρτηση κατανομής F(x) μιας οποιασδήποτε τυχαίας μεταβλητής X είναι η F(x)=Pr(Xx), για x. Αν, τώρα, η X είναι συνεχής με πυκνότητα f(x), τότε η συνάρτηση κατανομής F(x) υπολογίζεται εύκολα ως,


    F(x)=Pr(Xx)=-xf(y)dy,      για οποιοδήποτε⁢ x,
    (10.4)

    βάσει της δεύτερης βασικής ιδιότητας που διατυπώνεται αμέσως μετά, στη σχέση (10.6). Περαιτέρω ιδιότητες της συνάρτησης κατανομής μιας συνεχούς Τ.Μ. δίνονται μετά το Παράδειγμα 10.2.

  3. 3.

    Αν και η τιμή f(x) της πυκνότητας μιας συνεχούς Τ.Μ. X δεν αντιστοιχεί ακριβώς σε κάποια πιθανότητα, παρατηρούμε ότι η X είναι πιο πιθανό να πάρει τιμές κοντά σε κάποιο x0 όπου η τιμή της f(x) είναι σχετικά μεγάλη. Για παράδειγμα, αν η f(x) είναι συνεχής στο x0, τότε για μικρά δ κατά προσέγγιση έχουμε,


  4. Pr(x0-δ/2Xx0+δ/2)=x0-δ/2x0+δ/2f(x) dx ≈ δ f(x0).
  5. Άρα είναι μεγαλύτερη η πιθανότητα το X να πάρει τιμές κοντά στο x0 αν η τιμή της πυκνότητας f(x0) είναι μεγάλη, ενώ είναι λιγότερο πιθανό να πάρει τιμές κοντά σε κάποιο x0 όπου η f(x0) είναι κοντά στο μηδέν.
Συνεχείς Τ.Μ.: Βασικές ιδιότητες. Για μια οποιαδήποτε συνεχή Τ.Μ. X με πυκνότητα f(x) έχουμε:
  1. 1. 

    Για κάθε τιμή a, η πιθανότητα η X να ισούται ακριβώς με το a είναι μηδενική:


    Pr(X=a)=0,για οποιοδήποτεa.
  2. 2. 

    Για κάθε a<b,


    Pr(aXb)=Pr(a<Xb)=Pr(aX<b)=Pr(a<X<b),

    και όλες οι πιο πάνω πιθανότητες είναι ίσες με abf(x) dx.

  3. 3. 

    Η σχέση (10.3) ισχύει ακόμη και στην περίπτωση που το a ή το b ή και τα δύο παίρνουν άπειρες τιμές. Δηλαδή, για κάθε a και b,


    Pr(Xa) = Pr(aX<)=af(x)dx
    (10.5)

    Pr(Xb) = Pr(-<Xb)=-bf(x)dx,
    (10.6)

    και, προφανώς,


    Pr(-<X<)=-f(x)
    dx = 1.
Απόδειξη:

Η πρώτη ιδιότητα είναι άμεση συνέπεια του Ορισμού 10.1: Εφόσον το ολοκλήρωμα οποιασδήποτε συνάρτησης από το a ως το a είναι ίσο με μηδέν (σχηματικά, το αντίστοιχο εμβαδόν είναι προφανώς μηδενικό), έχουμε:


Pr(X=a)=Pr(aXa)=aaf(x) dx = 0.

Για το πρώτο σκέλος της δεύτερης ιδιότητας, εξετάζοντας τα ξένα ενδεχόμενα {X=a} και {a<Xb}, βρίσκουμε πως,


Pr(aXb)=Pr({X=a}{a<Xb})=Pr(X=a)+Pr(a<Xb),

και χρησιμοποιώντας την πρώτη ιδιότητα έχουμε, Pr(aXb)=Pr(a<Xb). Παρομοίως αποδεικνύονται και οι ισότητες των άλλων δύο περιπτώσεων.


Για την τρίτη ιδιότητα θα χρησιμοποιήσουμε το αποτέλεσμα της Άσκησης 9 του Κεφαλαίου 3, όπου αποδεικνύεται η συνέχεια του μέτρου πιθανότητας. Ορίζουμε την ακολουθία ενδεχομένων,

An={aXa+n},για κάθεn1,

και παρατηρούμε πως AnAn+1 και πως το όριό τους,


limnAn=n=1An={aX<}={Xa}.

Συνεπώς, η συνέχεια του μέτρου πιθανότητας συνεπάγεται το ότι η πιθανότητα,


Pr(Xa) = Pr(limnAn)


= limnPr(An)


= limnPr(aXa+n)


= limnaa+nf(x)dx


= af(x)dx,

που αποδεικνύει τη σχέση (10.5). Παρομοίως αποδεικνύονται και τα αποτελέσματα των άλλων δύο περιπτώσεων.


Παράδειγμα 10.2 Συνεχίζοντας το Παράδειγμα 10.1, θα ορίσουμε την πυκνότητα της Τ.Μ. X που εξετάσαμε εκεί. Εφόσον η X έχει προφανώς σύνολο τιμών SX=[10,20], θέτουμε την πυκνότητά της f(x) ίση με μηδέν για x[10,20]. Επιπλέον, για να παίρνει η X «ομοιόμορφα τυχαίες τιμές» στο διάστημα αυτό, λογικά ορίζουμε την πυκνότητά f(x) ως μια σταθερά c>0, για x[10,20]:

f(x)={c,για x[10,20],0,για x[10,20].

Για να υπολογίσουμε την τιμή της σταθεράς c παρατηρούμε πως, από την πρώτη παραπάνω ιδιότητα, το ολοκλήρωμα της f(x) για όλα τα x πρέπει να ισούται με 1, άρα,


1=-f(x) dx =1020c dx =[cx]1020=20c-10c=10c,

συνεπώς το c=1/10, βλ. Σχήμα 10.2.

Σχήμα 10.2: Γραφική αναπαράσταση της πυκνότητας f(x) της Τ.Μ. X στο Παράδειγμα 10.2, και του υπολογισμού του εμβαδού το οποίο ισούται με την πιθανότητα Pr(15X20).
Για να ελέγξουμε αν αυτή η Τ.Μ. πράγματι έχει ιδιότητες που ανταποκρίνονται στις απαιτήσεις μας ως προς την ποσότητα την οποία θέλουμε να περιγράψουμε, υπολογίζουμε την πιθανότητα,
Pr(15X20)=1520f(x) dx =1520110 dx =20-1510=1/2,

βλ. Σχήμα 10.2, και παρομοίως βρίσκουμε πως και η πιθανότητα Pr(10X15) ισούται με 1/2. Συνεπώς η σχέση (10.2), την οποία διατυπώσαμε διαισθητικά, επαληθεύεται και μαθηματικά.

Ιδιότητες της συνάρτησης κατανομής. Για μια οποιαδήποτε συνεχή Τ.Μ. X με πυκνότητα f(x), όπως είδαμε στη σχέση (10.4), η συνάρτηση κατανομής μπορεί να εκφραστεί ως F(x)=Pr(Xx)=-xf(y)dy. Επιπλέον:
  1. 1. 

    Από το θεμελιώδες θεώρημα του διαφορικού λογισμού, αμέσως προκύπτει πως ισχύει και η αντίστροφη σχέση της (10.4), δηλαδή,


    f(x)=F(x)=ddxF(x),
    (10.7)

    για όλα τα x για τα οποία υπάρχει η παράγωγος F(x).

  2. 2. 

    Όταν γνωρίζουμε τη συνάρτηση κατανομής F(x), τότε όλες οι πιθανότητες της μορφής Pr(aXb) μπορούν να υπολογιστούν απευθείας από τη σχέση,


    Pr(aXb)=F(b)-F(a).
    (10.8)

    Η (10.8) είναι άμεσο επακόλουθο της (10.4) και του Ορισμού 10.1, αλλά εύκολα αποδεικνύεται και ευθέως: Εφόσον τα ενδεχόμενα {Xa} και {a<Xb} είναι ξένα,


    F(b)=Pr(Xb) = Pr({Xa}{a<Xb})


    = Pr(Xa)+Pr(a<Xb)=F(a)+Pr(aXb),

    από όπου προκύπτει η (10.8).

  3. 3. 

    Υπενθυμίζουμε (βλ. Κεφάλαιο 6) πως η συνάρτηση κατανομής F(x) μιας οποιασδήποτε (διακριτής ή συνεχούς) τυχαίας μεταβλητής ικανοποιεί:


    limx-F(x) = 0

    καιlimx+F(x) = 1.

Παράδειγμα 10.3

Για την Τ.Μ. X του Παραδείγματος 10.2 μπορούμε να υπολογίσουμε τη συνάρτηση κατανομής F(x) ως εξής: Κατ’ αρχάς, εφόσον η X παίρνει τιμές μόνο στο διάστημα [10,20], είναι αδύνατον να έχουμε Xx όταν το x είναι μικρότερο από 10, συνεπώς έχουμε F(x)=Pr(Xx)=0 για x<10. Παρομοίως, αν το x είναι μεγαλύτερο του 20, τότε F(x)=Pr(Xx)=1. Τέλος, για x[10,20], βρίσκουμε,


F(x)=Pr(Xx)=-xf(y) dy =10x110 dy =x-1010,

οπότε, συνοψίζοντας:


F(x)={0,για x<10,x-1010,για x[10,20],1,για x>20.

Η γραφική της αναπαράσταση δίνεται στο Σχήμα 10.3.

Σχήμα 10.3: Γραφική αναπαράσταση της συνάρτησης κατανομής F(x) της Τ.Μ. X στο Παράδειγμα 10.3.
Παράδειγμα 10.4

Έστω πως η διάρκεια ζωής X, σε χρόνια, μιας οθόνης υπολογιστή είναι μια συνεχής Τ.Μ. με σύνολο τιμών S=[0,) και πυκνότητα,


f(x)={0,για x<0,e-x,για x0.

Η γραφική της αναπαράσταση δίνεται στο Σχήμα 10.4.

Σχήμα 10.4: Γραφική αναπαράσταση της πυκνότητας f(x) (αριστερά), και της συνάρτησης κατανομής F(x) (δεξιά) της Τ.Μ. X στο Παράδειγμα 10.4.

Συνεπώς, η συνάρτηση κατανομής F(x) της X θα ισούται με F(x)=Pr(Xx)=0 για x<0, ενώ για x0,


F(x)=Pr(Xx)=-xf(y) dy =0xe-y dy =[-e-y]0x=1-e-x.

Η γραφική της αναπαράσταση δίνεται στο Σχήμα 10.4.

Όπως παρατηρήσαμε πιο πάνω, το ότι γνωρίζουμε τη συνάρτηση κατανομής διευκολύνει σημαντικά τον υπολογισμό πιθανοτήτων σχετικά με τη X. Για παράδειγμα, η Pr(X>3) μπορεί να υπολογιστεί απευθείας από την πυκνότητα ως,


Pr(X>3)=Pr(3<X<)=3f(x) dx =3e-x dx =[-e-x]3=e-3,

ή, εναλλακτικά (και ευκολότερα), μέσω της συνάρτησης κατανομής,


Pr(X>3)=1-Pr(X3)=1-F(3)=1-(1-e-3)=e-30.0498=4.98%.

Παρομοίως μπορούμε να υπολογίσουμε και δεσμευμένες πιθανότητες για τη X, όπως π.χ.,


Pr(X<4|X>3) = Pr(3<X<4)Pr(X>3)


=(a) Pr(3X4)1-Pr(X3)


=(b) F(4)-F(3)1-F(3)


= 1-e-4-(1-e-3)1-(1-e-3)=  1-e-1  0.6321,

όπου στο βήμα (a) χρησιμοποιήσαμε τη δεύτερη βασική ιδιότητα της πυκνότητας και στο βήμα (b) εφαρμόσαμε τη σχέση (10.8).

10.2 Μέση τιμή και διασπορά

Η μέση τιμή και η διασπορά για μια συνεχή Τ.Μ. X ορίζονται κατά τρόπο ανάλογο με εκείνον που είδαμε στην περίπτωση διακριτών τυχαίων μεταβλητών. Το ρόλο της (διακριτής) πυκνότητας P(x) εδώ παίζει η (συνεχής) πυκνότητα f(x), και τα αθροίσματα αντικαθίστανται από τα αντίστοιχα ολοκληρώματα.

Ορισμός 10.2

Η μέση τιμήαναμενόμενη τιμή, ή προσδοκώμενη τιμή) μιας συνεχούς Τ.Μ. X με σύνολο τιμών S και πυκνότητα f(x), ορίζεται ως:


μ=E(X)=-xf(x)⁢dx.
(10.9)

Γενικότερα, για οποιαδήποτε συνάρτηση g:S, η μέση τιμή της νέας Τ.Μ. g(X) ορίζεται ως:


E[g(X)]=-g(x)f(x)dx.
(10.10)
Ορισμός 10.3

Για μια συνεχή Τ.Μ. X με μέση τιμή μ, η διασπορά της X ορίζεται, ακριβώς όπως και στη διακριτή περίπτωση, ως,


σ2=Var(X)=E[(X-μ)2],
(10.11)

και η τυπική απόκλιση της X είναι:


σ=Var(X).

Παρατηρήσεις:

  1. 1.

    Όπως και για τις διακριτές Τ.Μ., διαισθητικά η μέση τιμή μ μας λέει πως η X τείνει να κυμαίνεται γύρω από την τιμή μ. Παρομοίως, η διασπορά σ2 της X είναι η μέση τετραγωνική απόκλιση της X από το μ, δηλαδή η μέση τιμή του τετραγώνου της απόστασης της τυχαίας τιμής X από τη μέση τιμή της.

  2. 2.

    Οι δύο παραπάνω ορισμοί (10.9) και (10.10) της μέσης τιμής μιας συνεχούς Τ.Μ. είναι ακριβώς ανάλογοι των αντίστοιχων ορισμών (6.4) και (6.5) που είδαμε στο Κεφάλαιο 6 για διακριτές Τ.Μ. Επιπλέον, εφόσον κάθε συνάρτηση μιας διακριτής Τ.Μ. είναι αναγκαστικά κι αυτή μια διακριτή Τ.Μ., στην Άσκηση 1 του Κεφαλαίου 6 δείξαμε πως ο δεύτερος ορισμός είναι στην πραγματικότητα συνέπεια του πρώτου.

    Στη συνεχή περίπτωση, η αντιστοιχία είναι τεχνικά πιο σύνθετη, αλλά η ουσιαστική σχέση παραμένει η ίδια: Ο δεύτερος ορισμός (10.10) είναι και πάλι συνέπεια του πρώτου (10.9), αλλά η απόδειξη είναι αρκετά πιο πολύπλοκη και βασίζεται σε τεχνικά αποτελέσματα του τομέα της πραγματικής ανάλυσης, τα οποία αφενός ξεπερνούν τους στόχους του παρόντος βιβλίου, και αφετέρου δεν σχετίζονται άμεσα με τις ιδέες και τις τεχνικές της θεωρίας πιθανοτήτων. Μια πρώτη ένδειξη της μεγαλύτερης πολυπλοκότητας που προκύπτει στην περίπτωση ακόμα και μιας απλής συνάρτησης g(X) μιας συνεχούς Τ.Μ. X θα δούμε στην Άσκηση 4 στο τέλος του κεφαλαίου, όπου θα εξετάσουμε ένα παράδειγμα στο οποίο η g(X) είναι διακριτή Τ.Μ. παρότι η X είναι συνεχής.

    Κατά συνέπεια, χάριν ευκολίας, επιλέγουμε να δεχτούμε τον τύπο (10.10) για τη μέση τιμή της συνάρτησης μιας συνεχούς Τ.Μ. ως δεδομένο και παραλείπουμε την απόδειξή του.

  3. 3.

    Συνδυάζοντας, όπως και στη διακριτή περίπτωση, τον ορισμό της διασποράς (10.11) με τον γενικό ορισμό της μέσης τιμής (10.10) προκύπτει ότι, για κάθε Τ.Μ. X με πυκνότητα f(x), η διασπορά ισούται με:


    σ2=Var(X)=-(x-μ)2f(x)dx.
    (10.12)
  4. 4.

    Και πάλι όπως στη διακριτή περίπτωση, η διασπορά μπορεί εναλλακτικά να εκφραστεί ως:


    σ2=Var(X)=E(X2)-μ2.
    (10.13)

    Ξεκινώντας από τη σχέση (10.12), έχουμε:


    Var(X) = -(x-μ)2f(x)dx


    = -(x2-2xμ+μ2)f(x)dx


    = -x2f(x) dx -2μ-xf(x) dx +μ2-f(x)dx.

    Το πρώτο ολοκλήρωμα πιο πάνω ισούται με E(X2) από την (10.10), το δεύτερο ολοκλήρωμα ισούται με E(X)=μ εξ ορισμού, και το τρίτο ολοκλήρωμα ισούται με 1 από την αντίστοιχη ιδιότητα της πυκνότητας. Συνεπώς, Var(X)=E(X2)-2μ2+μ2=E(X2)-μ2, και άρα έχουμε αποδείξει τη σχέση (10.13).

Παράδειγμα 10.5

Για την Τ.Μ. X του Παραδείγματος 10.4, η μέση τιμή της υπολογίζεται εύκολα ολοκληρώνοντας κατά παράγοντες:


E(X) = -xf(x)dx


= 0xe-xdx


=(a) [-xe-x]0+0e-xdx


= 0+[-e-x]0


= 1,

όπου στο βήμα (a) θέσαμε u=x και dv=e-xdx, έτσι ώστε du=dx και v=-e-x. Άρα, ο μέσος όρος ζωής μιας οθόνης είναι ένας χρόνος.

Με παρόμοιο τρόπο υπολογίζουμε και τη μέση τιμή του X2,


E(X2) = -x2f(x)dx


= 0x2e-xdx


=(b) [-x2e-x]0+02xe-xdx


= 0+2E(X)


= 2,

όπου στο βήμα (b) θέσαμε u=x2 και dv=e-xdx, έτσι ώστε du=2xdx και v=-e-x. Συνεπώς, από την εναλλακτική έκφραση για τη διασπορά (10.13), βρίσκουμε πως η διασπορά του X ισούται με:


Var(X)=E(X2)-[E(X)]2=2-12=1.
Παράδειγμα 10.6

Έστω μια συνεχής Τ.Μ. X με πυκνότητα,


f(x)={cx2,για x[0,1],0,για x[0,1].

Όπως στο Παράδειγμα 10.2, η τιμή της c μπορεί να υπολογιστεί από τον ορισμό της πυκνότητας, ο οποίος μας λέει πως το ολοκλήρωμα της f(x) για όλα τα x πρέπει να ισούται με 1,


1=-f(x) dx =01cx2 dx =[cx33]01=c3,

και συνεπώς έχουμε c=3, βλ. Σχήμα 10.5.

Σχήμα 10.5: Παράδειγμα 10.6. Αριστερά: Γραφική αναπαράσταση της πυκνότητάς f(x) της Τ.Μ. X και του υπολογισμού του εμβαδού το οποίο ισούται με την πιθανότητα Pr(X0.2). Δεξιά: Η συνάρτηση κατανομής F(x) της X.

Έχοντας την πυκνότητα, μπορούμε να υπολογίσουμε πιθανότητες για τις τιμές της X, όπως, π.χ.,


Pr(X0.2)=Pr(0.2X1)=0.213x2 dx =[x3]0.21=0.992.

Ένας παρόμοιος υπολογισμός μάς δίνει και τη συνάρτηση κατανομής της X. Προφανώς έχουμε F(x)=Pr(Xx)=0 για x<0, και F(x)=Pr(Xx)=1 όταν x>1, ενώ για x[0,1],


F(x)=Pr(Xx)=0x3y2 dy =x3,

οπότε,


F(x)={0,για x<0,x3,για x[0,1],1,για x>1,

βλ. Σχήμα 10.5. Η πιθανότητα που υπολογίσαμε πιο πάνω μπορεί εναλλακτικά να υπολογιστεί και απευθείας από την F(x) ως,


Pr(X0.2)=1-Pr(X<0.2)=1-Pr(X0.2)=1-F(0.2)=1-(0.2)3=0.992.

Επίσης από την πυκνότητα μπορούμε να υπολογίσουμε τη μέση τιμή μ=E(X) της X και την τιμή του E(X2),


E(X) = -xf(x) dx =013x3 dx =[3x44]01=34,

και  E(X2) = -x2f(x) dx =013x4 dx =[3x55]01=35,

οπότε η διασπορά της X είναι:


σ2=Var(X)=E(X2)-μ2=35-(34)2=380=0.0375.
Παράδειγμα 10.7

Έστω πως η συνεχής Τ.Μ. Y έχει συνάρτηση κατανομής,


F(y)={0,για y<0,2y,για 0y1/4,1,για y>1/4,

βλ. Σχήμα 10.6. Ποιο είναι το σύνολο τιμών της;

Σχήμα 10.6: Γραφική αναπαράσταση της συνάρτησης κατανομής F(y) και της πυκνότητας f(y) της Τ.Μ. Y στο Παράδειγμα 10.7.

Για να απαντήσουμε, κατ’ αρχάς υπολογίζουμε την πυκνότητα f(y) της Y μέσω της σχέσης (10.7),


f(y)=F(y)={0,για y<0,1y,για 0y1/4,0,για y>1/4,

βλ. Σχήμα 10.6. Συνεπώς, SY=[0,1/4].

Χρησιμοποιώντας τη συνάρτηση κατανομής, μπορούμε τώρα να υπολογίσουμε πιθανότητες για τη X, όπως λ.χ. την,


Pr(116<X<19) = Pr(116<X19)


= Pr(X19)-Pr(X116)


= F(1/9)-F(1/16),

το οποίο ισούται με 21/9-21/16=1/6, ή, παρομοίως, δεσμευμένες πιθανότητες όπως η Pr(Y>1/9|Y>1/16):


Pr(Y>19|Y>116) = Pr(Y>1/9καιY>1/16)Pr(Y>1/16)


= Pr(Y>1/9)Pr(Y>1/16)


= 1-Pr(Y1/9)1-Pr(Y1/16)


= 1-F(1/9)1-F(1/16)


= 1-21/91-21/16=  2/3.

10.3 Μετρησιμότητα και άπειρες τιμές

10.3.1 Ορισμός μιας συνεχούς Τ.Μ.

Όπως αναφέραμε στην Ενότητα 6.3 του Κεφαλαίου 6, όταν ο χώρος πιθανότητας Ω ή το σύνολο τιμών μιας Τ.Μ. είναι ένα άπειρο και μη αριθμήσιμο σύνολο, τότε απαιτείται ιδιαίτερη προσοχή στο πώς ορίζονται οι Τ.Μ. που χρησιμοποιούμε έτσι ώστε να μην μας οδηγούν σε «μη μετρήσιμα» υποσύνολα του Ω. Σε αυτό και τα επόμενα κεφάλαια, ο τρόπος με τον οποίο αποφεύγουμε τέτοιες ενδεχόμενες παθολογίες στην περίπτωση που θέλουμε να εξετάσουμε μια συνεχή Τ.Μ. X (της οποίας πάντοτε το σύνολο τιμών είναι, εξ ορισμού, άπειρο και μη αριθμήσιμο), είναι εισάγοντας τους εξής περιορισμούς:

(1.) Τα μόνα σύνολα τιμών που επιτρέπουμε για μια συνεχή Τ.Μ. είναι εκείνα που μπορούν να εκφραστούν ως ένωση ενός πεπερασμένου πλήθους διαστημάτων στο .

(2.) Μια συνεχής τυχαία μεταβλητή  X ορίζεται πάντοτε σε συνδυασμό με την πυκνότητά της f(x), της οποίας το ολοκλήρωμα ορίζεται σε οποιοδήποτε διάστημα [a,b].

(3.) Τα μόνα ενδεχόμενα των οποίων υπολογίζουμε τις πιθανότητες (ή τις δεσμευμένες πιθανότητες) είναι της μορφής {XA} για σύνολα A τα οποία μπορούν να εκφραστούν ως ένωση ενός πεπερασμένου πλήθους διαστημάτων στο .

Αν και, από αυστηρά μαθηματική σκοπιά, αυτοί οι περιορισμοί δεν είναι απαραίτητοι (υπάρχουν και πιο γενικές συνθήκες κάτω από τις οποίες μπορεί να οριστεί η έννοια της συνεχούς τυχαίας μεταβλητής), οι συνθήκες (1.)–(3.) αφενός είναι αρκετά γενικές ώστε να συμπεριλαμβάνουν όλες τις σημαντικές για εμάς εφαρμογές, και αφετέρου μας επιτρέπουν, δεδομένης οποιασδήποτε πυκνότητας f(x), όπως στον Ορισμό 10.1, να κατασκευάσουμε ένα χώρο πιθανότητας Ω και μια συνάρτηση X:Ω έτσι ώστε η X να είναι μια (μετρήσιμη) συνεχής Τ.Μ. με πυκνότητα f(x). Η κατασκευή αυτή είναι η εξής:

Έστω πως έχουμε μια συνάρτηση f(x) που ικανοποιεί τις συνθήκες του Ορισμού 10.1. Θέτουμε Ω=, και ορίζουμε τη συνάρτηση X: ως X(ω)=ω. Επιπλέον, έστω A ένα οποιοδήποτε σύνολο που μπορεί να εκφραστεί ως ένωση ενός πεπερασμένου πλήθους N διαστημάτων (που δεν αλληλοεπικαλύπτονται), και ας πούμε πως τα άκρα αυτών των διαστημάτων είναι aibi για i=1,2,,N. Ορίζουμε ένα μέτρο πιθανότητας τέτοιο ώστε, για κάθε σύνολο A αυτής της μορφής,


(A)=a1b1f(x) dx +a2b2f(x) dx ++anbnf(x) dx.
(10.14)

Ένα από τα μεγάλα επιτεύγματα της θεωρίας μέτρου είναι η απόδειξη του ακόλουθου αποτελέσματος: Κάτω από τις πιο πάνω υποθέσεις, υπάρχει μια οικογένεια υποσυνόλων του Ω με τις πιο κάτω ιδιότητες:

  • Το κενό σύνολο και το Ω ανήκουν στην : ,Ω.

  • Όλα τα υποσύνολα του τα οποία μπορούν να εκφραστούν ως ένωση ενός πεπερασμένου πλήθους διαστημάτων ανήκουν στην .

  • Υπάρχει ένα μέτρο πιθανότητας το οποίο ορίζεται για κάθε στοιχείο Α, και το οποίο ικανοποιεί τη σχέση (10.14).

Τώρα μπορούμε εύκολα να ελέγξουμε πως η συνάρτηση X που έχουμε ορίσει είναι «μια συνεχής τυχαία μεταβλητή με πυκνότητα f(x)», υπό την έννοια του Ορισμού 10.1, δηλαδή, να επιβεβαιώσουμε πως ισχύει η τρίτη συνθήκη του ορισμού αυτού: Για ab,


Pr(aXb)=Pr(X[a,b])=Pr({ω:X(ω)[a,b]}),

και εφόσον X(ω)=ω, πράγματι προκύπτει πως ισχύει η ζητούμενη σχέση,


Pr(aXb)=Pr({ω:ω[a,b]})=([a,b])=abf(x) dx,

όπου στο τελευταίο βήμα εφαρμόσαμε τη (10.14) στην ειδική περίπτωση N=1 ενός μόνο διαστήματος.

10.3.2 Ορισμοί E(X),Var(X), και επιπλέον συνθήκες

Για μια οποιαδήποτε συνεχή Τ.Μ. X με πυκνότητα f(x), η μέση τιμή E(X) δίνεται από ένα καταχρηστικό ολοκλήρωμα, ένα ολοκλήρωμα, δηλαδή, του οποίου τα όρια είναι ±. Όπως γνωρίζουμε από τα βασικά αποτελέσματα του διαφορικού λογισμού, τέτοια ολοκληρώματα μπορεί να παίρνουν άπειρες τιμές, ή ακόμα και να μην ορίζονται. (Ένα παράδειγμα μιας συνεχούς Τ.Μ. με άπειρη μέση τιμή δίνεται στην Άσκηση 5 στο τέλος του κεφαλαίου.)

Για να αποφύγουμε τεχνικές λεπτομέρειες που ξεφεύγουν από τα ζητούμενα του παρόντος βιβλίου, υιοθετούμε τις πιο κάτω συμβατικές υποθέσεις (ανάλογες εκείνων του Κεφαλαίου 6 για διακριτές Τ.Μ.), οι οποίες θα παραμείνουν εν ισχύ σε όλα τα υπόλοιπα κεφάλαια.


Συμβάσεις

  • Πάντοτε, όταν λέμε πως «η συνεχής Τ.Μ. X έχει μέση τιμή μ=E(X)», εμμέσως υποθέτουμε ότι το ολοκλήρωμα που δίνει την E(X) ορίζεται και ότι η τιμή του είναι πεπερασμένη.

  • Πάντοτε, όταν λέμε ότι «η συνεχής Τ.Μ. X έχει διασπορά σ2=Var(X)», εμμέσως υποθέτουμε ότι η μέση τιμή μ=Ε(X) ορίζεται και είναι πεπερασμένη και πως το ολοκλήρωμα που δίνει την Var(X) ορίζεται και δίνει πεπερασμένο αποτέλεσμα.

  • Όποτε διατυπώνεται μια ιδιότητα για τη μέση τιμή (ή τη διασπορά), εμμέσως υποθέτουμε πως η αντίστοιχη μέση τιμή (αντίστοιχα, διασπορά) ορίζεται και είναι πεπερασμένη.

10.4 Ασκήσεις

  1. 1.

    Κυκλικός δίσκος. Έστω ότι επιλέγεται εντελώς τυχαία ένα σημείο του κυκλικού δίσκου Ω με κέντρο την αρχή των αξόνων και ακτίνα 1, δηλαδή χωρίς κάποια προτίμηση σε κάποια περιοχή του δίσκου. Έστω Ζ η απόσταση του σημείου από την αρχή των αξόνων.

    Βρείτε το σύνολο τιμών της Τ.Μ. Z, και υπολογίστε τη συνάρτηση κατανομής και την πυκνότητά της.

  2. 2.

    Προσδιορισμός παραμέτρων. H συνάρτηση κατανομής μιας συνεχούς Τ.Μ. X δίνεται από τον τύπο:


    F(x)={0,x<4,Ax+B-4x,x4.
    1. (α’)

      Να βρεθούν οι τιμές των Α και Β.

    2. (β’)

      Να υπολογιστεί η πυκνότητα f(x) της X και να γίνει η γραφική της παράσταση.

    3. (γ’)

      Βρείτε την πιθανότητα το X να είναι μικρότερο του 5, δεδομένου ότι είναι μικρότερο του 6.

  3. 3.

    Μια απλή πυκνότητα. Έστω μια συνεχής Τ.Μ. X με πυκνότητα:


    f(x)={0,x<0,cx,0x1,c,1x2,0,x>2.
    1. (α’)

      Σχεδιάστε το γράφημα της f(x) και βρείτε την τιμή της σταθεράς c.

    2. (β’)

      Βρείτε την πιθανότητα το X να είναι μεγαλύτερο από 1.5 ή μικρότερο από 0.5.

    3. (γ’)

      Υπολογίστε τη μέση τιμή της X.

  4. 4.

    Μέση τιμή συναρτήσεων Τ.Μ. Στον Ορισμό 10.2, η μέση τιμή E[g(X)] μιας συνάρτησης g(x) της Τ.Μ. X ορίστηκε μέσω του τύπου (10.10). Αλλά η Y=g(X) είναι και η ίδια μια τυχαία μεταβλητή, με τη δική της (ενδεχομένως συνεχή ή διακριτή) πυκνότητα, οπότε, αν εφαρμόσουμε τον τύπο του αντίστοιχου ορισμού (6.4) ή (10.9) για τη μέση τιμή της Y, το αποτέλεσμα θα ισούται με εκείνο του γενικότερου τύπου (10.10) για την E[g(X)]. Εδώ θα αποδείξετε μια ειδική περίπτωση αυτής της γενικής ιδιότητας.

    Έστω μια Τ.Μ. X με πυκνότητα όπως εκείνη του Παραδείγματος 10.4, και έστω η συνάρτηση g:[0,){-1,0,1},


    g(x)={-1,για 0x<1,0,για 1x5,1,για x>5.
    1. (α’)

      Υπολογίστε τη μέση τιμή της g(X) μέσω του τύπου (10.10).

    2. (β’)

      Ορίστε τη διακριτή Τ.Μ. Y=g(X), βρείτε το σύνολο τιμών και την πυκνότητά της και υπολογίστε τη μέση τιμή της μέσω του ορισμού (6.4) της μέσης τιμής μιας διακριτής Τ.Μ.

    Συγκρίνετε το πιο πάνω αποτέλεσμα με αυτό της Άσκησης 1 του Κεφαλαίου 6.

  5. 5.

    Άπειρη μέση τιμή. Έστω μια συνεχής Τ.Μ. X με σύνολο τιμών το S=[2,) και πυκνότητα f(x)=C/x2 για x2.

    1. (α’)

      Υπολογίστε την τιμή της σταθεράς C.

    2. (β’)

      Αποδείξτε πως η μέση τιμή E(X)=+.

  6. 6.

    Κατανομή Βήτα. Μια συνεχής τυχαία μεταβλητή X έχει πυκνότητα:


    f(x)={cx(1-x),0x1,0,x[0,1].
    1. (α’)

      Υπολογίστε την τιμή της σταθεράς c.

    2. (β’)

      Υπολογίστε την πιθανότητα Pr(12X34).

    3. (γ’)

      Βρείτε τη συνάρτηση κατανομής F(x).

  7. 7.

    Υποψήφιες πυκνότητες. Για καθεμία από τις παρακάτω συναρτήσεις f(x) σχεδιάστε το γράφημά της και αποφασίστε αν είναι πυκνότητα ή όχι. Δικαιολογήστε τις απαντήσεις σας. Για όσες είναι πυκνότητες, προσδιορίστε τη μέση τιμή, τη διασπορά, και την πιθανότητα να είναι η αντίστοιχη Τ.Μ. X μεγαλύτερη από τη μέση τιμή της.

    1. (α’)

      f(x)={34(1-x2),x[-1,1],0,x[-1,1].
    2. (β’)

      f(x)={34(1-x),x[0,1],0,x[0,1].
    3. (γ’)

      f(x)={34(1-x),x[-23,23],0,x[-23,23].
    4. (δ’)

      f(x)={(12-x),x[-1,1],0,x[-1,1].
  8. 8.

    Μια απλή πυκνότητα στο . Έστω πως μια συνεχής Τ.Μ. X έχει πυκνότητα,


    f(x)=ce-4|x|,x,

    όπου η c είναι μια άγνωστη θετική παράμετρος.

    1. (α’)

      Ποια είναι η τιμή της c;

    2. (β’)

      Πόση είναι η μέση τιμή E(X);

    3. (γ’)

      Πόση είναι η διασπορά Var(X);

    4. (δ’)

      Υπολογίστε την πιθανότητα Pr(|X|>1/2).

  9. 9.

    Βαρουφάκης εναντίον Merkel. Πριν από κάθε συνεδρίαση του Eurogroup την άνοιξη του 2015, ο (τότε) υπουργός Οικονομικών Γιάνης Βαρουφάκης βρισκόταν σε μία από δύο πιθανές ψυχικές διαθέσεις. Με πιθανότητα 1/2 ήταν σοβαρός, οπότε συζητούσε κανονικά με την καγκελάριο Merkel για ένα τυχαίο διάστημα X μέχρι τρεις ώρες. Αντίθετα, με πιθανότητα 1/2 ήταν σε διάθεση χαβαλέ, οπότε τρόλαρε την καγκελάριο Merkel για το πολύ ένα τέταρτο και διαλυόταν νωρίς το Eurogroup. Έστω Y η τυχαία διάρκεια του Eurogroup στη δεύτερη περίπτωση.

    Αν η Τ.Μ. X έχει πυκνότητα g(x)=1/3 για 0x3 και g(x)=0 για x[0,3], ενώ η Y έχει την πυκνότητα f(y) του Παραδείγματος 10.7, υπολογίστε την πιθανότητα ένα τυχαίο Eurogroup να διήρκεσε το πολύ 10 λεπτά.

  10. 10.

    Συνεχείς και διακριτές τυχαίες μεταβλητές. Έστω μια διακριτή Τ.Μ. X, η οποία παίρνει τις τιμές 1, 2 και 3, με πιθανότητα 1/3 για την καθεμία. Δεδομένου ότι X=a, ορίζουμε δύο συνεχείς Τ.Μ. Y1 και Y2, οι οποίες είναι ανεξάρτητες και έχουν την ίδια πυκνότητα fa(y), όπου fa(y)=1/a για y[0,a], και fa(y)=0 για y[0,a].

    1. (α’)

      Υπολογίστε την πιθανότητα του ενδεχομένου {Y11/2}.

    2. (β’)

      Υπολογίστε την πυκνότητα f(y) του Y1. Βεβαιωθείτε πως η f(y) που βρήκατε πράγματι είναι η πυκνότητα του Y1.

    3. (γ’)

      Υπολογίστε τη (δεσμευμένη) πιθανότητα του ενδεχομένου {Y11/2καιY21/2}, δεδομένου ότι X=1.

    4. (δ’)

      Αντίστροφα, υπολογίστε τη δεσμευμένη πιθανότητα του ενδεχομένου {X=1}, δεδομένου ότι Y11/2 και Y21/2.

  11. 11.

    Απόσταση χ2. Στην Άσκηση 18 του Κεφαλαίου 6 ορίσαμε την χ2-απόσταση μεταξύ δύο διακριτών πυκνοτήτων. Για δύο συνεχείς πυκνότητες f(x),g(x) με κοινό σύνολο τιμών το S παρομοίως ορίζουμε την χ2-απόσταση της g(x) από την f(x) ως:


    dχ2(f,g)=S(f(x)-g(x))2g(x) dx .
    1. (α’)

      Δείξτε ότι η dχ2(f,g) μπορεί εναλλακτικά να εκφραστεί ως:


      dχ2(f,g)=Sf(x)2g(x) dx -1.
    2. (β’)

      Διατυπώστε και αποδείξτε το αντίστοιχο αποτέλεσμα στην περίπτωση διακριτών πυκνοτήτων.



Κεφάλαιο 11 Συνεχείς κατανομές, ανισότητες και ο Ν.Μ.Α.

[Επιστροφή στα περιεχόμενα]


Στο προηγούμενο κεφάλαιο ορίσαμε την έννοια της συνεχούς τυχαίας μεταβλητής, και είδαμε τις βασικές της ιδιότητες. Εδώ θα περιγράψουμε κάποιους ιδιαίτερους τύπους τυχαίων μεταβλητών, οι οποίες είναι χρήσιμες στην πράξη και εμφανίζονται συχνά σε βασικά προβλήματα των πιθανοτήτων. Συγκεκριμένα, θα ορίσουμε δύο οικογένειες κατανομών για συνεχείς Τ.Μ., και θα αποδείξουμε ορισμένες ιδιότητές τους. Τέλος, στις Ενότητες 11.2 και 11.3 θα διατυπώσουμε τις φυσικές γενικεύσεις στη συνεχή περίπτωση κάποιων σημαντικών αποτελεσμάτων που είδαμε σε προηγούμενα κεφάλαια.

11.1 Ομοιόμορφη και εκθετική κατανομή

Η πιο απλή περίπτωση μιας συνεχούς Τ.Μ. είναι εκείνη που παίρνει «ομοιόμορφα τυχαίες» τιμές σε κάποιο διάστημα [a,b] στο .

Ορισμός 11.1

Μια συνεχής T.M. X έχει ομοιόμορφη κατανομή στο διάστημα [a,b], για κάποια a<b, αν έχει σύνολο τιμών το S=[a,b] και πυκνότητα,


f(x)={1b-a,για x[a,b],0,για x[a,b],

βλ. Σχήμα 11.1. Για συντομία, αυτό συμβολίζεται: XU[a,b].

Σχήμα 11.1: Γραφική αναπαράσταση της πυκνότητας f(x) (αριστερά) και της συνάρτησης κατανομής F(x) (δεξιά) μιας Τ.Μ. X με ομοιόμορφη κατανομή στο διάστημα [a,b].

Παρατηρήσεις:

  1. 1.

    Μια Τ.Μ. X με ομοιόμορφη κατανομή στο [a,b] περιγράφει μια ποσότητα που παίρνει «εντελώς τυχαίες» τιμές σε αυτό το διάστημα. Π.χ., η Τ.Μ. X στο Παράδειγμα 10.2 του Κεφαλαίου 10 έχει XU[10,20].

  2. 2.

    Η συνάρτηση κατανομής F(x) μιας Τ.Μ. XU[a,b] υπολογίζεται εύκολα από τη σχέση (10.4). Προφανώς έχουμε,


    F(x)=Pr(Xx) = 0,γιαx<a,

    καιF(x)=Pr(Xx) = 1,γιαx>b,

    ενώ για x[a,b] βρίσκουμε,


    F(x)=Pr(Xx)=-xf(y) dy =ax1b-a dy =[yb-a]ax=x-ab-a.

    Η γραφική της αναπαράσταση δίνεται στο Σχήμα 11.1

  3. 3.

    Η μέση τιμή μιας Τ.Μ. XU[a,b] επίσης υπολογίζεται εύκολα:


    μ=E(X)=-xf(x) dx = abxb-a dx =[x22(b-a)]ab


    = b2-a22(b-a)=(b-a)(b+a)2(b-a)=a+b2.

    Παρομοίως υπολογίζουμε και τη μέση τιμή της X2,


    E(X2)=-x2f(x) dx = abx2b-a dx =[x33(b-a)]ab=b3-a33(b-a)


    = (a2+ab+b2)(b-a)3(b-a)=a2+ab+b23,

    οπότε, η διασπορά της X από την έκφραση (10.13) ισούται με,


    Var(X)=E(X2)-μ2 = a2+ab+b23-(a+b2)2


    = 4a2+4ab+4b2-3a2-6ab-3b212=(b-a)212.

    Συνοψίζοντας, μια Τ.Μ. XU[a,b] έχει μέση τιμή που ισούται με το μέσο (a+b)/2 του [a,b] και διασπορά (b-a)2/12 η οποία εξαρτάται μόνο από το μήκος (b-a) του διαστήματος όπου η X παίρνει τιμές, και όχι από τη θέση του:


    E(X)=a+b2καιVar(X)=(b-a)212.

Μια άλλη σημαντική οικογένεια τυχαίων μεταβλητών είναι εκείνες που έχουν εκθετική κατανομή. Μια ειδική περίπτωση αυτής της κατανομής συναντήσαμε ήδη στο Παράδειγμα 10.4 του προηγούμενου κεφαλαίου.

Ορισμός 11.2

Μια συνεχής Τ.Μ. X έχει εκθετική κατανομή με παράμετρο θ>𝟎, αν έχει σύνολο τιμών το S=[0,) και πυκνότητα,


f(x)={1θe-x/θ,για x0,0,για x<0,

βλ. Σχήμα 11.2. Για συντομία, αυτό συμβολίζεται: XΕκθ(θ).

Σχήμα 11.2: Γραφική αναπαράσταση της πυκνότητάς f(x) μιας Τ.Μ. X με κατανομή Εκθ(θ).
Παρατήρηση: Από κάποιες απόψεις, η εκθετική κατανομή είναι ανάλογη στη συνεχή περίπτωση της γεωμετρικής κατανομής την οποία συναντήσαμε στο Κεφάλαιο 7 και συχνά παρομοίως χρησιμοποιείται για να περιγράψει το χρόνο που μεσολαβεί μέχρι να συμβεί κάποιο τυχαίο γεγονός. Λόγου χάρη, η Τ.Μ. X στο Παράδειγμα 10.4 του προηγούμενου κεφαλαίου, η οποία είχε XΕκθ(1), περιέγραφε το χρόνο μέχρι να εμφανιστεί η πρώτη βλάβη μιας οθόνης υπολογιστή.

Ένας λόγος για τον οποίο θεωρούμε την εκθετική και τη γεωμετρική συγγενείς κατανομές είναι διότι μοιράζονται αρκετές από τις θεμελιώδεις ιδιότητές τους, όπως βλέπουμε συγκρίνοντας τα αποτελέσματα του Θεωρήματος 7.1 με εκείνα του Θεωρήματος 11.1 που ακολουθεί. Ένας πιο φορμαλιστικός τρόπος για να διαπιστώσουμε την ομοιότητά τους είναι το γεγονός πως η πυκνότητα f(x) μιας Εκθ(θ) τυχαίας μεταβλητής είναι μαθηματικά πανομοιότυπη με την πυκνότητα P(k) μιας Τ.Μ. με Γεωμ(p) κατανομή.

Συγκεκριμένα, στη συνεχή περίπτωση, για x>0 η πυκνότητα f(x) είναι της μορφής,


f(x)=1θe-x/θ=Cγx,x>0,
(11.1)

όπου ορίσαμε τις σταθερές C=1/θ και γ=e-1/θ. Αντίστοιχα, στη διακριτή περίπτωση, για k1 η πυκνότητα P(k) μπορεί να εκφραστεί ως,


P(k)=p(1-p)k-1=p1-p(1-p)k=Cγk,k1,
(11.2)

όπου τώρα έχουμε τις σταθερές C=p/(1-p) και γ=(1-p). Η ομοιότητα μεταξύ των δύο εκφράσεων στις σχέσεις (11.1) και (11.2) είναι εμφανής.

Θεώρημα 11.1 (Ιδιότητες της εκθετικής κατανομής) Έστω XΕκθ(θ). Η X έχει τις εξής ιδιότητες:
  1. 1. 

    Μέση τιμή: E(X)=θ.

  2. 2. 

    Διασπορά: Var(X)=θ2.

  3. 3. 

    Συνάρτηση κατανομής: F(x)=0 για x<0 και F(x)=1-e-x/θ για x0. Η γραφική της αναπαράσταση δίνεται στο Σχήμα 11.3.

  4. 4. 

    Ιδιότητα έλλειψης μνήμης: Για κάθε a,b>0:


    Pr(Xa+b|Xa)=Pr(Xb).

    Η πιθανότητα Pr(Xa+b|Xb) είναι ανεξάρτητη του a, και ίση με εκείνη που αντιστοιχεί στο b=0, δηλαδή, Pr(Xb).

Σχήμα 11.3: Γραφική αναπαράσταση της συνάρτησης κατανομής F(x) μιας Τ.Μ. X με κατανομή Εκθ(θ).
Απόδειξη:

Από τον ορισμό της μέσης τιμής μιας συνεχούς Τ.Μ. και την πυκνότητα της εκθετικής κατανομής, βρίσκουμε,


E(X) = -xf(x)dx


= 0xθe-x/θdx


=(a) 0ye-yθdy


=(b) [-θye-y]0+θ0e-ydy


= 0+[-θe-y]0=θ,

όπου στο βήμα (a) κάναμε την αντικατάσταση y=x/θ, και στο βήμα (b) ολοκληρώσαμε κατά παράγοντες, θέτοντας u=y και dv=e-ydy, έτσι ώστε du=dy και v=-e-y. Άρα έχουμε μ=E(X)=θ, αποδεικνύοντας την πρώτη ιδιότητα.

Για τη δεύτερη ιδιότητα, παρομοίως υπολογίζουμε τη μέση τιμή της X2,


E(X2) = -x2f(x)dx


= 0x2θe-x/θdx


=(c) 0θy2e-yθdy


=(d) [-θ2y2e-y]0+2θ20ye-ydy,

όπου στο βήμα (c) κάναμε πάλι την αντικατάσταση y=x/θ, και στο βήμα (d) ολοκληρώσαμε κατά παράγοντες, θέτοντας u=y2 και dv=e-ydy, έτσι ώστε du=2ydy και v=-e-y. Τώρα παρατηρούμε πως ο πρώτος όρος στην τελευταία παραπάνω έκφραση είναι μηδενικός και πως το τελευταίο ολοκλήρωμα ισούται με τη μέση τιμή μιας Τ.Μ. με κατανομή Εκθ(1), άρα, από την πρώτη ιδιότητα, είναι ίσο με 1. Συνεπώς έχουμε E(X2)=0+2θ21=2θ2 και η διασπορά της X είναι,


Var(X)=E(X2)-μ2=2θ2-θ2=θ2,

οπότε έχουμε αποδείξει και τη δεύτερη ιδιότητα.

Για την Ιδιότητα 3 παρατηρούμε πως, εφόσον το σύνολο τιμών της X είναι το [0,), προφανώς για x<0 έχουμε, F(x)=Pr(Xx)=0. Για x0, βρίσκουμε,


F(x)=Pr(Xx)=-xf(y) dy =0x1θe-y/θ dy =[-e-y/θ]0x=1-e-x/θ.

Τέλος, για την Ιδιότητα 4, χρησιμοποιούμε τον ορισμό της δεσμευμένης πιθανότητας σε συνδυασμό με την Ιδιότητα 3:


Pr(Xa+b|Xa) = Pr(Xa+bκαιXa)Pr(Xa)


= Pr(Xa+b)Pr(Xa)


= 1-Pr(Xa+b)1-Pr(Xa)


= 1-F(a+b)1-F(a)


= e-(a+b)/θe-a/θ=e-b/θ=  1-F(b)=Pr(Xb).


Παράδειγμα 11.1

Έστω πως ο χρόνος X, σε μήνες, μέχρι την πρώτη φορά που ένας σκληρός δίσκος θα παρουσιάσει κάποιο σφάλμα, έχει εκθετική κατανομή με μέσο όρο 30 μήνες. Συνεπώς, από την πρώτη ιδιότητα του Θεωρήματος 11.1, η XΕκθ(30).

Η πιθανότητα το πρώτο σφάλμα να εμφανιστεί μετά τους πρώτους 30 μήνες, είναι,


Pr(X>30)=1-Pr(X30)=1-F(30)=1-[1-e-30/30]=e-10.3679.

Και η πιθανότητα ο δίσκος να μην παρουσιάσει σφάλμα για τους επόμενους 30 μήνες, δεδομένου ότι ήδη λειτουργεί 30 μήνες χωρίς πρόβλημα, είναι και πάλι,


Pr(X>60|X>30)=Pr(X>30)=e-10.3679,

όπου χρησιμοποιήσαμε την ιδιότητα έλλειψης μνήμης. Τέλος, η πιθανότητα το πρώτο σφάλμα να εμφανιστεί μετά τον δέκατο μήνα αλλά πριν τον εικοστό είναι,


Pr(10<X<20)=Pr(10X20) = F(20)-F(10)


= 1-e-20/30-[1-e-10/30]0.2031,

όπου εδώ χρησιμοποιήσαμε τη γενική ιδιότητα (10.8).

11.2 Μετασχηματισμοί

Σε πολλές περιπτώσεις, όπως έχουμε δει σε παραδείγματα προηγούμενων κεφαλαίων, μπορεί να μας ενδιαφέρει περισσότερο κάποια συνάρτηση μιας τυχαίας μεταβλητής X παρά η ίδια η τιμή της.


Παράδειγμα 11.2

Έστω μια συνεχής Τ.Μ. X με πυκνότητα f(x), μέση τιμή μ=E(X) και διασπορά σ2=Var(X). Ποια είναι η μέση τιμή και η διασπορά της νέας Τ.Μ. Y=aX+b, για κάποιες σταθερές a,b;

Από τον γενικό ορισμό της μέσης τιμής, έχουμε,


E(aX+b)=-(ax+b)f(x) dx =a-xf(x) dx +b-f(x) dx =aE(X)+b.

Παρομοίως για τη διασπορά της Y βρίσκουμε,


Var(aX+b) = E{[(aX+b)-E(aX+b)]2}


= -[ax+b-(aμ+b)]2f(x)dx


= a2-(x-μ)2f(x)dx


= a2Var(X).

Τα δύο παραπάνω αποτελέσματα, μαζί με ένα ακόμα συνοψίζονται στο θεώρημα που ακολουθεί.

Θεώρημα 11.2 (Γραμμικός μετασχηματισμός) Έστω μια συνεχής Τ.Μ. X με πυκνότητα f(x), μέση τιμή μ=E(X) και διασπορά σ2=Var(X). Για a,b, ορίζουμε τη νέα Τ.Μ. Y=aX+b.
  1. 1. 

    Η Y έχει μέση τιμή E(Y)=E(aX+b)=aE(X)+b.

  2. 2. 

    Η Y έχει διασπορά Var(Y)=a2Var(X).

  3. 3. 

    Αν η σταθερά a είναι θετική, τότε η πυκνότητα g(y) της Y δίνεται από τη σχέση:


    g(y)=1af(y-ba),για κάθεy.

    Η περίπτωση a<0 εξετάζεται στην Άσκηση 6 στο τέλος του κεφαλαίου.

Απόδειξη:

Οι δύο πρώτες ιδιότητες έχουν ήδη αποδειχθεί στο Παράδειγμα 11.2. Για την τρίτη ιδιότητα εξετάζουμε αρχικά τις συναρτήσεις κατανομής, έστω F(x) και G(y) των τυχαίων μεταβλητών X,Y, αντίστοιχα. Για την G(y) έχουμε,


G(y)=Pr(Yy)=Pr(aX+by)=Pr(Xy-ba)=F(y-ba).

Άρα, από τη σχέση (10.7), μπορούμε εύκολα να υπολογίσουμε την πυκνότητα της Y ως την παράγωγο της συνάρτησης κατανομής της,


g(y)=G(y)=ddyF(y-ba)=1aF(y-ba)=1af(y-ba),

που είναι ακριβώς η ζητούμενη σχέση.


Εφαρμόζοντας το παραπάνω αποτέλεσμα, έχουμε το εξής σημαντικό πόρισμα, το οποίο θα αποδείξετε στην Άσκηση 7 στο τέλος του κεφαλαίου.

Πόρισμα 11.1

Για μια οποιαδήποτε (συνεχή ή διακριτή) τυχαία μεταβλητή X με μέση τιμή μ και διασπορά σ2, η κανονικοποιημένη τυχαία μεταβλητή,


Y=X-μσ,έχειE(Y)=0καιVar(Y)=1.

Όπως είδαμε στην απόδειξη της τρίτης ιδιότητας του Θεωρήματος 11.2, για να υπολογίσουμε την πυκνότητα μιας συνάρτησης μιας συνεχούς Τ.Μ. συχνά είναι απλούστερο να εξετάσουμε πρώτα τη συνάρτηση κατανομής της. Ένα λίγο πιο πολύπλοκο παράδειγμα είναι το ακόλουθο.


Παράδειγμα 11.3

Έστω μια Τ.Μ. X με κατανομή Εκθ(1), και έστω μια νέα Τ.Μ. Y=X2. Εφόσον η X έχει σύνολο τιμών το [0,), και η Y θα έχει προφανώς το ίδιο σύνολο τιμών, άρα η πυκνότητα g(y) της Y θα ισούται με 0 για y0.

Έστω, τώρα, f(x) και F(x) η πυκνότητα και η συνάρτηση κατανομής της X, αντίστοιχα. Για να υπολογίσουμε την πυκνότητα g(y) της Y για y>0, πρώτα εξετάζουμε τη συνάρτηση κατανομής της, έστω G(y):


G(y)=Pr(Yy)=Pr(X2y)=Pr(Xy)=F(y),

οπότε η πυκνότητα της Y για y>0 προκύπτει από τη σχέση (10.7) ως,


g(y)=G(y)=ddyF(y)=ddy(y)F(y)=12yf(y).

Και εφόσον γνωρίζουμε, εξ ορισμού, πως για x0 η Εκθ(1) πυκνότητα ισούται με f(x)=e-x, αντικαθιστώντας,


g(y)=12ye-y,γιαy>0.

Η γραφική της αναπαράσταση δίνεται στο Σχήμα 11.4.

Σχήμα 11.4: Γραφική αναπαράσταση της πυκνότητας g(y) της Τ.Μ. Y στο Παράδειγμα 11.3.

11.3 Ανεξαρτησία, ανισότητες και ο Ν.Μ.Α.

Όπως είδαμε στο Κεφάλαιο 9, η μέση τιμή και η διασπορά ικανοποιούν δύο σημαντικές ανισότητες, εκείνες του Markov και του Chebychev, οι οποίες, πέραν της μεγάλης χρησιμότητάς τους σε εφαρμογές, δίνουν και μια σαφή χρηστική σημασία στις έννοιες αυτές. Ξεκινάμε αυτή την ενότητα με τις γενικεύσεις αυτών των δύο σημαντικών αποτελεσμάτων για συνεχείς τυχαίες μεταβλητές.

Η ανισότητα του Markov λέει πως, αν μια τυχαία μεταβλητή έχει μικρή μέση τιμή, τότε δεν μπορεί να παίρνει μεγάλες τιμές με μεγάλη πιθανότητα. Η απόδειξη είναι παρόμοια με εκείνη που είδαμε στην περίπτωση διακριτών τυχαίων μεταβλητών (βλ. Άσκηση 11 στο τέλος του κεφαλαίου).

Θεώρημα 11.3 (Ανισότητα του Markov) Έστω μια συνεχής Τ.Μ. X που παίρνει πάντα τιμές μεγαλύτερες ή ίσες του μηδενός και έχει μέση τιμή μ=E(X). Τότε:

Pr(Xc)μc,για οποιαδήποτε σταθεράc>0.

Συνεχίζοντας όπως στο Κεφάλαιο 9, μια απλή εφαρμογή της ανισότητας του Markov μάς δίνει την ανισότητα του Chebychev, η οποία λέει το εξής: Αν μια τυχαία μεταβλητή έχει «μικρή» διασπορά, τότε δεν μπορεί να παίρνει τιμές μακριά από τη μέση τιμή της με μεγάλη πιθανότητα. Η απόδειξη παραλείπεται μια και είναι ακριβώς η ίδια με εκείνη του Θεωρήματος 9.2.

Θεώρημα 11.4 (Ανισότητα του Chebychev) Έστω μια συνεχής Τ.Μ. X με μέση τιμή μ=E(X) και διασπορά σ2=Var(X). Τότε:

Pr(|X-μ|c)σ2c2,για οποιαδήποτε σταθεράc>0.

Το τελευταίο μεγάλο αποτέλεσμα αυτού του κεφαλαίου είναι ο Νόμος των Μεγάλων Αριθμών (Ν.Μ.Α.) για συνεχείς Τ.Μ., στο Θεώρημα 11.6. Για τη διατύπωσή του χρειαζόμαστε τη γενίκευση της έννοιας της ανεξαρτησίας για συνεχείς τυχαίες μεταβλητές.

Ορισμός 11.3
  1. 1. 

    Δύο συνεχείς τυχαίες μεταβλητές X,Y είναι ανεξάρτητες αν, για κάθε ab, ab, τα ενδεχόμενα {aXb} και {aYb} είναι ανεξάρτητα. Ισοδύναμα, οι X,Y είναι ανεξάρτητες αν και μόνο αν,


    Pr(aXb,aYb)=Pr(aXb)Pr(aYb),

    για κάθε ab,ab.

  2. 2. 

    Οι συνεχείς Τ.Μ. X1,X2,,XN είναι ανεξάρτητες αν,


    Pr(a1X1 b1,a2X2b2,,aNXNbN)


    =Pr(a1X1b1)Pr(a2X2b2)Pr(aNXNbN),

    για κάθε N-άδα ζευγαριών τιμών a1b1,a2b2,,aNbN.

  3. 3. 

    Οι συνεχείς Τ.Μ. Xi σε μια άπειρη ακολουθία X1,X2, είναι ανεξάρτητες αν οι Τ.Μ. X1,X2,,XN είναι ανεξάρτητες για κάθε N1.

Όπως και στο Κεφάλαιο 9, η απόδειξη του Ν.Μ.Α. στο Θεώρημα 11.6 βασίζεται στον υπολογισμό της μέσης τιμής και της διασποράς ενός αθροίσματος ανεξάρτητων τυχαίων μεταβλητών. Γι’ αυτόν τον υπολογισμό θα χρειαστούμε τις παρακάτω ιδιότητες, τις οποίες θα αποδείξουμε στο Κεφάλαιο 15, βλ. Πρόταση 15.3 και Θεώρημα 15.1.

Θεώρημα 11.5

(Μέση τιμή και διασπορά αθροίσματος)

  • 1. 

    Για οποιεσδήποτε συνεχείς Τ.Μ. X,Y και σταθερές a,b:


    E(aX+bY)=aE(X)+bE(Y).
  • 2. 

    Αν οι Τ.Μ. X,Y είναι ανεξάρτητες, τότε:


    Var(X+Y)=Var(X)+Var(Y).

Παρατήρηση:
Όπως και στη διακριτή περίπτωση, και οι δύο ιδιότητες του Θεωρήματος 11.5 εύκολα επεκτείνονται και για οποιοδήποτε (πεπερασμένο) πλήθος N τυχαίων μεταβλητών. Με άλλα λόγια, για οποιεσδήποτε (συνεχείς ή διακριτές) τυχαίες μεταβλητές X1,X2,,XN, και οποιεσδήποτε σταθερές a1,a2,,aN,

E(i=1NaiXi)=i=1NaiE(Xi).
(11.3)

Και αν, επιπλέον, οι Xi είναι ανεξάρτητες, τότε,


Var(i=1NXi)=i=1NVar(Xi).
(11.4)

Πριν δούμε το κεντρικό αποτέλεσμα του κεφαλαίου, τον Ν.Μ.Α. για συνεχείς Τ.Μ., θα αποδείξουμε μια ανισότητα που αποτελεί ένα εξαιρετικά σημαντικό εργαλείο στις πιθανότητες. Ξεκινάμε παρατηρώντας πως, από το προφανές γεγονός ότι η διασπορά μιας Τ.Μ. είναι πάντα μεγαλύτερη ή ίση του μηδενός, έχουμε ότι,


0Var(X)=E(X2)-[E(X)]2,

από το οποίο προκύπτει πως,


[Ε(X)]2E(X2),

για οποιαδήποτε Τ.Μ. X. Η ανισότητα Cauchy-Schwarz, την οποία αποδεικνύουμε αμέσως μετά, μπορεί να θεωρηθεί μια γενίκευση αυτού του αποτελέσματος για την περίπτωση του γινομένου δύο τυχαίων μεταβλητών.

Πρόταση 11.1 (Ανισότητα Cauchy-Schwarz) Για δύο οποιεσδήποτε (συνεχείς ή διακριτές) Τ.Μ. X,Y, έχουμε:[E(XY)]2E(X2)E(Y2).

Απόδειξη:

Η απόδειξη είναι πολύ χαριτωμένη και εντυπωσιακά απλή. Για οποιοδήποτε z, η Τ.Μ. (X+zY)2 παίρνει πάντα τιμές μεγαλύτερες ή ίσες του μηδενός, άρα και η μέση τιμή της θα είναι E[(X+zY)2]0. Οπότε, αναπτύσσοντας το τετράγωνο και χρησιμοποιώντας την πρώτη ιδιότητα της μέσης τιμής από τα Θεωρήματα 6.1 και 11.2,


0E[(X+zY)2]=E[z2Y2+2zXY+X2]=z2E(Y2)+2zE(XY)+E(X2).

Έχουμε λοιπόν ένα τριώνυμο της μορφής az2+bz+c, το οποίο είναι μεγαλύτερο ή ίσο του μηδενός για όλες τις τιμές του z, δηλαδή ή δεν έχει καμία ρίζα ή έχει μία διπλή. Συνεπώς η διακρίνουσά του Δ=b2-4ac πρέπει να είναι Δ0, δηλαδή πρέπει να έχουμε,


[2E(XY)]2-4E(X2)E(Y2)0,

η οποία είναι ακριβώς η ζητούμενη ανισότητα.


Κλείνουμε αυτό το κεφάλαιο με τη διατύπωση του Ν.Μ.Α. για συνεχείς Τ.Μ. Η απόδειξή του είναι ακριβώς ίδια με εκείνη του Θεωρήματος 9.3 στη διακριτή περίπτωση, και γι’ αυτόν τον λόγο παραλείπεται.

Θεώρημα 11.6 (Νόμος των Μεγάλων Αριθμών) Έστω μια ακολουθία από ανεξάρτητες συνεχείς τυχαίες μεταβλητές X1,X2, που έχουν όλες την ίδια κατανομή, δηλαδή την ίδια πυκνότητα f(x), και κατά συνέπεια την ίδια μέση τιμή μ=E(Xi) και την ίδια διασπορά σ2=Var(Xi)<. Τότε:
  1. 1. 

    [Διαισθητικά] Για μεγάλα N, ο εμπειρικός μέσος όρος των X1,X2,,XN,


    X¯N=1Ni=1NXiμ,με μεγάλη πιθανότητα.
  2. 2. 

    [Μαθηματικά] Καθώς το N ο εμπειρικός μέσος όρος X¯N τείνει στη μέση τιμή μ κατά πιθανότητα, δηλαδή: Για κάθε ϵ>0, έχουμε,


    Pr(|X¯N-μ|<ϵ)1,καθώς τοN.

Τέλος, όπως αναφέραμε και στο Κεφάλαιο 9, σημειώνουμε πως, παρότι στην παραπάνω διατύπωση του Ν.Μ.Α. στο Θεώρημα 11.6 υποθέσαμε πως οι συνεχείς Τ.Μ. Xi έχουν πεπερασμένη διασπορά σ2=Var(Xi)<, αυτή η υπόθεση δεν είναι απαραίτητη και μπορεί να αντικατασταθεί από την ασθενέσθερη υπόθεση ότι η μέση τιμή μ0=E(|Xi|) είναι πεπερασμένη. Βέβαια, σε αυτήν την περίπτωση απαιτείται μια διαφορετική απόδειξη, αρκετά πιο μακροσκελής και απαιτητική από μαθηματική άποψη.

11.4 Ασκήσεις

  1. 1.

    Από την ομοιόμορφη στην εκθετική κατανομή. Έστω μια Τ.Μ. U ομοιόμορφα κατανεμημένη στο [0,1]. Αν λ>0, δείξτε πως η νέα Τ.Μ. Y=-λlogU έχει κατανομή Εκθ(λ).

  2. 2.

    Χρόνος μετάδοσης. Ο χρόνος T που μεσολαβεί από την αποστολή μέχρι την παράδοση ενός email μεγέθους XΚB από ένα διακομιστή σε έναν άλλο είναι T=X(X+1)/4 λεπτά. Αν το X έχει εκθετική κατανομή με μέση τιμή 5ΚB, να βρεθεί:

    1. (α’)

      Η μέση τιμή του χρόνου T.

    2. (β’)

      Η πιθανότητα ο χρόνος εκτέλεσης να ξεπεράσει τα 10 λεπτά.

  3. 3.

    Μηνυματάκια! Η διάρκεια αποστολής ενός SMS σε δευτερόλεπτα έχει ομοιόμορφη κατανομή στο διάστημα [1,3], και η διάρκεια αποστολής ενός MMS έχει εκθετική κατανομή με μέση τιμή τα 8 δευτερόλεπτα. Στέλνουμε, σε τρεις ανεξάρτητες αποστολές, 2 SMS και ένα MMS.

    1. (α’)

      Ποια είναι η μέση τιμή της συνολικής διάρκειας αποστολής;

    2. (β’)

      Ποια είναι η πιθανότητα και τα 2 SMS να έχουν διάρκεια πάνω από 2 δευτερόλεπτα το καθένα;

    3. (γ’)

      Ποια είναι η πιθανότητα το MMS να έχει διάρκεια μεγαλύτερη από τη μέση τιμή της συνολικής διάρκειας των 2 SMS;

    4. (δ’)

      Δεδομένου ότι το MMS έχει διάρκεια πάνω από 10 δευτερόλεπτα, ποια η πιθανότητα να διαρκέσει μεταξύ 10 και 20 δευτερόλεπτα;

  4. 4.

    Ελάχιστο και μέγιστο δύο Τ.Μ.  Έστω οι ανεξάρτητες Τ.Μ. X,Y με συναρτήσεις κατανομής, αντίστοιχα, FX(x), FY(y). Έστω επίσης οι τυχαίες μεταβλητές W=max{X,Y} και V=min{X,Y}.

    1. (α’)

      Να υπολογίσετε τις συναρτήσεις κατανομής FW(w) και FV(v) των W και V, συναρτήσει των FX(x), FY(y).

    2. (β’)

      Αν η XΕκθ(θ) και η YΕκθ(ϕ), ποια είναι η κατανομή του V=min{X,Y}; Συγκρίνετε το αποτέλεσμά σας με αυτό της Άσκησης 4 του Κεφαλαίου 7.

  5. 5.

    Ελάχιστο N Τ.Μ.  Έστω N ανεξάρτητες Τ.Μ. X1,X2,,XN, όλες με την ίδια συνάρτηση κατανομής FX(x) και έστω V=min{X1,X2,XN}.

    1. (α’)

      Βρείτε τη συνάρτηση κατανομής FV(v) της V συναρτήσει της FX(x).

    2. (β’)

      Στην ειδική περίπτωση που όλες οι Xi έχουν κατανομή Εκθ(θ), ποια είναι η κατανομή της V;

  6. 6.

    Γραμμικός μετασχηματισμός. Διατυπώστε και αποδείξτε την Ιδιότητα 3 του Θεωρήματος 11.2 στην περίπτωση που η σταθερά a είναι αρνητική.

  7. 7.

    Κανονικοποίηση. Αποδείξτε το Πόρισμα 11.1: (α’) για την περίπτωση που η Τ.Μ. X είναι διακριτή, και (β’) για την περίπτωση που είναι συνεχής.

  8. 8.

    Το φράγμα του Chernoff για συνεχείς Τ.Μ. Όπως στην Άσκηση 7 του Κεφαλαίου 9, εδώ θα δούμε ένα φράγμα για την πιθανότητα μια συνεχής Τ.Μ. X να παίρνει τιμές μεγαλύτερες από κάποια σταθερά c, ακριβέστερο απ’ αυτό που μας δίνει η ανισότητα του Markov.

    1. (α’)

      Αποδείξτε πως, για οποιοδήποτε λ>0, έχουμε το φράγμα:


      Pr(Xc)e-λcE(eλX).
      (11.5)

      Παρατηρήστε πως, ενώ το αριστερό μέρος δεν εξαρτάται από το λ, το δεξί μέρος ισχύει για κάθε λ.

    2. (β’)

      Έστω τώρα πως η X έχει κατανομή Εκθ(θ). Υπολογίστε τη μέση τιμή E(eλX), όπου η λ είναι μια σταθερά με 0<λ<1/θ, και χρησιμοποιώντας τη σχέση (11.5) δείξτε πως, για οποιοδήποτε c0 και 0<λ<1/θ, έχουμε:


      Pr(Xc)e-λc1-λθ.
      (11.6)
    3. (γ’)

      Έστω πάλι πως XΕκθ(θ). Για θ=1 και c=10:

      1. i.

        Υπολογίστε την τιμή του λ(0,1) που μας δίνει το καλύτερο (δηλαδή το μικρότερο) δυνατό φράγμα στη σχέση (11.6), καθώς και το αντίστοιχο φράγμα γι’ αυτήν τη βέλτιστη τιμή του λ.

      2. ii.

        Υπολογίστε το αντίστοιχο φράγμα που μας δίνει η ανισότητα του Markov. Παρατηρήστε ότι είναι ασθενέστερο.

      3. iii.

        Υπολογίστε ακριβώς την πιθανότητα Pr(Xc) και συγκρίνετε την πραγματική τιμή της με τα δύο παραπάνω φράγματα.

  9. 9.

    Γραμμικοί συνδυασμοί. Οι τυχαίες μεταβλητές X και Y είναι ανεξάρτητες και έχουν εκθετική κατανομή με μέση τιμή 2. Έστω δύο νέες τυχαίες μεταβλητές A=2X+Y και B=2X-Y. Να βρεθούν τα ακόλουθα: E(A), E(B), Var(X), Var(Y), E(AB).

  10. 10.

    Συνάρτηση μιας εκθετικής Τ.Μ. Το κόστος συντήρησης ενός δικτύου κινητής τηλεφωνίας με συνολική έκταση X km2 είναι Y=X3+5 χιλιάδες ευρώ. Αν η Τ.Μ. X έχει εκθετική κατανομή με παράμετρο 20, να βρεθεί η πυκνότητα του Y.

  11. 11.

    Ανισότητα Markov. Να αποδείξετε την ανισότητα Markov του Θεωρήματος 11.3 στην περίπτωση που το σύνολο τιμών S της τυχαίας μεταβλητής X είναι το [0,).

    [Παρατήρηση. Η υπόθεση SX=[0,) γίνεται απλώς για να σας διευκολύνει. Η απόδειξη της γενικής περίπτωσης όπου το SX είναι κάποιο υποσύνολο του [0,) είναι ακριβώς η ίδια, απλά απαιτεί μεγαλύτερη προσοχή στο συμβολισμό. Υπόδειξη. Ακολουθήστε τα ίδια βήματα όπως στην απόδειξη της ανισότητας Markov για διακριτές Τ.Μ. στο Θεώρημα 9.1 του Κεφαλαίου 9.]

  12. 12.

    Ανισότητα Chebychev. Για μια διακριτή Τ.Μ. αποδείξαμε την ανισότητα Chebychev στο Θεώρημα 9.2. Εξηγήστε με ποιο τρόπο τεκμηριώνονται τα βήματα της απόδειξης στην περίπτωση που η Τ.Μ. είναι συνεχής.

  13. 13.

    Πόσο ακριβής είναι η ανισότητα Chebychev; Συγκρίνετε το φράγμα που δίνει η ανισότητα Chebychev για την πιθανότητα του ενδεχόμενου {|X-μ|c} με την ακριβή πιθανότητα, στην περίπτωση που η X είναι ομοιόμορφα κατανεμημένη στο διάστημα [-k,k]. Σχολιάστε πόσο ακριβές είναι το φράγμα, δηλαδή πόσο κοντά είναι στην πραγματική τιμή της πιθανότητας.

  14. 14.

    Απόδειξη του Ν.Μ.Α. Για μια ακολουθία διακριτών Τ.Μ. αποδείξαμε τον Ν.Μ.Α. στο Θεώρημα 9.3. Εξηγήστε με ποιόν τρόπο τεκμηριώνονται τα βήματα της απόδειξης στην περίπτωση που οι Τ.Μ. είναι συνεχείς.

  15. 15.

    Συνεχείς και διακριτές Τ.Μ.  Θυμηθείτε τις συνεχείς Τ.Μ. Y1 και Y2 τις οποίες ορίσαμε στην Άσκηση 10 του προηγούμενου κεφαλαίου. Είναι ή όχι οι Y1,Y2 ανεξάρτητες; Αποδείξτε την απάντησή σας και εξηγήστε τη διαισθητικά.

  16. 16.

    Άλλος ένας γραμμικός μετασχηματισμός. Έστω μια Τ.Μ. X με ομοιόμορφη κατανομή στο [0,1], και έστω η νέα T.M. Y=10X+5. Ποια είναι η συνάρτηση κατανομής της Y;

  17. 17.

    Συνδιακύμανση και συσχέτιση. Έστω δύο οποιεσδήποτε διακριτές T.M. X και Y.

    1. (α’)

      Αποδείξτε πως για τη συνδιακύμανσή τους έχουμε:


      Cov(X,Y)Var(X)Var(Y).
    2. (β’)

      Αποδείξτε πως ο συντελεστής συσχέτισης ρX,Y που ορίσαμε στην Άσκηση 10 του Κεφαλαίου 9 πάντα ικανοποιεί |ρX,Y|1, καθώς και ότι υπάρχουν περιπτώσεις στις οποίες πράγματι ισούται με τις ακραίες τιμές ±1.

ΠΟΛΥΜΕΣΙΚΟ ΥΛΙΚΟ ΚΕΦΑΛΑΙΟΥ

2

Κινούμενο σχήμα 11.1: Η πυκνότητα και η συνάρτηση κατανομής μιας Τ.Μ. ομοιόμορφα κατανεμημένης στο διάστημα [a,b], όπου το a=1 και το b μεταβάλλεται από το b=1.5 στο b=10.

4

Κινούμενο σχήμα 11.2: Η πυκνότητα και η συνάρτηση κατανομής μιας Εκθετικής Τ.Μ. καθώς αυξάνεται η παράμετρός της θ.

2

Κινούμενο σχήμα 11.3: Η πυκνότητα και η συνάρτηση κατανομής μιας Τ.Μ. Χ που ακολουθεί την λεγόμενη κατανομή Γάμμα, με παραμέτρους θ, και n. Εδώ έχουμε θ=1 και το n αυξάνει από το 1 έως το 20. Η πυκνότητάς της Χ είναι η  f(x)=1(n-1)!xn-1e-x/θ για x0, και την f(x)=0, για x<0. [Μπορεί να δειχθεί ότι το άθροισμα n ανεξάρτητων εκθετικών Τ.Μ. με κοινή παράμετρο θ ακολουθεί την κατανομή Γάμμα με παραμέτρους n και θ. Επομένως, καθώς το n αυξάνει, βάσει του Κεντρικού Οριακού Θεωρήματος που θα δούμε στο επόμενο κεφάλαιο, αναμένουμε πως η κατανομή της Χ θα πλησιάζει στην κανονική.] 



Κεφάλαιο 12 Το Κεντρικό Οριακό Θεώρημα

[Επιστροφή στα περιεχόμενα]


Όπως περιγράψαμε λεπτομερώς στο Κεφάλαιο 9, ο Νόμος των Μεγάλων Αριθμών είναι ένα από τα πιο θεμελιώδη αποτελέσματα της θεωρίας των πιθανοτήτων (βλ. τα Θεωρήματα 9.3 και 11.6 για τη διατύπωση του Ν.Μ.Α. για διακριτές και συνεχείς τυχαίες μεταβλητές αντίστοιχα). Συγκεκριμένα, αν X1,X2, είναι μια ακολουθία από ανεξάρτητες (συνεχείς ή διακριτές) Τ.Μ. που έχουν όλες την ίδια κατανομή, τότε ο Ν.Μ.Α. μας λέει πως, για μεγάλα N, ο εμπειρικός μέσος όρος X¯N των πρώτων N απ’ τα Xi θα ισούται κατά προσέγγιση με την μέση τιμή τους μ, με μεγάλη πιθανότητα.

Για παράδειγμα, έστω πως έχουμε N ανεξάρτητα, τυχαία δείγματα X1,X2,,XΝ, όπου το κάθε Xi αντιστοιχεί στο αποτέλεσμα της μέτρησης της θερμοκρασίας μιας μεγάλης δεξαμενής. Αν θέλουμε να εκτιμήσουμε την (άγνωστη σε μας) μέση θερμοκρασία, έστω μ, του υγρού που περιέχει η δεξαμενή, τότε ο Ν.Μ.Α. μας διαβεβαιώνει πως ο εμπειρικός μέσος όρος των δειγμάτων Xi,


X¯N=1Ni=1nXi,

θα μας δώσει μια καλή εκτίμηση για τη μ, εφόσον το πλήθος N των δειγμάτων είναι αρκετά μεγάλο. Φυσικά για να είναι πρακτικά χρήσιμο αυτό το αποτέλεσμα είναι απαραίτητο να δώσουμε μια ακριβέστερη ποσοτική περιγραφή του τι θα πει «καλή εκτίμηση» και πόσο «αρκετά μεγάλο» πρέπει να είναι το πλήθος N των δειγμάτων. Αυτό είναι το αντικείμενο του παρόντος κεφαλαίου.

Από μαθηματική άποψη, ο Ν.Μ.Α. μας λέει πως ο εμπειρικός μέσος όρος X¯N τείνει στη μέση τιμή μ, καθώς το N τείνει στο άπειρο. Το Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.) που θα δούμε στην Ενότητα 12.2 είναι μια ακριβέστερη μορφή αυτού του αποτελέσματος: Λέει πως, για μεγάλα N, η κατανομή του εμπειρικού μέσου όρου X¯N μπορεί να προσεγγιστεί από τη λεγόμενη «κανονική κατανομή με παραμέτρους μ και σ2/Ν», όπου σ2 είναι η διασπορά των Xi.

Συνεπώς, γνωρίζοντας (κατά προσέγγιση) την κατανομή του X¯N, μπορούμε να υπολογίσουμε την πιθανότητα το X¯N να είναι σχετικά κοντά ή μακριά από την τιμή μ στην οποία τείνει. Λόγου χάρη, στο πιο πάνω παράδειγμα, ποια είναι η πιθανότητα η εκτίμησή μας X¯N για τη μέση θερμοκρασία μ, να απέχει από την πραγματική τιμή κατά το πολύ έναν βαθμό; Αν ορίσουμε μια Τ.Μ. Z με την κατανομή που μας δίνει το Κ.Ο.Θ., θα έχουμε την προσέγγιση,


Pr(|X¯N-μ|1)Pr(|Z-μ|1)=Pr(μ-1Zμ+1),

όπου η τελευταία πιθανότητα μπορεί εύκολα να υπολογιστεί, αφού η Τ.Μ. Z έχει γνωστή κατανομή.

Στην Ενότητα 12.1 θα ορίσουμε την οικογένεια των τυχαίων μεταβλητών με κανονική κατανομή και θα εξετάσουμε τις βασικές τους ιδιότητες. Στη συνέχεια, στην Ενότητα 12.2 θα διατυπώσουμε το Κ.Ο.Θ. και στην 12.3 θα δούμε αρκετά παραδείγματα του πώς χρησιμοποιείται στην πράξη. Στο Κεφάλαιο 13 θα δούμε κάποια θεωρητικά αποτελέσματα που σχετίζονται με το Κ.Ο.Θ., συμπεριλαμβανομένων των βασικών στοιχείων της απόδειξής του, και τέλος στο Κεφάλαιο 14 θα παρουσιάσουμε τις κεντρικές ιδέες του τρόπου με τον οποίο το Κ.Ο.Θ. εφαρμόζεται σε κάποια από τα θεμελιώδη προβλήματα της στατιστικής.

12.1 Κανονική κατανομή

Ορισμός 12.1

Μια συνεχής Τ.Μ. X έχει κανονική κατανομήγκαουσιανή κατανομή) με παραμέτρους μ και σ𝟐>𝟎, αν έχει σύνολο τιμών το S= και πυκνότητα,


f(x)=12πσ2e-(x-μ)2/2σ2,για x,
(12.1)

βλ. Σχήμα 12.1. Για συντομία, αυτό συμβολίζεται: XN(μ,σ2).

Σχήμα 12.1: Γραφική αναπαράσταση της πυκνότητάς f(x) μιας Τ.Μ. X με κατανομή N(μ,σ2), για τρεις διαφορετικές τιμές της παραμέτρου σ2. Η πυκνότητα έχει την κορυφή της στο σημείο x=μ και είναι συμμετρική γύρω από τον άξονα x=μ.
Παρατηρήσεις:
  1. 1.

    Αν και, εκ πρώτης όψεως, η πολύπλοκη μορφή της πυκνότητας (12.1) ίσως μας ξενίζει, είναι σημαντικό να σημειώσουμε πως η κανονική κατανομή αντλεί τη σημασία της από το Κεντρικό Οριακό Θεώρημα, το οποίο μας λέει πως η κανονική κατανομή είναι, κατά κάποιον τρόπο, αναπόφευκτη! Όταν εξετάζουμε τον εμπειρικό μέσο όρο X¯N ενός σχετικά μεγάλου πλήθους τυχαίων μεταβλητών Xi, η κατανομή του X¯N τείνει πάντοτε στην κανονική κατανομή, ανεξάρτητα του ποια κατανομή έχουν τα μεμονωμένα Xi.

  2. 2.

    Για να βεβαιωθούμε πως ο παραπάνω ορισμός είναι μαθηματικά ορθός σύμφωνα με τον Ορισμό 10.1, θα έπρεπε να ελέγξουμε ότι το ολοκλήρωμα (από το - ως το +) της πυκνότητας f(x) στη σχέση (12.1) ισούται με 1, για κάθε ζευγάρι τιμών των παραμέτρων μ και σ2. Αυτό φυσικά πράγματι ισχύει, αλλά ο σχετικός υπολογισμός, τον οποίο δίνουμε στην Ενότητα 13.1 του επόμενου κεφαλαίου, είναι κάπως τεχνικός και μακροσκελής.

  3. 3.

    Έστω πως, για μια Τ.Μ. X με κατανομή XN(μ,σ2), θέλουμε να υπολογίσουμε την πιθανότητα Pr(aXb). Αν και μπορεί να εκφραστεί ως το ολοκλήρωμα της πυκνότητας f(x) στη σχέση (12.1),


    Pr(aXb)=ab12πσ2e-(x-μ)2/2σ2dx,

    αυτό το ολοκλήρωμα δεν μπορεί να εκφραστεί σε κλειστή μορφή. Γι’ αυτόν τον λόγο, θα δείξουμε στις πιο κάτω ιδιότητες πως οποιαδήποτε πιθανότητα που αφορά μια N(μ,σ2) κατανομή μπορεί να εκφραστεί ως μια αντίστοιχη πιθανότητα για τη λεγόμενη «τυπική κανονική κατανομή» N(0,1). Βλ. τη «γενική μέθοδο» που δίνεται μετά το Θεώρημα 12.1 και τα παραδείγματα που ακολουθούν.

Θεώρημα 12.1 (Ιδιότητες της κανονικής κατανομής) Έστω XN(μ,σ2). Η X έχει τις εξής ιδιότητες:
  1. 1. 

    Μέση τιμή: E(X)=μ.

  2. 2. 

    Διασπορά: Var(X)=σ2.

Το γεγονός πως οι παράμετροι μ και σ2 αντιστοιχούν στη μέση τιμή και τη διασπορά της κατανομής N(μ,σ2) αναπαρίσταται και γραφικά στο Σχήμα 12.1.

  • 3. 

    Κανονικοποίηση: Η Τ.Μ. Z=X-μσ έχει κατανομή ZN(0,1).

  • 4. 

    Γραμμικός συνδυασμός: Αν οι τυχαίες μεταβλητές XN(μ,σ2) και Y(ν,τ2) είναι ανεξάρτητες, τότε η Τ.Μ. aX+bY έχει κατανομή ZN(aμ+bν,a2σ2+b2τ2).

  • 5. 

    Συμβολισμός: Αν η X έχει μ=0 και σ2=1, δηλαδή XN(0,1), τότε λέμε πως έχει τυπική κανονική κατανομή και συμβολίζουμε την πυκνότητα της και τη συνάρτηση κατανομής της αντίστοιχα ως,


    ϕ(x) = 12πe-x2/2,x,

    Φ(z) = -z12πe-x2/2dx,        z.
    (12.2)

    Η γραφική αναπαράσταση της πυκνότητας ϕ(x) και της συνάρτησης κατανομής Φ(z) της τυπικής κανονικής κατανομής N(0,1) δίνονται στο Σχήμα 12.2.

Σχήμα 12.2: Γραφική αναπαράσταση της πυκνότητας ϕ(z) και της συνάρτησης κατανομής Φ(z) της τυπικής κανονικής κατανομής N(0,1).
Απόδειξη:

Η μέση τιμή της X υπολογίζεται απλά μέσω του ορισμού. Αρχικά έχουμε,


E(X) = -xf(x)dx


= -(x-μ+μ)f(x)dx


= -(x-μ)f(x)𝑑x+μ-f(x)dx


= σ2-(x-μ)σ2f(x)dx+μ,

αλλά παρατηρούμε πως η συνάρτηση του τελευταίου ολοκληρώματος σχετίζεται με την παράγωγο της πυκνότητας,


f(x)=ddx[-(x-μ)22σ2]12πσ2e-(x-μ)2/2σ2=-(x-μ)σ2f(x),

οπότε αντικαθιστώντας βρίσκουμε,


E(X) = μ+σ2-(-f(x))dx


= μ-σ2[f(x)]-=μ,

αποδεικνύοντας την πρώτη ιδιότητα. Για τη δεύτερη ιδιότητα, χρησιμοποιώντας και πάλι την έκφραση για την παράγωγο της f(x),


Var(X) = E[(X-μ)2]


= -(x-μ)2f(x)dx


= σ2-(x-μ)(x-μ)σ2f(x)dx


= σ2-(x-μ)(-f(x))dx


=(a) [-σ2(x-μ)f(x)]-+σ2-f(x)dx


= 0+σ21=σ2,

όπου στο βήμα (a) ολοκληρώσαμε κατά παράγοντες, θέτοντας u=x-μ και dv=f(x)dx, έτσι ώστε du=dx και v=f(x).

Για την τρίτη ιδιότητα, έστω f(x) η πυκνότητα της X όπως στην (12.1). Εφόσον Z=1σX-μσ, τότε από την τρίτη ιδιότητα του Θεωρήματος 11.2 με a=1/σ και b=-μ/σ, η Ζ έχει πυκνότητα,


11/σf(x-(-μ/σ)1/σ)=σf(σx+μ)=σ12πσ2e-(σx+μ-μ)2/2σ2=12πe-x2/2,

η οποία είναι πράγματι η πυκνότητα της N(0,1) κατανομής.

Η τέταρτη ιδιότητα θα αποδειχθεί στο Πόρισμα 15.1 του Κεφαλαίου 15. Για την ειδική περίπτωση όπου η Y είναι απλά μια σταθερά, δείτε την Άσκηση 7 στο τέλος του κεφαλαίου.


Γενική μέθοδος υπολογισμού N(μ,σ2) πιθανοτήτων. Εφόσον, όπως σημειώσαμε πιο πάνω, ολοκληρώματα της μορφής abf(x)dx για την κανονική πυκνότητα (12.1) δεν μπορούν να υπολογιστούν σε κλειστή μορφή, θα χρησιμοποιήσουμε την Ιδιότητα 3 του Θεωρήματος 12.1 ως εξής. Έστω πως θέλουμε να υπολογίσουμε κάποια πιθανότητα της μορφής Pr(aXb) για μια Τ.Μ. XN(μ,σ2):
  1. 1. 

    Ορίζουμε μια νέα Τ.Μ. ZN(0,1) και εκφράζουμε τη ζητούμενη πιθανότητα ως,


    Pr(aXb)=Pr(a-μσX-μσb-μσ)=Pr(a-μσZb-μσ).

    Π.χ., αν η ζητούμενη πιθανότητα ήταν Pr(0X1.5) για την XN(1,3), τότε,


    Pr(0X1)=Pr(0-13X-μσ1.5-13)Pr(-0.5774Z0.2887).
  2. 2. 

    Εφόσον η Z έχει συνάρτηση κατανομής Φ(z) όπως στην (12.2), χρησιμοποιώντας τη γενική ιδιότητα «Pr(aXb)=F(b)-F(a)» που είδαμε στη (10.8), έχουμε,


    Pr(aXb)=Φ(b-μσ)-Φ(a-μσ),

    οπότε στο συγκεκριμένο πιο πάνω παράδειγμα,


    Pr(0X1)Φ(0.2887)-Φ(-0.5774).
  3. 3. 

    Τέλος, αντικαθιστούμε τις τιμές Φ(a) και Φ(b) από τους πίνακες τιμών της τυπικής κανονικής συνάρτησης κατανομής Φ(z), που δίνονται στο τέλος του κεφαλαίου. Η κάθε γραμμή περιέχει το ακέραιο μέρος και το πρώτο δεκαδικό ψηφίο του z και η κάθε στήλη το δεύτερο δεκαδικό του ψηφίο.

    Παραδείγματος χάρη, για να βρούμε την τιμή Φ(-0.5774)Φ(-0.58), πάμε στον Πίνακα 12.1 που περιέχει τις τιμές της Φ(z) για αρνητικά z, και κοιτάζουμε στην 33η γραμμή, που αντιστοιχεί στα z=-0.5, και στην ένατη στήλη, που περιέχει την τιμή της Φ(-0.58)0.2810. Παρομοίως, από την τρίτη γραμμή και τελευταία στήλη του Πίνακα 12.2 βρίσκουμε την τιμή της Φ(0.2887)Φ(0.29)0.6164. Οπότε τελικά έχουμε,


    Pr(0X1)Φ(0.29)-Φ(-0.58)0.61640-0.2810=0.3354.

Παράδειγμα 12.1

Έστω πως το ρολόι (clock) ενός επεξεργαστή αποκλίνει κατά X δευτερόλεπτα μετά από ένα χρόνο συνεχούς λειτουργίας, όπου XN(1,4). Ποια η πιθανότητα μετά από ένα χρόνο:

  1. 1.

    το ρολόι να πηγαίνει «πίσω», δηλαδή να έχει αρνητική απόκλιση;

  2. 2.

    η απόκλιση να είναι μεγαλύτερη από +3.5 δευτερόλεπτα;

  3. 3.

    η απόκλιση να είναι μικρότερη από ±2 δευτερόλεπτα;

Χρησιμοποιώντας τη γενική παραπάνω μέθοδο με μ=1 και σ=4=2 και ορίζοντας μια τυπική κανονική Τ.Μ. ZN(0,1), για το πρώτο ερώτημα εύκολα βρίσκουμε,


Pr(X0)=Pr(X-120-12)=Pr(Z-0.5)=Φ(-0.5),

και, αντικαθιστώντας την Φ(-0.5)0.3085 από τον Πίνακα 12.1 έχουμε Pr(X0)0.3085· βλ. Σχήμα 12.3.

Σχήμα 12.3: Γραφική αναπαράσταση του υπολογισμού των πιθανοτήτων στο πρώτο και το τρίτο ερώτημα του Παραδείγματος 12.1, για την Τ.Μ. XN(1,4) με πυκνότητα f(x).

Παρομοίως, για το δεύτερο ερώτημα,


Pr(X>3.5) = Pr(X-12>3.5-12)


= Pr(Z>1.25)


= 1-Pr(Z1.25)


= 1-Φ(1.25)


1-0.8944


= 0.1056,

όπου αντικαταστήσαμε την τιμή της Φ(1.25)0.8944 από τον Πίνακα 12.2.

Τέλος, για το τρίτο ερώτημα, χρησιμοποιώντας και πάλι τους Πίνακες 12.1 και 12.2,


Pr(|X|<2) = Pr(-2<X<2)


= Pr(-2-12<X-12<2-12)


= Pr(-1.5<Z<0.5)


= Φ(0.5)-Φ(-1.5)


0.6915-0.0668


= 0.6247,

όπου αντικαταστήσαμε τις τιμές Φ(0.5)0.6915 και Φ(-1.5)0.0668· βλ. Σχήμα 12.3.

Παράδειγμα 12.2

Έστω πως η ένταση X του ηλεκτρομαγνητικού θορύβου σε ένα κύκλωμα έχει κατανομή XN(-2,3). Ποια η πιθανότητα το X να μην ξεπερνάει το 1 σε απόλυτη τιμή;

Όπως και στο προηγούμενο παράδειγμα, εφαρμόζοντας τη γενική παραπάνω μέθοδο με μ=-2 και σ=3 και ορίζοντας μια τυπική κανονική Τ.Μ. ZN(0,1), βρίσκουμε,


Pr(|X|1) = Pr(-1X1)


= Pr(-1-(-2)3X-(-2)31-(-2)3)


= Pr(0.58Z1.73)


= Φ(1.73)-Φ(0.58)


0.9582-0.7190=  0.2392,

όπου αντικαταστήσαμε τις τιμές Φ(1.73)0.9582 και Φ(0.58)0.7190 από τον Πίνακα 12.2.

12.2 Το Κεντρικό Οριακό Θεώρημα

Όπως αναφέραμε στην αρχή του κεφαλαίου, πέραν του ότι ο εμπειρικός μέσος όρος,


X¯N=1Ni=1NXi,

N ανεξάρτητων Τ.Μ. Xi τείνει στη μέση τιμή τους μ σύμφωνα με τον Ν.Μ.Α, για να εφαρμόσουμε αυτό το αποτέλεσμα στην πράξη είναι απαραίτητο να γνωρίζουμε και ποσοτικά πόσο ακριβής είναι η προσέγγιση «X¯Nμ, με μεγάλη πιθανότητα».

Το Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.) απαντά σε αυτό ακριβώς το ερώτημα: Μας λέει πως ο εμπειρικός μέσος όρος X¯N έχει κατά προσέγγιση κανονική N(μ,σ2/N) κατανομή. Ισοδύναμα, από την τρίτη ιδιότητα του Θεωρήματος 12.1, η Τ.Μ.,


X¯N-μσ2/N=Nσ[1Ni=1NXi-μ]=1σNi=1N(Xi-μ),
(12.3)

έχει κατά προσέγγιση κανονική N(0,1) κατανομή.

Επιπλέον, το Κ.Ο.Θ. δεν είναι μόνο στο διαισθητικό επίπεδο μια ακριβέστερη μορφή του Ν.Μ.Α., αλλά όπως θα δούμε στην Ενότητα 13.2, μπορούμε και να αποδείξουμε τον Ν.Μ.Α. από το Κ.Ο.Θ.

Για να διατυπώσουμε το Κ.Ο.Θ. με μαθηματική ακρίβεια, θα χρειαστούμε μια διαφορετική έννοια για τη σύγκλιση μιας ακολουθίας τυχαίων μεταβλητών X1,X2,X3,, διαφορετική από τη σύγκλιση κατά πιθανότητα, την οποία συναντήσαμε στο Κεφάλαιο 9.

Ορισμός 12.2

Έστω μια ακολουθία Τ.Μ. {Xn}={X1,X2,} και έστω μια άλλη Τ.Μ. X με συνάρτηση κατανομής F(x). H ακολουθία {Xn} συγκλίνει κατά κατανομή στη X αν,


Pr(Xnx)F(x),καθώς τοn,

για όλα τα x στα οποία η F(x) είναι συνεχής.

Θεώρημα 12.2 (Κεντρικό Οριακό Θεώρημα) Έστω μια ακολουθία {Xn} από ανεξάρτητες (συνεχείς ή διακριτές) τυχαίες μεταβλητές X1,X2,, οι οποίες έχουν όλες την ίδια κατανομή και κατά συνέπεια την ίδια μέση τιμή μ=E(Xi) και την ίδια διασπορά σ2=Var(Xi)<. Τότε:
  1.  

    [Διαισθητικά-1] Για μεγάλα N, ο εμπειρικός μέσος όρος,


    X¯N=1Ni=1NXiέχει κατά προσέγγιση N(μ,σ2N)κατανομή.
  2.  

    [Διαισθητικά-2] Για μεγάλα N, το κανονικοποιημένο άθροισμα,


    S¯N=1σNi=1N(Xi-μ)έχει κατά προσέγγιση N(0,1)κατανομή.
  3.  

    [Μαθηματικά] Καθώς το N, το κανονικοποιημένο άθροισμα S¯N συγκλίνει κατά κατανομή στην τυπική κανονική κατανομή, δηλαδή: Για κάθε x, έχουμε,


    Pr(S¯Nx)=Pr(1σNi=1N(Xi-μ)x)Φ(x),καθώς τοN,
    (12.4)

    όπου Φ(x) είναι η συνάρτηση κατανομής της N(0,1) κατανομής.

Η πλήρης απόδειξη του Κ.Ο.Θ. είναι αρκετά τεχνική, και μάλλον ξεφεύγει από τους στόχους του παρόντος βιβλίου. Παρ’ όλα αυτά, στο Κεφάλαιο 13 θα δώσουμε μια σειρά από σχετικά αποτελέσματα, συμπεριλαμβανομένης και μιας ολοκληρωμένης απόδειξης του Κ.Ο.Θ. Προς το παρόν σημειώνουμε μόνο πως, σε αντίθεση με τις υποθέσεις του Ν.Μ.Α. στα Θεωρήματα 9.3 και 11.6, εδώ η υπόθεση πως η διασπορά των Xi είναι πεπερασμένη είναι απαραίτητη και δεν μπορεί να παραλειφθεί.

Όπως θα δούμε στα παραδείγματα που ακολουθούν, η βασική χρήση του Κ.Ο.Θ. είναι μέσω της προσέγγισης,


Pr(aS¯Nb)=Pr(a1σNi=1N(Xi-μ)b)Pr(aZb)=Φ(b)-Φ(a)
(12.5)

όπου, προφανώς, η Τ.Μ. Z έχει τυπική κανονική κατανομή. Κάποιες πιο ρεαλιστικές και σύγχρονες εφαρμογές του Κ.Ο.Θ. θα εξετάσουμε λεπτομερώς στο Κεφάλαιο 14.

12.3 Παραδείγματα και απλές εφαρμογές

Παράδειγμα 12.3

Έστω πως Xi είναι η θερμοκρασία ενός επεξεργαστή την ημέρα i, όπου θεωρούμε πως τα Xi είναι ανεξάρτητες Τ.Μ. με κατανομή XiU[10,50]. Ποια η πιθανότητα η μέση θερμοκρασία του επεξεργαστή σε μια περίοδο 3 μηνών (δηλαδή 90 ημερών) να ξεπερνά τους 31 βαθμούς;

Για να εφαρμόσουμε το Κ.Ο.Θ. αρχικά υπολογίζουμε τη μέση τιμή και τη διασπορά των Xi οι οποίες, από τις ιδιότητες της ομοιόμορφης κατανομής, είναι,


μ=E(Xi)=10+502=30,σ2=Var(Xi)=(50-10)212=4003=133.3333,

αντίστοιχα. Άρα, η ζητούμενη πιθανότητα μπορεί να εκφραστεί ως προς το κανονικοποιημένο άθροισμα του Κ.Ο.Θ. ως εξής,


Pr(1Ni=1NXi>31)=Pr(1Ni=1N(Xi-μ)>31-30)=Pr(1σNi=1N(Xi-μ)>Nσ),

με N/σ=90/400/30.8216. Άρα, από το Κ.Ο.Θ., όπως ακριβώς στην περίπτωση της προσέγγισης που δώσαμε στη σχέση (12.5), η ζητούμενη πιθανότητα μπορεί να προσεγγιστεί ως,


Pr(1Ni=1NXi>31)Pr(Z>0.82)=1-Pr(Z0.82)=1-Φ(0.82),

όπου η Z έχει κατανομή N(0,1). Αντικαθιστώντας την τιμή Φ(0.82)0.7939 από τον Πίνακα 12.2, τελικά βρίσκουμε πως η ζητούμενη πιθανότητα είναι 1-0.7939=0.2061.


Παράδειγμα 12.4

Από εμπειρικές μετρήσεις γνωρίζουμε πως η διάρκεια εκτέλεσης ενός αλγορίθμου είναι κατά μέσο όρο 17.5 δευτερόλεπτα, με τυπική απόκλιση ±4 δευτερόλεπτα. Ποια είναι η πιθανότητα, σε 400 διαδοχικές, ανεξάρτητες χρήσεις του αλγορίθμου, ο συνολικός χρόνος εκτέλεσης να μην ξεπερνά τις δύο ώρες;

Έστω Xi ο χρόνος εκτέλεσης του αλγορίθμου τη φορά i για i=1,2,,N=400. Από τα δεδομένα του προβλήματος έχουμε πως τα Xi είναι ανεξάρτητες Τ.Μ. με μέση τιμή μ=17.5 δευτερόλεπτα και τυπική απόκλιση σ=4 δευτερόλεπτα. Συνεπώς, η ζητούμενη πιθανότητα μπορεί να εκφραστεί ως προς το κανονικοποιημένο άθροισμα του Κ.Ο.Θ.,


Pr(i=1NXi2×60×60) = Pr(i=1N(Xi-μ)7200-400×17.5)


= Pr(1σNi=1N(Xi-μ)2004×400)


Pr(Z2.5),

όπου ZN(0,1). Και πάλι εφαρμόσαμε το Κ.Ο.Θ. όπως στην προσέγγιση (12.5). Άρα η ζητούμενη πιθανότητα είναι,


Pr(i=1ΝXi7200)Pr(Z2.5)=Φ(2.5)0.9938,

με την τιμή Φ(2.5)0.9938 να έχει αντικατασταθεί από τον Πίνακα 12.2.

Παρατηρήσεις:
  1. 1.

    Μια καίρια παρατήρηση για το τελευταίο από τα παραπάνω παραδείγματα, είναι πως υπολογίσαμε την πιθανότητα ο μέσος χρόνος εκτέλεσης σε πολλές επαναλήψεις να μην ξεπερνά τις δύο ώρες, χωρίς να γνωρίζουμε την κατανομή του χρόνου μίας εκτέλεσης. Αυτό το φαινόμενο είναι συχνό και πολύ σημαντικό: Το Κ.Ο.Θ. μας επιτρέπει να προσεγγίσουμε την κατανομή του εμπειρικού μέσου όρου ενός μεγάλου πλήθος δειγμάτων, ακόμα κι αν δεν γνωρίζουμε την κατανομή των ίδιων των δειγμάτων. Υπό αυτή την έννοια, η κανονική κατανομή είναι «καθολική», μια και προκύπτει φυσικά και κατά κάποιον τρόπο αναπόφευκτα για τυχαία δείγματα οποιασδήποτε προέλευσης, από την αστρονομία μέχρι την ιατρική.

  2. 2.

    Και στα δύο παραπάνω παραδείγματα οι Τ.Μ. Xi ήταν συνεχείς και χρησιμοποιήσαμε το Κ.Ο.Θ. για να προσεγγίσουμε τη (συνεχή) κατανομή του αθροίσματός τους μέσω της (επίσης συνεχούς) κανονικής κατανομής. Όταν οι Τ.Μ. Xi είναι διακριτές, μπορούμε και πάλι να χρησιμοποιήσουμε το Κ.Ο.Θ., αλλά εφόσον προσεγγίζουμε μια διακριτή κατανομή (αυτή του αθροίσματος των Xi ή του εμπειρικού μέσου όρου τους) με μια συνεχή κατανομή (την κανονική), η εφαρμογή του Κ.Ο.Θ. απαιτεί λίγη περισσότερη προσοχή, όπως θα δούμε στα επόμενα παραδείγματα.

Παράδειγμα 12.5

Έστω πως στρίβουμε N ανεξάρτητες φορές ένα νόμισμα με πιθανότητα να φέρει Κορώνα ίση με κάποιο γνωστό p(0,1). Ορίζοντας τις ανεξάρτητες Τ.Μ. X1,X2,,XN, όπου η κάθε XiBern(p) περιγράφει το αποτέλεσμα της ρίψης τη φορά i (δηλαδή Xi=1 αν φέραμε Κορώνα, και Xi=0 αν φέραμε Γράμματα), από τον Ν.Μ.Α. έχουμε πως, αν το πλήθος N των ρίψεων είναι μεγάλο, τότε:


ποσοστό από Κ στις N ρίψεις=X¯N=1Ni=1NXiμ,με μεγάλη πιθανότητα.

Το Κ.Ο.Θ. μας επιτρέπει να ποσοτικοποιήσουμε το παραπάνω αποτέλεσμα. Συγκεκριμένα, για κάθε ζευγάρι ακεραίων mM, μπορούμε να προσεγγίσουμε την πιθανότητα το συνολικό πλήθος από Κ να είναι μεταξύ m και M,


Pr(mi=1NXiM)=Pr(m-12i=1NXiM+12).

Εφόσον τα m,M και η Τ.Μ. i=1NXi παίρνουν όλα μόνο ακέραιες τιμές, οι δύο πιθανότητες είναι ίσες. Ο λόγος για τον οποίο προσθέτουμε ή αφαιρούμε 1/2 από τα m,M είναι διότι, εφόσον θα προσεγγίσουμε την κατανομή του αθροίσματος αυτού με μια συνεχή κατανομή (την κανονική), λογικό είναι να μοιράσουμε την απόσταση ανάμεσα στις διαδοχικές τιμές m-1 και m, και αντίστοιχα για τις M και M+1.

Σημειώνοντας ότι τα Xi έχουν μ=E(Xi)=p και σ2=Var(Xi)=p(1-p), μπορούμε τώρα να εφαρμόσουμε το Κ.Ο.Θ. ως εξής,


Pr(mi=1NXiM)

=Pr(m-12i=1NXiM+12)

=Pr(m-Np-12i=1N(Xi-p)M-Np+12)

=Pr(m-Np-1/2p(1-p)N1σNi=1N(Xi-p)M-Np+1/2p(1-p)N),

όπου, χρησιμοποιώντας την προσέγγιση που δώσαμε στη σχέση (12.5), η ζητούμενη πιθανότητα μπορεί να προσεγγιστεί ως,


Pr(mi=1NXiM) Pr(m-Np-1/2p(1-p)NZM-Np+1/2p(1-p)N)


= Φ(M-Np+1/2p(1-p)N)-Φ(m-Np-1/2p(1-p)N).

Παρατηρώντας πως η Τ.Μ. την οποία εξετάσαμε, i=1NXi έχει κατανομή Διων(N,p), έχουμε μόλις αποδείξει το ακόλουθο πόρισμα, το οποίο συμπληρώνει το αποτέλεσμα του Πορίσματος 7.1 στο Κεφάλαιο 7, την προσέγγιση Poisson στη διωνυμική κατανομή.

Πόρισμα 12.1

(Κανονική προσέγγιση στη διωνυμική κατανομή)

Αν μια τυχαία μεταβλητή Y έχει κατανομή Διων(N,p) με παραμέτρους τέτοιες ώστε:
  • • 

    το N είναι αρκετά «μεγάλο», δηλαδή, N80,

  • • 

    το p δεν είναι πολύ «μικρό», ώστε το γινόμενό Νp είναι της τάξεως του 1,

τότε η κατανομή της Y μπορεί να προσεγγιστεί από την κανονική κατανομή υπό την έννοια ότι, για κάθε ζευγάρι ακεραίων τιμών mM,


Pr(mYM)Φ(M-Np+1/2p(1-p)N)-Φ(m-Np-1/2p(1-p)N).

Στη συνέχεια, θα ξαναδούμε τα τρία θεμελιώδη παραδείγματα του Ν.Μ.Α. από την Ενότητα 9.3 του Κεφαλαίου 9, και θα τα επανεξετάσουμε κάτω από το πολύ πιο ακριβές πρίσμα του Κ.Ο.Θ.


Παράδειγμα 12.6 (Τι θα πει «πιθανότητα»;)

Επιστρέφοντας στο Παράδειγμα 9.12 του Κεφαλαίου 9, όπου μας ενδιαφέρει η πιθανότητα p=(A) του να συμβεί ένα συγκεκριμένο ενδεχόμενο Α, θυμίζουμε πως ο Ν.Μ.Α. μάς εγγυάται ότι, αν επαναλάβουμε το ίδιο ακριβώς πείραμα πάρα πολλές, ανεξάρτητες φορές, σε διαισθητικό επίπεδο: «η πιθανότητα p=(A) είναι το ποσοστό των φορών, μακροπρόθεσμα, που συμβαίνει το Α».

Μαθηματικά, αυτό το σενάριο περιγράφεται ακριβώς όπως στο Παράδειγμα 12.5: Σε N επαναλήψεις του πειράματος, τις οποίες περιγράφουμε με την ακολουθία των ανεξάρτητων Τ.Μ. XiBern(p), για i=1,2,,N, η συχνότητα με την οποία σημειώθηκε επιτυχία στο πείραμα, δηλαδή ο εμπειρικός μέσος όρος X¯N των Xi, θα συγκλίνει κατά πιθανότητα στο p, σύμφωνα με τον Ν.Μ.Α. Το Κ.Ο.Θ. μάς δίνει τη δυνατότητα να υπολογίσουμε με μεγαλύτερη ακρίβεια τον τρόπο με τον οποίο το X¯N συγκλίνει στο p. Στο διαισθητικό επίπεδο, μας λέει πως, για μεγάλα N, η κατανομή του X¯N είναι κατά προσέγγιση N(p,p(1-p)/Ν).

Για να διατυπώσουμε αυτή την προσέγγιση με μεγαλύτερη μαθηματική ακρίβεια, ορίζουμε το συνολικό πλήθος των επιτυχιών, Y=NX¯N=i=1NXi. Τότε η Y έχει κατανομή Διων(N,p) και μπορούμε να χρησιμοποιήσουμε τον υπολογισμό του Παραδείγματος 12.5, όπως διατυπώνεται στο Πόρισμα 12.1. Συγκεκριμένα, για οποιουσδήποτε δύο ακεραίους m<Μ, η πιθανότητα η συχνότητα X¯N των επιτυχιών να είναι μεταξύ m/N και Μ/Ν μπορεί να προσεγγιστεί ως:


Pr(mNX¯NΜΝ)=Pr(mYM)Φ(M-Np+1/2p(1-p)N)-Φ(m-Np-1/2p(1-p)N).

Ας δούμε ένα αριθμητικό παράδειγμα αυτού του υπολογισμού: Σε N=150 ανεξάρτητες επαναλήψεις ενός πειράματος με πιθανότητα επιτυχίας p=1/2, ποια είναι η πιθανότητα το ποσοστό των επιτυχιών να είναι μεταξύ 60% και 70%; Ορίζοντας και πάλι την Τ.Μ. Y=NX¯NΔιων(150,1/2), η ζητούμενη πιθανότητα είναι,


Pr(0.6X¯N0.7)=Pr(90Y105),

η οποία προσεγγίζεται ως,


Pr(90Y105) Φ(105-75+1/2150/4)-Φ(90-75-1/2150/4)


Φ(4.98)-Φ(2.37)  1-0.9911=0.0089,

όπου αντικαταστήσαμε την τιμή Φ(2.37)0.9911 από τον Πίνακα 12.2, και χρησιμοποιήσαμε το γεγονός πως Φ(z)1 για κάθε z>3.9, το οποίο επίσης προκύπτει από τον Πίνακα 12.2.


Παράδειγμα 12.7 (Γιατί γίνονται δημοσκοπήσεις;)

Όπως στο Παράδειγμα 9.13 του Κεφαλαίου 9, εξετάζουμε έναν πληθυσμό K ατόμων, το 25% των οποίων (δηλαδή K/4 άτομα) είναι ψηφοφόροι κάποιου κόμματος. Για τη διεξαγωγή μιας δημοσκόπησης επιλέγονται τυχαία Ν άτομα (με επανατοποθέτηση), και ρωτώνται αν θα ψηφίσουν αυτό το κόμμα. Όπως πριν, ορίζοντας τις ανεξάρτητες Τ.Μ. XiBern(0.25) για i=1,2,,N (όπου Xi=1 αν το άτομο i είναι ψηφοφόρος του κόμματος, και 0 αν όχι), ο Ν.Μ.Α. μας λέει πως, αν το μέγεθος Ν του δείγματος είναι αρκετά μεγάλο, τότε το αποτέλεσμα της δημοσκόπησης, δηλαδή ο εμπειρικός μέσος όρος X¯N, θα είναι κοντά στο 25% με μεγάλη πιθανότητα.

Έστω τώρα πως έχουμε ένα δείγμα N=1000 ατόμων, πράγμα συνηθισμένο σε πραγματικές πολιτικές δημοσκοπήσεις. Ποια είναι η πιθανότητα το αποτέλεσμά μας να πέσει έξω κατά περισσότερο από 2%; Δηλαδή, ποια είναι η,


Pr(X¯N>27%ήX¯N<23%)=1-Pr(0.23X¯N0.27);

Ορίζοντας και πάλι την Τ.Μ.,


Y=i=1NXi=NX¯Ν,

η οποία έχει Διων(Ν,0.25) κατανομή, η πιθανότητα που μας ενδιαφέρει μπορεί να εκφραστεί ως 1-Pr(230Y270), και από το Πόρισμα 12.1 με N=1000, p=0.25, m=230 και M=270 έχουμε την προσέγγιση,


Pr(«λάθος >2) = 1-Pr(230Y270)


1-Φ(270-250+1/20.25(1-0.25)1000)+Φ(230-250-1/20.25(1-0.25)1000)


1-Φ(1.5)+Φ(-1.5)


1-0.9332+0.0668=  0.1336.

Συνεπώς, με ένα τυχαίο δείγμα 1000 ατόμων, η πιθανότητα η δημοσκόπηση να πέσει έξω κατά περισσότερο από 2% είναι μόλις 13%. Παρατηρήστε ότι το αποτέλεσμα αυτό δεν εξαρτάται από το μέγεθος K του πληθυσμού, αλλά μόνο από το μέγεθος N του δείγματος και το ποσοστό p των ψηφοφόρων. Στο τελευταίο παράδειγμα αυτής της ενότητας θα δούμε μια ρεαλιστική περίπτωση δημοσκόπησης, με πραγματικά δεδομένα από το δημοψήφισμα που έγινε στην Ελλάδα τον Ιούλιο του 2015.


Παράδειγμα 12.8 (Εκτίμηση μέσω δειγματοληψίας)

Συνεχίζοντας όπως στο Παράδειγμα 9.14 του Κεφαλαίου 9, έστω πως θέλουμε να υπολογίσουμε το μέσο ύψος y¯=1Mi=1Myk ενός κοριτσιού, μεταξύ των Μ κοριτσιών ενός πληθυσμού, όπου yk είναι το ύψος του κοριτσιού k=1,2,,M. Αντί να εξετάσουμε ολόκληρο τον πληθυσμό, επιλέγουμε τυχαία, με επανατοποθέτηση, N μέλη του πληθυσμού, όπου το μέγεθος N του δείγματός είναι σχετικά μεγάλο αλλά σημαντικά μικρότερο του συνολικού μεγέθους Μ του πληθυσμού.

Όπως και πριν, ορίζουμε τις ανεξάρτητες Τ.Μ. Xj=«ύψος του κοριτσιού j που επιλέξαμε», για j=1,2,,N, οι οποίες έχουν σύνολο τιμών το S={y1,y2,,yM}, και πυκνότητα P(yk)=Pr(Xj=yk)=1M, για κάθε j και κάθε k. Όπως υπολογίσαμε στο Παράδειγμα 9.14, τα Xj έχουν μέση τιμή, E(Xj)=y¯, και παρομοίως υπολογίζουμε πως η διασπορά τους ισούται με,


σ¯2=E[(Xj-y¯)2]=k=1M(yk-y¯)2P(yk)=1Mk=1M(yk-y¯)2.

Αν εκτιμήσουμε λοιπόν το y¯ μέσω του εμπειρικού μέσου όρου X¯N από τα ύψη των κοριτσιών που επιλέξαμε, ο Ν.Μ.Α. μάς διαβεβαιώνει πως, για μεγάλα μεγέθη δειγμάτων Ν, θα έχουμε μια καλή εκτίμηση, δηλαδή X¯ny¯, με μεγάλη πιθανότητα. Επιπλέον, το Κ.Ο.Θ. μας δίνει την ακριβέστερη πληροφορία πως η κατανομή της εκτίμησής μας X¯n θα είναι κατά προσέγγιση κανονική, με μέση τιμή τη ζητούμενη ποσότητα y¯ και διασπορά ίση με σ¯2/N.

Κλείνουμε αυτή την ενότητα με τρία ακόμα απλά παραδείγματα εφαρμογής του Κ.Ο.Θ.


Παράδειγμα 12.9

Έστω πως η διάρκεια κάθε τηλεφωνικής κλήσης σε ένα δίκτυο έχει εκθετική κατανομή με μέση διάρκεια 85 δευτερόλεπτα, και έστω πως οι διάρκειες διαδοχικών κλήσεων είναι ανεξάρτητες. Ποια είναι η πιθανότητα η μέση διάρκεια μιας κλήσης ανάμεσα στις N=250 που έγιναν μέσα σε μία μέρα να είναι μεγαλύτερη από 90 δευτερόλεπτα;

Ορίζουμε τις ανεξάρτητες Τ.Μ. X1,X2,,XN, όπου η κάθε XiΕκθ(85). Από τις ιδιότητες της εκθετικής κατανομής ξέρουμε πως οι Xi έχουν μέση τιμή μ=E(Xi)=85 και τυπική απόκλιση σ=85. Οπότε η ζητούμενη πιθανότητα Pr(X¯N>90), όπου X¯N είναι ο εμπειρικός μέσος όρος των Xi, μπορεί να εκφραστεί ως,


Pr(1Ni=1NXi>90)=Pr(1Ni=1N(Xi-μ)>90-85)=Pr(1σNi=1N(Xi-μ)>525085),

και, εφαρμόζοντας το Κ.Ο.Θ., έχουμε,


Pr(X¯N>90) Pr(S¯N>0.93)


= 1-Pr(S¯N0.93)


1-Φ(0.93)  1-0.8238=  0.1762,

όπου αντικαταστήσαμε την τιμή Φ(0.93)0.8238 από τον Πίνακα 12.2.


Παράδειγμα 12.10

Κάθε φορά που ένας προγραμματιστής γράφει ένα καινούργιο κομμάτι κώδικα σε κάποιο πρόγραμμα, διαπιστώνει πως έχει κάνει X λάθη (δηλαδή βρίσκει X bugs στον κώδικά του), όπου το X είναι μια Τ.Μ. με σύνολο τιμών το {0,1,2,3} και πυκνότητα:


P(0)=18,P(1)=18,P(2)=38,P(3)=38.

Επιπλέον, τα λάθη που κάνει σε διαφορετικά μέρη του κώδικα είναι ανεξάρτητα μεταξύ τους. Ποια είναι η πιθανότητα σε 100 νέα μέρη του κώδικα να κάνει συνολικά τουλάχιστον 210 λάθη;

Έστω N=100 ανεξάρτητες Τ.Μ. X1,X2,,XN, όπου η κάθε Xi έχει την ίδια πυκνότητα P(x) όπως πιο πάνω και συμβολίζει το πλήθος των λαθών στο μέρος i του κώδικα. Αν ορίσουμε μια νέα διακριτή Τ.Μ. Y ως το άθροισμα όλων των Xi, τότε η πιθανότητα που μας ενδιαφέρει είναι η Pr(Y210) και, για να την προσεγγίσουμε μέσω του Κ.Ο.Θ., χρειαζόμαστε τη μέση τιμή και τη διασπορά των Xi.

Από τον ορισμό των E(X) και Var(X) και την εναλλακτική έκφραση της διασποράς μιας διακριτής Τ.Μ., εύκολα υπολογίζουμε:


μ=E(Xi) = 0×18+1×18+2×38+3×38=2,

E(Xi2) = 02×18+12×18+22×38+32×38=5,

καισ2=Var(Xi) = E(Xi2)-(E(Xi))=21.

Συνεπώς, η πιθανότητα που μας ενδιαφέρει μπορεί να εκφραστεί ως,


Pr(Y210)=Pr(i=1100Xi210)=Pr(i=1100(Xi-μ)210-1002-12).

Παρατηρήστε πως, εφόσον η Τ.Μ. Y είναι διακριτή αλλά θα προσεγγίσουμε την κατανομή της με την κανονική η οποία είναι συνεχής, έχουμε αφαιρέσει και πάλι 1/2 από την ποσότητα στο δεξί μέρος της τελευταίας από τις παραπάνω πιθανότητες με βάση το ίδιο σκεπτικό όπως στο Παράδειγμα 12.5.

Εφαρμόζοντας τώρα το Κ.Ο.Θ., βρίσκουμε πως η ζητούμενη πιθανότητα,


Pr(Y210) = Pr(i=1100(Xi-μ)9.5)


= Pr(1σNi=1100(Xi-μ)9.510)


= 1-Pr(S¯N0.95)


1-Φ(0.95)0.1711,

όπου αντικαταστήσαμε την τιμή Φ(0.95)0.8289 από τον Πίνακα 12.2.

Αξίζει να σημειώσουμε πως, με τη βοήθεια του υπολογιστή, η ζητούμενη πιθανότητα μπορεί να υπολογιστεί ακριβώς και ισούται με 0.17150. Συνεπώς, η προσέγγιση που μας έδωσε το Κ.Ο.Θ. είναι πολύ ικανοποιητική. Επιπλέον, αν είχαμε κάνει τον πιο πάνω υπολογισμό μέσω του Κ.Ο.Θ. χωρίς να αφαιρέσουμε το επιπλέον 1/2, το αποτέλεσμα θα ήταν 0.1587, το οποίο είναι σημαντικά χειρότερο από αυτό που υπολογίσαμε.


Παράδειγμα 12.11 (Δημοψήφισμα 2015: Ποιος δουλεύει ποιον;)
Στις 5 Ιουλίου του 2015 πραγματοποιήθηκε στην Ελλάδα δημοψήφισμα σε σχέση με μια ενδεχόμενη συμφωνία δανεισμού της χώρας από την Ευρωπαϊκή Ένωση, το Διεθνές Νομισματικό Ταμείο και την Κεντρική Ευρωπαϊκή Τράπεζα. Στα αποτελέσματα σχετικής δημοσκόπησης που έκανε μία από τις μεγαλύτερες και πιο έγκυρες εταιρίες δημοσκοπήσεων, ανακοινώθηκε η πρόβλεψη πως η επιλογή του «ΟΧΙ στη συμφωνία» θα έπαιρνε ποσοστό 49,8%, με «στατιστικό σφάλμα» ±2.7%. Επιπλέον, όπως ανακοίνωσε η ίδια η εταιρία, η έρευνα έγινε σε δείγμα 1325 ατόμων κατά το διάστημα 2-3 Ιουλίου.

Το εκλογικό αποτέλεσμα τους διέψευσε οικτρά: Η επιλογή του ΟΧΙ πήρε 61.31%. Εδώ θα εξετάσουμε πόσο πιστευτό είναι αυτό το αποτέλεσμα. Συγκεκριμένα, με δεδομένα τα πραγματικά αποτελέσματα, θα υπολογίσουμε πόσο πιθανό είναι η δημοσκόπηση να είχε πράγματι οδηγήσει στην πρόβλεψη που δόθηκε από την εταιρία στα ΜΜΕ. Για να είμαστε όσο πιο επιεικείς γίνεται, ας θεωρήσουμε πως η πρόβλεψη της εταιρίας ήταν πως το ΟΧΙ θα έπαιρνε 49,8%+2.7%, δηλαδή 52.5%, και πως η επιλογή του δείγματος έγινε με επανατοποθέτηση1010Στην πράξη δεν έχει σχεδόν καμία διαφορά η επιλογή με ή χωρίς επανατοποθέτηση, μια που εύκολα υπολογίζεται (Άσκηση. Υπολογίστε το.) πως αν η επιλογή Ν=1325 ατόμων μεταξύ των K=9840525 εγγεγραμμένων ψηφοφόρων γίνει με επανατοποθέτηση, η πιθανότητα να μην επιλεχθεί κανείς δύο φορές – δηλαδή το αποτέλεσμα να είναι το ίδιο με το να μην είχαμε επανατοποθέτηση – είναι μεγαλύτερη από 0.999., οπότε βρισκόμαστε ακριβώς στο σενάριο του Παραδείγματος 12.7, με Ν=1325 δείγματα σε έναν πληθυσμό K=9840525 ψηφοφόρων, όπου το ποσοστό που θέλουμε να προβλέψουμε είναι το p=0.6131.

  1. 1.

    Πόσο πιστευτή είναι η πρόβλεψη των δημοσκόπων βάσει του Κ.Ο.Θ.; Πρώτα θα υπολογίσουμε, με τα παραπάνω δεδομένα, την πιθανότητα να πέσει τόσο έξω η πρόβλεψη. Ποια είναι η πιθανότητα η δημοσκόπηση να δώσει αποτέλεσμα 52.5% ή μικρότερο;

    Ακολουθώντας ακριβώς τα ίδια βήματα όπως στο Παράδειγμα 12.7, η ζητούμενη πιθανότητα είναι η Pr(X¯N0.525). Κατ’ αρχάς παρατηρούμε πως εδώ,


    Pr(X¯N0.525)=Pr(NX¯N0.525×1325)=Pr(Y695.625),

    άρα δεν είναι απαραίτητη η διόρθωση του «ακέραιου αποτελέσματος» προσθέτοντας ή αφαιρώντας 1/2. Οπότε, προσεγγίζουμε κανονικά τη ζητούμενη πιθανότητα μέσω του Κ.Ο.Θ.,


    Pr(X¯N0.525) = Pr(1Ni=1N(Xi-μ)0.525-0.6131)


    = Pr(1σNi=1N(Xi-μ)-0.088113250.6131(1-0.6313))


    = Pr(S¯N-6.7449948)


    Φ(-6.7449948)  7.65×10-12,

    όπου η εξαιρετικά μικρή αυτή τιμή δεν συμπεριλαμβάνεται στους πίνακές μας, αλλά εύκολα μπορεί να βρεθεί με τη χρήση υπολογιστή.

  2. 2.

    Ακριβώς πόσο πιστευτή είναι η πρόβλεψη των δημοσκόπων; Η πιθανότητα που βρήκαμε πιο πάνω, 7.65×10-12, είναι αστρονομικά μικρή. Για να έχουμε ένα μέτρο σύγκρισης, είναι παρόμοια με την πιθανότητα να κρύψουμε έναν συγκεκριμένο κόκκο άμμου σε μια παραλία και κάποιος που διαλέγει στην τύχη έναν κόκκο άμμου από ολόκληρη την παραλία να τον πετύχει! Αλλά είναι σημαντικό να θυμόμαστε πως ο υπολογισμός που μας οδήγησε σε αυτή την πιθανότητα ήταν προσεγγιστικός. Για τόσο μικρές τιμές, το σφάλμα που αναπόφευκτα εισάγεται από την προσέγγιση μπορεί να επηρεάζει σημαντικά το αποτέλεσμα.

    Επανεξετάζουμε λοιπόν την πιθανότητα του να πέσει τόσο έξω η πρόβλεψη της εταιρίας, η οποία ήδη είδαμε πως μπορεί να εκφραστεί ως, Pr(Y695.625), όπου η Τ.Μ. Y έχει κατανομή YΔιων(N,p). Άρα, μπορούμε με τη χρήση του υπολογιστή να την υπολογίσουμε ακριβώς, χωρίς καμία προσέγγιση:


    Pr(Y695.625) = Pr(Y695)


    = j=0695Pr(Y=j)


    = j=0695(Nj)pj(1-p)N-j


    3.501×10-11.

    Συμπεραίνουμε λοιπόν πως, αν η μεθοδολογία που χρησιμοποιήθηκε είναι αυτή η οποία δηλώνεται, με βάση τα πραγματικά δεδομένα στην καλύτερη περίπτωση τα αποτελέσματα που παρουσιάστηκαν από την εταιρία είναι μαθηματικώς ανεξήγητα.

  3. 3.

    Χωρίς επανατοποθέτηση; Τέλος, εξετάζουμε το ενδεχόμενο του να έχει επηρεαστεί σημαντικά ο υπολογισμός μας από την υπόθεση ότι η επιλογή των δειγμάτων γινόταν με επανατοποθέτηση. Στην περίπτωση που η επιλογή έγινε χωρίς επανατοποθέτηση, τότε η ζητούμενη πιθανότητα είναι και πάλι η Pr(Y695.625), αλλά τώρα η Τ.Μ. Y έχει κατανομή YΥπερ(K,k,N), όπου K=9840525 είναι το συνολικό πλήθος των ψηφοφόρων, k=Kp6033226 είναι το πλήθος εκείνων που σκόπευαν πράγματι να ψηφίσουν ΟΧΙ και Ν=1325 είναι το μέγεθος του δείγματος.

    Όπως πιο πάνω, μπορούμε να υπολογίσουμε,


    Pr(Y695.625)=Pr(Y695)=j=0695Pr(j=k),

    το οποίο, αντικαθιστώντας τον τύπο της πυκνότητας της υπεργεωμετρικής κατανομής, και με τη χρήση υπολογιστή, μας δίνει


    Pr(Y695.625)=j=0695(kj)(K-kN-j)(KN)5.04×10-11.

    Άρα και εδώ συμπεραίνουμε πως, αν η μεθοδολογία της εταιρίας είναι πράγματι αυτή την οποία περιγράφει, είναι μαθηματικά αδικαιολόγητα τα αποτελέσματα της δημοσκόπησης.

  4. 4.

    Η δημοσκόπηση είναι εύκολη δουλειά. Εδώ θα δούμε πως, παρά τις ατελείωτες αναλύσεις «ειδικών» στα ΜΜΕ, είναι μάλλον απλή υπόθεση η σχετικά ασφαλής πρόβλεψη του αποτελέσματος ενός δημοψηφίσματος: Έστω πως θέλαμε να προβλέψουμε το πραγματικό ποσοστό p=0.6131, ακολουθώντας την απλούστερη δυνατή μεθοδολογία, επιλέγοντας, λ.χ., μόνο N=600 ανεξάρτητα δείγματα από τον πληθυσμό των ψηφοφόρων (λιγότερα από τα μισά από όσα συμμετείχαν στην έρευνα της εταιρίας πιο πάνω), με επανατοποθέτηση. Τότε, η πιθανότητα το αποτέλεσμα X¯N της πρόβλεψής μας να απείχε από την πραγματικότητα περισσότερο από ±3% (όπου εδώ είμαστε πιο αυστηροί γιατί μετράμε το ενδεχόμενο λάθος και προς τα «πάνω» και προς τα «κάτω»), μπορεί εύκολα και με ακρίβεια να προσεγγιστεί μέσω του Κ.Ο.Θ. όπως και πριν. Αρχικά γράφουμε,


    Pr(|X¯N-p|>0.03) =Pr(1Ni=1N(Xi-p)>0.03)+Pr(1Ni=1N(Xi-p)<-0.03)


    =Pr(1σNi=1N(Xi-p)>0.03×6000.6131×(1-0.6313))


    +Pr(1σNi=1N(Xi-p)<-0.03×6000.6131×(1-0.6313)),

    και από το Κ.Ο.Θ. βρίσκουμε,


    Pr(|X¯N-p|>0.03) 1-Pr(S¯N<1.509)+Pr(S¯N<-1.509)

    1-Φ(1.51)+Φ(-1.51)

    13.1%.

    Άρα, με αυτή την πολύ απλοϊκή μεθοδολογία, και με πολύ λιγότερα δείγματα, είμαστε βέβαιοι με πιθανότητα 87% ότι θα πετύχουμε το σωστό εκλογικό αποτέλεσμα με σφάλμα μικρότερο από ±3%.

12.4 Πίνακες τιμών της τυπικής κανονικής κατανομής

Ο Πίνακας 12.1 περιέχει τιμές της συνάρτησης κατανομής,


Φ(z)=-z12πe-u2/2 du =Pr(Zz),

της τυπικής κανονικής κατανομής ZN(0,1) για αρνητικές τιμές του z.

Παρομοίως, ο Πίνακας 12.2 περιέχει τιμές της συνάρτησης κατανομής Φ(z) της τυπικής κανονικής κατανομής για θετικές τιμές του z. Οι σχετικοί υπολογισμοί αναπαρίστανται γραφικά στο Σχήμα 12.4.

Σχήμα 12.4: Γραφική αναπαράσταση των τιμών της συνάρτησης κατανομής Φ(z) της τυπικής κανονικής κατανομής Ν(0,1) για αρνητικές τιμές του z (αριστερά) και για θετικές τιμές του z (δεξιά).

Είναι, φυσικά, προφανές πως ο δεύτερος πίνακας είναι περιττός: Λόγω της συμμετρίας της τυπικής κανονικής πυκνότητας ϕ(x), για οποιαδήποτε θετική τιμή του z η Φ(z) μπορεί εύκολα να υπολογιστεί ως 1-Φ(-z).


Πίνακας 12.1: Τιμές της τυπικής κανονικής συνάρτησης κατανομής Φ(z) για αρνητικά z.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
-3.8 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
-3.7 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
-3.6 0.0002 0.0002 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

Πίνακας 12.2:
Τιμές της τυπικής κανονικής συνάρτησης κατανομής Φ(z) για θετικά z.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

12.5 Ασκήσεις

  1. 1.

    Τυχαία επιλογή Τ.Μ. Η Τ.Μ. X έχει ομοιόμορφη κατανομή στο διάστημα [3,5], και η Τ.Μ. Y έχει κανονική κατανομή με μέση τιμή 1 και διασπορά 10. Ρίχνουμε ένα δίκαιο νόμισμα, και αν έρθει Κορώνα καταγράφουμε την τιμή του X, ενώ αν έρθει Γράμματα καταγράφουμε την τιμή του Y. Αν υποθέσουμε ότι η τιμή που καταγράψαμε είναι μεγαλύτερη του 4, ποια είναι η πιθανότητα να είχαμε επιλέξει τη X;

  2. 2.

    Ύψη μαθητών. Το ύψος των μαθητών ενός σχολείου ακολουθεί κανονική κατανομή με μέση τιμή mA=1.70m για τα αγόρια και mK=1.60m για τα κορίτσια, και με διασπορά σ2=(0.1m)2 κοινή για αγόρια και κορίτσια. Αν υποθέσουμε ότι το πλήθος των αγοριών και των κοριτσιών σε αυτό το σχολείο είναι ακριβώς ίδιο, υπολογίστε την πιθανότητα το ύψος ενός μαθητή που επιλέγεται στην τύχη να ξεπερνά το 1.80m.

  3. 3.

    Αριθμητικοί υπολογισμοί με την κανονική κατανομή. Έστω X μια τυχαία μεταβλητή με κανονική κατανομή N(μ,σ2).

    1. (α’)

      Αν μ=0 και σ2=1, να βρεθούν οι Pr(X<1.22) και Pr(X>-1.22).

    2. (β’)

      Αν μ=1 και σ2=1, να βρεθούν οι Pr(X>2.7) και Pr(X<-4.7 ή X>2.7).

    3. (γ’)

      Αν μ=1 και σ2=1, να βρεθεί η Pr(X>2.1 ή -1<X<1).

    4. (δ’)

      Αν μ=-1 και σ2=4, να βρεθούν οι Pr(X>3) και Pr(X>3|X>2).

    5. (ε’)

      Αν μ=-2 και σ2=3.5, να βρεθεί η μέση τιμή των Y=1-X2 και V=(X+2)15.

    6. (στ’)

      Αν μ=2, να βρεθεί η τιμή της διασποράς για την οποία Pr(X<0)1/3.

  4. 4.

    Τετράγωνο κανονικής Τ.Μ. Έστω μια Τ.Μ. XN(0,σ2) και μια σταθερά a>0. Να βρεθούν η συνάρτηση κατανομής G(y) και η πυκνότητα g(y) της Y=aX2.

  5. 5.

    Η κατανομή χ2. Έστω Z1,Z2,,Zk ανεξάρτητες Τ.Μ. με κάθε ΖiN(0,1), και έστω η Τ.Μ. Y=Z12+Z22++Zk2. Η κατανομή της Y ονομάζεται κατανομή χ2 με k βαθμούς ελευθερίας, και συμβολίζεται, Yχ2(k).

    1. (α’)

      Υπολογίστε την E(Z14).

    2. (β’)

      Υπολογίστε τη μέση τιμή της κατανομής χ2(k).

    3. (γ’)

      Βρείτε τη διασπορά, την πυκνότητα και τη συνάρτηση κατανομής της χ2(k) για k=1.

  6. 6.

    Λογαριθμοκανονική κατανομή. Να βρεθούν η πυκνότητα g(y) και η συνάρτηση κατανομής G(y) της Y=eX συναρτήσει της πυκνότητας f(x) και της συνάρτησης κατανομής F(x) της συνεχούς Τ.Μ. X. Προσδιορίστε τις g(y), G(y) στην ειδική περίπτωση που η X έχει κανονική κατανομή N(μ,σ2).

  7. 7.

    Γραμμικός μετασχηματισμός. Αποδείξτε πως, αν η XN(μ,σ2), τότε η Y=aX+b έχει κατανομή N(aμ+b,a2σ2).

  8. 8.

    Όλα στο 13! Σε ένα καζίνο, αν ποντάρουμε στη ρουλέτα 1 ευρώ σε κάποιο νούμερο από το 1 ως το 36 και έρθει αυτό το νούμερο (πράγμα που συμβαίνει με πιθανότητα 1 στις 37) παίρνουμε 36 ευρώ (το αρχικό μας στοίχημα συν 35 ευρώ). Αν έρθει κάποιο άλλο νούμερο, χάνουμε το 1 ευρώ. Ένας παίκτης ξεκινάει με 120 ευρώ και τα ποντάρει όλα μαζί στο «13», κι ένας άλλος ξεκινάει με 120 ευρώ και ποντάρει 1 ευρώ στο «13» σε 120 διαδοχικά (ανεξάρτητα) παιχνίδια της ρουλέτας.

    1. (α’)

      Δείξτε ότι και στις δύο περιπτώσεις, τα αναμενόμενα χρήματα που θα έχουν απομείνει στους παίκτες μετά το παιχνίδι είναι τα ίδια.

    2. (β’)

      Και για τις δύο περιπτώσεις, υπολογίστε τη διασπορά των χρημάτων των παικτών. Σχολιάστε.

    3. (γ’)

      Και για τις δύο περιπτώσεις, υπολογίστε την πιθανότητα ο παίκτης στο τέλος να έχει παραπάνω από 100 ευρώ. Σχολιάστε.

  9. 9.

    Κόκκινο-μαύρο. Ένας συντηρητικός παίκτης της ρουλέτας ποντάρει σε κάθε γύρο ένα ευρώ στο κόκκινο. Αν έρθει κόκκινο, πράγμα το οποίο συμβαίνει με πιθανότητα 16/33, κερδίζει ένα ευρώ, ενώ αν έρθει μαύρο ή «0», με πιθανότητα 17/33, χάνει το ευρώ που είχε ποντάρει. Υπολογίστε μια καλή προσέγγιση για την πιθανότητα μετά από 150 γύρους να μην έχει βγει χαμένος.

  10. 10.

    Online game. Σε ένα online παιχνίδι, όποτε ένα τανκ εκτελεί μια βολή, η βολή: (i) είναι άστοχη με πιθανότητα 30%, οπότε και προκαλείται στον αντίπαλο ζημιά 0 μονάδων ζωής, ή (ii) είναι απλώς επιτυχημένη με πιθανότητα 60%, οπότε προκαλείται στον αντίπαλο ζημιά 20 μονάδων ζωής, ή (iii) είναι εξαιρετικά επιτυχημένη (critical hit) με πιθανότητα 10%, οπότε προκαλείται ζημιά 40 μονάδων.

    1. (α’)

      Έστω X η Τ.Μ. που περιγράφει τις μονάδες ζωής της ζημιάς που προκαλείται από μία βολή. Να υπολογίσετε τη μέση τιμή και τη διασπορά της.

    2. (β’)

      Ποια είναι η πιθανότητα, μετά από 100 βολές, το άθροισμα όλων των ζημιών να υπερβαίνει τις 1700 μονάδες;

  11. 11.

    Χαμένος χρόνος. Κάθε πρωί, ο χρόνος που περιμένω μέχρι να έρθει το λεωφορείο για να πάω στο γραφείο μου έχει μέση τιμή 20 λεπτά και είναι εκθετικά κατανεμημένος. Στις 259 εργάσιμες μέρες που έχει ένας χρόνος, ποια είναι η πιθανότητα να έχω χάσει πάνω από τέσσερις ολόκληρες μέρες της ζωής μου περιμένοντας το λεωφορείο;

  12. 12.

    Ζυγοβίστι Αρκαδίας. Η ετήσια βροχόπτωση στο Ζυγοβίστι Αρκαδίας περιγράφεται από μια συνεχή Τ.Μ. X (σε εκατοστά), με πυκνότητα:


    f(x)={1100,x[30,130],0,x[30,130].
    1. (α’)

      Κατά μέσο όρο, πόσα εκατοστά βροχής πέφτουν κάθε χρόνο στο Ζυγοβίστι; Ποια είναι η διασπορά τους;

    2. (β’)

      Έχει παρατηρηθεί ότι η ποσότητα των καρυδιών που παράγει κάθε χρόνο το Ζυγοβίστι, σε τόνους, περιγράφεται από την Τ.Μ. Y=20X+500. Κατά μέσο όρο, πόσους τόνους καρύδια παράγει το Ζυγοβίστι κάθε χρόνο;

    3. (γ’)

      Για να πετύχει η δενδροφύτευση σπάνιων κέδρων την οποία αποφάσισε η κοινότητα, απαιτείται για τα επόμενα 80 χρόνια να πέσουν λιγότερα από 7000 εκατοστά βροχής. Ποια είναι η πιθανότητα να επιτύχει η δενδροφύτευση;

  13. 13.

    Αποσυγχρονισμός. Έστω πως βλέπω ένα streaming βίντεο στον υπολογιστή μου, και παρατηρώ ότι, κάθε φορά που αποφασίζω να το πάω πιο μπροστά ή πιο πίσω, αποσυγχρονίζεται ο ήχος με την εικόνα κατά X δέκατα του δευτερολέπτου (ανεξάρτητα από τη μία φορά στην άλλη), όπου η X έχει την πυκνότητα f(x) που είδαμε στην Άσκηση 8 του Κεφαλαίου 10.

    Αν μετακινήσω το σημείο που βλέπω στο βίντεο 200 φορές, ποια είναι η πιθανότητα να έχει αποσυγχρονιστεί συνολικά ο ήχος κατά περισσότερα από ±1 δευτερόλεπτο;

  14. 14.

    Τηλεφωνικές κλήσεις. Όπως στο Παράδειγμα 12.9, ας υποθέσουμε πως η διάρκεια κάθε κλήσης (σε δευτερόλεπτα) σε ένα δίκτυο έχει κατανομή Εκθ(85) και οι διάρκειες διαδοχικών κλήσεων είναι ανεξάρτητες. Μια κλήση θεωρείται «σύντομη» αν διαρκέσει λιγότερο από ένα λεπτό. Ποια είναι η πιθανότητα, το πλήθος των σύντομων κλήσεων ανάμεσα στις 250 που έγιναν σε μία μέρα να είναι μικρότερο από 120;

  15. 15.

    Εκτίμηση με θόρυβο. Έστω πως θέλουμε να εκτιμήσουμε την άγνωστη μέση τιμή μ κάποιας Τ.Μ. X, χρησιμοποιώντας τις τιμές N ανεξάρτητων Τ.Μ. X1,X2,,XN, όλες με την ίδια κατανομή με τη X. Έστω επίσης πως γνωρίζουμε ότι οι Xi έχουν διασπορά σ2=Var(Xi)=1.

    1. (α’)

      Αν για την εκτίμηση του μ χρησιμοποιήσουμε τον εμπειρικό μέσο όρο X¯N, υπολογίστε κατά προσέγγιση πόσο μεγάλο πρέπει να είναι το μέγεθος N του δείγματός μας, ώστε με πιθανότητα τουλάχιστον 95% η εκτίμιση να μην απέχει από την πραγματική τιμή κατά περισσότερο από 0.2, δηλαδή να έχουμε |X¯N-μ|0.2.

    2. (β’)

      Έστω τώρα ότι (όπως στην Άσκηση 13 του Κεφαλαίου 9) αντί για τα Xi τα ίδια, το μόνο που έχουμε διαθέσιμο είναι τα δείγματα Yi=Xi+Zi, για i=1,2,,N, όπου το κάθε Yi είναι μια τυχαία μέτρηση του αντίστοιχου Xi συν κάποιο τυχαίο «θόρυβο» Zi. Υποθέτουμε ότι τα Zi είναι ανεξάρτητα από τα Xi, ότι είναι ανεξάρτητα μεταξύ τους, και ότι όλα έχουν την ίδια κατανομή, με κάποια γνωστή μέση τιμή ν=E(Ζi) και γνωστή διασπορά τ2=Var(Zi)=3.

      Περιγράψτε μια μέθοδο εκτίμησης της μέσης τιμής μ και πάλι υπολογίστε κατά προσέγγιση πόσο μεγάλο πρέπει να είναι το N, ώστε με πιθανότητα τουλάχιστον 95% η εκτίμιση να μην απέχει από την πραγματική τιμή κατά περισσότερο από 0.2.

    3. ΠΟΛΥΜΕΣΙΚΟ ΥΛΙΚΟ ΚΕΦΑΛΑΙΟΥ

4

Κινούμενο σχήμα 12.1: Η πυκνότητα και η συνάρτηση κατανομής μιας κανονικής Τ.Μ. με
τυπική απόκλιση σ=1, καθώς μεταβάλλεται η μέση τιμή μ.

4

Κινούμενο σχήμα 12.2: Η πυκνότητα και η συνάρτηση κατανομής μιας κανονικής Τ.Μ. με μέση τιμή μ=5, καθώς μεταβάλλεται η τυπική απόκλιση σ.

4

Κινούμενο σχήμα 12.3: Κ.Ο.Θ.: Οι Τ.Μ. X1,X2, έχουν ομοιόμορφη κατανομή στο
διάστημα [0,1], με μέση τιμή μ=0.5 και διασπορά σ2=1/12. Αριστερά βλέπουμε την πυκνότητα του αθροίσματός  n τέτοιων Τ.Μ., καθώς το n αυξάνει, και δεξιά την πυκνότητα του αντίστοιχου κανονικοποιημένου αθροίσματος.

90

Κινούμενο σχήμα 12.4:
Κ.Ο.Θ.: Οι Τ.Μ. X1,X2, έχουν εκθετική κατανομή με παράμετρο θ=1/4.
Αριστερά βλέπουμε την πυκνότητα του αθροίσματός  n τέτοιων Τ.Μ., καθώς το n αυξάνει, και δεξιά την πυκνότητα του αντίστοιχου κανονικοποιημένου αθροίσματος. 

Κεφάλαιο 13 Κ.Ο.Θ.: Λίγη θεωρία και αποδείξεις

[Επιστροφή στα περιεχόμενα]


Σε αυτό το κεφάλαιο θα δούμε τέσσερις αποδείξεις αποτελεσμάτων που σχετίζονται με την κανονική κατανομή και το Κ.Ο.Θ., οι οποίες είναι αρκετά πιο απαιτητικές, από μαθηματική άποψη, από τις περισσότερες αποδείξεις που έχουμε συναντήσει ως τώρα. Στην Ενότητα 13.1 θα δώσουμε την απόδειξη, την οποία παραλείψαμε νωρίτερα, ενός απλού αποτελέσματος από την Ενότητα 12.1: Το ολοκλήρωμα της πυκνότητας οποιασδήποτε κανονικής Τ.Μ. ισούται με ένα. Κατόπιν, στην Ενότητα 13.2 θα δούμε πως το Κ.Ο.Θ., κάτω από πολύ γενικές συνθήκες, μπορεί να χρησιμοποιηθεί για να αποδειχθεί ο Ν.Μ.Α. Κατά συνέπεια είναι, ως μαθηματικό αποτέλεσμα, αυστηρά ισχυρότερο από τον Ν.Μ.Α.

Όπως αναφέραμε στο προηγούμενο κεφάλαιο, η απόδειξη του Κ.Ο.Θ. είναι τεχνικής φύσεως και ξεπερνά τους στόχους του παρόντος βιβλίου. Παρ’ όλα αυτά, στις Ενότητες 13.3 και 13.4 θα δούμε κάποιες ενδιαφέρουσες πτυχές αυτού του θέματος. Συγκεκριμένα, στην Ενότητα 13.3 θα αποδείξουμε μια ισχυρή μορφή του Κ.Ο.Θ., το λεγόμενο «θεώρημα de Moivre-Laplace», για την απλή περίπτωση που οι Τ.Μ. {Xn} έχουν κατανομή Bernoulli. Η απόδειξη αυτή (όπως κι εκείνη της επόμενης ενότητας) είναι κάπως μακροσκελής, και η αλήθεια είναι πως υπάρχουν πολύ πιο σύντομες αποδείξεις του Κ.Ο.Θ. κάτω από πιο γενικές συνθήκες. Αυτές όμως απαιτούν τη χρήση εργαλείων της ανάλυσης Fourier ή άλλων αρκετά πιο προχωρημένων μαθηματικών περιοχών.

Τέλος, στην Ενότητα 13.4, θα δώσουμε μια όμορφη απόδειξη, εκείνη του Lindeberg, για τη γενική περίπτωση του Κ.Ο.Θ. όπως διατυπώθηκε στο Κεφάλαιο 12. Σε αντίθεση με την απόδειξη του θεωρήματος de Moivre-Laplace, η οποία βασίζεται σε μια σειρά από στοιχειώδεις υπολογισμούς, η κεντρική ιδέα της απόδειξης του Lindeberg είναι μια έξυπνη χρήση κάποιων πολύ απλών αποτελεσμάτων του διαφορικού λογισμού.

13.1 Το γκαουσιανό ολοκλήρωμα

Εδώ θα δείξουμε πως η πυκνότητα,


f(x)=12πσ2e-(x-μ)2/2σ2,x,

μιας Τ.Μ. με κατανομή N(μ,σ2) έχει πράγματι ολοκλήρωμα ίσο με ένα, δηλαδή,


J=-12πσ2e-(x-μ)2/2σ2dx=1.
(13.1)

Ξεκινάμε με την αντικατάσταση y=(x-μ)/2σ2, οπότε dx=2σdy, και,


J=-1πe-x2dx.

Άρα, για να δείξουμε το ζητούμενο αποτέλεσμα της σχέσης (13.1) αρκεί να αποδείξουμε πως το πιο κάτω ολοκλήρωμα I ισούται με π:


Ι=-e-y2dy=π.
(13.2)

Εφόσον η e-y2 είναι άρτια συνάρτηση του y, έχουμε,


Ι=20e-y2dy,

και παίρνοντας το τετράγωνο αυτής της σχέσης,


Ι2=(20e-y2 dy )(20e-z2 dz ),

δηλαδή,


14Ι2=0(0e-(y2+z2) dy )dz.

Τώρα, για κάθε συγκεκριμένο z, στο εσωτερικό ολοκλήρωμα κάνουμε την αντικατάσταση y=zs, οπότε dy=zds και,


14Ι2=0(0e-z2(1+s2)z ds )dz  =0(0e-z2(1+s2)z dz ) ds,

όπου στο τελευταίο βήμα αλλάξαμε τη σειρά των δύο ολοκληρωμάτων (βλ. θεώρημα του Fubini στο Κεφάλαιο 15). Παρατηρούμε πως,


ddze-z2(1+s2)=-2z(1+s2)e-z2(1+s2),

άρα το εσωτερικό ολοκλήρωμα παραπάνω μπορεί να επιλυθεί ακριβώς,


14Ι2=0[-12(1+s2)e-z2(1+s2)]0 ds =12011+s2 ds.

Τέλος, θυμίζουμε πως η παράγωγος της συνάρτησης arctanx είναι η 11+x2, οπότε καταλήγουμε στη σχέση,


14Ι2=12[arctans]0=12[π2-0]=π4,

η οποία μας δίνει το ζητούμενο αποτέλεσμα, I=π, αποδεικνύοντας την (13.2) και, κατά συνέπεια, το αρχικό μας ζητούμενο αποτέλεσμα (13.1).

13.2 Κ.Ο.Θ.  Ν.Μ.Α.: Απόδειξη

Έστω οι ανεξάρτητες (συνεχείς ή διακριτές) Τ.Μ. X1,X2,, οι οποίες έχουν όλες την ίδια κατανομή, και άρα έχουν την ίδια μέση τιμή μ=E(Xi) και την ίδια διασπορά σ2=Var(Xi).

Ο Ν.Μ.Α. μάς λέει πως, για μεγάλα N, ο εμπειρικός τους μέσος όρος,


X¯N=1Ni=1NXi,

θα είναι κοντά στη μέση τιμή τους μ, με μεγάλη πιθανότητα. Επιπλέον, όπως είδαμε στο προηγούμενο κεφάλαιο, το Κ.Ο.Θ. μάς δίνει μια πιο λεπτομερή ποσοτική περιγραφή του X¯N: Για μεγάλα N, ο εμπειρικός μέσος όρος X¯N έχει κατά προσέγγιση N(μ,σ2/N) κατανομή.

Σε αυτή την ενότητα θα δείξουμε πως το Κ.Ο.Θ. είναι πράγματι πιο ισχυρό αποτέλεσμα, με την αυστηρά μαθηματική έννοια, από τον Ν.Μ.Α. Είναι μάλιστα αξιοσημείωτο πως για να αποδείξουμε τον Ν.Μ.Α. δεν χρειάζεται να κάνουμε οποιαδήποτε άλλη υπόθεση για τις Τ.Μ. {Xn} (λόγου χάρη, δεν είναι απαραίτητο να θεωρήσουμε καν ότι είναι ανεξάρτητες) πέραν του ότι ικανοποιούν το Κ.Ο.Θ.

Πρόταση 13.2 Έστω μια οποιαδήποτε ακολουθία {Xn} τυχαίων μεταβλητών, και σταθερές μ,σ>0, για τις οποίες ισχύει το Κ.Ο.Θ. όπως διατυπώνεται στη σχέση (12.4) του Θεωρήματος 12.2. Τότε, για τις {Xn} ισχύει και ο Ν.Μ.Α.: Ο εμπειρικός τους μέσος όρος X¯N τείνει στη σταθερά μ κατά πιθανότητα καθώς το N.

Υπενθύμιση: lim sup και lim inf. Ως γνωστόν, μια ακολουθία {an} πραγματικών αριθμών δεν είναι απαραίτητο να έχει κάποιο όριο καθώς το n. Αλλά μπορούμε πάντα να ορίσουμε,


a¯ = lim supnan=limnsupknak

καιa¯ = lim infnan=limninfknak,

όπου τα δύο παραπάνω όρια πάντοτε υπάρχουν και ικανοποιούν a¯a¯ (γιατί;). Στην απόδειξη που ακολουθεί και σε κάποια άλλα σημεία του κεφαλαίου θα χρειαστούμε αυτές τις έννοιες, όπως και την απλή παρατήρηση ότι το όριο της {an} υπάρχει και ισούται με a, αν και μόνο αν έχουμε a¯=a¯=a.


Απόδειξη της Πρότασης 13.2:

Έστω αυθαίρετο ϵ>0. Για τον Ν.Μ.Α. πρέπει να αποδείξουμε πως,


Pr(|X¯N-μ|<ϵ)1,καθώς τοN,

για το οποίο αρκεί να δείξουμε πως για κάθε δ>0,


lim infNPr(|X¯N-μ|<ϵ)1-δ.
(13.3)

Έστω λοιπόν δ>0 αυθαίρετο. Εφόσον η τυπική κανονική συνάρτηση κατανομής Φ(z)1 καθώς το z, και Φ(z)0 καθώς το z-, μπορούμε να διαλέξουμε ένα K>0 αρκετά μεγάλο ώστε να έχουμε,


Φ(K)-Φ(-2K)1-δ.
(13.4)

Παρατηρούμε πως η πιθανότητα Pr(|X¯N-μ|<ϵ) που μας ενδιαφέρει ισούται με,


Pr(|1Ni=1N(Xi-μ)|<ϵ) = Pr(|1σNi=1N(Xi-μ)|<ϵNσ)
(13.5)


= Pr(|S¯N|<ϵN/σ)


= Pr(S¯N<ϵN/σ)-Pr(S¯N-ϵN/σ)


Pr(S¯NϵN/2σ)-Pr(S¯N-ϵN/σ),

όπου S¯N είναι το κανονικοποιημένο άθροισμα όπως στο Κ.Ο.Θ. Από τον δεύτερο κανόνα πιθανότητας, ξέρουμε πως η πρώτη πιθανότητα στην έκφραση (13.5) είναι αύξουσα συνάρτηση του N και η δεύτερη φθίνουσα. Άρα, για κάθε N>(2σK/ϵ)2, έχουμε,


Pr(|X¯N-μ|<ϵ) Pr(S¯NK)-Pr(S¯N-2K),

και παίρνοντας το όριο N, από το Κ.Ο.Θ. συμπεραίνουμε πως,


lim infNPr(|X¯N-μ|<ϵ)Φ(K)-Φ(-2K)1-δ,

όπου η δεύτερη ανισότητα προκύπτει από τον τρόπο που επιλέξαμε το K στη σχέση (13.4). Άρα έχουμε αποδείξει πως, για κάθε δ>0 ισχύει η (13.3), αποδεικνύοντας έτσι τον Ν.Μ.Α.

13.3 Το θεώρημα de Moivre-Laplace

Σκοπός αυτής της παραγράφου είναι η παρουσίαση της απόδειξης μιας ισχυρής μορφής του Κ.Ο.Θ. στην περίπτωση που οι Xi είναι Bern(p) τυχαίες μεταβλητές. Σε αυτή την ειδική περίπτωση το Κ.Ο.Θ. ονομάζεται «θεώρημα de Moivre-Laplace»1111Το θεώρημα αυτό πρωτοδημοσιεύτηκε το 1738 από τον Abraham de Moivre στη δεύτερη έκδοση του βιβλίου του, The Doctrine of Chances. Η πρώτη έκδοσή του, το 1718, ήταν το πρώτο βιβλίο που γράφτηκε ποτέ με αντικείμενο εξ ολοκλήρου τις πιθανότητες. Ο de Moivre ήταν Γάλλος Ουγενότος, και έγραψε το βιβλίο στα αγγλικά ενώ ζούσε αυτοεξόριστος στην Αγγλία, προκειμένου να γλιτώσει τις διώξεις στις οποίες υπόκεινταν οι Ουγενότοι στη Γαλλία. και μπορεί να αποδειχθεί με στοιχειώδεις υπολογισμούς. Όπως θα δούμε, το θεώρημα de Moivre-Laplace μάς δίνει μια ακριβή προσέγγιση για την πυκνότητα του εμπειρικού μέσου όρου X¯N των Xi ή, ισοδύναμα, για την πυκνότητα του αθροίσματός τους Sn=NX¯N=X1+X2++XN.

Συμβολισμός anbn και an=ο(bn). Θυμίζουμε πως δύο ακολουθίες πραγματικών αριθμών {an} και {bn} λέμε ότι είναι ασυμπτωτικά ισοδύναμες, το οποίο συμβολίζεται με anbn, όταν ο λόγος τους τείνει στο 1, limnan/bn=1. Επίσης, ο συμβολισμός an=o(bn) σημαίνει πως τα an τείνουν να είναι σημαντικά μικρότερα από τα bn, δηλαδή, limnan/bn=0. Για παράδειγμα, αν an=o(n), τότε η ακολουθία {an/n} τείνει στο μηδέν καθώς το n, ενώ αν an=o(1) τότε an0.

Θεώρημα 13.1 (Θεώρημα de Moivre-Laplace) Έστω μια ακολουθία {Xn} από ανεξάρτητες τυχαίες μεταβλητές X1,X2, που έχουν όλες κατανομή Bern(p), και έστω Sn το άθροισμα τους Sn=X1+X2++Xn.

Για κάθε y, καθώς n έχουμε την εξής προσέγγιση για την πυκνότητα του Sn:


Pr(Sn=np+ynp(1-p)) 12πnp(1-p)exp(-y2/2).
(13.6)

Παρατηρήσεις:

  1. 1.

    Αν και το αποτέλεσμα του θεωρήματος έχει διαφορετική μορφή από εκείνη της γενικής περίπτωσης του Κ.Ο.Θ. στο Κεφάλαιο 12, η οποία αφορούσε το κανονικοποιημένο άθροισμα,


    S¯n=1np(1-p)i=1n(Xi-p),

    σημειώνουμε πως η έκφραση (13.6) είναι ισχυρότερη από τη σύγκλιση των αντίστοιχων συναρτήσεων κατανομής όπως στο Θεώρημα 12.2. Συγκεκριμένα, ένας απλός (αλλά αρκετά τεχνικός και άνευ ιδιαιτέρου ενδιαφέροντος) υπολογισμός βασισμένος στις απλές ιδιότητες του ορισμού του ολοκληρώματος Riemann, αποδεικνύει πως πράγματι η (13.6) συνεπάγεται ότι η συνάρτηση κατανομής των S¯n τείνει στην Φ(x).

    Το βασικό περίγραμμα αυτού του υπολογισμού έχει ως εξής. Ξεκινάμε παρατηρώντας ότι, για οποιοδήποτε x,


    Pr(S¯nx) = Pr(Sn-npnp(1-p)x)


    = Pr(Snnp+xnp(1-p))


    = k=0np+xnp(1-p)Pr(Sn=k).

    Αντικαθιστώντας τώρα την ασυμπτωτική έκφραση της πυκνότητας Pr(Sn=k) του Sn από την (13.6), και εξετάζοντας με λίγη προσοχή το πιο πάνω άθροισμα, εύκολα διαπιστώνουμε ότι, για μεγάλα n, κατά προσέγγιση ισούται με,


    Pr(S¯nx) 12π-yx1np(1-p)exp(-y2/2)


    12π-xexp(-y2/2) dy,

    όπου στο παραπάνω άθροισμα τα διαδοχικά y που αθροίζονται έχουν μεταξύ τους απόσταση 1/np(1-p), άρα κάθε όρος του αθροίσματος ισούται με το μήκος ενός διαστήματος επί την τιμή της συνάρτησης exp(-y2/2) σε εκείνο το διάστημα. Συνεπώς η τελική προσέγγιση προκύπτει από τον ορισμό του ολοκληρώματος Riemann.

  2. 2.

    Για την απόδειξη του θεωρήματος θα χρειαστούμε την ακριβή μορφή του τύπου του Stirling, όπως δίνεται στη σημείωση που ακολουθεί το Λήμμα 7.1. Καθώς το n:


    n!2πnnne-n.
    (13.7)
Απόδειξη:

Η βασική ιδέα της απόδειξης είναι απλή: Θα εφαρμόσουμε τον τύπο του Stirling στην πυκνότητα της διωνυμικής κατανομής. Κατ’ αρχάς, λοιπόν, παρατηρούμε πως SnΔιων(n,p). Για λόγους ευκολίας, γράφουμε q=1-p, και ορίζουμε μια ακολουθία ακεραίων kn=np+xn, για κάθε n1, όπου τα {xn} είναι τέτοια ώστε η ακολουθία {xn/n} να είναι φραγμένη.

Χρησιμοποιώντας τον τύπο της πυκνότητας της διωνυμικής κατανομής έχουμε,


Pr(Sn=kn) = (nkn)pknqn-kn


= n!kn!(n-kn)!pnp+xnqnq-xn


= n!(np+xn)!(nq-xn)!pnp+xnqnq-xn,

εφαρμόζοντας την ακριβέστερη μορφή του τύπου του Stirling όπως δίνεται στη (13.7) βρίσκουμε,


Pr (Sn=kn)


2πnnne-npnp+xnqnq-xn2πnp+xn(np+xn)(np+xn)e-(np+xn)2πnq-xn(nq-xn)(nq-xn)e-(nq-xn),

και απλοποιώντας,


Pr(Sn=kn)

12πn(np+xn)(nq-xn)exp{(-np-xn)log(1+xnnp)+(-nq+xn)log(1-xnnq)}.

Στη συνέχεια θα απλοποιήσουμε περαιτέρω την έκφραση που βρίσκεται στον εκθέτη της τελευταίας παραπάνω έκφρασης. Χρησιμοποιώντας το απλό αποτέλεσμα που δίνεται στη σχέση (13.9) του Λήμματος 13.1 παρακάτω, ο εκθέτης αυτός ισούται με,


-(xn +np)(xnnp-xn22n2p2+o(xn2n2p2))+(nq-xn)(xnnq+xn22n2q2+o(xn2n2q2))


=-xn2np-xn+xn32n2p2+xn22np+o(xn3n2p2)+o(xn2np)


+xn-xn2nq+xn22nq-xn32n2q2+o(xn2nq)+o(xn3n2q2),

όπου παρατηρούμε πως, από την υπόθεσή μας ότι η ακολουθία {xn/n} είναι φραγμένη, προκύπτει πως το άθροισμα των τεσσάρων όρων της μορφής o() παραπάνω ισούται με έναν όρο που τείνει στο μηδέν. Άρα, ο εκθέτης που εξετάζουμε τελικά ισούται με,


xn2n(-1p+12p-1q+12q)+o(1)=-xn22npq+o(1),

και, αντικαθιστώντας στην προηγούμενη έκφραση για την πυκνότητα του Sn, έχουμε,


Pr(Sn=kn) 12πn(np+xn)(nq-xn)exp[-xn22npq+o(1)]
(13.8)


12πnpqexp[-xn22npq].

Τώρα μπορούμε να εφαρμόσουμε την πιο πάνω σχέση στην περίπτωση όπου το k(n) είναι της μορφής k(n)=np+ynpq για κάποια σταθερά y, το οποίο είναι προφανώς της μορφής k(n)=np+xn που έχουμε υποθέσει. Σε αυτή την περίπτωση, η (13.8) μας δίνει,


Pr(Sn=np+ynpq)12πnpqexp(-y2/2),

αποδεικνύοντας το θεώρημα.

Λήμμα 13.1

Καθώς n,


log(1+1n)=1n-12n2+o(1n2),

και, κατά συνέπεια, για οποιαδήποτε ακολουθία {an} που τείνει στο άπειρο παρομοίως έχουμε,


log(1+1an)=1an-12an2+o(1an2).
(13.9)

Απόδειξη:

Η σχέση (13.9) είναι προφανής συνέπεια της πρώτης πρότασης του λήμματος, οπότε αρκεί να δείξουμε ότι:


limnlog(1+1n)-1n+12n21n2=0.

Σε αυτό το όριο εμφανίζεται απροσδιοριστία της μορφής 0/0, η οποία μπορεί να αφαιρεθεί αν κάνουμε χρήση του κανόνα του L’Hôpital. Πράγματι, τότε έχουμε,


limnlog(1+1n)-1n+12n21n2 = limn11+1/n(-1/n2)+1/n2-1/n3(-2/n3)


= limnn32[1n(n+1)+1n3-1n2]


= limn12(n+1)=  0,

άρα αποδείξαμε το ζητούμενο.

13.4 To θεώρημα του Lindeberg

Στην τελευταία αυτή ενότητα του κεφαλαίου, θα δώσουμε μια πλήρη απόδειξη του Κ.Ο.Θ., και μάλιστα κάτω από γενικές συνθήκες. Ακολουθώντας τις βασικές γραμμές μιας απόδειξης του Lindeberg (1922), θα αποδείξουμε τη γενική μορφή του Κ.Ο.Θ. όπως ακριβώς είναι διατυπωμένο στο Θεώρημα 12.2 του Κεφαλαίου 12. Όπως αναφέραμε πιο πάνω, αν και η απόδειξη είναι μακροσκελής, δεν απαιτεί τη χρήση ιδιαίτερων μαθηματικών εργαλείων πέρα από κάποια απλά αποτελέσματα του διαφορικού λογισμού για συναρτήσεις μίας μεταβλητής. Επιπλέον, έχει το πλεονέκτημα ότι εύκολα γενικεύεται σε πολλές περιπτώσεις ακολουθιών τυχαίων μεταβλητών οι οποίες δεν ικανοποιούν τις παρούσες συνθήκες. Τέτοια θέματα, όμως, δεν θα μας απασχολήσουν εδώ περαιτέρω.

Απόδειξη του Lindeberg για το Κ.Ο.Θ.:

Χωρίζουμε την απόδειξη σε έξι βήματα, χάριν ευκολίας στην ανάγνωση και την κατανόησή της. Όπως θα καταστεί σαφές, το σημαντικότερο και πιο πρωτότυπο βήμα είναι το πέμπτο.

Θυμίζουμε τις υποθέσεις του Θεωρήματος 12.2: Οι τυχαίες μεταβλητές {Xn} είναι ανεξάρτητες, έχουν όλες την ίδια κατανομή και, κατά συνέπεια, έχουν κοινή μέση τιμή μ=E(Xi) και διασπορά σ2=Var(X), για κάθε i. Ο στόχος μας είναι να δείξουμε ότι, για κάθε x,


Pr(S¯Nx)=Pr(1σNi=1N(Xi-μ)x)Φ(x),καθώςN.
(13.10)

Βημα 1. Ισχυριζόμαστε πως αρκεί να δείξουμε τη (13.10) για την περίπτωση μ=0 και σ2=1: Έστω ότι, για οποιαδήποτε ακολουθία ανεξάρτητων Τ.Μ. {Yi} με μέση τιμή μηδέν και διασπορά ίση με ένα, γνωρίζουμε πως,


Pr(1Ni=1NYix)Φ(x),καθώςN.
(13.11)

Δεδομένης της ακολουθίας {Xn} που μας ενδιαφέρει, αν ορίσουμε τις νέες Τ.Μ. Yn=Xn-μσ, για n=1,2,, τότε (βλ. Παρατήρηση 2 στην Ενότητα 9.2 και Θεώρημα 15.1 στο Κεφάλαιο 15) οι {Yn} είναι ανεξάρτητες, και, από τις ιδιότητες των Θεωρημάτων 6.1 και 11.2, επίσης έχουμε,


E(Yi) = E(Xi-μσ)=E(Xi)-μσ=  0

καιVar(Yi) = Var(Xi-μσ)=1σ2Var(Xi)=  1.

Μπορούμε άρα να εφαρμόσουμε τη (13.11) στις {Yn}, η οποία αμέσως μας δίνει τη (13.10).


Βημα 2. Έστω οι ανεξάρτητες Τ.Μ. {Yn}, όλες με την ίδια κατανομή και με μ=E(Yi)=0 και σ2=Var(Yi)=1 για κάθε i. Συμβολίζουμε με T¯N το κανονικοποιημένο άθροισμά τους,


T¯N=1Ni=1NYi,

και με FN(x) τη συνάρτηση κατανομής του T¯N(x). Τότε η ζητούμενη σχέση (13.11) γίνεται,


FN(x)=Pr(T¯Nx)Φ(x),καθώςN.
(13.12)

Έστω τώρα ZN(0,1) με συνάρτηση κατανομής Φ(x). Όπως στην Άσκηση 2 του Κεφαλαίου 7, ορίζουμε, για κάθε x, τις δείκτριες συναρτήσεις, hx:{0,1} ως,


hx(y)={1,ανyx,0,ανy>x,
(13.13)

και παρατηρούμε πως οι FN(x) και Φ(x) μπορούν να εκφραστούν, αντίστοιχα, ως,


FN(x)=E[hx(T¯N)]καιΦ(x)=E[hx(Z)].

Άρα, το ζητούμενό μας είναι να αποδείξουμε πως,


E[hx(T¯N)]E[hx(Z)],καθώςN,
(13.14)

για κάθε δείκτρια συνάρτηση hx της μορφής (13.13).


Βημα 3. Εδώ ισχυριζόμαστε πως, αντί να αποδείξουμε τη σύγκλιση της σχέσης (13.14) για κάθε δείκτρια συνάρτηση hx(y), αρκεί να αποδείξουμε πως,


E[h(T¯N)]E[h(Z)],καθώςN,
(13.15)

για όλες τις συναρτήσεις h: οι οποίες ικανοποιούν: (1.) Η τρίτη παράγωγος h′′′(y) υπάρχει για όλα τα y και (2.) Για κάποιο M>0, η h(y)=0 για όλα τα y[-M,M]. Το ότι η (13.15) πράγματι ισχύει είναι το πιο ενδιαφέρον μέρος της απόδειξης και θα το δείξουμε στο πέμπτο βήμα. Το ότι η (13.15) για όλες αυτές τις συναρτήσεις είναι αρκετή για να αποδειχθεί η ζητούμενη σύγκλιση (13.14) για κάθε x είναι το λιγότερο ενδιαφέρον μέρος της απόδειξης, και θα δειχθεί στο τελευταίο βήμα.

Παρατηρούμε πως, αν η h(y) ικανοποιεί τις δύο παραπάνω συνθήκες, τότε και η h(y) και οι τρεις πρώτοι παράγωγοί της είναι φραγμένες συναρτήσεις. Επιπλέον, από το ανάπτυγμα Taylor έχουμε ότι, για κάθε x,y,


h(x+y)=h(x)+yh(y)+y22h′′(y)+y33h′′′(ξ),

για κάποιο ξ μεταξύ των τιμών x και x+y. Το ότι η h′′′(y) είναι φραγμένη σημαίνει πως υπάρχει κάποια σταθερά C3< τέτοια ώστε |h′′′(z)|C3 για όλα τα z. Οπότε, δεδομένου αυθαίρετου ϵ>0, αν θέσουμε δ=3ϵ/C3>0, το παραπάνω ανάπτυγμα μας δίνει,


|h(x+y)-h(x)-yh(y)-y22h′′(y)| y2C3|y|3
(13.16)


{ϵy2,αν|y|<δ,Cy2,για όλα ταy,


ϵy2+Cy2[1-hδ(|y|)],

όπου η σταθερά C=MC3/3<, με M το φράγμα που έχουμε από το γεγονός ότι η h(y) ικανοποιεί τη δεύτερη από τις παραπάνω συνθήκες, και όπου η hδ είναι δείκτρια συνάρτηση της μορφής που ορίσαμε στη (13.13).


Βημα 4. Πριν προχωρήσουμε στο πέμπτο και σημαντικότερο βήμα, θυμίζουμε μια απλή ιδιότητα που είδαμε, στην περίπτωση των διακριτών Τ.Μ., στην Άσκηση 3 του Κεφαλαίου 7: Έστω μια οποιαδήποτε διακριτή Τ.Μ. V τέτοια ώστε E(|V|)<. Δεδομένης μιας δείκτριας συνάρτησης hx όπως στα προηγούμενα δύο βήματα, για οποιοδήποτε δεδομένο x>0, ορίζουμε επίσης τη συμπληρωματική δείκτρια συνάρτηση,


Hx(v)=1-hx(v)={1,ανv>x,0,ανvx.
(13.17)

Από το αποτέλεσμα της Άσκησης 3 του Κεφαλαίου 7, με Y=|V|, έχουμε,


limxE[|V|Hx(|V|)]=0.

Επιπλέον, στην Άσκηση 4 στο τέλος αυτού του κεφαλαίου θα δείξουμε ότι το ίδιο ισχύει αν η V είναι συνεχής. Και μια και το ίδιο ακριβώς αποτέλεσμα μπορεί να εφαρμοστεί στη V2, αν θεωρήσουμε ότι ικανοποιεί E(V2)<, έχουμε παρομοίως ότι, για οποιαδήποτε (συνεχή ή διακριτή) Τ.Μ. με Ε(V2)<,


limxE(V2Hx(|V|))=limxE(V2Hx2(V2))=0,
(13.18)

γεγονός το οποίο θα χρησιμοποιήσουμε παρακάτω.


Βημα 5. Σε αυτό το βήμα θα δούμε το συλλογισμό που βρίσκεται στην καρδιά της απόδειξης του Lindeberg. Θα αποδείξουμε τη σχέση (13.15) όπως απαιτείται από το τρίτο βήμα. Έστω λοιπόν μια αυθαίρετη συνάρτηση h: που ικανοποιεί τις δύο συνθήκες του τρίτου βήματος. Επιπλέον, ορίζουμε τις ανεξάρτητες Τ.Μ. Z1,Z2,,ZN με κάθε ZiN(0,1).

Από την τέταρτη ιδιότητα του Θεωρήματος 12.1, ξέρουμε ότι το κανονικοποιημένο άθροισμα R¯N=1Ni=1NZi των Zi έχει κατανομή R¯NN(0,1). Άρα, το ζητούμενό μας είναι να δείξουμε πως, καθώς N,


E[h(T¯N)]-E[h(R¯N)]=E{h[1Ni=1NYi]}-E{h[1Ni=1NZi]}0,

ή, θέτοντας, για ευκολία, Yi=Yi/N και Zi=Zi/N, ότι, καθώς N,


ΔN=|E{h[i=1NYi]}-E{h[i=1NZi]}|0.
(13.19)

Η κεντρική ιδέα της απόδειξης είναι η πιο κάτω έξυπνη αναπαράσταση, όπου αντικαθιστούμε έναν-έναν τους όρους Yi του αθροίσματος με τις αντίστοιχες κανονικές Τ.Μ.:


ΔN = |k=1N(E{h[i=1kYi+i=k+1NZi]}-E{h[i=1k-1Yi+i=kNZi]})|


k=1N|E{h[i=1kYi+i=k+1NZi]}-E{h[i=1k-1Yi+i=kNZi]}|


= k=1N|E{h[(i=1k-1Yi+i=k+1NZi)+Yk]-h[(i=1k-1Yi+i=k+1NZi)+Zk]}|.

Δεδομένου αυθαίρετου ϵ>0, χρησιμοποιώντας δύο φορές το φράγμα που βρήκαμε στη σχέση (13.16) από το ανάπτυγμα Taylor, ο κάθε όρος στο τελευταίο πιο πάνω άθροισμα μπορεί να εκφραστεί ως,


E {(Yk-Zk)h[i=1k-1Yi+i=k+1NZi]}+12E{(Yk2-Zk2)h′′[i=1k-1Yi+i=k+1NZi]}


+E(Ak)+E(Bk),
(13.20)

όπου οι όροι των «υπολοίπων» Ak και Bk που προέρχονται από το ανάπτυγμα Taylor ικανοποιούν,


|Ak| ϵYk2+CYk2Hδ(|Yk|)

και|Bk| ϵZk2+CZk2Hδ(|Zk|),

με Hδ τη συμπληρωματική δείκτρια συνάρτηση που ορίσαμε στην (13.17).

Η κρίσιμη παρατήρηση σε αυτό το σημείο είναι πως, λόγω της ανεξαρτησίας των Τ.Μ. Yi και Zi, και επειδή όλες αυτές οι Τ.Μ. έχουν μέση τιμή μηδέν και ίδια διασπορά 1/N, οι δύο πρώτες μέσες τιμές στην έκφραση (13.20) είναι ίσες με μηδέν. Οπότε, αντικαθιστώντας,


ΔN k=1N{ϵE(Yk2)+CE[Yk2Hδ(|Yk|)]+ϵE(Zk2)+CE[Zk2Hδ(|Zk|)]}


=(a) ϵk=1N[E(Yk2N)+E(Zk2N)]+Ck=1N[1NE(Yk2Hδ(|Yk|N))+1NE(Zk2Hδ(|Zk|N))]


=(b) 2ϵ+CNk=1N[E(Yk2HNδ(|Yk|))+E(Zk2HNδ(|Zk|))]


=(c) 2ϵ+C[E(Y12HNδ(|Y1|))+E(Z12HNδ(|Z1|))],

όπου για την ισότητα (a) αντικαταστήσαμε τους ορισμούς των Yk,Zk, για την (b) χρησιμοποιήσαμε το γεγονός ότι όλες αυτές οι Τ.Μ. έχουν μέση τιμή μηδέν και διασπορά ένα και την παρατήρηση πως, εξ ορισμού, Hδ(|a|/N)=HNδ(|a|), και για την (c) χρησιμοποιήσαμε το ότι όλοι οι όροι του τελευταίου αθροίσματος είναι ίδιοι για κάθε k.

Εφαρμόζοντας τώρα το αποτέλεσμα (13.18) του τέταρτου βήματος πιο πάνω, έχουμε πως,


lim supNΔN2ϵ,

και, αφού το ϵ>0 ήταν αυθαίρετο, έχουμε τελικά αποδείξει το ζητούμενο αποτέλεσμα της σχέσης (13.19): limNΔN=0.


Βημα 6. Το μόνο που απομένει να κάνουμε είναι να τεκμηριώσουμε τον ισχυρισμό του βήματος 3, δηλαδή ότι αν,


E[h(T¯N)]E[h(Z)],καθώςN,

για όλες τις συναρτήσεις h: για τις οποίες η τρίτη παράγωγος h′′′(y) υπάρχει για όλα τα y, και h(y)=0 για όλα τα y[-M,M], για κάποιο M>0, τότε έχουμε και ότι,


E[hx(T¯N)]E[hx(Z)],καθώςN,
(13.21)

για κάθε δείκτρια συνάρτηση hx της μορφής (13.13).

Η απόδειξη αυτού του ισχυρισμού είναι κυρίως τεχνική και ελάχιστα σχετίζεται με ιδέες και εργαλεία των πιθανοτήτων. Δεν θα παρεξηγήσουμε λοιπόν τους αναγνώστες που θα τη δεχτούν χωρίς να τη διαβάσουν, και συνεχίζουμε μόνο για τους πιο φανατικούς της μαθηματικής ανάλυσης.

Έστω μια δείκτρια συνάρτηση hx για κάποιο δεδομένο x. Θα προσεγγίσουμε την hx(y) μέσω της ακολουθίας συναρτήσεων {sm}, όπου, για m>|x|+1,


sm(t)={0,ανt-m-1m,A-1-m(t+m)1exp(-1z(1-z))𝑑z,αν-m-1m<t<-m,1,αν-mtx-1m,A-1m(t-x)+11exp(-1z(1-z))𝑑z,ανx-1m<t<x,0,ανtx,

και η σταθερά A=01exp(-1z(1-z))𝑑z. Από τον ορισμό της είναι εύκολο να διαπιστώσουμε ότι, για μεγάλα mη sm(y) προσεγγίζει όλο και περισσότερο την hx(y): Καθώς το m μεγαλώνει, αφενός το διάστημα [-m,x-1/m] στο οποίο η sm(y)=1 προσεγγίζει όλο και περισσότερο το αντίστοιχο διάστημα (-,x] όπου η hx(y)=1, και αφετέρου, τα διαστήματα όπου sm(y) παίρνει τιμές αυστηρά μεταξύ 0 και 1 γίνονται όλο και μικρότερα ώσπου στο όριο εξαφανίζονται. Ένα παράδειγμα αυτής της συμπεριφοράς φαίνεται στο Σχήμα 13.1, όπου, για την περίπτωση x=0, έχουμε σχεδιάσει τα γραφήματα των συναρτήσεων sm(y) για m=2 και m=4.

Σχήμα 13.1: Τα γραφήματα των συναρτήσεων sm(t) στην περίπτωση x=0, για m=2 (κάτω) και για m=4 (επάνω). Στην απόδειξή η ακολουθία {sm} χρησιμοποιείται ως προσέγγιση της δείκτριας συνάρτησης hx(t), της οποίας το γράφημα αναπαρίσταται με τη διακεκομμένη γραμμή.

Από τον ορισμό της sm προφανώς έχουμε sm(t)=0 για t[-(m+1),m+1] και εύκολα μπορούμε να διαπιστώσουμε ότι η τρίτη της παράγωγος sm′′′(t) υπάρχει για κάθε t. Άρα για κάθε δεδομένο m, από το προηγούμενο βήμα έχουμε ότι,


E[sm(T¯N)]E[sm(Z)],καθώςN.
(13.22)

Επιπλέον, έχουμε 0sm(t)sm+1(t)hx(t) για κάθε m και κάθε t, αλλά αφού sm(t)=1 για όλα τα t[-m,x-1/m], έχουμε και ότι sm(t)hx-1/m(t)-h-m(t), οπότε,


E[sm(Z)]E[hx-1/m(Z)-h-m(Z)]=Φ(x-1/m)-Φ(-m).

Άρα, δεδομένου αυθαίρετου ϵ>0, αφού η Φ(z) είναι συνεχής και limz-Φ(z)=0, μπορούμε να επιλέξουμε m0 αρκετά μεγάλο ώστε να έχουμε E[sm(Z)]Φ(x)-ϵ για όλα τα mm0. Συνδυάζοντας τις παραπάνω παρατηρήσεις, προκύπτει ότι,


lim infNE[hx(T¯N)]lim infNE[sm(T¯N)]=E[sm(Z)]Φ(x)-ϵ=E[hx(Z)]-ϵ,

για κάθε mm0. Και εφόσον το ϵ>0 ήταν αυθαίρετο, έχουμε ότι,


lim infNE[hx(T¯N)]E[hx(Z)]-ϵ.
(13.23)

Τέλος (επιτέλους!), για να δείξουμε το αντίστοιχο άνω φράγμα, παρατηρούμε ότι, για κάθε m και t, sm(t)hx-1/m(t)-h-m(t), οπότε,


E[hx-1/m(T¯N)]E[sm(T¯N)]+E[h-m(T¯N)].

Για τον τελευταίο όρο, χρησιμοποιώντας το γεγονός ότι το T¯N έχει μέση τιμή μηδέν και διασπορά ίση με ένα, και εφαρμόζοντας ανισότητα Chebychev, έχουμε,


E[h-m(T¯N)]=Pr(T¯N-m)Pr(|T¯N|m)E(Var(T¯N))m2=1m2,

οπότε, αντικαθιστώντας,


E[hx-1/m(T¯N)]E[sm(T¯N)]+1m2.

Παίρνοντας το όριο N, από το αποτέλεσμα (13.22) του τρίτου βήματος,


lim supNE[hx-1/m(T¯N)]E[sm(Z)]+1m2E[hx(Z)]+1m2,

και εφόσον αυτή η σχέση ισχύει για κάθε x και κάθε m, αντικαθιστώντας το x με το x+1/m,


lim supNE[hx(T¯N)]E[hx+1/m(Z)]+1m2Φ(x+1/m)+1m2.

Άρα, δεδομένου αυθαίρετου ϵ>0, από το γεγονός ότι η Φ(x) είναι συνεχής συνάρτηση, μπορούμε να επιλέξουμε m1 αρκετά μεγάλο ώστε 1/m2ϵ/2 και Φ(x+1/m)Φ(x)+ϵ/2, για κάθε mm1. Τότε,


lim supNE[hx(T¯N)]Φ(x)+ϵ=E[hx(Z)]+ϵ,

και επειδή το ϵ>0 ήταν αυθαίρετο, έχουμε τελικά αποδείξει ότι,


lim supNE[hx(T¯N)]E[hx(Z)].
(13.24)

Ο συνδυασμός των αποτελεσμάτων (13.23) και (13.24) συνεπάγεται ότι,


limNE[hx(T¯N)]=E[hx(Z)],

το οποίο αποδεικνύει τον ισχυρισμό του τρίτου βήματος και ολοκληρώνει την απόδειξη.

13.5 Ασκήσεις

  1. 1.

    Σύγκλιση κατά πιθανότητα σύγκλιση κατά κατανομή. Αποδείξτε πως, αν οι Τ.Μ. {Xn} τείνουν κατά πιθανότητα σε κάποια Τ.Μ. X, τότε τείνουν στη X και κατά κατανομή.

  2. 2.

    Σύγκλιση κατά κατανομή ⇏ σύγκλιση κατά πιθανότητα. Εδώ θα δούμε πως η αντίστροφη πρόταση εκείνης που αποδείξαμε στην προηγούμενη άσκηση δεν ισχύει πάντα. Έστω δύο ανεξάρτητες Bern(1/2) Τ.Μ. Y,Z. Ορίζουμε την ακολουθία Τ.Μ. Xn=Y+1nZ, για κάθε n=1,2,. Αποδείξτε πως οι {Xn}:

    1. (α’)

      Συγκλίνουν κατά κατανομή στην Y.

    2. (β’)

      Συγκλίνουν κατά κατανομή στη Z.

    3. (γ’)

      Συγκλίνουν κατά πιθανότητα στην Y.

    4. (δ’)

      Δεν συγκλίνουν κατά πιθανότητα στη Z.

    Άρα έχουμε XnZ κατά κατανομή αλλά όχι κατά πιθανότητα.

  3. 3.

    Σύγκλιση κατά κατανομή και κατά πιθανότητα σε σταθερά. Αντίθετα με τη γενική περίπτωση της προηγούμενης άσκησης, εδώ θα δείξετε πως, στην ειδική περίπτωση που μια ακολουθία τυχαίων μεταβλητών {Xn} συγκλίνει κατά κατανομή σε μια σταθερά c, τότε οι {Xn} συγκλίνουν και κατά πιθανότητα στην c.

  4. 4.

    Η ουρά της μέσης τιμής μιας συνεχούς Τ.Μ. Έστω μια συνεχής Τ.Μ. Y η οποία παίρνει πάντα τιμές μεγαλύτερες ή ίσες του μηδενός και έχει πεπερασμένη μέση τιμή E(Y). Όπως είδαμε και στην Άσκηση 3 του Κεφαλαίου 7 για διακριτές Τ.Μ., δείξτε και εδώ πως, καθώς το x,


    E[YHx(Y)]0,

    όπου Hx(y) είναι οι συμπληρωματικές δείκτριες συναρτήσεις τις οποίες ορίσαμε στη σχέση (13.17).

  5. 5.

    Σύγκλιση ως προς την απόσταση χ2. Στην Άσκηση 18 του Κεφαλαίου 6, για δύο οποιεσδήποτε διακριτές πυκνότητες P(x) και Q(x) στο ίδιο πεπερασμένο σύνολο S, ορίσαμε τη χ2-απόσταση της Q από την P ως,


    dχ2(P,Q)=xS(P(x)-Q(x))2Q(x).

    Έστω μια ακολουθία διακριτών Τ.Μ. {Xn} όπου το κάθε Xn έχει πυκνότητα Pn στο πεπερασμένο σύνολο τιμών S, και έστω μια άλλη Τ.Μ. X με πυκνότητα P στο S.

    Αποδείξτε πως αν, καθώς n, οι αποστάσεις dχ2(Pn,P)0, τότε και οι Τ.Μ. {Xn} τείνουν στη X κατά κατανομή.

  6. 6.

    Σύγκλιση της διωνυμικής στην Poisson. Στο Πόρισμα 7.1 του Κεφαλαίου 7 δείξαμε πως, αν για κάθε n η Pn(k) είναι η πυκνότητα μιας Τ.Μ. Xn με Διων(n,λ/n) κατανομή και P(x) είναι η πυκνότητα της ZPoisson(λ), τότε οι Τ.Μ. {Xn} τείνουν στη Z υπό την έννοια ότι οι πυκνότητες Pn συγκλίνουν στην P:


    limnPn(k)=P(k),για κάθεk=0,1,.
    (13.25)
    1. (α’)

      Δείξτε ότι οι {Xn} τείνουν στη Z και κατά κατανομή.

    2. (β’)

      Γενικότερα, έστω {Xn} μια οποιαδήποτε ακολουθία Τ.Μ. με αντίστοιχες πυκνότητες Pn(k) και σύνολο τιμών S={0,1,2,}. Δείξτε πως, αν οι πυκνότητες Pn συγκλίνουν όπως στη (13.25) στην πυκνότητα P κάποιας Τ.Μ. Z με το ίδιο σύνολο τιμών S, τότε οι {Xn} τείνουν στη Z και κατά κατανομή.



Κεφάλαιο 14 Παραδείγματα εφαρμογών στη στατιστική

[Επιστροφή στα περιεχόμενα]


Η στατιστική επιστήμη είναι μία από τις σημαντικότερες περιοχές στις οποίες εφαρμόζονται οι ιδέες και τα μαθηματικά αποτελέσματα των πιθανοτήτων. Στη στατιστική, οι πιθανότητες δεν χρησιμοποιούνται απλά ως μια συλλογή τεχνικών εργαλείων για την επίλυση προβλημάτων, αλλά αποτελούν αναπόσπαστο στοιχείο της ίδιας της θεμελίωσής της: Όπως, γενικώς, λέμε πως τα μαθηματικά αποτελούν τη γλώσσα των θετικών επιστημών, έτσι και η θεωρία πιθανοτήτων είναι η γλώσσα της στατιστικής.

Σε αυτό το κεφάλαιο έχουμε δύο στόχους. Ο πρώτος είναι να αναδείξουμε τη σύνδεση των πιθανοτήτων με κάποιους από τους βασικούς πυλώνες της στατιστικής, και ο δεύτερος είναι να παρουσιάσουμε, κυρίως μέσω επιλεγμένων παραδειγμάτων, μια συνοπτική εισαγωγή στον στατιστικό τρόπο σκέψης.

Σε καθεμία από τις Ενότητες 14.114.2 και 14.3, θα παρουσιάσουμε ένα θέμα της κλασικής στατιστικής και θα δείξουμε τον κεντρικό ρόλο που παίζουν στην ανάλυσή του κάποια από τα αποτελέσματα και τις μεθόδους που έχουμε ήδη συναντήσει σε προηγούμενα κεφάλαια. Ιδιαίτερα στις Ενότητες 14.1 (διαστήματα εμπιστοσύνης) και 14.2 (έλεγχοι υποθέσεων), θα εξετάσουμε προβλήματα των οποίων η περιγραφή, η ανάλυση και η λύση θα αναπτυχθούν με τέτοιον τρόπο ώστε η κύρια έμφαση να είναι στο ευρύτερο πλαίσιο και στη γενική μεθοδολογία με την οποία αντιμετωπίζονται τα περισσότερα ερωτήματα που προκύπτουν στις αντίστοιχες περιοχές.


Η στατιστική είναι, δυστυχώς, μια πολύ – και πολύ άδικα – δυσφημισμένη επιστήμη. Αν και το παρόν βιβλίο μάλλον δεν είναι το καταλληλότερο βήμα, δεν μπορούμε να αντισταθούμε στον πειρασμό να υπενθυμίσουμε τον τεράστιο βαθμό στον οποίο η στατιστική επηρεάζει την καθημερινότητα όλων μας: Από τις κλινικές μελέτες της ιατρικής που μας έχουν διπλασιάσει τον μέσο όρο ζωής, μέχρι τις μεγαλύτερες πολιτικές αποφάσεις, οι οποίες σχεδόν πάντα βασίζονται, εν μέρει τουλάχιστον, σε στατιστικά συμπεράσματα οικονομικών προβλέψεων.

Είναι σχεδόν αδύνατον να διαβάσει κανείς τους κύριους τίτλους ενός ενημερωτικού σάιτ, να δει ειδήσεις στην τηλεόραση ή να ξεφυλλίσει μια εφημερίδα, χωρίς να συναντήσει όχι μόνο μία, αλλά αρκετές αναφορές σε στατιστικά δεδομένα της Eurostat, αποτελέσματα δημοσκοπήσεων, εντυπωσιακές ανακαλύψεις κλινικών ερευνών για καινούργια φάρμακα και ούτω καθεξής. Από αυτήν τη σκοπιά θα μπορούσε να πει κανείς πως μια έστω στοιχειώδης κατανόηση των βασικών στατιστικών εννοιών είναι απαραίτητη ώστε να μπορεί οποιοσδήποτε να λειτουργήσει ως κανονικός πολίτης στη σημερινή κοινωνία.

Αυτό ήταν, σε γενικές γραμμές, το σκεπτικό μιας επιτροπής διασήμων επιστημόνων οι οποίοι, όταν κλήθηκαν πριν 15 περίπου χρόνια να συμβουλέψουν το αμερικανικό κογκρέσο για το περιεχόμενο της ύλης των μαθηματικών που θα έπρεπε να διδάσκεται στα σχολεία, πρότειναν, στην πέμπτη δημοτικού, αμέσως μετά τα κλάσματα και πριν από οτιδήποτε άλλο, να μαθαίνουν τα παιδιά στατιστική. Αυτό το σκεπτικό έχει επηρεάσει και τη δομή των αποτελεσμάτων που θα δούμε σε αυτό το κεφάλαιο. Αφενός θέλουμε να παρουσιάσουμε μια σειρά από ενδιαφέρουσες εφαρμογές ώστε να εμπλουτιστεί η κατανόησή μας για το αντικείμενο των πιθανοτήτων, και αφετέρου ελπίζουμε η επιλογή και ο τρόπος με τον οποίο θα αναπτυχθούν αυτές οι εφαρμογές να αναδείξει τη σημασία και το ευρύτερο, ενδογενές επιστημονικό ενδιαφέρον της στατιστικής.

Ως «απεριτίφ» για το τι θα ακολουθήσει, και ως προειδοποίηση για το πόσο συχνά προκύπτουν λεπτά ζητήματα στατιστικής φύσης στην πράξη, περιγράφουμε συνοπτικά ένα απλό παράδειγμα στο οποίο θα επανέλθουμε πιο διεξοδικά στην Ενότητα 14.2.


Παράδειγμα 14.1 (Καινούργιο φάρμακο)

Για να ελεγχθεί η αποτελεσματικότητα ενός νέου φαρμάκου, η φαρμακευτική εταιρία που το παρασκευάζει πραγματοποιεί μια προκαταρκτική κλινική μελέτη με 40 ασθενείς. Σε 20 από αυτούς χορηγείται το πραγματικό φάρμακο, και στους υπόλοιπους 20 χορηγείται εικονικό φάρμακο, το λεγόμενο placebo. Μετά από ένα εύλογο χρονικό διάστημα παρατηρούμε ότι το 60% εκείνων που παίρνουν το φάρμακο σημειώνουν βελτίωση, ενώ το αντίστοιχο ποσοστό για εκείνους που παίρνουν το placebo είναι μόνο 40%. Πόσο αξιόπιστη ένδειξη της επιτυχίας του φαρμάκου μπορεί να θεωρηθεί το παραπάνω αποτέλεσμα; Μπορείτε να βρείτε και να τεκμηριώσετε μια ποσοτική απάντηση σε αυτό το ερώτημα;

14.1 Διαστήματα εμπιστοσύνης

Στα Κεφάλαια 9 και 12 είδαμε πολλά παραδείγματα όπου, προκειμένου να εκτιμήσουμε μια άγνωστη ποσότητα, χρησιμοποιήσαμε τον εμπειρικό μέσο όρο,


X¯N=1Ni=1NXi,

N ανεξάρτητων τυχαίων δειγμάτων X1,X2,,XN. Για παράδειγμα:

  • Δημοσκόπηση. Αν σε μια δημοσκόπηση το κάθε Xi περιγράφει την απάντηση ενός ψηφοφόρου για κάποιο συγκεκριμένο κόμμα (Xi=1 αν σκοπεύει να το ψηφίσει, Xi=0 αν όχι), τότε ο εμπειρικός μέσος όρος X¯N μας δίνει μια εκτίμηση για το ποσοστό p των ψήφων που θα πάρει αυτό το κόμμα στις εκλογές.

  • Εκτίμηση πιθανότητας. Γενικότερα, αν τα Xi είναι «δείκτριες» Τ.Μ., δηλαδή το κάθε Xi ισούται με 1 όποτε κάποιο ενδεχόμενο A συμβαίνει και με 0 όποτε όχι, τότε το X¯N μας δίνει μια εκτίμηση της πιθανότητας p=Pr(A) με την οποία συμβαίνει το A.

  • Δημογραφική δειγματοληψία. Όταν επιλέγονται άτομα από έναν πληθυσμό τυχαία και το κάθε Xi αναπαριστά την τιμή κάποιου χαρακτηριστικού που μας ενδιαφέρει – π.χ., το εισόδημα, την ηλικία ή το πλήθος των μελών της οικογένειας του ατόμου i – τότε το X¯N δίνει μια εκτίμηση της μέσης τιμής του αντίστοιχου χαρακτηριστικού του πληθυσμού, δηλαδή του μέσου εισοδήματος, της μέσης ηλικίας, του μέσου μεγέθους της οικογένειας, κλπ.

  • Εμπειρικές μετρήσεις. Σε περιπτώσεις που το ζητούμενο είναι να εκτιμηθεί η μέση τιμή μ κάποιας ποσότητας, όπως για παράδειγμα η μέση διάρκεια μιας τηλεφωνικής κλήσης σε κάποιο δίκτυο, η μέση ατμοσφαιρική θερμοκρασία στην ανταρκτική, η μέση τιμή πώλησης ενός χρηματιστηριακού προϊόντος ή η μέση περιεκτικότητα του νερού της ΕΥΔΑΠ σε μόλυβδο, τότε ο εμπειρικός μέσος όρος X¯N από N μετρήσεις X1,X2,,XN της αντίστοιχης ποσότητας μας δίνει μια εκτίμηση της άγνωστης μέσης τιμής μ=E(Xi).

Σε καθένα από τα παραπάνω παραδείγματα, αν τα Xi είναι επιλεγμένα έτσι ώστε να είναι ανεξάρτητα και να έχουν όλα την ίδια κατανομή, ο Ν.Μ.Α. μάς διαβεβαιώνει πως, για μεγάλα μεγέθη δειγμάτων N:


Ο εμπειρικός μέσος όροςX¯Nμ,με μεγάλη πιθανότητα.

Εδώ μ=E(Xi), η κοινή μέση τιμή των Xi, είναι η ποσότητα που θέλουμε να εκτιμήσουμε. Επιπλέον, στην απόδειξη του Ν.Μ.Α. στο Κεφάλαιο 9 είδαμε πως η εκτίμηση X¯N έχει,


E(X¯N)=μκαιVar(X¯N)=σ2N,
(14.1)

όπου σ2=Var(Xi) είναι η κοινή διασπορά των Xi. Και σύμφωνα με το Κ.Ο.Θ. του Κεφαλαίου 12, το X¯N έχει κατά προσέγγιση κανονική κατανομή. Για μεγάλα N:


Η κατανομή τουX¯NείναιN(μ,σ2N).
(14.2)

Το κύριο αντικείμενο αυτής της ενότητας είναι να εξετασθεί το πώς μπορεί να διατυπωθεί με ακρίβεια το ενδεχόμενο μέγεθος και η πιθανότητα του «στατιστικού σφάλματος» σε τέτοιου είδους εκτιμήσεις.


Παράδειγμα 14.2 (Μια απλή δημοσκόπηση)

Στις εθνικές εκλογές του Ιανουαρίου του 2015, το κόμμα της Νέας Δημοκρατίας (ΝΔ) έλαβε ποσοστό 27.81% επί των (έγκυρων) ψηφοδελτίων. Λίγο πριν τις εκλογές η γνωστή εταιρία δημοσκοπήσεων alco, βασισμένη σε ένα τυχαίο δείγμα N=1000 ψηφοφόρων, ανακοίνωσε, μεταξύ άλλων αποτελεσμάτων, την πρόβλεψη πως το ποσοστό της ΝΔ θα ήταν 30.5% με «στατιστικό σφάλμα» ±3.1% και «διάστημα βεβαιότητας» 95%. Τι ακριβώς σημαίνει στατιστικό σφάλμα και διάστημα βεβαιότητας;

Ας μπούμε για λίγο στην θέση των δημοσκόπων. Έστω p=0.2781 το πραγματικό ποσοστό των ψηφοφόρων της ΝΔ, και έστω X1,X2,,XN οι απαντήσεις N=1000 ατόμων, όπου κάθε Xi=1 αν το άτομο i είναι ψηφοφόρος της ΝΔ, και Xi=0 αν όχι. Λογικά θεωρούμε ότι τα Xi είναι ανεξάρτητες Bern(p) Τ.Μ. και η πρόβλεψή μας βάσει αυτών των στοιχείων είναι ο εμπειρικός μέσος X¯N. Για να είμαστε, τώρα, σε θέση να ανακοινώσουμε τα αποτελέσματά μας στα ΜΜΕ, αναρωτιόμαστε πώς θα μπορούσαμε να βρούμε ένα διάστημα τιμών της μορφής [X¯N-e,X¯N+e], τέτοιο ώστε η πιθανότητα να περιέχει το πραγματικό αποτέλεσμα p να είναι τουλάχιστον 95%. Με άλλα λόγια, πόσο μεγάλο «στατιστικό σφάλμα e» πρέπει να δεχθούμε ώστε το «διάστημα εμπιστοσύνης» [X¯N-e,X¯N+e] να έχει πιθανότητα τουλάχιστον 95%;

Σε αυτό το (ομολογουμένως, υπεραπλουστευμένο) παράδειγμα, όπου ξέρουμε το πραγματικό αποτέλεσμα p, μπορούμε εύκολα να απαντήσουμε, με μια απλή εφαρμογή του Κ.Ο.Θ. [Δείτε την Άσκηση 4 στο τέλος του κεφαλαίου για την πιο ρεαλιστική περίπτωση όπου δεν ξέρουμε εκ των προτέρων το p.] Έστω Y=NX¯N το πλήθος των ψηφοφόρων της ΝΔ στην έρευνά μας, οπότε η YΔιων(N,p). Από το Πόρισμα 12.1, έχουμε ότι η πιθανότητα που μας ενδιαφέρει,


Pr(p[X¯N-e,X¯N+e])=Pr(X¯N[p-e,p+e])=Pr((p-e)NYN(p+e)),

κατά προσέγγιση ισούται με,


Φ (N(p+e)-Np+12p(1-p)N)-Φ(N(p-e)-Np-12p(1-p)N)


=Φ(Ne+12Np(1-p))-Φ(-Ne-12Np(1-p))


=2Φ(Ne+12Np(1-p))-1,

το οποίο, για να ισούται με 95%, πρέπει να έχουμε,


Φ(Ne+12Np(1-p))0.975,δηλαδή,Ne+12Np(1-p)1.96,

όπου χρησιμοποιήσαμε τους πίνακες τιμών της τυπικής κανονικής κατανομής από το Κεφάλαιο 12 για να βρούμε την τιμή z=1.96 για την οποία η Φ(z) είναι όσο το δυνατόν πιο κοντά στο 0.975. Λύνοντας ως προς e βρίσκουμε,


e=1N[1.96Np(1-p)-12]0.0273=2.73%.

Οπότε καταλήγουμε στο εξής συμπέρασμα:

H πρόβλεψή μας είναι πως η ΝΔ θα λάβει ποσοστό p^=X¯N, με διάστημα εμπιστοσύνης p^±2.73%, ή [p^-0.023,p^+0.023], το οποίο έχει επίπεδο εμπιστοσύνης 95%.


Παρατήρηση:
Όπως είδαμε στις σχέσεις (14.1) και (14.2) παραπάνω, η ακρίβεια της εκτίμησης X¯N για τη μέση τιμή μ των Xi περιγράφεται πρωτίστως από τη διασπορά Var(X¯N)=σ2/N, η οποία εξαρτάται από τη διασπορά σ2=Var(Xi) των Xi και το μέγεθος N του δείγματος. Άρα, προκειμένου να είναι σχετικά ακριβής η εκτίμηση X¯Nμ, θα πρέπει είτε το μέγεθος N του δείγματος να είναι σχετικά μεγάλο, είτε η διασπορά σ2 να είναι αντίστοιχα μικρή. Στην Ενότητα 14.3 θα δούμε μια απλή μέθοδο μείωσης της διασποράς, η οποία χρησιμοποιείται κυρίως σε περιπτώσεις προσομοιωμένων δειγμάτων Xi. Στο ακόλουθο παράδειγμα θα δούμε με ποιον τρόπο ο υπολογισμός του διαστήματος εμπιστοσύνης σχετίζεται με την επιλογή του μεγέθους N του δείγματος.

Παράδειγμα 14.3

Για να μετρηθεί η δυσκολία μιας άσκησης, καταγράφηκαν οι χρόνοι Xi, σε λεπτά, που χρειάστηκαν N=114 πρωτοετείς φοιτητές για να τη λύσουν (i=1,2,,N). Υποθέτοντας ότι η τυπική απόκλιση σ=±6 λεπτά του τυχαίου χρόνου που απαιτεί η λύση της άσκησης είναι γνωστή, εκτιμήσαμε τον μέσο χρόνο λύσης μ μέσω του εμπειρικού μέσου X¯N των Xi, ο οποίος βρέθηκε να είναι X¯N=9.31 λεπτά.

Έστω πως θέλουμε να δώσουμε ένα διάστημα εμπιστοσύνης της μορφής [X¯N-e,X¯N+e] για την εκτίμησή X¯N, με επίπεδο εμπιστοσύνης c=90%, δηλαδή θέλουμε να ισχύει ότι,1212Επιλέγουμε το συμβολισμό e για το στατιστικό σφάλμα από το αρχικό γράμμα της αγγλικής λέξης «error», δηλαδή «σφάλμα», και το συμβολισμό c για την πιθανότητα του διαστήματος εμπιστοσύνης από την αγγλική λέξη «confidence» που σημαίνει «εμπιστοσύνη».


Pr(μ[X¯N-e,X¯N+e])=c.
(14.3)

Βάσει του Κ.Ο.Θ., αυτή η πιθανότητα μπορεί να προσεγγιστεί ως,


Pr(μ[X¯N-e,X¯N+e]) = Pr(|X¯N-μ|e)


= Pr(|Nσ(X¯N-μ)|eNσ)


Pr(|Z|eNσ)


= 1-2Φ(-eNσ),

όπου η Z έχει τυπική κανονική κατανομή και χρησιμοποιήσαμε και πάλι την παρατήρηση ότι το κανονικοποιημένο άθροισμα S¯N των Xi μπορεί να εκφραστεί (βλ. (12.3) στο Κεφάλαιο 12) ως,


S¯N=Nσ(X¯N-μ).

Άρα, για να ισχύει η (14.3) πρέπει να έχουμε, 1-2Φ(-eN/σ)=c ή, ισοδύναμα,


eN=-σΦ-1(1-c2),
(14.4)

όπου Φ-1 είναι η αντίστροφη συνάρτηση της τυπικής κανονικής συνάρτησης κατανομής Φ (δηλαδή, Φ-1(x)=z αν και μόνο αν Φ(z)=x). Με τα δεδομένα του προβλήματος, N=114, σ=6 και c=0.9, η (14.4) μας δίνει,


e-6114×Φ-1(0.05)-0.562×(-1.645)0.924,

όπου από τον πίνακα τιμών της τυπικής κανονικής συνάρτησης κατανομής στην Ενότητα 12.4 επιλέξαμε την τιμή -1.645 ως μια καλή προσέγγιση στην Φ-1(0.05), μια που Φ(-1.64)=0.0505 και Φ(-1.65)=0.0495. Άρα, συμπεραίνουμε πως ο μέσος χρόνος για τη λύση της συγκεκριμένης άσκησης είναι 9.31 λεπτά, με «στατιστικό σφάλμα» ±0.924 λεπτά και «επίπεδο εμπιστοσύνης» 90%.

Έστω όμως πως δεν είμαστε ικανοποιημένοι με αυτό το αποτέλεσμα και θέλουμε οπωσδήποτε ένα μικρότερο διάστημα εμπιστοσύνης με απόκλιση e= μισό λεπτό. Προκειμένου να είναι ακριβέστερη η εκτίμηση, πόσο μεγαλύτερο μέγεθος δείγματος είναι απαραίτητο; Αν θέσουμε e=0.5, καταφεύγοντας στη γενική έκφραση (14.4), μπορούμε να λύσουμε ως προς N:


N=[σeΦ-1(1-c2)]2[61/2×(-1.645)]2389.67.

Συνεπώς, προκειμένου να είμαστε σε θέση να δώσουμε ένα διάστημα εμπιστοσύνης της μορφής X¯N±0.5 με επίπεδο εμπιστοσύνης 90%, απαιτούνται τουλάχιστον 390 δείγματα Xi.


Παρατήρηση:
Αν και ο υπολογισμός που οδήγησε στη σχέση (14.4) έγινε με αφορμή το Παράδειγμα 14.3, υπογραμμίζουμε ότι μέχρι εκείνο το σημείο δεν είχε χρησιμοποιηθεί κανένα από τα δεδομένα του συγκεκριμένου προβλήματος. Άρα η συσχέτιση του στατιστικού σφάλματος e με το επίπεδο εμπιστοσύνης c και το μέγεθος του δείγματος N, όπως εκφράζεται από τη (14.4), ισχύει κάτω από γενικές συνθήκες. Οι γενικές συνέπειες αυτής της σχέσης παρατίθενται επιγραμματικά παρακάτω.
Διαστήματα εμπιστοσύνης: Γνωστή διασπορά. Από τα τυχαία δείγματα X1,,XN με γνωστή διασπορά σ2=Var(Xi) υπολογίζουμε τον εμπειρικό μέσο X¯N προκειμένου να εκτιμήσουμε την άγνωστη μέση τιμή μ=E(Xi).
  1. 1. 

    Για το επιθυμητό επίπεδο εμπιστοσύνης 𝒄 βρίσκουμε την τιμή z*=-Φ-1(1-c2). (Στο Σχήμα 14.1 δίνονται οι πιο συνηθισμένες τιμές του z*.)

  2. 2. 

    Αν το μέγεθος του δείγματος N είναι δεδομένο, τότε από τη σχέση (14.4) υπολογίζουμε το μέγεθος του στατιστικού σφάλματος 𝒆,


    e=σz*N,
    (14.5)

    και δίνουμε ως διάστημα εμπιστοσύνης με επίπεδο εμπιστοσύνης 𝒄 ή, πιο απλά, ως 𝒄-διάστημα εμπιστοσύνης, το [𝑿¯𝑵-𝒆,𝑿¯𝑵+𝒆].

  3. 3. 

    Αν το ζητούμενο είναι να επιτευχθεί κάποιο επιθυμητό στατιστικό σφάλμα e, από τη σχέση (14.4) υπολογίζουμε το απαραίτητο μέγεθος του δείγματος 𝑵,


    N=(σz*e)2,
    (14.6)

    ώστε το διάστημα εμπιστοσύνης [X¯N-e,X¯N+e] να έχει επίπεδο εμπιστοσύνης c.

Σχήμα 14.1: Γραφική αναπαράσταση του υπολογισμού της τιμής z*=-Φ-1(1-c2) που αντιστοιχεί στο επίπεδο εμπιστοσύνης c. Στον πίνακα σημειώνονται οι πιο συνηθισμένες τιμές του z*.

Παρατήρηση: Σε ρεαλιστικά προβλήματα όπου η τυπική απόκλιση σ των δειγμάτων συχνά είναι άγνωστη, η «ορθόδοξη» στατιστική πρακτική είναι να εκτιμήσουμε πρώτα τη σ και κατόπιν να υπολογίσουμε το σχετικό διάστημα εμπιστοσύνης βάσει του κανονικοποιημένου αθροίσματος,


S^N=Nσ^(X¯N-μ),

όπου σ^ είναι η εκτίμησή μας για την τυπική απόκλιση των Xi. Αλλά, σε αντίθεση με το S¯N, για το οποίο το Κ.Ο.Θ. μάς λέει πως έχει κατά προσέγγιση κανονική κατανομή, η κατανομή του νέου κανονικοποιημένου αθροίσματος S^N είναι διαφορετική. Αν και δεν θα επεκταθούμε περαιτέρω σε αυτή την κατεύθυνση, θα δούμε έναν πιο απλό (αλλά λιγότερο ακριβή) τρόπο με τον οποίο μπορεί να αντιμετωπιστεί το πρόβλημα της άγνωστης διασποράς σε ορισμένες περιπτώσεις.


Παράδειγμα 14.4

Η αμερικανική περιοδική έκδοση Student Monitor διανέμει ερωτηματολόγια σε N=1200 φοιτητές 100 διαφορετικών πανεπιστημίων των Η.Π.Α. δύο φορές το χρόνο, προκειμένου να καταγράψει τις νέες τάσεις στον τρόπο ζωής τους. Πρόσφατα ανακοίνωσε την εκτίμηση ότι κατά μέσο όρο οι φοιτητές περνούν 15.1 ώρες την εβδομάδα «σερφάροντας» στο διαδίκτυο. Εδώ, αν η τυπική απόκλιση σ του τυχαίου χρόνου Xi που περνά στο διαδίκτυο ο κάθε φοιτητής i ήταν γνωστή, θα μπορούσαμε υπολογίσουμε το στατιστικό σφάλμα e με επίπεδο εμπιστοσύνης c=95% για την εκτίμηση X¯N=15.1 από την έκφραση (14.5) παραπάνω, e=1.96σ/1200.

Ας υποθέσουμε πως, αν και άγνωστη, η διασπορά σ2=Var(Xi) είναι μεταξύ 4 και 7.5, δηλαδή η αντίστοιχη τυπική απόκλιση είναι 2σ7.5. Τότε, από τον παραπάνω υπολογισμό έχουμε ότι το στατιστικό σφάλμα 1.96σ/1200 είναι μεταξύ 0.113 και 0.155, και, προκειμένου να είμαστε σίγουροι για το αποτέλεσμά μας, υιοθετούμε τη χειρότερη περίπτωση, λέγοντας πως η εκτίμηση X¯N=15.1 έχει στατιστικό σφάλμα το πολύ ±0.155 ωρών, με επίπεδο εμπιστοσύνης 95%.

Η ίδια λογική οδηγεί και στην παρακάτω γενική μέθοδο.

Διαστήματα εμπιστοσύνης: Άγνωστη διασπορά. Υπολογίζουμε τον εμπειρικό μέσο X¯N των τυχαίων δειγμάτων X1,X2,,XN προκειμένου να εκτιμήσουμε την άγνωστη μέση τιμή μ=E(Xi).
  1. 1. 

    Από τα δεδομένα του προβλήματος υπολογίζουμε ένα άνω φράγμα σσmax για την τυπική απόκλιση σ=Var(Xi) των Xi.

  2. 2. 

    Για το επιθυμητό επίπεδο εμπιστοσύνης 𝒄 βρίσκουμε την τιμή z*=-Φ-1(1-c2).

  3. 3. 

    Αν το μέγεθος του δείγματος N είναι δεδομένο, τότε μπορούμε να υπολογίσουμε ένα άνω φράγμα για το μέγεθος του στατιστικού σφάλματος 𝒆,


    eσmaxz*N,
    (14.7)

    και να πούμε πως έχουμε 𝒄-διάστημα εμπιστοσύνης (ή διάστημα εμπιστοσύνης με επίπεδο εμπιστοσύνης c) όχι μεγαλύτερο από το [𝑿¯𝑵-𝒆,𝑿¯𝑵+𝒆].

  4. 4. 

    Αν το ζητούμενο είναι να επιτευχθεί κάποιο επιθυμητό στατιστικό σφάλμα e, τότε μπορούμε να υπολογίσουμε ένα άνω φράγμα για το απαραίτητο μέγεθος του δείγματος 𝑵,


    N(σmaxz*e)2,
    (14.8)

    ώστε το διάστημα εμπιστοσύνης [X¯N-e,X¯N+e] να έχει επίπεδο εμπιστοσύνης c.

Οι ασκήσεις στο τέλος του κεφαλαίου περιέχουν αρκετά ακόμα ενδιαφέροντα παραδείγματα διαστημάτων εμπιστοσύνης. Κλείνουμε αυτή την ενότητα με ένα παράδειγμα διαφορετικού τύπου.


Παράδειγμα 14.5

Για μια συγκεκριμένη μετοχή στο χρηματιστήριο, θέλουμε να προβλέψουμε αν η τιμής της την επόμενη μέρα θα ανέβει ή θα πέσει. Έστω Yi=1 αν η τιμή ανέβηκε τη μέρα i και Yi=0 αν έπεσε. (Για ευκολία υποθέτουμε ότι η τιμή δεν μένει ποτέ σταθερή από μέρα σε μέρα· παρότι αυτό δεν είναι απολύτως ακριβές, δεν επηρεάζει την ουσία του προβλήματος.) Σε πολλά εμπειρικά δεδομένα έχει παρατηρηθεί ότι τα στατιστικά χαρακτηριστικά τέτοιων {Yi} είναι σχεδόν ίδια με αυτά μιας ακολουθίας ανεξάρτητων Bern(1/2) Τ.Μ., και γι’ αυτόν το λόγο θεωρείται σχεδόν αδύνατη η πρόβλεψή τους.

Έστω, τώρα, πως κάποιος χρηματιστής ισχυρίζεται ότι μπορεί να προβλέψει τα Yi με ακρίβεια μεγαλύτερη από 50%. Κάτι τέτοιο θα συνεπαγόταν πολύ μεγάλα χρηματικά κέρδη, οπότε θέλουμε να βρούμε έναν τρόπο να ελέγξουμε τον ισχυρισμό του. Του ζητάμε λοιπόν να προβλέψει, για N συνεχόμενες μέρες, αν η τιμή της μετοχής θα ανέβει ή θα πέσει και καταγράφουμε τα αποτελέσματα {Xi}, όπου Xi=1 αν τη μέρα i η πρόβλεψή του ήταν σωστή και Xi=0 αν όχι. Υπάρχει κάποιος τρόπος, βάσει των {Xi}, να επιβεβαιώσουμε ή να απορρίψουμε τον ισχυρισμό του χρηματιστή; Για παράδειγμα, αν μεταξύ N=120 ημερών κατάφερε να προβλέψει σωστά τις 71 (δηλαδή τα 71 από τα Xi είναι 1 και μόνο τα 49 είναι 0), μπορούμε να πούμε πως πράγματι η φαινομενική επιτυχία της πρόβλεψής του δεν δικαιολογείται από τις τυχαίες διακυμάνσεις των τιμών της μετοχής;

Για τέτοιες περιπτώσεις στατιστικών προβλημάτων, στις οποίες η ζητούμενη απάντηση δεν είναι ποσοτική (όπως τα διαστήματα εμπιστοσύνης) αλλά της μορφής ΝΑΙ/ΟΧΙ, απαιτείται η ανάπτυξη μιας διαφορετικής μεθοδολογίας, αυτή των ελέγχων υποθέσεων.

14.2 Έλεγχοι υποθέσεων

Παράδειγμα 14.6 (Καινούργιο φάρμακο)

Επανερχόμαστε στο ερώτημα του Παραδείγματος 14.1. Σε 20 ασθενείς χορηγείται ένα νέο φάρμακο, σε άλλους 20 χορηγείται εικονικό φάρμακο (placebo), και παρατηρούμε ότι 60% εκείνων που παίρνουν το φάρμακο σημειώνουν βελτίωση ενώ το αντίστοιχο ποσοστό για εκείνους που παίρνουν το placebo είναι μόνο 40%. Θέλουμε να εξετάσουμε κατά πόσο αυτή η ένδειξη για την αποτελεσματικότητα του φαρμάκου είναι στατιστικά αξιόπιστη. Με άλλα λόγια, αναρωτιόμαστε αν, ακόμα και στην περίπτωση που το φάρμακο δεν έχει καμία επίπτωση στην πορεία της συγκεκριμένης ασθένειας, το αποτέλεσμα δικαιολογείται από απλές τυχαίες διακυμάνσεις.

Σε αυτό το απλό παράδειγμα μπορεί να δοθεί μια ακριβής απάντηση σχετικά εύκολα. Ας υποθέσουμε ότι η πιθανότητα να βελτιωθεί η υγεία ενός οποιουδήποτε ασθενή είναι 50% και ότι το φάρμακο δεν επηρεάζει καθόλου την πορεία της ασθένειας. Ορίζοντας για κάθε i μια Τ.Μ. Xi η οποία ισούται με 1 αν ο ασθενής i παρουσίασε βελτίωση και Xi=0 αν όχι, οι παραπάνω υποθέσεις μάς λένε πως οι X1,X2,,X2M, με M=20, είναι ανεξάρτητες Bern(1/2) T.M. Επιπλέον, θεωρούμε ότι οι ασθενείς i=1 έως 20 πήραν το φάρμακο ενώ οι i=21 έως 40 πήραν το placebo, και θέτουμε,


Y =X1+X2++XN=πλήθος ασθενών που έδειξαν βελτίωση με το φάρμακο,

Ζ =XN+1+XN+2++X2M=πλήθος ασθενών που έδειξαν βελτίωση με το placebo,

έτσι ώστε οι Τ.Μ. Y και Ζ είναι ανεξάρτητες και έχουν Διων(N,1/2) κατανομή. Με αυτόν το συμβολισμό το αποτέλεσμα που παρατηρήθηκε είναι ότι Y=12 και Ζ=8, και το αρχικό ερώτημα γίνεται: Δεδομένης της υπόθεσης ότι το φάρμακο δεν έχει καμία επίδραση, είναι το αποτέλεσμα «Y=12 και Ζ=8» αρκετά «απίθανο» ώστε να απορρίψουμε αυτή την υπόθεση; Η απόκλιση των τιμών Y και Z των δύο ομάδων ασθενών είναι στατιστικά σημαντική ή όχι;

Για να απαντήσουμε, υπολογίζουμε την πιθανότητα να παρατηρηθεί εντελώς τυχαία μια τόσο μεγάλη ή ακόμα μεγαλύτερη απόκλιση, δηλαδή την,


Pr(|Y-Z|4) = 1-Pr(|Y-Z|3)


= 1-k=020Pr(|Y-Z|3,Y=k)


= 1-k=020Pr(|Z-k|3,Y=k)


= 1-k=020Pr(|Z-k|3)Pr(Y=k)


= 1-k=020Pr(Y=k)=k-3k+3Pr(Z=),

όπου χρησιμοποιήσαμε τον κανόνα συνολικής πιθανότητας και την ανεξαρτησία των Y,Z. Εφόσον όλες οι πιθανότητες Pr(Y=k) και Pr(Z=) μας είναι γνωστές από τον τύπο της Διων(20,1/2) πυκνότητας, κάνοντας τον σχετικό (μακροσκελή αλλά απλό) υπολογισμό βρίσκουμε ότι,


Pr(|Y-Z|4)0.268.

Συνεπώς: Υπάρχει πιθανότητα μεγαλύτερη από μία στις τέσσερις να παρουσιαστεί από καθαρή τυχαιότητα απόκλιση στις τιμές των δύο ομάδων ασθενών τόσο μεγάλη όσο αυτή που παρατηρήσαμε. Έτσι, συμπεραίνουμε πως το αποτέλεσμα αυτής της προκαταρκτικής μελέτης μπορεί να αποδοθεί σε τυχαίο γεγονός με μη αμελητέα πιθανότητα.

Αν και η παραπάνω απάντηση είναι απολύτως ικανοποιητική, η εφαρμογή της μεθόδου με την οποία προσεγγίσαμε το ερώτημα είναι σαφώς περιορισμένη στο συγκεκριμένο πρόβλημα. Παρακάτω, στην Ενότητα 14.2.2, θα δούμε ποια είναι η συνηθισμένη «ορθόδοξη» προσέγγιση για γενικά προβλήματα αυτής της μορφής.


Παράδειγμα 14.7 (Δίκαιο ή κάλπικο νόμισμα;)
Πριν παίξουμε με κάποιον Κορώνα-Γράμματα, θέλουμε να ελέγξουμε αν το νόμισμα είναι δίκαιο ή όχι. Το στρίβουμε 210 φορές και φέρνουμε 111 Κ και 99 Γ. Τι μπορούμε να συμπεράνουμε;

Πριν απαντήσουμε, παρατηρούμε ότι η μορφή αυτού του ερωτήματος είναι μαθηματικά ακριβώς ίδια με το πρόβλημα του χρηματιστή στο Παράδειγμα 14.5, όπως και με πολλά άλλα προβλήματα που εμφανίζονται συχνά στην πράξη. Για παράδειγμα, κάποιος ισχυρίζεται ότι είναι μέντιουμ και μπορεί να προβλέψει τα αποτελέσματα ενός δίκαιου νομίσματος με πιθανότητα μεγαλύτερη από 50%. Τον προκαλούμε να μας κάνει μια επίδειξη, και πανηγυρίζει μαντεύοντας σωστά τις 111 από τις 210 φορές. Είναι πράγματι μέντιουμ ή όχι;

Σε όλες αυτές τις περιπτώσεις, έχουμε N ανεξάρτητες Bern(p) Τ.Μ. X1,X2,,XN, και αφού παρατηρήσουμε τις τιμές τους καλούμαστε να απαντήσουμε το ερώτημα, «είναι το p=1/2 ή όχι;». Μια πρώτη προσέγγιση του προβλήματος είναι μέσω των διαστημάτων εμπιστοσύνης. Ο εμπειρικός μέσος των N=210 ρίψεων ισούται με X¯N=111/2100.5286 και, προκειμένου να αποφασίσουμε πόσο πιστευτό είναι το ενδεχόμενο να έχουμε p=1/2, βρίσκουμε ένα 95%-διάστημα εμπιστοσύνης για την εκτίμηση p^=0.5286. Από τη γενική μέθοδο της προηγούμενης παραγράφου, για c=0.95 βρίσκουμε την τιμή z*=1.96 και υπολογίζουμε το στατιστικό σφάλμα e από τη σχέση e=σmaxz*/N, όπου για την τιμή της τυπικής απόκλισης σ=Var(Xi)=p(1-p) επιλέγουμε τη μέγιστη δυνατή τιμή της, σmax=1/2, η οποία αντιστοιχεί στην περίπτωση p=1/2. Έτσι, βρίσκουμε ότι e0.0676 και καταλήγουμε στο 95%-διάστημα εμπιστοσύνης [0.461,0.596].

Τι μπορούμε να συμπεράνουμε από τον παραπάνω υπολογισμό; Η απάντηση αγγίζει ένα από τα πιο λεπτά ζητήματα της στατιστικής. Εφόσον το p=1/2 είναι εντός του 95%-διαστήματος εμπιστοσύνης [0.461,0.596], ένα σαφές πρώτο συμπέρασμα είναι ότι δεν μπορούμε να απορρίψουμε την περίπτωση p=1/2 το νόμισμα να είναι δίκαιο. Αυτό που ίσως εκ πρώτης όψεως να μην είναι προφανές, είναι πως το παραπάνω είναι το μόνο συμπέρασμα που μπορούμε να συνάγουμε από τις παρατηρήσεις μας. Συγκεκριμένα, δεν μπορούμε να πούμε ότι «επιβεβαιώσαμε» ή ότι «αποδεχόμαστε» την υπόθεση ότι τα δεδομένα είναι ανεξάρτητα με κατανομή Bern(1/2). Το μόνο στατιστικά ασφαλώς τεκμηριωμένο συμπέρασμα εδώ είναι ότι: Βάσει των παρατηρήσεων {Xi}, σε επίπεδο σημαντικότητας 5% δεν μπορούμε να απορρίψουμε την υπόθεση p=1/2.

Όπως και στο προηγούμενο παράδειγμα, η απάντηση που δόθηκε εδώ είναι πλήρης από τη στατιστική σκοπιά, αλλά η μέθοδος με την οποία βρέθηκε είναι περιορισμένη στο συγκεκριμένο πρόβλημα. Στις επόμενες δύο παραγράφους θα αναπτύξουμε μια γενική μεθοδολογία για την επίλυση προβλημάτων ελέγχου υποθέσεων.

14.2.1 Έλεγχος παραμέτρου Bernoulli

Εδώ θα δώσουμε μια πιο συστηματική απάντηση στη γενική μορφή του ερωτήματος που είδαμε στο παραπάνω παράδειγμα. Ξεκινάμε από τα δεδομένα X1,X2,,XN, όπου το κάθε Xi=0 ή 1, και θεωρούμε πως προήλθαν από N ανεξάρτητες Τ.Μ. XiBern(p). Η κατανομή αυτή είναι το μοντέλο μας για τα δεδομένα και η p(0,1) είναι μια άγνωστη παράμετρος.

Θα εξετάσουμε δύο υποθέσεις. Για κάποιο συγκεκριμένο p*:

  • Μηδενική υπόθεση H0:p=p*.

  • Εναλλακτική υπόθεση H1:p(0,1).

Είναι δυνατόν, βάσει των παρατηρήσεων X1,X2,,XN, να απορρίψουμε τη μηδενική υπόθεση H0 με κάποιο επιθυμητό επίπεδο «στατιστικής σημαντικότητας»; Για να απαντήσουμε με οργανωμένο τρόπο, θα ορίσουμε την εμπειρική κατανομή των δεδομένων και θα εξετάσουμε πόσο κοντά ή μακριά είναι από την Bern(p*) κατανομή. Υπολογίζουμε τον εμπειρικό μέσο X¯N και ορίζουμε την πυκνότητα P^N με τιμές P^N(1)=X¯N και P^N(0)=1-X¯N. Η εμπειρική κατανομή των δεδομένων είναι η Bern(X¯N), με πυκνότητα P^N.


Υπενθύμιση: Απόσταση χ2 και κατανομή χ2(k).

  1. 1.

    Στην Άσκηση 18 του Κεφαλαίου 6 ορίσαμε την χ2-απόσταση μεταξύ δύο πυκνοτήτων P και Q στο ίδιο πεπερασμένο σύνολο τιμών S ως,


    dχ2(P,Q)=xS(P(x)-Q(x))2Q(x),

    και παρατηρήσαμε πως πάντοτε έχουμε dχ2(P,Q)0, με dχ2(P,Q)=0 αν και μόνο αν οι δύο πυκνότητες είναι ίδιες, δηλαδή P(x)=Q(x), για κάθε xS.

  2. 2.

    Στην Άσκηση 5 του Κεφαλαίου 12 ορίσαμε την κατανομή χ2 με k βαθμούς ελευθερίας (χ2(k) για συντομία), και είδαμε πως στην περίπτωση k=1 η χ2(1) έχει συνάρτηση κατανομής,


    F(z)=Φ(z)-Φ(-z)=2Φ(z)-1,γιαz0,

    και F(z)=0 για z<0, όπου Φ(z) είναι η N(0,1) συνάρτηση κατανομής.

Προκειμένου να συγκρίνουμε την εμπειρική κατανομή P^N με την κατανομή P0Bern(p*) της μηδενικής υπόθεσης, ορίζουμε τη στατιστική συνάρτηση ΔN ως N φορές τη χ2-απόστασή τους,


ΔN=Ndχ2(P^N,P0)=N(P^N(1)-P0(1))2P0(1)+N(P^N(0)-P0(0))2P0(0),

η οποία μπορεί να εκφραστεί ως μια απλή συνάρτηση του εμπειρικού μέσου X¯N:


ΔN=N(X¯N-p*)2p*+N(1-X¯N-(1-p*))21-p*=N(X¯N-p*)2p*(1-p*).
(14.9)

Το παρακάτω θεώρημα (που θα αποδειχθεί στο τέλος αυτής της ενότητας) μας λέει πως, κάτω από τη μηδενική υπόθεση, η κατανομή του ΔN είναι κατά προσέγγιση χ2(1).

Θεώρημα 14.1

Κάτω από τη μηδενική υπόθεση H0, δηλαδή για δεδομένα X1,X2,,XN ανεξάρτητα και με κατανομή XiBern(p*), η στατιστική συνάρτηση,


ΔN=Ndχ2(P^N,P0)=N(X¯N-p*)2p*(1-p*),

συγκλίνει κατά κατανομή στη χ2(1). Για κάθε δ0:


Pr(ΔNδ|H0)2Φ(δ)-1,καθώςN.

Είμαστε τώρα σε θέση να περιγράψουμε τη γενική μέθοδο του χ2-ελέγχου υπόθεσης.

𝝌𝟐-έλεγχος παραμέτρου Bernoulli
  1. 1. 

    Από τα δεδομένα X1,X2,,XN, υπολογίζουμε τον εμπειρικό μέσο X¯N και την τιμή δ της στατιστικής συνάρτησης, δ=N(X¯N-p*)2/(p*(1-p*)).

  2. 2. 

    Επιλέγουμε το επιθυμητό επίπεδο σημαντικότητας α(0,1).

  3. 3. 

    Υπολογίζουμε την 𝒑-τιμή, δηλαδή την πιθανότητα, κάτω από τη μηδενική υπόθεση H0, η ΔN να είναι τόση ή μεγαλύτερη από την τιμή δ που υπολογίσαμε. Από το Θεώρημα 14.1:


    p-τιμή=Pr(ΔNδ|H0)2Φ(-δ).
  4. 4. 

    Αν η p-τιμή α, η H𝟎 απορρίπτεται σε επίπεδο σημαντικότητας α.
    Αν η p-τιμή >α, η H𝟎 δεν απορρίπτεται σε επίπεδο σημαντικότητας α.


Παρατηρήσεις:

  1. 1.

    Υπογραμμίζουμε και πάλι πως τα μόνα δύο δυνατά συμπεράσματα του ελέγχου υπόθεσης είναι, με κάποιο προαποφασισμένο επίπεδο σημαντικότητας α: Είτε να απορρίψουμε τη μηδενική υπόθεση H0 (αν η απόσταση ΔN της εμπειρικής κατανομής των δεδομένων από την κατανομή της μηδενικής υπόθεσης είναι αρκετά μεγάλη ώστε η p-τιμή να είναι αντίστοιχα μικρή), είτε να μην απορρίψουμε τη μηδενική υπόθεση H0. Σε καμία περίπτωση δεν καταλήγουμε στο συμπέρασμα ότι «αποδεχόμαστε» την H0.

  2. 2.

    Σημειώνουμε πως η μηδενική υπόθεση H0 είναι ειδική περίπτωση της εναλλακτικής υπόθεσης H1. Αν και εκ πρώτης όψεως αυτό μπορεί να μοιάζει παράξενο, είναι πολύ συνηθισμένο και δεν δημιουργεί κανένα πρόβλημα στην ανάλυσή μας. Αφενός διότι σχεδόν όλοι μας οι υπολογισμοί γίνονται κάτω από την H0, και αφετέρου γιατί, όπως παρατηρούμε από την παραπάνω συζήτηση, το μόνο σημαντικό σημείο είναι να βεβαιωθούμε πως όλες οι ενδεχόμενες εμπειρικές κατανομές τις οποίες συγκρίνουμε με την P0 ανήκουν πράγματι στην H1, το οποίο φυσικά συμβαίνει εδώ.

Παράδειγμα 14.8

Με το νόμισμα του Παραδείγματος 14.7 φέραμε 111 Κ σε N=210 ρίψεις, οπότε ο εμπειρικός μέσος X¯N=111/2100.5286. Για να ελέγξουμε αν είναι δίκαιο, δηλαδή αν p=p*=1/2, επιλέγουμε το επίπεδο σημαντικότητας α=5%, υπολογίζουμε τη στατιστική συνάρτηση δ0.686, και για την p-τιμή από τους πίνακες του Κεφαλαίου 12 βρίσκουμε ότι ισούται με 2Φ(-0.83)0.406. Εφόσον η p-τιμή είναι (πολύ!) μεγαλύτερη του α=0.05, καταλήγουμε και πάλι στο συμπέρασμα ότι, βάσει των δεδομένων Xi, δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση p=1/2 σε επίπεδο σημαντικότητας 5%.

Παρομοίως, ο χρηματιστής του Παραδείγματος 14.5 προέβλεψε σωστά την πορεία της μετοχής σε 71 από τις N=120 μέρες, οπότε X¯N=71/1200.5917. Για να ελέγξουμε τον ισχυρισμό του ότι προβλέπει τα Yi με ακρίβεια σημαντικά μεγαλύτερη από 50%, με p*=1/2 και με επίπεδο σημαντικότητας α=5% υπολογίζουμε τη στατιστική συνάρτηση δ4.03. Η αντίστοιχη p-τιμή εδώ είναι 2Φ(-2.01)0.044 που είναι (οριακά) μικρότερο από το α= 5%, οπότε συμπεραίνουμε πως η H0 απορρίπτεται σε επίπεδο σημαντικότητας 5%, δηλαδή ότι ο χρηματιστής πράγματι απέδειξε τον ισχυρισμό του.

Ένα ακόμα σχετικό παράδειγμα όπου p*1/2 θα δούμε στην Άσκηση 6 στο τέλος του κεφαλαίου.

Απόδειξη του Θεωρήματος 14.1:

Κατ’ αρχάς παρατηρούμε ότι κάτω από την υπόθεση H0 η διασπορά των Xi είναι σ2=p*(1-p*), και ξεκινώντας από τη σχέση (14.9) υπολογίζουμε,


ΔN=N(X¯N-p*)2p*(1-p*)=[Nσ(X¯N-p*)]2=S¯N2,

όπου S¯N είναι το κανονικοποιημένο άθροισμα των Xi όπως στη σχέση (12.3). Άρα, για δ0,


Pr(Δnδ|H0)=Pr(S¯N2δ|H0)=Pr(-δS¯Nδ|H0),

και από το Κ.Ο.Θ. έχουμε,


Pr(Δnδ|H0)=Pr(S¯Nδ)-Pr(S¯N<-δ)Φ(δ)-Φ(-δ)=2Φ(δ)-1,

καθώς το N.

14.2.2 Έλεγχος ανεξαρτησίας

Έστω πώς έχουμε μια ακολουθία από δεδομένα της μορφής,


(X1,Y1),(X2,Y2),,(XN,YN),

όπου τα Xi και τα Yi παίρνουν τις τιμές 0 και 1. Υποθέτοντας ότι, βάσει της κατανομής τους, τα ζεύγη (Xi,Yi) είναι ανεξάρτητα μεταξύ τους για διαφορετικά i=1,2,,N, ο στόχος μας είναι να ελέγξουμε αν και τα Xi είναι ανεξάρτητα από τα Yi.

Υιοθετούμε το εξής γενικό μοντέλο. Θεωρούμε ότι τα Yi προέρχονται από ανεξάρτητες Bern(q) T.M. για κάποιο ενδεχομένως άγνωστο q και πως, δεδομένης της τιμής του κάθε Yi, το αντίστοιχο XiBern(p0) αν Yi=0, ενώ Xi Bern(p1) αν Yi=1. Με αυτόν το συμβολισμό, η υπόθεση της ανεξαρτησίας των Xi από τα Yi αντιστοιχεί στην περίπτωση όπου p0=p1, δηλαδή η κατανομή των Xi είναι ανεξάρτητη από τις τιμές των Yi. Οι p0,p1 και q είναι οι τρεις άγνωστες παράμετροι του μοντέλου.

Π.χ., στην περίπτωση της κλινικής μελέτης του Παραδείγματος 14.6 μπορούμε να θέσουμε Yi=1 αν στον ασθενή i χορηγείται το κανονικό φάρμακο και Yi=0 αν του χορηγείται το placebo, όπου υποθέτουμε πως η επιλογή εκείνων που θα πάρουν το φάρμακο γίνεται τυχαία, με κάποια πιθανότητα q. Επιπλέον, θέτοντας,


p0 = Pr(κάποιος ασθενής θα σημειώσει βελτίωση|πήρε το placebo),

p1 = Pr(κάποιος ασθενής θα σημειώσει βελτίωση|πήρε το φάρμακο),

το ζητούμενο είναι να ελέγξουμε αν η πορεία της υγείας του ασθενή είναι ανεξάρτητη ή όχι από το αν πήρε το φάρμακο, δηλαδή αν p0=p1.

Επιγραμματικά, οι δύο υποθέσεις που εξετάζουμε είναι:

  • Μηδενική υπόθεση (ανεξαρτησία) H0: p0=p1.

  • Εναλλακτική υπόθεση H1: p0,p1 αυθαίρετα.

Όπως και στην προηγούμενη ενότητα, το βασικό ερώτημα είναι αν είναι δυνατόν, βάσει των παρατηρήσεων (X1,Y1),(X2,Y2),,(XN,YN), να απορρίψουμε τη μηδενική υπόθεση H0 σε κάποιο επιθυμητό επίπεδο στατιστικής σημαντικότητας. Προκειμένου να απαντήσουμε, θα συγκρίνουμε την εμπειρική κατανομή των δεδομένων με την κατανομή που θα είχαν αν τα Xi και τα Yi ήταν ανεξάρτητα. Συγκεκριμένα, γράφοντας X¯N,Y¯N για τους εμπειρικούς μέσους των Xi και των Yi, ορίζουμε τις πυκνότητες P^X,N,P^Y,N ως αυτές των κατανομών Bern(X¯N) και Bern(Y¯N) αντίστοιχα. Επιπλέον, ορίζουμε την από κοινού εμπειρική κατανομή,


P^XY,N(x,y)=1N[πλήθος από ζεύγη (x,y) μεταξύ των (Xi,Yi)],

για κάθε x=0,1 και y=0,1.

Τέλος, ορίζουμε τη στατιστική συνάρτηση ΔN ως N φορές την χ2-απόσταση μεταξύ της από κοινού εμπειρικής πυκνότητας P^XY,N(x,y) και της από κοινού πυκνότητας P^X,N(x)P^Y,N(y) που θα είχαν τα (Xi,Yi) αν ήταν ανεξάρτητα:


ΔN = Νdχ2(P^XY,N,P^X,NP^Y,N)


= Νx=0,1,y=0,1(P^XY,N(x,y)-P^X,N(x)P^Y,N(y))2P^X,N(x)P^Y,N(y).

Το ακόλουθο θεώρημα περιγράφει την κατανομή της ΔN κάτω από τη μηδενική υπόθεση H0, για μεγάλα N. Η απόδειξή του βασίζεται σε έναν πανομοιότυπο (αλλά πολύ πιο μακροσκελή) υπολογισμό με εκείνον που είδαμε στην απόδειξη του Θεωρήματος 14.1, και δεν παρουσιάζει ιδιαίτερο ενδιαφέρον· γι’ αυτόν το λόγο παραλείπεται.

Θεώρημα 14.2

Κάτω από τη μηδενική υπόθεση H0, δηλαδή για ανεξάρτητα ζεύγη δεδομένων (X1,Y1),(X2,Y2),,(XN,YN) τέτοια ώστε τα Xi να είναι ανεξάρτητα από τα Yi, η στατιστική συνάρτηση,


ΔN=Νdχ2(P^XY,N,P^X,NP^Y,N),

συγκλίνει κατά κατανομή στη χ2(1). Για κάθε δ0:


Pr(ΔNδ|H0)2Φ(δ)-1,καθώςN.

Η μεθοδολογία του χ2-ελέγχου ανεξαρτησίας βασίζεται στο αποτέλεσμα του Θεωρήματος 14.2 με τον ίδιο τρόπο που ο χ2-έλεγχος παραμέτρου Bernoulli προέκυψε από το Θεώρημα 14.1. Η βασική ιδέα είναι να υπολογιστεί η απόσταση της εμπειρικής κατανομής των δεδομένων από την κατανομή που θα είχαν αν τα Xi,Yi ήταν ανεξάρτητα, και αν βρεθεί να είναι αρκετά μεγάλη ώστε η σχετική p-τιμή να είναι αντίστοιχα μικρή, τότε να απορρίψουμε τη μηδενική υπόθεση H0.

𝝌𝟐-έλεγχος ανεξαρτησίας
  1. 1. 

    Από τα δεδομένα (X1,Y1),(X2,Y2),,(XN,YN), υπολογίζουμε τις εμπειρικές πυκνότητες P^X,N,P^Y,N και P^XY,N, και την τιμή δ της στατιστικής συνάρτησης,


    δ=Νdχ2(P^XY,N,P^X,NP^Y,N).
  2. 2. 

    Επιλέγουμε το επιθυμητό επίπεδο σημαντικότητας α(0,1).

  3. 3. 

    Υπολογίζουμε την 𝒑-τιμή, δηλαδή την πιθανότητα, κάτω από τη μηδενική υπόθεση H0, η ΔN να είναι τόση ή μεγαλύτερη από την τιμή δ που υπολογίσαμε. Από το Θεώρημα 14.2:


    p-τιμή=Pr(ΔNδ|H0)2Φ(-δ).
  4. 4. 

    Αν η p-τιμή α, η H𝟎 απορρίπτεται σε επίπεδο σημαντικότητας α.
    Αν η p-τιμή >α, η H𝟎 δεν απορρίπτεται σε επίπεδο σημαντικότητας α.


Παρατήρηση: Όπως και στην περίπτωση του ελέγχου παραμέτρου Bernoulli στο Θεώρημα 14.2, η ασυμπτωτική κατανομή της στατιστικής συνάρτησης ΔN είναι η χ2(1). Ένα παράδειγμα ελέγχου υπόθεσης στο οποίο η ασυμπτωτική κατανομή είναι διαφορετική παρουσιάζεται στην Άσκηση 8 στο τέλος του κεφαλαίου.


Παράδειγμα 14.9 (Κλινική μελέτη με πολλούς ασθενείς)

Στο Παράδειγμα 14.6, από τα κλινικά αποτελέσματα σε N=40 ασθενείς καταλήξαμε στο συμπέρασμα πως δεν μπορεί να απορριφθεί η υπόθεση ότι η λήψη του φαρμάκου είναι ανεξάρτητη από την εξέλιξη της ασθένειας. Εδώ εξετάζουμε ποιο θα ήταν το αντίστοιχο συμπέρασμα για μια κλινική μελέτη με τα ίδια ποσοστά αποτελεσμάτων αλλά με σημαντικά μεγαλύτερο μέγεθος δείγματος N.

Έστω πως, από N=380 ασθενείς, επιλέχθηκαν τυχαία (με q=1/2) 185 ασθενείς στους οποίους χορηγήθηκε το φάρμακο, και στους υπόλοιπους 195 χορηγήθηκε placebo. Παρατηρούμε ότι το 60% από τους πρώτους, δηλαδή 111, σημείωσαν βελτίωση, ενώ το αντίστοιχο ποσοστό για τους δεύτερους ήταν μόνο 40%, δηλαδή 78. Από αυτά τα στοιχεία εύκολα υπολογίζουμε τις σχετικές εμπειρικές πυκνότητες. Έχουμε ότι η P^Y,N είναι η πυκνότητα της Bern(185/380) κατανομής και η P^X,N είναι η πυκνότητα της κατανομής Bernoulli με παράμετρο (111+78)/380. Παρομοίως, για τις τιμές της από κοινού εμπειρικής πυκνότητας βρίσκουμε:


P^XY,N(1,1)=111380,P^XY,N(0,1)=74380,P^XY,N(1,0)=78380καιP^XY,N(0,0)=117380.

Άρα η τιμή της στατιστικής συνάρτησης είναι,


δ=380×[(111380-189380185380)2189380185380+(74380-191380185380)2191380185380+(78380-189380195380)2189380195380+(117380-191380195380)2191380195380],

το οποίο μας δίνει δ11.512.

Εφόσον το δείγμα είναι σχετικά μεγάλο, επιλέγουμε για το επίπεδο στατιστικής σημαντικότητας α=1%, και υπολογίζουμε την p-τιμή 2Φ(-3.39)=0.0006, η οποία είναι προφανώς πολύ μικρότερη του α=0.01. Άρα, σε αντίθεση με το Παράδειγμα 14.6, εδώ συμπεραίνουμε πως η μηδενική υπόθεση – ότι η δράση του φαρμάκου είναι ανεξάρτητη από την πορεία της ασθένειας – απορρίπτεται με επίπεδο σημαντικότητας 1%.


Παρατηρήσεις:
  1. 1.

    Στο παραπάνω παράδειγμα ίσως να μπαίναμε στον πειρασμό να πούμε ότι, αφού η p-τιμή είναι μόλις 0.06%, μπορούμε να απορρίψουμε την μηδενική υπόθεση με πολύ «υψηλότερο» επίπεδο σημαντικότητας, π.χ., α=0.1%. Αυτός ο συλλογισμός αγγίζει ένα λεπτό θέμα στατιστικής μεθοδολογίας στο οποίο δεν θα επεκταθούμε εδώ, πέραν του να υπογραμμίσουμε ότι η ορθή διαδικασία είναι πάντοτε να επιλέγεται πρώτα το επιθυμητό επίπεδο στατιστικής σημαντικότητας α και μετά να συγκρίνεται με την p-τιμή.

  2. 2.

    Από το τελευταίο παραπάνω παράδειγμα και από την περιγραφή του μοντέλου στην αρχή αυτής της ενότητας ίσως να δίνεται η εντύπωση ότι περιοριζόμαστε σε περιπτώσεις όπου οι τιμές των Yi είναι επιλεγμένες τυχαία βάσει κάποιου αρχικού σχεδιασμού. Αυτό δεν ισχύει· στην πραγματικότητα οι υποθέσεις μας απλά απαιτούν τα Yi να είναι ανεξάρτητες Bernoulli Τ.Μ. όλες με την ίδια παράμετρο. Ένα τέτοιο παράδειγμα όπου οι τιμές των Yi είναι εντελώς εκτός του ελέγχου μας είναι το ακόλουθο.

Παράδειγμα 14.10 (Μορφωτικό επίπεδο και εισόδημα)

Ένα πολυσυζητημένο θέμα είναι ο βαθμός στον οποίο υπάρχει (ή δεν υπάρχει) στατιστική συσχέτιση μεταξύ του μορφωτικού επιπέδου και του εισοδήματός. Μια από τις μελέτες του αμερικανικού Bureau of Labor Statistics αναφέρει τα εξής αποτελέσματα. Από ένα τυχαίο δείγμα N=419 ατόμων κάποιου πληθυσμού, καταγράφονται, για κάθε άτομο i=1,2,,N τα εξής: Xi=1 αν το ετήσιο εισόδημά του είναι υψηλό (δηλαδή μεγαλύτερο από 45,000$), Xi=0 αν όχι, και Yi=1 αν το μορφωτικό του επίπεδο είναι υψηλό (δηλαδή αν είναι κάτοχος πτυχίου πανεπιστημίου), Yi=0 αν όχι.

Παρατηρούμε ότι από τους 304 που έχουν υψηλό μορφωτικό επίπεδο οι 187 έχουν υψηλό εισόδημα, ενώ από τους υπόλοιπους 115 οι 43 έχουν υψηλό εισόδημα. Μπορούμε, βάσει αυτών των παρατηρήσεων, να αποδείξουμε ότι υπάρχει «στατιστικά σημαντική» συσχέτιση μεταξύ του μορφωτικού επιπέδου και του εισοδήματος; Με άλλα λόγια, μπορούμε από αυτά τα δεδομένα να απορρίψουμε τη μηδενική υπόθεση (της ανεξαρτησίας εισοδήματος-μορφωτικού επιπέδου) με επίπεδο σημαντικότητας, ας πούμε, α=5%;

Όπως στο προηγούμενο παράδειγμα, από τα δεδομένα υπολογίζουμε τις εμπειρικές κατανομές,


PX,N(1) = 1-PX,N(0)=187+43419=230419,

PY,N(1) = 1-PY,N(0)=304419,

PXY,N(1,1) = 187419,PXY,N(0,1)=117419,PXY,N(1,0)=43419,PXY,N(0,0)=72419,

από τις οποίες βρίσκουμε την τιμή της στατιστικής συνάρτησης,


δ=419×[(187419-230419304419)2230419304419+(117419-189419304419)2189419304419+(43419-230419115419)2230419115419+(72419-189419115419)2189419115419],

δηλαδή δ19.607. Άρα η αντίστοιχη p-τιμή είναι 2Φ(-4.428)<0.0001, και συμπεραίνουμε ότι μπορούμε να απορρίψουμε (με μάλλον «πανηγυρικό» τρόπο) τη μηδενική υπόθεση της ανεξαρτησίας μεταξύ του εισοδήματος και του μορφωτικού επιπέδου, με επίπεδο εμπιστοσύνης 5%.

14.3 Μείωση διασποράς

Παράδειγμα 14.11

Έστω πως θέλουμε να υπολογίσουμε το ολοκλήρωμα της συνάρτησης G(x)=e|x+40|1/4 στο διάστημα [-50,50],


-5050G(x) dx =-5050e|x+40|1/4 dx,

το οποίο υποθέτουμε (σωστά) πως δεν μπορεί να εκφραστεί σε κλειστή μορφή. Παρατηρούμε όμως πως μπορεί να εκφραστεί σαν μια μέση τιμή ως προς την πυκνότητα της U[-50,50] κατανομής,


100×-5050e|x+40|1/41100 dx =100E[e|X+40|1/4],

όπου XU[-50,50]. Άρα για να εκτιμήσουμε το αρχικό ολοκλήρωμα αρκεί να εκτιμήσουμε τη μέση τιμή,


μ=E[G(X)]=E[e|X+40|1/4].

Γι’ αυτόν το σκοπό παίρνουμε μέσω του υπολογιστή ένα μεγάλο πλήθος N ανεξάρτητων δειγμάτων XiU[-50,50] και υπολογίζουμε τον εμπειρικό μέσο όρο,


μ^N=1Ni=1NG(Xi).

Ο Ν.Μ.Α. μάς διαβεβαιώνει ότι θα έχουμε μ^Nμ κατά πιθανότητα, καθώς το N, αλλά με N=5000 δείγματα παρατηρούμε πως η εκτίμηση μ^N φαίνεται να μην έχει ακόμα συγκλίνει στη ζητούμενη τιμή μ. Στο Σχήμα 14.2 βλέπουμε το αποτέλεσμα ενός τέτοιου πειράματος.

Σχήμα 14.2: Γραφική αναπαράσταση των τιμών της εκτιμήτριας μ^N ως συνάρτηση του πλήθους N των προσομοιωμένων δειγμάτων. Η οριζόντια γραμμή είναι η πραγματική τιμή του ζητούμενου μέσου μ=E[G(X)].

Εφόσον γνωρίζουμε πως οι Τ.Μ. Xi έχουν μέση τιμή E(Xi)=0, μια ενδιαφέρουσα παρατήρηση είναι πως, για οποιαδήποτε σταθερά θ, οι τυχαίες μεταβλητές [G(Xi)-θXi] έχουν κι αυτές μέση τιμή ίση με μ,


Ε[G(X)-θX]=E[G(X)]-θE(X)=μ,

άρα για κάθε θ μπορούμε να ορίσουμε μια νέα εκτιμήτρια:


μN(θ)=1Ni=1N[G(Xi)-θXi].

Και πάλι ο Ν.Μ.Α. εγγυάται ότι μN(θ)μ κατά πιθανότητα, καθώς το N, και εύλογα διερωτόμαστε αν, με μια κατάλληλη τιμή για το θ, η μN(θ) θα μπορούσε να συγκλίνει στο μ πιο «γρήγορα». Στο Σχήμα 14.3 βλέπουμε πειραματικά αποτελέσματα στα οποία συγκρίνεται η συμπεριφορά των δύο εκτιμητριών μ^N και μN(θ) για διαφορετικές τιμές του θ. Είναι εμφανές ότι για θ=0.25 η μN(θ) μοιάζει να συγκλίνει ταχύτερα και να έχει μικρότερη διασπορά από τη μ^N, γεγονός το οποίο επιβεβαιώνουμε εμπειρικά και με δύο ακόμα προσομοιώσεις στο Σχήμα 14.4.

Μια και το παραπάνω σενάριο εμφανίζεται αρκετά συχνά σε προβλήματα εκτίμησης, ιδιαίτερα σε περιπτώσεις προσομοιωμένων δεδομένων, παρακάτω περιγράφουμε τη γενική του μορφή και εξετάζουμε με ποιον τρόπο μπορεί να γίνει συστηματικά η επιλογή μιας αποτελεσματικής τιμής για τη σταθερά θ.

Μέθοδος μεταβλητών ελέγχου. Έστω πως έχουμε ανεξάρτητα δείγματα X1,,XN από μια ενδεχομένως άγνωστη κατανομή, και θέλουμε να εκτιμήσουμε τη μέση τιμή μ=E[G(X)] μιας συνάρτησης G(x), όπου η X έχει την ίδια κατανομή με τα Xi. Αν υποθέσουμε πως γνωρίζουμε τη μέση τιμή ν=E[H(X)] μιας διαφορετικής συνάρτησης Η(X), εκτός από τον εμπειρικό μέσο,


μ^N=1Ni=1NG(Xi),

μπορούμε να ορίσουμε, για οποιοδήποτε θ, και τη νέα εκτιμήτρια,


μN(θ)=1Ni=1N(G(Xi)-θ[H(Xi)-ν]).

Από τον Ν.Μ.Α. έχουμε πως και οι δύο εκτιμήτριες συγκλίνουν κατά πιθανότητα στο μ καθώς N, μια και,


Ε(G(X)-θ[H(X)-ν])=Ε[G(X)]-θE(H(X)-ν)=μ-θ(E[H(X)]-ν)=μ.

Το παρακάτω αποτέλεσμα μας λέει πως, αν οι Τ.Μ. G(X) και H(X) δεν έχουν μηδενική συνδιακύμανση Cov(G(X),H(X)), τότε πάντοτε υπάρχει κάποιο θ* για το οποίο η μN(θ*) είναι πιο αποτελεσματική από τον κλασικό εμπειρικό μέσο μ^N.

Θεώρημα 14.3

Έστω πως οι τυχαίες μεταβλητές G(X) και H(X) έχουν μη μηδενική συνδιακύμανση Cov(G(X),H(X)), και η H(X) έχει μη μηδενική διασπορά. Τότε, για κάθε N, η διασπορά της εκτιμήτριας μN(θ) ελαχιστοποιείται από την τιμή,


θ*=Cov(G(X),H(X))Var(H(X)),
(14.10)

οπότε και είναι αυστηρά αποτελεσματικότερη από τον εμπειρικό μέσο:


Var(μN(θ*))<Var(μ^N).
(14.11)

Σχήμα 14.3: Για διαφορετικές τιμές του θ=-1,-1/2,-1/4,1/4,1/2,1, οι τιμές των δύο εκτιμητριών μ^n (απλή γραμμή) και μN(θ) (έντονη γραμμή) αναπαρίστανται ως συναρτήσεις του πλήθους N των δειγμάτων Xi. Η οριζόντια γραμμή είναι η πραγματική τιμή του μέσου μ.

Σχήμα 14.4: Αποτελέσματα δύο ακόμα προσομοιώσεων στην περίπτωση θ=1/4, για την οποία η νέα εκτιμήτρια μN(θ) (έντονη γραμμή) φαίνεται σαφώς να συγκλίνει ταχύτερα από τον εμπειρικό μέσο μ^n (απλή γραμμή). Η οριζόντια γραμμή είναι η πραγματική τιμή του μέσου μ.

Παρατήρηση: Αν και ως τώρα έχουμε ορίσει τη συνδιακύμανση μόνο για διακριτές Τ.Μ., όπως θα δούμε στο επόμενο κεφάλαιο ο ορισμός παραμένει ακριβώς ίδιος και στην περίπτωση Τ.Μ. με συνεχή κατανομή: Cov(X,Y)=E[(X-E(X))(Y-E(Y))], για οποιεσδήποτε X,Y.


Απόδειξη:

Όπως έχουμε παρατηρήσει αρκετές φορές από την αρχή του κεφαλαίου (βλ., για παράδειγμα, (14.1)), για τη διασπορά ενός εμπειρικού μέσου όπως η μN(θ) έχουμε,


ΝVar(μN(θ))=Var(G(X)-θ[H(X)-ν]).

Άρα, για να ελαχιστοποιήσουμε τη Var(μN(θ)) αρκεί να βρούμε το θ που ελαχιστοποιεί την παραπάνω διασπορά, η οποία μπορεί να αναπτυχθεί ως,


Var (G(X)-θ[H(X)-ν])


=E[(G(X)-θ[H(X)-ν]-E[G(X)-θ[H(X)-ν]])2]


=E[(G(X)-μ-θH(X)+θν+θν-θν)2]


=E[((G(X)-μ)-θ(H(X)-ν))2]


=E[(G(X)-μ)2]-2θE[(G(X)-μ)(H(X)-ν)]+θ2E[(H(X)-ν)2]


=Var(H(X))θ2-2Cov(G(X),H(X))θ+Var(G(X)),
(14.12)

όπου χρησιμοποιήσαμε μόνο τους ορισμούς και τις βασικές ιδιότητες της μέσης τιμής από τα Θεωρήματα 6.1 και 11.5. Συνεπώς η Var(μN(θ)) ελαχιστοποιείται για το θ εκείνο που ελαχιστοποιεί το απλό τριώνυμο στη (14.12), δηλαδή ακριβώς για την τιμή θ* της (14.10).

Τέλος, το ότι έχουμε αυστηρή ανισότητα στη σχέση (14.11) προκύπτει από το γεγονός ότι κάτω από τις παρούσες συνθήκες το θ*0, άρα,


Var(μN(θ*))<Var(μN(0))=Var(μ^N),

αφού εξ ορισμού μN(0)=μ^N.

Το παραπάνω θεώρημα μας διαβεβαιώνει πως, κάτω από γενικές συνθήκες, η χρήση μιας «μεταβλητής ελέγχου» H(X) με γνωστή μέση τιμή είναι αποτελεσματική για την ακριβέστερη εκτίμηση του μ=E[G(X)]. Παρατηρούμε όμως πως το αποτέλεσμα του θεωρήματος δεν μπορεί να εφαρμοστεί απευθείας στην πράξη, διότι το θ* όπως στη (14.10) είναι αδύνατον να υπολογιστεί αναλυτικά – ακόμα και η απλή τιμή του μέσου E[G(X)] μάς είναι άγνωστη. Η συνήθης πρακτική είναι να πρώτα να υπολογίσουμε μια εκτίμηση θ^ για τη βέλτιστη τιμή θ* και μετά να χρησιμοποιήσουμε την εκτιμήτρια μN(θ^). Συγκεκριμένα, εφόσον,


θ*=Cov(G(X),H(X))Var(H(X))=E[(G(X)-μ)(H(X)-ν)]E[(H(X)-ν)2],
(14.13)

παίρνοντας τον εμπειρικό μέσο μ^N ως μια πρώτη εκτίμηση για το μ, εκτιμούμε την παραπάνω συνδιακύμανση ως,


c^=1Ni=1N(G(Xi)-μ^)(H(Xi)-ν),
(14.14)

και τη διασπορά της H(X) ως,


τ^2=1Ni=1N(H(Xi)-ν)2.
(14.15)

Άρα, βάσει της (14.13), μια λογική εκτίμηση για τη θ* είναι η θ^=c^/τ^2. Χρησιμοποιώντας αυτό το θ^, ορίζουμε την προσαρμοστική εκτιμήτρια με μεταβλητή ελέγχου H(X):


μN(θ^)=1Ni=1N(G(Xi)-θ^[H(Xi)-ν]).
(14.16)

Παράδειγμα 14.12

Επιστρέφουμε στο Παράδειγμα 14.11, όπου το ζητούμενο είναι να υπολογιστεί η μ=E[G(X)] για τη συνάρτηση G(x)=e|x+40|1/4 μιας Τ.Μ. XU[-50,50], και όπου έχουμε τη μεταβλητή ελέγχου H(X)=X για την οποία ν=E[H(X)]=E(X)=0.

Στο Σχήμα 14.5 δίνονται τα αποτελέσματα δύο προσομοιώσεων όπου συγκρίνεται η προσαρμοστική εκτιμήτρια μN(θ^) με τον κλασικό εμπειρικό μέσο μ^N. Για μεγάλο πλήθος δειγμάτων η εκτίμηση θ^ συγκλίνει στη βέλτιστη τιμή θ* και βρίσκουμε ότι θ*0.194, το οποίο είναι αρκετά κοντά στην τιμή θ=0.25, την οποία είχαμε νωρίτερα επιλέξει πειραματικά.

Σχήμα 14.5: Οι τιμές των εκτιμητριών μN(θ^) (έντονη γραμμή) και μ^n (απλή γραμμή) ως συναρτήσεις του πλήθους N των προσομοιωμένων δειγμάτων, σε δύο διαφορετικά πειράματα προσομοίωσης. Είναι εμφανές ότι η προσαρμοστική εκτιμήτρια μN(θ^) είναι πολύ αποτελεσματικότερη από τον εμπειρικό μέσο μ^N. Η οριζόντια γραμμή είναι η πραγματική τιμή μ=E[G(X)].

Κλείνουμε με ένα πιο ρεαλιστικό παράδειγμα από τα χρηματοοικονομικά, μία από τις πιο συνηθισμένες περιοχές όπου χρησιμοποιείται ευρέως η μέθοδος των μεταβλητών ελέγχου.


Παράδειγμα 14.13 (Τιμολόγηση δικαιώματος αγοράς)

Ένα από τα πιο κοινά χρηματιστηριακά παράγωγα είναι το λεγόμενο «δικαίωμα αγοράς». Για μια συγκεκριμένη μετοχή, μπορούμε να αγοράσουμε το δικαίωμα να πουλήσουμε τη μετοχή κάποια μελλοντική στιγμή T στην τιμή άσκησης K, όπου τα T και K είναι προσυμφωνημένα. Συμβολίζοντας με X(t) την τιμή της μετοχής την κάθε χρονική στιγμή t, αν η X(T) είναι μεγαλύτερη από K θα αγοράσουμε τη μετοχή στη φθηνότερη τιμή K κερδίζοντας X(T)-K ευρώ, αλλιώς δεν θα εξασκήσουμε το δικαίωμά μας. Συνεπώς, η απόδοση αυτού του δικαιώματος είναι max{X(T)-K,0} ευρώ, και σε μια αγορά με σταθερό επιτόκιο r η προεξοφλημένη απόδοσή του ισούται με,


G(X(T))=e-rTmax{X(T)-K,0}ευρώ.
(14.17)

Το ζητούμενο της τράπεζας που πουλάει αυτό το δικαίωμα είναι να το τιμολογήσει, δηλαδή να αποφασίσει σε ποια τιμή θα το πουλάει, και γι’ αυτόν το λόγο θέλει να ξέρει ποια είναι μέση προεξοφλημένη απόδοση μ=Ε[G(X(T))].

Μια από τις βασικές υποθέσεις των χρηματοοικονομικών είναι η απουσία «arbitrage» ή «επιτηδειότητας», δηλαδή ότι δεν υπάρχει στην αγορά κάποια επένδυση η οποία μπορεί να επιφέρει κέρδη με 100% βεβαιότητα. Ο τρόπος με τον οποίο αυτή η υπόθεση αντανακλάται στα σχετικά μαθηματικά μοντέλα είναι μέσω της χρήσης ενός μέτρου πιθανότητας που λέγεται «μέτρο αδιάφορο κινδύνου». Στη δική μας περίπτωση, αυτή η υπόθεση συνεπάγεται ότι η μέση προεξοφλημένη τιμή της μετοχής μετά από οποιοδήποτε χρονικό διάστημα ισούται με τη σημερινή τιμή της X(0) η οποία μας είναι γνωστή, δηλαδή, E[e-rTX(T)]=X(0). Άρα, αν ορίσουμε Η(X(T))=X(T), τότε ξέρουμε τη μέση τιμή,


ν=E[H(X(T))]=E[X(T)]=erTX(0).

Η πιο απλή υπόθεση για την τιμή της μετοχής τη χρονική στιγμή T είναι αυτή του μοντέλου «γεωμετρικής κίνησης Brown», το οποίο εδώ αντιστοιχεί στο να θεωρήσουμε ότι,


X(T)=X(0)exp{(r-12σ2)T+σTZ},
(14.18)

όπου η ZN(0,1) και η παράμετρος σ είναι η μεταβλητότητα της μετοχής. (Στην Άσκηση 11 θα δούμε ότι ο παραπάνω ορισμός (14.18) πράγματι συνεπάγεται ότι E[e-rTX(T)]=X(0).)

Κάτω από αυτές τις υποθέσεις, προκειμένου να εκτιμήσουμε τη μέση προεξοφλημένη απόδοση μ=Ε[G(X(T))], μπορούμε να πάρουμε N ανεξάρτητα δείγματα ZiN(0,1) και από αυτά να υπολογίσουμε, για κάθε i, τη μελλοντική τιμή της μετοχής Xi(T) από τη σχέση (14.18) και την τιμή της αντίστοιχης προεξοφλημένης απόδοσης του δικαιώματος G(Xi(T)) από τη (14.17). Έτσι, έχουμε τα G(Xi(T)) και τις αντίστοιχες τιμές της μεταβλητής ελέγχου H(Xi(T))=Xi(T), οπότε μπορούμε να ορίσουμε την κλασική εκτιμήτρια,


μ^N=1Ni=1NG(Xi(T)),

και την προσαρμοστική εκτιμήτρια,


μN(θ^) = 1Ni=1N(G(Xi(T))-θ^[H(Xi(T))-ν])


= 1Ni=1N(G(Xi(T))-θ^[Xi(T)-erTX(0)]),

ακολουθώντας τη γενική μέθοδο που δώσαμε στους τύπους (14.14), (14.15) και (14.16). Επιλέγοντας για τις παραμέτρους τις (ρεαλιστικές) τιμές r=5%, σ=30%, T=0.25, X(0)=50 και K=45, και ξεκινώντας από N=10000 προσομοιωμένα δείγματα ZiN(0,1), τα αποτελέσματα των δύο εκτιμητριών μ^N και μN(θ)^ σε δύο διαφορετικά πειράματα δίνονται στο Σχήμα 14.6.

Σχήμα 14.6: Σε δύο διαφορετικά πειράματα προσομοίωσης, βλέπουμε τις τιμές των εκτιμητριών μN(θ^) (έντονη γραμμή) και μ^n (απλή γραμμή) για την εκτίμηση της προεξοφλημένης απόδοσης μ=Ε[G(X(T))] μιας μετοχής στο Παράδειγμα 14.13. Είναι και εδώ εμφανές ότι η προσαρμοστική εκτιμήτρια μN(θ^) είναι πολύ αποτελεσματικότερη από τον εμπειρικό μέσο μ^N, όπως προβλέπει το Θεώρημα 14.3. Εδώ η βέλτιστη τιμή του θ είναι θ*0.815. Η οριζόντια γραμμή είναι η πραγματική τιμή μ=E[G(X)].

14.4 Ασκήσεις

  1. 1.

    Διάρκειες τραγουδιών. Τον Ιούλιο του 2015, η εταιρία διαχείρισης πνευματικών δικαιωμάτων Κορδατέας Α.Ε. πραγματοποίησε δειγματοληπτικές μετρήσεις της διάρκειας τραγουδιών που παίζονταν στο ραδιόφωνο. Με N=145 δείγματα, η έρευνα κατέληξε στην εκτίμηση ότι η μέση διάρκεια των τραγουδιών ήταν 3.12 λεπτά.

    1. (α’)

      Αν η τυπική απόκλιση της τυχαίας διάρκειας ενός τραγουδιού είναι 54 δευτερόλεπτα, υπολογίστε ένα διάστημα εμπιστοσύνης για την παραπάνω εκτίμηση, με επίπεδο εμπιστοσύνης c=98%.

    2. (β’)

      Πόσα δείγματα θα χρειάζονταν ώστε να μπορεί η εταιρία να δώσει ένα 98%-διάστημα εμπιστοσύνης με στατιστικό σφάλμα μόλις ±5 δευτερόλεπτα;

  2. 2.

    Ελέφαντες. Προκειμένου να εκτιμήσουμε το μέσο μέγεθος μ μιας αγέλης ελεφάντων, καταγράφουμε τα μεγέθη X1,X2,,XN από N=83 αγέλες που συναντάμε, και εκτιμούμε το μ μέσω του εμπειρικού μέσου όρου, ο οποίος υπολογίζουμε πως είναι X¯N=7.2.

    Αν η τυπική απόκλιση των τυχαίων Xi είναι μεταξύ 5 και 7, βρείτε ένα 90%-διάστημα εμπιστοσύνης για αυτή την εκτίμηση.

  3. 3.

    Ναύτες. Θέλουμε να εκτιμήσουμε το μέσο ύψος μ μεταξύ των 4000 νεοσύλλεκτων σε ένα στρατόπεδο του Ναυτικού. Επιλέγουμε N=108 από αυτούς τυχαία (χωρίς επανατοποθέτηση) και εκτιμούμε ότι το μ είναι κατά προσέγγιση X¯N=1.77 μέτρα. Επιπλέον, θεωρούμε ότι η τυπική απόκλιση του ύψους των 4000 ναυτών είναι 3 με 9 εκατοστά.

    1. (α’)

      Υπολογίστε ένα διάστημα εμπιστοσύνης [a,b] για την εκτίμηση μ1.77, με επίπεδο εμπιστοσύνης 98%.

    2. (β’)

      Μπορούμε να συμπεράνουμε από το παραπάνω αποτέλεσμα ότι το ύψος του 98% των ναυτών στο στρατόπεδο είναι μεταξύ a και b; Τεκμηριώστε την απάντησή σας.

    3. (γ’)

      Αν θέλουμε ένα 99%-διάστημα εμπιστοσύνης γι’ αυτή την εκτίμηση, πόσο μεγάλο μέγεθος δείγματος απαιτείται;

    4. (δ’)

      Ο διοικητής του στρατοπέδου Αρχιπλοίαρχος Παν. Τζίφας επιμένει ότι θέλει αποτελέσματα με στατιστικό σφάλμα το πολύ ±1 εκατοστό, και δεν μας επιτρέπει να πάρουμε επιπλέον δείγματα από τα N=108 που είχαμε στην αρχή. Ποιο είναι το καλύτερο αποτέλεσμα που μπορούμε να του δώσουμε;

  4. 4.

    Μια πιο ρεαλιστική δημοσκόπηση. Όπως στο Παράδειγμα 14.2, από ένα τυχαίο δείγμα N=1000 ψηφοφόρων θέλουμε να εκτιμήσουμε το ποσοστό που θα πάρει η ΝΔ στις εκλογές και βρίσκουμε πως X¯N=30.5%.

    1. (α’)

      Βρείτε ένα 95%-διάστημα εμπιστοσύνης για την εκτίμηση X¯N όταν το πραγματικό ποσοστό p των ψηφοφόρων της ΝΔ μας είναι εντελώς άγνωστο.

    2. (β’)

      Βρείτε ένα αντίστοιχο διάστημα εμπιστοσύνης στην περίπτωση που (εύλογα) υποθέτουμε πως το πραγματικό ποσοστό p είναι μεταξύ 20% και 35%. Σχολιάστε τη διαφορά του αποτελέσματός σας με αυτό του προηγούμενου σκέλους.

  5. 5.

    Εκτίμηση διασποράς. Έστω X1,X2,,XN ανεξάρτητες τυχαίες μεταβλητές, όλες με την ίδια (άγνωστη) κατανομή και με (επίσης άγνωστες) μέση τιμή μ=E(Xi) και διασπορά σ2=Var(Xi). Η πιο συνηθισμένη εκτιμήτρια για τη μέση τιμή τους είναι ο εμπειρικός μέσος όρος, μ^=X¯N, αλλά στη στατιστική βιβλιογραφία συναντάμε δύο διαφορετικές εκτιμήτριες για τη διασπορά:


    σ^2 = 1Ni=1N(Xi-μ^)2,

    καιs^2 = 1N-1i=1N(Xi-μ^)2.
    1. (α’)

      Υπολογίστε τη μέση τιμή E[(X1-μ^)2].

    2. (β’)

      Υπολογίστε τη μέση τιμή E(σ^2) και E(s^2) των δύο παραπάνω εκτιμητριών.

    3. (γ’)

      Μπορείτε να βρείτε κάποιο συγκριτικό πλεονέκτημα της κάθε εκτιμήτριας ως προς την άλλη;

  6. 6.

    Τυχαίο; Νομίζω. Όλοι έχουμε έναν φίλο ο οποίος ισχυρίζεται ότι φέρνει πολύ συχνά διπλές στο τάβλι. Για να ελέγξουμε τις «δυνατότητες» ενός τέτοιου ταβλαδόρου, μετράμε ότι έφερε 62 φορές διπλές στις 275 ζαριές που έριξε παίζοντας πέντε διαδοχικές παρτίδες. Αυτός θεωρεί ότι μας απέδειξε τον ισχυρισμό του διότι, λέει, «62 στις 275 είναι πολύ περισσότερες από μία στις έξι». Εμείς τι μπορούμε να του απαντήσουμε;

  7. 7.

    Στυτική δυσλειτουργία. Εξετάζοντας τα ερωτηματολόγια της κλινικής μελέτης ενός νέου αντικαταθλιπτικού φαρμάκου παρατηρούμε ότι, από τους 66 (τυχαία επιλεγμένους, άντρες) ασθενείς που παίρνουν το φάρμακο, οι 36 παρουσίασαν συμπτώματα στυτικής δυσλειτουργίας, ενώ από τους 59 που παίρνουν το placebo μόνο οι 28 αντιμετώπισαν αντίστοιχα προβλήματα. Μπορούμε να συμπεράνουμε με επίπεδο σημαντικότητας 5% ότι η λήψη του φαρμάκου σχετίζεται με το πρόβλημα, ή όχι;

  8. 8.

    Γιωργάκη, θα πουντιάσεις! Έχουν γίνει πολλές μελέτες με σκοπό να ελεγχθεί ο στερεότυπος ισχυρισμός του γονιού που λέει στο παιδί του ότι θα αρρωστήσει αν βγει στο κρύο με βρεγμένα μαλλιά.

    Έστω πως πραγματοποιείται μια τέτοια μελέτη με N=173 άτομα ηλικίας 18-25 ετών. Αφού βρέξουν τα μαλλιά τους με κρύο νερό, για τον καθένα επιλέγεται τυχαία, με κάποια πιθανότητα q, αν (1) θα κάτσει για μία ώρα δίπλα στο τζάκι σε ένα ζεστό δωμάτιο, ή (2) θα βγει για μία ώρα έξω σε θερμοκρασία 2C, με πολύ ελαφρύ ντύσιμο. Επιπλέον, για κάθε άτομο i=1,2,,N καταγράφουμε δύο μεταβλητές: Την Yi η οποία ισούται με 1 ή 0 αν κάθισε στο ζεστό δωμάτιο ή βγήκε έξω αντίστοιχα, και την Xi η οποία παίρνει τις τιμές -1,0 και +1 ανάλογα με το αν η κατάσταση της υγείας του μετά από 48 ώρες έχει χειροτερέψει, έχει μείνει σταθερή ή έχει καλυτερέψει.

    1. (α’)

      Ορίστε ένα μοντέλο για την κατανομή των δεδομένων (X1,Y1),,(XN,YN).

    2. (β’)

      Θεωρώντας πως το ζητούμενο είναι να ελεγχθεί αν η θερμοκρασία του περιβάλλοντος επηρεάζει το αν κάποιος πρόκειται να αρρωστήσει ή όχι, περιγράψτε λεπτομερώς τις παραμέτρους του μοντέλου, τη μηδενική υπόθεση και την εναλλακτική υπόθεση.

    3. (γ’)

      Ακολουθώντας το ίδιο σκεπτικό όπως στις Ενότητες 14.2.1 και 14.2.2, ορίστε μια στατιστική συνάρτηση ΔN γι’ αυτό το πρόβλημα και περιγράψτε τις αντίστοιχες εμπειρικές κατανομές που θα χρειαστείτε.

    4. (δ’)

      Μπορεί να αποδειχθεί ότι, κάτω από τη μηδενική υπόθεση, η ΔN συγκλίνει κατά κατανομή στην χ2(2), καθώς το N. Περιγράψτε μια μέθοδο ελέγχου ανεξαρτησίας για τις παραπάνω υποθέσεις, βασισμένη στη ΔN του προηγούμενου ερωτήματος. Πώς υπολογίζεται η p-τιμή εδώ; [Υπόδειξη. Η Άσκηση 2 του Κεφαλαίου 15 δίνει κάποιες πληροφορίες για την κατανομή χ2(2).]

    5. (ε’)

      Τα δεδομένα από την παραπάνω μελέτη συνοψίζονται στον πίνακα:

      πληθος ατομων χειρότερα το ίδιο καλύτερα
      ανα περιπτωση (X=-1) (X=0) (X=+1)
      τζάκι (Y=1) 6 65 8
      κρύο (Y=0) 13 71 10

      Εφαρμόστε τη μέθοδο ελέγχου του προηγούμενου ερωτήματος σε αυτές τις παρατηρήσεις. Τι μπορείτε να συμπεράνετε; Έχει δίκιο η περιβόητη Ελληνίδα μάνα;

  9. 9.

    Μεταβλητές ελέγχου. Χρησιμοποιώντας το scilab, το matlab ή όποιο άλλο περιβάλλον προγραμματισμού σάς βολεύει, υλοποιήστε το προγραμματιστικό μέρος των Παραδειγμάτων 14.12 και 14.13 και συγκρίνετε τα αποτελέσματά σας με αυτά που είδαμε στην Ενότητα 14.3.

  10. 10.

    Διαφορετική μεταβλητή ελέγχου. Αν στο πρόβλημα του Παραδείγματος 14.12 αντί για τη μεταβλητή ελέγχου H(x)=x θέλουμε να χρησιμοποιήσουμε την H(x)=x3, πώς εφαρμόζεται η γενική μέθοδος που περιγράφεται στην Ενότητα 14.3; Χρησιμοποιώντας και πάλι όποιο προγραμματιστικό περιβάλλον σάς βολεύει, υλοποιήστε το αντίστοιχο πείραμα και συγκρίνετε τα αποτελέσματα που δίνει η προσαρμοστική εκτιμήτρια για την κάθε μια από τις δύο μεταβλητές ελέγχου. Ποια σας φαίνεται πιο αποτελεσματική;

  11. 11.

    Προεξοφλημένη τιμή μετοχής. Αποδείξετε απευθείας από τη σχέση (14.18) ότι η προεξοφλημένη τιμή Ε[e-rTX(T)] της μετοχής πράγματι ισούται με τη σημερινή τιμή της X(0).



Κεφάλαιο 15 Συνεχής από κοινού κατανομή

[Επιστροφή στα περιεχόμενα]


Στα Κεφάλαια 9 έως 12 συναντήσαμε μια σειρά ιδιοτήτων της από κοινού κατανομής δύο ή περισσοτέρων διακριτών Τ.Μ. Εδώ θα αναπτύξουμε τις αντίστοιχες ιδιότητες για συνεχείς Τ.Μ. Θα ορίσουμε την από κοινού πυκνότητα ενός πεπερασμένου πλήθους Τ.Μ. με συνεχή κατανομή, και θα αποδείξουμε τις βασικές ιδιότητες της από κοινού πυκνότητας, της μέσης τιμής και της διασποράς τους. Μια τεχνική διαφορά που προκύπτει είναι ότι συχνά σε υπολογισμούς πιθανοτήτων εμφανίζονται διπλά ή πολλαπλά ολοκληρώματα. Κατά συνέπεια, ο μαθηματικός χειρισμός που απαιτείται βασίζεται στα εργαλεία της αρκετά πιο σύνθετης περιοχής του απειροστικού λογισμού συναρτήσεων πολλών μεταβλητών, και αυτό το κεφάλαιο είναι μάλλον πιο τεχνικό από τα περισσότερα προηγούμενα. Παρ’ όλα αυτά θα προσπαθήσουμε να διατηρήσουμε τις μαθηματικές μας απαιτήσεις στο ελάχιστο. Γι’ αυτόν το λόγο επικεντρωνόμαστε κυρίως στη μελέτη της από κοινού κατανομής δύο μόνο Τ.Μ., και στο Παράρτημα A.1 συμπεριλαμβάνουμε μια σύντομη επισκόπηση κάποιων από τις απλούστερες τεχνικές υπολογισμού διπλών ολοκληρωμάτων.

15.1 Από κοινού πυκνότητα

Ορισμός 15.1
  1. 1. 

    Δύο τυχαίες μεταβλητές X και Y είναι από κοινού συνεχείς όταν υπάρχει μια συνάρτηση fXY:×[0,), η από κοινού πυκνότητα των X,Y, τέτοια ώστε, για οποιαδήποτε a<b και c<d, να ισχύει ότι,


    Pr(aXb,cYd)=cdabfXY(x,y) dx  dy,
    (15.1)

    και γενικότερα, για οποιοδήποτε σύνολο R στο επίπεδο, R×:


    Pr((X,Y)R)=RfXY(x,y) dx  dy.
    (15.2)
  1. 2. 

    Οι τυχαίες μεταβλητές X1,X2,,XN είναι από κοινού συνεχείς όταν υπάρχει μια συνάρτηση fX1X2XN:N[0,), η από κοινού πυκνότητα των X1,X2,,XN, τέτοια ώστε, για οποιαδήποτε ai<bi, i=1,2,,N, να ισχύει ότι,


    Pr (a1X1b1,a2X2b2,,aNXNbN)


    =aNbNa2b2a1b1fX1X2XN(x1,x2,,xN)dx1dx2dxN,

    και γενικότερα, για οποιοδήποτε RN:


    Pr((X1,X2,,Xn)R)=∫⋯∫RfX1X2XN(x1,x2,,xn)dx1dx2dxn.
    (15.3)

Παράδειγμα 15.1

Ως μια από τις απλούστερες δυνατές περιπτώσεις, εξετάζουμε δύο Τ.Μ. X,Y «ομοιόμορφα» κατανεμημένες στο S=[0,1]2, δηλαδή με από κοινού πυκνότητα fXY(x,y) που ισούται με 1 αν 0x1 και 0y1, και fXY(x,y)=0 για όλα τα υπόλοιπα (x,y). Εδώ πολύ εύκολα μπορούμε, π.χ., να υπολογίσουμε την πιθανότητα,


Pr(X[0,1/2]καιY[0,1/2]) = Pr((X,Y)[0,1/2]×[0,1/2])


= 01/201/21 dy  dx


= 01/2[y]01/2 dx


= 01/212 dx


= 14,

και παρομοίως βρίσκουμε,


Pr(0YX3/4) = 03/40x1 dy  dx


= 03/4[y]0x dx


= 03/4x dx


= [x22]03/4


= 932.

Παρατηρήσεις:

  1. 1.

    Όπως στον υπολογισμό της πρώτης πιθανότητας στο παραπάνω παράδειγμα, η πιο απλή (και αρκετά συνηθισμένη) περίπτωση υπολογισμού μιας από κοινού πιθανότητας για δύο συνεχείς Τ.Μ. X,Y είναι αυτή που είδαμε στην πρώτη περίπτωση του ορισμού, στη σχέση (15.1): Για a<b και c<d, η πιθανότητα,


    Pr(aXb,cYd)=Pr((X,Y)[a,b]×[c,d]),
    (15.4)

    μπορεί ισοδύναμα να εκφραστεί ως,


    Pr(aXb,cYd)=ab(cdfXY(x,y) dy ) dx =cd(abfXY(x,y) dx ) dy,

    όπου το γεγονός πως οι δύο τελευταίες εκφράσεις είναι ίδιες και ίσες με τον ορισμό, προκύπτει από το θεώρημα του Fubini. (Βλ. Παράρτημα A.1.)

  2. 2.

    Όταν κάποια πιθανότητα που μας ενδιαφέρει δεν είναι της παραπάνω απλής μορφής, υπάρχει μια γεωμετρική περιγραφή που ορισμένες φορές διευκολύνει τον υπολογισμό της. Όπως είδαμε στο Κεφάλαιο 10, οι πιθανότητες που αφορούν μια συνεχή Τ.Μ. υπολογίζονται μέσω απλών ολοκληρωμάτων της πυκνότητάς της και μπορούν να ερμηνευτούν γραφικά ως εμβαδά. Παρομοίως, όταν έχουμε N=2 ή περισσότερες συνεχείς Τ.Μ., οι πιθανότητες υπολογίζονται μέσω πολλαπλών ολοκληρωμάτων και επομένως γεωμετρικά αντιστοιχούν σε (N+1)-διάστατους όγκους. Έστω, για παράδειγμα, δύο Τ.Μ. X,Y με από κοινού πυκνότητα fXY(x,y) όπως στο Σχήμα 15.1. Η πιθανότητα το (X,Y) να παίρνει τιμές στο σύνολο R2 ισούται με τον όγκο του στερεού που οριοθετείται από το R και το γράφημα της συνάρτησης· βλ. Σχήμα 15.1. Ένας απλός τέτοιος υπολογισμός δίνεται στο αμέσως επόμενο παράδειγμα.

    Σχήμα 15.1: Παράδειγμα μιας από κοινού πυκνότητας fXY(x,y) (αριστερά). Η πιθανότητα Pr((X,Y)R) τα (X,Y) να πάρουν τιμές στο R δίνεται από τον όγκο του σκιασμένου στερεού που βρίσκεται ανάμεσα στο γράφημα της fXY(x,y) και το R (δεξιά).
  3. 3.

    Διαισθητικά, η τιμή fXY(x0,y0) της από κοινού πυκνότητας δύο Τ.Μ. X,Y στο σημείο (x0,y0), εκφράζει τη σχετική πιθανότητα οι Τ.Μ. (X,Y) να πάρουν τιμές «κοντά» στο (x0,y0). Πράγματι, έστω πως η fXY(x,y) είναι συνεχής στο (x0,y0). Τότε, από το θεμελιώδες θεώρημα του ολοκληρωτικού λογισμού,


    Pr (x0-Δx2Xx0+Δx2,y0-Δy2Yy0+Δy2)


    =y0-Δy/2y0+Δy/2x0-Δx/2x0+Δx/2fXY(x0,y0) dx  dy


    fXY(x0,y0)ΔxΔy,

    όπως αναπαρίσταται και στο Σχήμα 15.2. Συνεπώς, όσο πιο μεγάλη είναι η τιμή της πυκνότητας, τόσο πιο πιθανό είναι τα (X,Y) να βρεθούν κοντά στο (x0,y0).

    Σχήμα 15.2: Καθώς τα Δx,Δy0, το στερεό που δημιουργείται ανάμεσα στο γράφημα της fXY(x,y) και το ορθογώνιο [x0-Δx2,x0+Δx2]×[y0-Δy2,y0+Δy2] προσεγγίζει ένα ορθογώνιο παραλληλεπίπεδο, του οποίου ο όγκος του ισούται με fXY(x0,y0)ΔxΔy.
  4. 4.

    Στο Κεφάλαιο 10, ο ορισμός της πυκνότητας μιας συνεχούς Τ.Μ. X διατυπώθηκε μέσω του ορισμού της πιθανότητας για ενδεχόμενα μόνο της απλής μορφής {aXb}. Αντίθετα, στον Ορισμό 15.1 της από κοινού πυκνότητας, εκτός από τα απλά ενδεχόμενα {a1X1b1,a2X2b2,,aNXNbN} συμπεριλάβαμε στις σχέσεις (15.3) και (15.3) την περίπτωση υπολογισμού της πιθανότητας των πιο γενικών ενδεχομένων {(X1,X2,,XN)R}, για αυθαίρετα σύνολα RN. Αν και εκ πρώτης όψεως ο Ορισμός 15.1 φαίνεται πιο γενικός, κάτω από τους περιορισμούς που θέτουμε στις Ενότητες 10.3 και 15.4 μπορεί να δειχθεί πως οι δύο ορισμοί είναι ισοδύναμοι. Κάποιες περαιτέρω λεπτομέρειες δίνονται στην Ενότητα 15.4.

Παράδειγμα 15.2

Έστω πως οι Τ.Μ (X,Y) είναι συνεχείς, παίρνουν τιμές στο δίσκο με ακτίνα 1, S={(x,y):x2+y21} και έχουν από κοινού πυκνότητα,


fXY(x,y)={32π1-x2+y2,αν(x,y)S,0,αν(x,y)S.

Το γράφημα της fXY είναι απλά η επιφάνεια του «βόρειου ημισφαίριου» της σφαίρας με ακτίνα 1 και κέντρο το κέντρο των αξόνων.

Έστω πως θέλουμε να υπολογίσουμε την πιθανότητα Pr(X>0,Y>0). Από τη δεύτερη παρατήρηση παραπάνω, αυτή ισούται με τον όγκο που αντιστοιχεί στο μέρος της σφαίρας το οποίο αποτελείται από σημεία (x,y,z) με θετικές συντεταγμένες, δηλαδή, στο 1/8 της πλήρους σφαίρας. Και αφού, ως γνωστόν, η σφαίρα με ακτίνα 1 έχει συνολικό όγκο 4π/3, η πιθανότητα Pr(X>0,Y>0) ισούται με π/6.

Συγκεντρώνουμε πιο κάτω κάποιες από τις απλούστερες ιδιότητες της από κοινού πυκνότητας. Οι αποδείξεις, εκτός από εκείνη της τέταρτης ιδιότητας, παραλείπονται, μια και είναι ακριβώς ίδιες με εκείνες των αντίστοιχων αποτελεσμάτων που συναντήσαμε στα Κεφάλαια 9 έως 12

Ορισμός 15.2

Η περιθώρια πυκνότητα της Xi είναι η πυκνότητα fXi(xi) μίας από N συνεχείς τυχαίες μεταβλητές  X1,X2,,XN με από κοινού πυκνότητα fX1X2XN(x1,x2,,xn).

Συνεχής από κοινού πυκνότητα: Βασικές ιδιότητες. Για οποιοδήποτε ζεύγος από συνεχείς Τ.Μ. X,Y με από κοινού πυκνότητα fXY(x,y), και για οποιοδήποτε πεπερασμένο πλήθος από συνεχείς Τ.Μ. X1,X2,,XN με από κοινού πυκνότητα fX1X2XN(x1,x2,,xN), έχουμε:
  1. 1. 

    --fXY(x,y)dxdy=1και∫⋯∫NfX1X2XN(x1,x2,,xN)dx1dx2dxN=1.

  2. 2. 

    Για οποιοδήποτε μεμονωμένο σημείο (x0,y0), η πιθανότητα,


    Pr((X,Y)=(x0,y0))={(x0,y0)}fXY(x,y) dx  dy =0,

    και αντίστοιχα η πιθανότητα η N-άδα Τ.Μ. X1,X2,,XN να πάρει μια οποιαδήποτε συγκεκριμένη τιμή (x1,x2,,xN) ισούται με μηδέν.

    Κατά συνέπεια, αν αλλάξουμε τις τιμές της από κοινού πυκνότητας σε ένα, δύο ή οποιοδήποτε πεπερασμένο πλήθος σημείων, δεν αλλάζει καμία από τις πιθανότητες που προκύπτουν για τις αντίστοιχες Τ.Μ.

  3. 3. 

    Για οποιαδήποτε a<b και c<d, η πιθανότητα Pr(aXb,cYd) παραμένει η ίδια αν ένα ή περισσότερα από τα «» αντικατασταθούν με «<», και ισούται με καθεμία από τις εναλλακτικές εκφράσεις που δώσαμε στην πρώτη παρατήρηση παραπάνω, ανεξάρτητα από το αν και πόσα από τα οριακά σημεία του ορθογωνίου [a,b]×[c,d] περιέχονται ή όχι στον υπολογισμό της πιθανότητας. [Άσκηση. Διατυπώστε και τεκμηριώστε την προφανή γενίκευση αυτής της ιδιότητας για N συνεχείς Τ.Μ.]

  4. 4. 

    Η X και η Y είναι συνεχείς Τ.Μ. με περιθώριες πυκνότητες, αντίστοιχα,


    fX(x)=-fXY(x,y) dy καιfY(y)=-fXY(x,y) dx,

    και στη γενική περίπτωση, η κάθε Xi είναι συνεχής, με περιθώρια πυκνότητα,


    ∫⋯∫N-1fX1X2XN(x1,x2,,xN)dx1dxi-1dxi+1dxN.

Θα αποδείξουμε μόνο την πρώτη από τις παραπάνω σχέσεις· οι αποδείξεις των υπολοίπων είναι πανομοιότυπες. Παρατηρούμε πως, για οποιαδήποτε a<b, η Pr(aXb) μπορεί να εκφραστεί,


Pr(aXb)=Pr(aXb,-<Y<)=ab(-fXY(x,y) dy ) dx,

άρα, η συνάρτηση fX(x) όπως ορίζεται πιο πάνω, ικανοποιεί τον ορισμό της πυκνότητας μιας συνεχούς Τ.Μ. X, όπως δίνεται στο Κεφάλαιο 10.


Παράδειγμα 15.3

Έστω δύο συνεχείς Τ.Μ. (X,Y) με από κοινού πυκνότητα,


fXY(x,y)={13(2x+4y),για(x,y)[0,1]2,0,για(x,y)[0,1]2,

η οποία απεικονίζεται στο Σχήμα 15.3. Το ολοκλήρωμά της σε ολόκληρο το 2 είναι,


×fXY(x,y) dx  dy =0101fXY(x,y) dx  dy =01012x3 dx  dy +01014y3 dx  dy,

το οποίο εύκολα υπολογίζεται,


012x3(01 dy ) dx +014y3(01 dx ) dy = 012x3 dx +014y3 dy


= [x23]01+[2y23]01=13+23=  1,

και φυσικά ισούται με 1 όπως προβλέπει η πρώτη ιδιότητα της από κοινού πυκνότητας.

Σχήμα 15.3: Η από κοινού πυκνότητα του Παραδείγματος 15.3. Εκτός του S=[0,1]×[0,1] η fXY(x,y) είναι ίση με μηδέν, και στο S είναι γραμμική ως προς τα x, y.

Θα υπολογίσουμε δύο απλές πιθανότητες. Από τον ορισμό της από κοινού πυκνότητας εύκολα βρίσκουμε πως η Pr(0X1/2,  0Y1/2) ισούται με,


012012(2x3+4y3) dx  dy =012(012(2x3+4y3) dy ) dx,

όπου τα δύο παραπάνω ολοκληρώματα υπολογίζονται ως,


012[2xy3+2y23]012dx=012(x3+16)dx=[x26+x6]01/2=18.

Το στερεό του οποίου τον όγκο υπολογίσαμε έχει σχεδιαστεί στο Σχήμα 15.4.

Σχήμα 15.4: Παράδειγμα 15.3: Ο όγκος του στερεού αριστερά είναι ίσος με την πιθανότητα Pr(0X12,0Y12), και του στερεού δεξιά με την Pr(X<Y).

Παρομοίως υπολογίζουμε και την πιθανότητα Pr(X<Y) ως:


010y(2x3+4y3) dx  dy =01[x23+4yx3]0y dy =01(y23+4y23) dy =[5y39]01=59,

όπου, και εδώ, το στερεό του οποίου τον όγκο υπολογίσαμε φαίνεται σκιασμένο στο Σχήμα 15.4.

Τέλος, θα βρούμε τις περιθώριες πυκνότητες των X,Y βάσει της τέταρτης από τις παραπάνω ιδιότητες. Για να υπολογίσουμε την fX(x) παρατηρούμε πως, για x<0 ή x>1, η fX(x) ισούται με το ολοκλήρωμα μιας συνάρτησης που είναι παντού 0, δηλαδή έχουμε fX(x)=0. Ενώ για 0x1,


fX(x)=-fXY(x,y) dy =01(2x3+4y3) dy  =[2xy3+2y23]y=01=23(x+1).

Εξίσου εύκολα βρίσκουμε και πως,


fY(y)=-fXY(x,y) dx ={13(4y+1),y[0,1],0,y[0,1].
Παράδειγμα 15.4

Έστω δύο συνεχείς Τ.Μ. X,Y με από κοινού πυκνότητα την,


fXY(x,y)=12e-2|x|-|y|,x,y,

η οποία έχει σχεδιαστεί στο Σχήμα 15.5. Όπως και στο προηγούμενο παράδειγμα, θα υπολογίσουμε τις πιθανότητες Pr(0X12,0Y12) και Pr(X<Y), και θα βρούμε τις περιθώριες πυκνότητες των X και Y.

Σχήμα 15.5: Η από κοινού πυκνότητα fXY του Παραδείγματος 15.4. Η fXY(x,y) είναι θετική παντού στο ×.

Για την πρώτη πιθανότητα έχουμε:


Pr(0X12,0Y12) = 012012e-2x-y2 dy  dx


= (012e-2x2 dx )(012e-y dy )


= [-14e-2x]012[-e-y]012


= (1-e-1)(1-e-1/2)4.

Το στερεό του οποίου τον όγκο υπολογίσαμε έχει σχεδιαστεί στο Σχήμα 15.6. Παρομοίως, για τη δεύτερη πιθανότητα βρίσκουμε:


Pr(X<Y) = 0(0y12e-2x-y dx ) dy =012e-y(0ye-2x dx ) dy


= 012e-y[-e-2x2]0y dy =012e-y(12-e-2y) dy


= 0(14e-y-12e-3y) dy =[-14e-y+16e-3y]0=14-16=112.

Και πάλι το στερεό του οποίου τον όγκο υπολογίσαμε φαίνεται σκιασμένο στο Σχήμα 15.6.

     

Σχήμα 15.6: Παράδειγμα 15.3: Ο όγκος του στερεού αριστερά είναι ίσος με την πιθανότητα Pr(0X12,0Y12), και του στερεού δεξιά με την Pr(X<Y).

Τέλος, υπολογίζουμε τις περιθώριες πυκνότητες, χρησιμοποιώντας την τέταρτη ιδιότητα της από κοινού πυκνότητας,


fX(x)=-e-2|x|-|y|2 dy =e-2|x|2-e-|y| dy =e-2|x|,

fY(y)=-e-2|x|-|y|2 dx =e-|y|2-e-2|x| dx =e-|y|2,

για κάθε x,y.

15.2 Μέση τιμή, διασπορά και συνδιακύμανση

Πριν ορίσουμε τη συνδιακύμανση μεταξύ δύο Τ.Μ. X και Y με συνεχή από κοινού κατανομή, παραθέτουμε την πιο κάτω βασική ιδιότητα:

Ιδιότητα 15.1 Η μέση τιμή μιας συνάρτησης g(x,y) δύο Τ.Μ. X,Y με από κοινού πυκνότητα fXY(x,y) υπολογίζεται ως,

E[g(X,Y)]=--g(x,y)fXY(x,y) dx  dy,
(15.5)

και παρομοίως η μέση τιμή μιας συνάρτησης g(x1,x2,,xN) των N Τ.Μ. X1,X2,,XN με από κοινού πυκνότητα fX1X2XN(x1,x2,,xN) υπολογίζεται ως,


E[g(X1,X2,,XN)]=∫⋯∫Ng(x1,x2,,xN)fX1X2XN(x1,x2,,xN)dx1dx2dxN.

Όπως παρατηρήσαμε στην Ενότητα 10.2, η αντίστοιχη σχέση (10.10) για τον υπολογισμό της μέσης τιμής E[g(X)] της συνάρτησης g(X) μιας συνεχούς Τ.Μ. X, είναι συνέπεια του βασικού ορισμού της μέσης τιμής. Αλλά λόγω του ότι η απόδειξη της (10.10) από τον ορισμό είναι τεχνικής φύσεως και ξεφεύγει από τους παρόντες στόχους μας, χάριν ευκολίας επιλέξαμε να δεχθούμε τον τύπο (10.10) ως δεδομένο, παραλείποντας την απόδειξή του. Για τους ίδιους λόγους, και στη γενικότερη περίπτωση της Ιδιότητας 15.1 θα δεχτούμε τη σχέση (15.5) ως δεδομένη, παραλείποντας και πάλι την απόδειξή της.

Τώρα είμαστε σε θέση να αποδείξουμε το πρώτο σκέλος του Θεωρήματος 11.5, το οποίο διατυπώθηκε στο Κεφάλαιο 11 χωρίς απόδειξη. Η Πρόταση 15.3 που ακολουθεί δίνει μια γενικότερη μορφή του αποτελέσματος, για οποιοδήποτε πεπερασμένο πλήθος Τ.Μ.


Πρόταση 15.3 Για οποιεσδήποτε συνεχείς Τ.Μ. X1,X2,,XN και σταθερές a1,a2,,aN, έχουμε:

E[i=1NaiXi]=i=1NaiE(Xi).
Απόδειξη:

Έστω fX1X2XN(x1,x2,,xN) η από κοινού πυκνότητα των X1,X2,,XN. Εφαρμόζοντας την Ιδιότητα 15.1,


E [i=1NaiXi]


=∫⋯∫N(i=1Naixi)fX1X2XN(x1,x2,,xN)dx1dx2dxN


=i=1N(∫⋯∫NaixifX1X2XN(x1,x2,,xN)dx1dx2dxN)


=i=1Nai-xi(∫⋯∫N-1fX1X2XN(x1,x2,,xN)dx1dxi-1dxi+1dxN)dxi,

όπου, από την τέταρτη βασική ιδιότητα της από κοινού πυκνότητας, η τελευταία έκφραση εντός της παραπάνω παρένθεσης ισούται με την περιθώρια πυκνότητα fXi(xi) της Xi. Συνεπώς,


E[i=1NaiXi]=i=1Nai-fXi(xi)dxi=i=1NaiE(Xi),

που είναι ακριβώς το ζητούμενο αποτέλεσμα.


Παράδειγμα 15.5

Για τις Τ.Μ. X, Y του Παραδείγματος 15.3, μπορούμε να υπολογίσουμε τη μέση τιμή του γινομένου τους ως,


E(XY) = 130101xy(2x+4y)  dy  dx


= 1301[x2y2+43xy3]01 dx


= 1301(x2+4x3) dx


= 13[x33+2x23]01=13.
Ορισμός 15.3

Για δύο συνεχείς Τ.Μ. X,Y, η συνδιακύμανση Cov(X,Y) μεταξύ τους ορίζεται, ακριβώς όπως και στην διακριτή περίπτωση, ως:


Cov(X,Y)=E[(X-E(X))(Y-E(Y))].

Παρατήρηση: Όπως και για την περίπτωση διακριτών Τ.Μ., η διαισθητική ερμηνεία της συνδιακύμανσης είναι πως, όταν Cov(X,Y)>0, τότε οι δύο Τ.Μ. X,Y τείνουν να παίρνουν και οι δύο ταυτόχρονα μεγάλες τιμές, ή και οι δύο ταυτόχρονα μικρές τιμές. Αντίστοιχα, όταν Cov(X,Y)<0, τότε, όταν η μία Τ.Μ. παίρνει μεγάλες τιμές, η άλλη τείνει να παίρνει μικρές τιμές. Άρα η συνδιακύμανση Cov(X,Y) μάς παρέχει μια πρώτη ένδειξη για το είδος της συσχέτισης μεταξύ της X και της Y.


Οι αποδείξεις των παρακάτω απλών ιδιοτήτων της συνδιακύμανσης παραλείπονται, μια και είναι ακριβώς ίδιες με εκείνες που είδαμε στη διακριτή περίπτωση στο Κεφάλαιο 9, και συγκεκριμένα στο Παράδειγμα 9.9 και στις Ιδιότητες 1 και 4 της Ενότητας 9.2.


Πρόταση 15.4  Για οποιεσδήποτε δύο συνεχείς Τ.Μ. X και Y έχουμε:


1.      Cov(X,X)=Var(X),


2.      Cov(X,-X)=-Var(X),


3.      Cov(X,Y)=E(XY)-E(X)E(Y),


4.      Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y).

Παράδειγμα 15.6

Για τις Τ.Μ. X, Y του Παραδείγματος 15.3, χρησιμοποιώντας τις περιθώριες πυκνότητες που υπολογίσαμε εκεί, έχουμε,


E(X) = -xfX(x) dx =01x23(x+1) dx =[2x39+x23]01=59,

καιE(Y) = -yfY(y) dy =01y13(4y+1) dy =13[4y33+y22]01=1118.

Και εφόσον στο Παράδειγμα 15.5 βρήκαμε πως E(XY)=13, μπορούμε εύκολα να υπολογίσουμε τη συνδιακύμανση,


Cov(X,Y)=E(XY)-E(X)E(Y)=13-59×1118=-1162.

15.3 Ανεξαρτησία

Όπως είδαμε στον Ορισμό 11.3 του Κεφαλαίου 11, δύο συνεχείς τυχαίες μεταβλητές X,Y είναι ανεξάρτητες αν και μόνο αν, για κάθε ab, ab,


Pr(aXb,aYb)=Pr(aXb)Pr(aYb).
(15.6)

Στο επόμενο αποτέλεσμα δείχνουμε πως η ανεξαρτησία μπορεί να εκφραστεί και ως ιδιότητα της από κοινού πυκνότητας των X,Y.


Κριτήριο ανεξαρτησίας για συνεχείς Τ.Μ. Δύο συνεχείς Τ. Μ. X, Y, με περιθώριες πυκνότητες fX(x), fY(y) αντίστοιχα, είναι ανεξάρτητες αν και μόνο αν η από κοινού πυκνότητά τους fXY(x,y) μπορεί να εκφραστεί ως,

fXY(x,y)=fX(x)fY(y),για κάθεx,y.
(15.7)

Απόδειξη:

Έστω πως η από κοινού πυκνότητα των X,Y ικανοποιεί τη σχέση (15.7). Τότε, για οποιαδήποτε ab, ab, έχουμε,


Pr(aXb,aYb) = ababfX(x)fY(y) dx  dy


= (abfX(x) dx )(abfY(y) dy )


= Pr(aXb)Pr(aYb),

και άρα οι X και Y είναι ανεξάρτητες.

Αντίστροφα, έστω πως οι X,Y είναι ανεξάρτητες με περιθώριες πυκνότητες fX(x), fY(y) αντίστοιχα. Από τον ορισμό της ανεξαρτησίας έχουμε, για οποιαδήποτε ab, ab,


Pr(aXb,aYb) = Pr(aXb)Pr(aYb)


= (abfX(x) dx )(abfY(y) dy )


= ababfX(x)fY(y) dx  dy,

άρα η συνθήκη (15.1) στον ορισμό της από κοινού πυκνότητας ικανοποιείται από τη συνάρτηση fX(x)fY(y), και συνεπώς για την από κοινού πυκνότητα των X,Y μπορούμε να θέσουμε fXY(x,y)=fX(x)fY(y).


Στο ακόλουθο θεώρημα αποδεικνύονται κάποιες βασικές συνέπειες της ανεξαρτησίας, τις οποίες έχουμε ήδη συναντήσει σε προηγούμενα κεφάλαια.

Θεώρημα 15.1 (Ιδιότητες ανεξαρτησίας) Αν οι X,Y είναι ανεξάρτητες συνεχείς Τ.Μ., τότε:
  1. 1. 

    E(XY)=E(X)E(Y).

  2. 2. 

    Cov(X,Y)=0.

  3. 3. 

    Var(X+Y)=Var(X)+Var(Y).

  4. 4. 

    Για οποιεσδήποτε συναρτήσεις g,h:, οι τυχαίες μεταβλητές g(X) και h(Y) είναι ανεξάρτητες.

Πριν δώσουμε την απόδειξη παρατηρούμε πως, για την περίπτωση διακριτών Τ.Μ. X,Y: την Ιδιότητα 1 πιο πάνω την έχουμε συναντήσει ήδη ως μέρος της πρώτης ιδιότητας της συνδιακύμανσης στο Κεφάλαιο 9· η Ιδιότητα 2 αντιστοιχεί στην Ιδιότητα 2 της Ενότητας 9.2· η Ιδιότητα 3 είναι ακριβώς η πέμπτη ιδιότητα της συνδιακύμανσης στο Κεφάλαιο 9· και η Ιδιότητα 4 δίνεται στην Παρατήρηση 2 της Ενότητας 9.2. Επίσης σημειώνουμε ότι η τρίτη ιδιότητα έχει ήδη διατυπωθεί στη συνεχή περίπτωση, χωρίς απόδειξη, στο δεύτερο σκέλος του Θεωρήματος 11.5 στο Κεφάλαιο 11.


Απόδειξη:

Ξεκινάμε αποδεικνύοντας την τέταρτη (και σημαντικότερη) ιδιότητα. Έστω δύο οποιεσδήποτε συναρτήσεις g,h:, και δύο αυθαίρετα υποσύνολα R1,T1 του . Αν ορίσουμε τα «αντίστροφα» σύνολα,


R2=g-1(R1)={x:g(x)R1}καιΤ2=g-1(Τ1)={x:g(x)Τ1},

τότε απλά από τους ορισμούς έχουμε,


Pr(g(X)R1,h(Y)T1)=Pr(Xg-1(R1),Yh-1(T1))=Pr(XR2,YT2),

και από την ανεξαρτησία των X,Y,


Pr(g(X)R1,h(Y)T1)=Pr(XR2)Pr(YT2)=Pr(g(X)R1)Pr(h(Y)T1).

Εφόσον η παραπάνω σχέση ισχύει για αυθαίρετα R1,R2, οι g(X) και h(Y) είναι πράγματι ανεξάρτητες Τ.Μ.

Για την πρώτη ιδιότητα, αφού οι X,Y είναι ανεξάρτητες, το κριτήριο (15.7) μας λέει πως μπορούμε να θεωρήσουμε ότι η από κοινού πυκνότητά τους είναι της μορφής fXY(x,y)=fX(x)fY(y). Οπότε βρίσκουμε ότι,


Ε(XY) = --xyfXY(x,y) dx  dy


= --xyfX(x)fY(y) dx  dy


= (-xfX(x) dx )(-yfY(y) dy )=E(X)E(Y).

Η δεύτερη ιδιότητα είναι άμεση συνέπεια της πρώτης σε συνδυασμό με το αποτέλεσμα του τρίτου σκέλους της Πρότασης 15.4, και η τρίτη ιδιότητα παρομοίως προκύπτει από το συνδυασμό της δεύτερης με το αποτέλεσμα του τέταρτου σκέλους της Πρότασης 15.4.


Παράδειγμα 15.7

Για τις Τ.Μ. X,Y του Παραδείγματος 15.3 υπολογίσαμε στο Παράδειγμα 15.6 πως έχουν μη μηδενική συνδιακύμανση, άρα, βάσει του δεύτερου σκέλους του Θεωρήματος 15.1, δεν είναι ανεξάρτητες. Εναλλακτικά, θα μπορούσαμε να καταφύγουμε απευθείας στον ορισμό της ανεξαρτησίας. Για παράδειγμα, χρησιμοποιώντας τις περιθώριες πυκνότητες των X, Y, που βρήκαμε στο Παράδειγμα 15.3, υπολογίζουμε τις πιθανότητες,


Pr(0X1/2) = 01223(x+1) dx =23[x22+x]012=512,

Pr(0Y1/) = 01213(4y+1) dy =13[2y2+y]012=13,

και παρατηρούμε πως,


Pr(0X1/2)Pr(0Y1/2)=53618=Pr(0X1/2,0X1/2),

όπου η τιμή της πιθανότητας Pr(0X1/2,0Y1/2) έχει επίσης ήδη υπολογιστεί στο Παράδειγμα 15.3. Άρα, και από τον ορισμό της ανεξαρτησίας προκύπτει ότι οι X, Y δεν είναι ανεξάρτητες.

Για την περίπτωση των Τ.Μ. X,Y του Παραδείγματος 15.4, εύκολα διαπιστώνουμε πως το γινόμενο των περιθωρίων πυκνοτήτων τους είναι ίσο με την από κοινού πυκνότητά τους σε όλο το 2, άρα, από το κριτήριο (15.7) έπεται πως είναι ανεξάρτητες.

Τα τελευταία δύο αποτελέσματα αυτού του κεφαλαίου μάς λένε με ποιον τρόπο μπορεί να υπολογιστεί η πυκνότητα του αθροίσματος δύο ανεξάρτητων Τ.Μ., και ότι το άθροισμα ανεξάρτητων, κανονικών Τ.Μ. έχει κι αυτό πάντα κανονική κατανομή.

Θεώρημα 15.2 (Άθροισμα ανεξάρτητων Τ.Μ.) Έστω δύο συνεχείς T.M. X,Y με πυκνότητες fX(x), fY(y) αντίστοιχα. Αν οι X,Y είναι ανεξάρτητες, τότε η πυκνότητα του αθροίσματός τους Z=X+Y ισούται με:

fZ(z)=-fX(x)fY(z-x) dx.

Παρατηρήσεις:

  1. 1.

    Γενικά, για οποιεσδήποτε συναρτήσεις f,g:, η συνεχής συνέλιξη των f(x), g(x) είναι η νέα συνάρτηση h(x)=-f(t)g(x-t)𝑑t. Είναι εμφανής η συνάφεια της πιο πάνω έκφρασης με τη διακριτή μορφή της συνέλιξης, την οποία έχουμε ήδη συναντήσει στην Άσκηση 9 του Κεφαλαίου 6.

  2. 2.

    Πριν δούμε την απόδειξη του θεωρήματος, θα διατυπώσουμε μια σημαντική και χρήσιμη συνέπειά του, την οποία ήδη χρησιμοποιήσαμε στην απόδειξη του θεωρήματος του Lindeberg στο Κεφάλαιο 13.

Πόρισμα 15.1 (Άθροισμα ανεξάρτητων κανονικών Τ.Μ.) Αν οι Y1,Y2,,YN είναι ανεξάρτητες Τ.Μ., όπου η κάθε ZiN(ai,σi2), για i=1,2,,N, τότε το άθροισμά τους έχει κι αυτό κανονική κατανομή, και συγκεκριμένα,

Z=i=1NYiN(a,σ2),όπουa=i=1Nai,σ2=i=1Nσi2 .
Απόδειξη του Θεωρήματος 15.2:

Για να βρούμε την πυκνότητα του Z, κατ’ αρχάς παρατηρούμε πως η από κοινού πυκνότητα των X,Y μπορεί να εκφραστεί ως fXY(x,y)=fX(x)fY(y) και εξετάζουμε τη συνάρτηση κατανομής FZ(z) του Z. Για δεδομένο z, αν ορίσουμε το τρίγωνο Rz={(x,y):x+yz}2, τότε έχουμε,


FZ(z)=Pr(Zz)=Pr(X+Yz)=RzfXY(x,y) dx  dy =--z-xfX(x)fY(y) dy  dx,

και, συμβολίζοντας FY(y) τη συνάρτηση κατανομής του Y,


FZ(z)=-fX(x)(-z-xfY(y) dy ) dx =-fX(x)FY(z-x) dx.

Τέλος, παίρνοντας την παράγωγο ως προς z και στα δύο παραπάνω μέρη,


fZ(z)=FZ(z)=ddz(-fX(x)FY(z-x) dx )=-fX(x)FY(z-x) dx,

το οποίο φυσικά ισούται με -fX(x)fY(z-x)𝑑x, ολοκληρώνοντας την απόδειξη.


Απόδειξη του Πορίσματος 15.1:

Κατ’ αρχάς παρατηρούμε πως η γενική περίπτωση μπορεί να αποδειχθεί με επαγωγική εφαρμογή του αποτελέσματος για N=2 Τ.Μ., οπότε αρκεί να δείξουμε ότι, αν οι XN(a,σ2) και YN(b,τ2) είναι ανεξάρτητες, τότε η Z=X+Y έχει κατανομή N(a+b,σ2+τ2).

Ξεκινάμε με την ειδική περίπτωση της W=X+Y, όπου οι XN(0,ϕ2), YN(0,1) είναι ανεξάρτητες. Εφαρμόζοντας τον τύπο της συνέλιξης από το Θεώρημα 15.2 και αντικαθιστώντας τις αντίστοιχες πυκνότητες της κανονικής κατανομής, η πυκνότητα της W είναι,


fW(w)=-fX(x)fY(w-x) dx =-12πϕ2exp{-12ϕ2x2}12πexp{-12(w-x)2} dx,

και θέτοντας ρ2=ϕ2/(ϕ2+1) και απλοποιώντας βρίσκουμε,


fW(w) = 12π(ϕ2+1)-12πρ2exp{-12ϕ2x2-12(x-w)2} dx


= 12π(ϕ2+1)-12πρ2exp{-12ρ2[x2-2ρ2xw+ρ2w2]} dx


= 12π(ϕ2+1)-12πρ2exp{-12ρ2[x-ρ2w]2}exp{-12[(1-ρ2)w2]} dx


= 12π(ϕ2+1)exp{-12(ϕ2+1)w2}-12πρ2exp{-12ρ2[x-ρ2w]2} dx.

Παρατηρούμε τώρα πως το τελευταίο από τα παραπάνω ολοκληρώματα είναι το ολοκλήρωμα της πυκνότητας της κατανομής N(ρ2w,ρ2) σε όλο το , άρα ισούται με 1, και πως η έκφραση πριν το ολοκλήρωμα είναι ακριβώς η πυκνότητα της κατανομής Ν(0,ϕ2+1). Άρα, έχουμε ότι η WN(0,ϕ2+1).

Επιστρέφοντας τώρα στη γενική περίπτωση, έστω XN(0,ϕ2) και YN(0,1) ανεξάρτητες, με ϕ2=σ2/τ2. Αν ορίσουμε X=τX+a και Y=τY+b, τότε, από την απλή ιδιότητα των γραμμικών μετασχηματισμών για κανονικές Τ.Μ. (βλ. Άσκηση 7 του Κεφαλαίου 12), έχουμε XN(a,σ2), YN(b,τ2) και, από το Θεώρημα 15.1, οι X,Y είναι ανεξάρτητες. Επιπλέον, από την ειδική περίπτωση πιο πάνω, έχουμε ότι η X+YN(0,ϕ2+1), αλλά από τους ορισμούς,


X+Y=X-aτ+Y-bτ=1τ(X+Y)-a+bτ,

οπότε η Τ.Μ.,


1τZ-a+bτN(0,σ2τ2+1),

και εφαρμόζοντας και πάλι την ιδιότητα του γραμμικού μετασχηματισμού προκύπτει πως,


Z=τ(Zτ-a+bτ)+(a+b)N(a+b,σ2+τ2),

το οποίο είναι και το ζητούμενο αποτέλεσμα.

15.4 Μετρησιμότητα και άπειρες τιμές

Στις Ενότητες 6.3 και 10.3 ήδη συζητήσαμε κάποιες μαθηματικές πτυχές των τεχνικής φύσεως προβλημάτων που προκύπτουν όταν ο χώρος πιθανότητας Ω στον οποίο ορίζονται οι Τ.Μ. που εξετάζουμε δεν είναι πεπερασμένος. Δεδομένου ότι οποτεδήποτε οι Τ.Μ. είναι συνεχείς, ο χώρος πιθανότητας στον οποίο θα οριστούν είναι απαραίτητα άπειρος και μη αριθμήσιμος, προκειμένου να αποφευχθούν ενδεχόμενες παθολογίες, εισάγουμε τρεις απλούς περιορισμούς παρόμοιους με εκείνους που είδαμε στο Κεφάλαιο 10:

(1.) Τα μόνα σύνολα τιμών που επιτρέπουμε για συνεχείς Τ.Μ. είναι εκείνα που μπορούν να εκφραστούν ως ενώσεις ενός πεπερασμένου πλήθους διαστημάτων στο .

(2.) Κάθε N-άδα από συνεχείς Τ.Μ. X1,X2,,XN ορίζεται πάντοτε σε συνδυασμό με την από κοινού πυκνότητά τους, fX1X2XN(x1,x2,,xN).

(3.) Τα μόνα ενδεχόμενα των οποίων υπολογίζουμε τις πιθανότητες (ή τις δεσμευμένες πιθανότητες) είναι της μορφής {(X1,X2,,XN)R} για σύνολα RN τα οποία είτε (α’) μπορούν να εκφραστούν ως ενώσεις ενός πεπερασμένου πλήθους ορθογωνίων της μορφής,


{(x1,x2,,xN)N:a1x1b1,a2x2b2,,aNxNbN},

είτε (β’) είναι χωρία RN όπως αυτά που περιγράφονται στο Θεώρημα του Fubini. (Βλ. Θεώρημα A.2 του Παραρτήματος A.1.)


Παρότι οι πιο πάνω υποθέσεις είναι πιο περιοριστικές από όσο είναι απαραίτητο για να αναπτυχθεί η σχετική θεωρία, είναι εύκολο να διατυπωθούν και να ελεγχθούν στην πράξη και είναι αρκετά γενικές ώστε να συμπεριλαμβάνουν όλες τις σημαντικές εφαρμογές που μας ενδιαφέρουν. Συγκεκριμένα, κάτω από αυτές τις συνθήκες, για οποιαδήποτε δεδομένη από κοινού πυκνότητα fX1X2XN(x1,x2,,xN), είναι εύκολο να κατασκευαστεί ένας χώρος πιθανότητας Ω και να οριστούν συναρτήσεις Xi:Ω, για i=1,2,,N και ένα μέτρο πιθανότητας στο Ω, έτσι ώστε οι X1,X2,,XN να έχουν από κοινού πυκνότητα την fX1X2XN. Η βασική ιδέα είναι αντίστοιχη της κατασκευής που είδαμε στην Ενότητα 10.3, και δεν θα δώσουμε εδώ περαιτέρω λεπτομέρειες. Αναφέρουμε μόνο πως το δύσκολο και μαθηματικά ενδιαφέρον βήμα είναι η περιγραφή μιας αρκετά πλούσιας ομάδας υποσυνόλων του Ω στην οποία μπορεί να οριστεί το μέτρο πιθανότητας , και η απόδειξη του ότι το πράγματι έχει τις απαιτούμενες ιδιότητες.

Τέλος, για να αποφύγουμε τεχνικές λεπτομέρειες που ξεφεύγουν από τα ζητούμενα του παρόντος βιβλίου, υιοθετούμε τις ίδιες συμβατικές υποθέσεις όπως κάναμε στο Κεφάλαιο 10: Συνοπτικά, υποθέτουμε εμμέσως πως όλα τα ολοκληρώματα που εμφανίζονται σε υπολογισμούς πιθανοτήτων, μέσων τιμών και πυκνοτήτων υπάρχουν και η τιμή τους είναι πεπερασμένη.

15.5 Ασκήσεις

  1. 1.

    Παραδείγματα ανεξαρτησίας.

    1. (α’)

      Είναι ή όχι οι Τ.Μ. X,Y του Παραδείγματος 15.1 ανεξάρτητες;

    2. (β’)

      Είναι ή όχι οι Τ.Μ. X,Y του Παραδείγματος 15.2 ανεξάρτητες;

    Αποδείξτε τις απαντήσεις σας.

  2. 2.

    Περισσότερα για την κατανομή χ2(k). Στην Άσκηση 5 του Κεφαλαίου 12 ορίσαμε την κατανομή χ2 με k βαθμούς ελευθερίας, χ2(k).

    1. (α’)

      Υπολογίστε τη διασπορά της κατανομής χ2(k).

    2. (β’)

      Βρείτε την πυκνότητα της χ2(k) για k=1,2 και 3. Σχολιάστε.

  3. 3.

    Ασυσχέτιστες αλλά όχι ανεξάρτητες συνεχείς Τ.Μ. Έστω πως οι Τ.Μ (X,Y) είναι «ομοιόμορφα» κατανεμημένες στο δίσκο S={(x,y):x2+y21}, δηλαδή έχουν από κοινού πυκνότητα,


    fXY(x,y)={1π,αν(x,y)S,0,αν(x,y)S.
    1. (α’)

      Βρείτε τις περιθώριες πυκνότητες των X και Y.

    2. (β’)

      Δείξτε πως η συνδιακύμανση Cov(X,Y)=0, αλλά οι X,Y δεν είναι ανεξάρτητες.

  4. 4.

    Χρόνοι διεργασιών. Δύο διεργασίες που πραγματοποιούνται σε ένα δίκτυο επεξεργαστών είναι προγραμματισμένες έτσι ώστε να τελειώσουν ταυτόχρονα και σε μια συγκεκριμένη ώρα. Έστω X, Y οι χρόνοι καθυστέρησης του τερματισμού τους, σε δευτερόλεπτα, όπου οι Τ.Μ. X, Y είναι ανεξάρτητες και ομοιόμορφα κατανεμημένες από το 0 ως το 1.

    1. (α’)

      Ποια είναι η πιθανότητα η διαφορά στους χρόνους τερματισμού, δηλαδή το |X-Y|, να είναι λιγότερο από μισό δευτερόλεπτο;

    2. (β’)

      Ποια είναι η μέση τιμή της διαφοράς |X-Y| των χρόνων τερματισμού;

    3. (γ’)

      Η καθυστέρηση στον τερματισμό των διεργασιών έχει κόστος Z=20X+10Y ευρώ. Ποιο είναι το μέσο κόστος που προκύπτει κάθε φορά που εκτελούνται;

    4. (δ’)

      Ποια είναι η πιθανότητα το κόστος να ξεπερνά τα 20 ευρώ;

    5. (ε’)

      Υπολογίστε τη συνδιακύμανση Cov(X,Y).

  5. 5.

    Θεραπείες. Σε κάποιον ασθενή χορηγούνται δύο θεραπείες, με ποσοστά επιτυχίας X και Y αντίστοιχα, για τα οποία γνωρίζουμε ότι η από κοινού πυκνότητα τους είναι:


    fXY(x,y)={cx(1-y),(x,y)[0,1]×[0,1],0,(x,y)[0,1]×[0,1].
    1. (α’)

      Βρείτε την τιμή της σταθεράς c.

    2. (β’)

      Ποιες είναι οι περιθώριες πυκνότητες των X, Y;

    3. (γ’)

      Υπολογίστε τη συνδιακύμανση Cov(X,Y) και δείξτε αν οι Τ.Μ. X,Y είναι ανεξάρτητες ή όχι.

    4. (δ’)

      Ποια είναι η πιθανότητα Pr(XY) η δεύτερη θεραπεία να είναι αποτελεσματικότερη από την πρώτη;

  6. 6.

    Εναλλακτικές θεραπείες. Όπως στην Άσκηση 5, θεωρούμε πως σε κάποιον ασθενή χορηγούνται δύο θεραπείες με ποσοστά επιτυχίας X και Y αντίστοιχα, οι οποίες έχουν ελαφρώς διαφορετική πυκνότητα από πριν:


    fXY(x,y)={cx(1-y),0x,y1,x+y1,0,αλλού.
    1. (α’)

      Ποια είναι η τιμή της σταθεράς c;

    2. (β’)

      Ποιες είναι οι περιθώριες πυκνότητες των X, Y;

    3. (γ’)

      Υπολογίστε τη συνδιακύμανση Cov(X,Y) και δείξτε αν οι Τ.Μ. είναι X,Y ανεξάρτητες ή όχι.

  7. 7.

    Τριπλά ολοκληρώματα. Έστω πως τρεις συνεχείς Τ.Μ. X,Y,Z έχουν από κοινού πυκνότητα:


    fXYZ(x,y,z)={1k(2x+3y2+4z3),0x3,0y2,0z1,0,αλλού.
    1. (α’)

      Βρείτε την τιμή της σταθεράς k.

    2. (β’)

      Υπολογίστε τη μέση τιμή E(XYZ).

    3. (γ’)

      Υπολογίστε την πιθανότητα Pr(X+Y+Z1).

  8. 8.

    Περιθώρια και από κοινού πυκνότητα. Έστω τρεις συνεχείς Τ.Μ. X,Y και Z με από κοινού πυκνότητα fXYZ(x,y,z). Βρείτε έναν τρόπο να εκφράσετε την από κοινού πυκνότητα fXY(x,y) μόνο δύο εκ των τριών Τ.Μ., συναρτήσει της fXYZ(x,y,z). Αποδείξτε ότι το αποτέλεσμά σας ισχύει.

  9. 9.

    Μίξη πυκνοτήτων. Έστω τρεις ανεξάρτητες Τ.Μ. X,Y,Z με κατανομές, XΕκθ(1), YU[1,2] και ZBern(1/2) αντίστοιχα. Βρείτε την πυκνότητα της Τ.Μ.,


    W=ZX+(1-Z)Y,

    και εξηγήστε διαισθητικά τι περιγράφει η W.

  10. 10.

    Φτου φτου φτου. Η madame Depy Sisini – η διασημότερη επαγγελματίας ξεματιάστρα Καλλιθέας και περιχώρων – έχει διαπιστώσει ότι το επίπεδο ικανοποίησης του κάθε πελάτη της, έστω Z, εξαρτάται από τις τιμές δύο άλλων Τ.Μ.: Του χρόνου X (σε λεπτά) που διαρκούν τα χασμουρητά της ενώ τον ξεματιάζει, και του συνολικού χρόνου Y (επίσης σε λεπτά) που διαρκεί η διαδικασία του ξεματιάσματος.

    Έστω πως οι X,Y,Z έχουν από κοινού πυκνότητα:


    fXYZ(x,y,z)={x502πexp{-x2-(y-z)250},ανx>0και  5/xy10/x,0,αν όχι.
    1. (α’)

      Βρείτε την περιθώρια πυκνότητα και τη μέση τιμή του χρόνου X των χασμουρητών.

    2. (β’)

      Δεδομένου ότι σε κάποιο ξεμάτιασμα η madame Depy χασμουρήθηκε για λιγότερο από ένα λεπτό, ποια η πιθανότητα το όλο ξεμάτιασμα να διήρκεσε το πολύ 10 λεπτά;

  11. 11.

    Συσχέτιση, συνδιακύμανση, διασπορά. [Εδώ θα δούμε τις προφανείς επεκτάσεις κάποιων αποτελεσμάτων που αποδείχθηκαν για διακριτές Τ.Μ. στην Άσκηση 10 του Κεφαλαίου 9 και στην Άσκηση 17 του Κεφαλαίου 11.] Για δύο συνεχείς Τ.Μ. X,Y, ο συντελεστής συσχέτισης μεταξύ τους ορίζεται ακριβώς όπως και στη διακριτή περίπτωση:


    ρX,Y=Cov(X,Y)[Var(X)Var(Y)]12.
    1. (α’)

      Αποδείξτε ότι, αν Y=aX+b, όπου η σταθερά a0, τότε το ρX,Y ισούται με +1 ή με -1. Πότε ισούται με +1 και πότε με -1;

    2. (β’)

      Δείξτε ότι για τη συνδιακύμανση μεταξύ των X και Y έχουμε:


      Cov(X,Y)Var(X)Var(Y).
    3. (γ’)

      Αποδείξτε πως ο συντελεστής συσχέτισης ρX,Y πάντα ικανοποιεί |ρX,Y|1.

  12. 12.

    Η διμεταβλητή κανονική κατανομή. Δύο Τ.Μ. X,Y λέμε πως έχουν διμεταβλητή κανονική κατανομή με αντίστοιχους μέσους μ,ν, διασπορές σ2>0,τ2>0, και συνδιακύμανση c, αν έχουν από κοινού πυκνότητα,


    fXY (x,y)


    =12πστ1-ρ2exp{-12(1-ρ2)[(x-μ)2σ2+(y-ν)2τ2-2ρ(x-μ)(y-ν)στ]},
    (15.8)

    για κάθε x,y, όπου ρ=c/(στ), και η συνδιακύμανσή τους ικανοποιεί |c|<στ. Δύο παραδείγματα αυτής της πυκνότητας για διαφορετικές τιμές των παραμέτρων απεικονίζονται στο Σχήμα 15.7.

    Σχήμα 15.7: Παραδείγματα της διμεταβλητής κανονικής πυκνότητας (15.8) με μέσους μ=ν=0. Στην πρώτη περίπτωση οι διασπορές είναι σ2=1, τ2=2 και η συνδιακύμανση c=0.1 (αριστερά) και στην δεύτερη περίπτωση έχουμε σ2=1, τ2=5, c=-1 (δεξιά).

    Εδώ θα δούμε έναν απλό τρόπο για να κατασκευάσουμε δύο Τ.Μ. X,Y με τις πιο πάνω ιδιότητες. Έστω Z,W δύο ανεξάρτητες Τ.Μ. με τυπική κανονική κατανομή N(0,1). Ορίζουμε τις δύο νέες Τ.Μ.,


    X=μ+σZ,Y=ν+cσZ+τ2-c2σ2W.
    1. (α’)

      Δείξτε πως οι X,Y έχουν τις επιθυμητές περιθώριες κατανομές, XN(μ,σ2) και YN(ν,τ2).

    2. (β’)

      Υπολογίστε πως η συνδιακύμανσή τους Cov(X,Y) πράγματι ισούται με c.

    3. (γ’)

      Εξηγήστε γιατί πάντοτε έχουμε c2σ2τ2 και σχολιάστε τον περιορισμό |c|<στ.

    4. (δ’)

      Αποδείξτε ότι οι X,Y έχουν από κοινού πυκνότητα την παραπάνω fXY(x,y).

  13. 13.

    Το Κ.Ο.Θ. χωρίς το «Ο». Έστω πως οι Τ.Μ. {Xn} στο Κ.Ο.Θ. (Θεώρημα 12.2) έχουν όλες κατανομή XnN(μ,σ2). Εξηγήστε γιατί σε αυτή την ειδική περίπτωση δεν χρειάζεται καν να πάρουμε το όριο N για να δείξουμε ότι τα κανονικοποιημένα αθροίσματα S¯N συγκλίνουν κατά κατανομή στην τυπική κανονική κατανομή.


  14. ΠΟΛΥΜΕΣΙΚΟ ΥΛΙΚΟ ΚΕΦΑΛΑΙΟΥ

1

Κινούμενο σχήμα 15.1: Η από κοινού πυκνότητα ενός ζεύγους ανεξάρτητων Τ.Μ. X και Y. Η X είναι ομοιόμορφα κατανεμημένη στο διάστημα [1,4] και η Y είναι ομοιόμορφα κατανεμημένη στο [0,2].

1

Κινούμενο σχήμα 15.2: Η από κοινού πυκνότητα ενός ζεύγους ανεξάρτητων κανονικών Τ.Μ. με μέση τιμή μ=0 και διασπορά σ2=1. Συγκρίνετε προσεκτικά αυτό το κινούμενο σχήμα με τα Κινούμενα Σχήματα  15.3 και 15.4.

9

Κινούμενο σχήμα 15.3: Η από κοινού πυκνότητα ενός ζεύγους κανονικών Τ.Μ. που δεν είναι ανεξάρτητες και έχουν θετική συσχέτιση. Οι Τ.Μ. προκύπτουν θέτοντας X=0.7W+0.3V και Y=0.3W+0.7V, όπου οι W,V είναι ανεξάρτητες κανονικές Τ.Μ. με μέση τιμή 0 και διασπορά 1. Παρατηρήστε ότι, όταν η μια Τ.Μ. παίρνει μεγάλες τιμές, αυξάνονται οι πιθανότητες να πάρει μεγάλες τιμές και η άλλη. Αυτό φαίνεται από το κινούμενο σχήμα αλλά και από τον τρόπο με τον οποίο ορίστηκαν οι X,Y. Συγκρίνετε προσεκτικά αυτό το κινούμενο σχήμα με τα Κινούμενα Σχήματα  15.2 και 15.4.

2

Κινούμενο σχήμα 15.4: Η από κοινού πυκνότητα ενός ζεύγους κανονικών Τ.Μ. που δεν είναι ανεξάρτητες αλλά τώρα έχουν αρνητική συσχέτιση. Οι Τ.Μ. προκύπτουν θέτοντας X=0.7W+0.3V και Y=-0.3W-0.7V, όπου οι W,V είναι ανεξάρτητες κανονικές Τ.Μ. με μέση τιμή 0 και διασπορά 1. Σε αυτή την περίπτωση, παρατηρήστε ότι, όταν η μια Τ.Μ. παίρνει μεγάλες τιμές, η άλλη Τ.Μ. τείνει να παίρνει μικρές τιμές. Συγκρίνετε προσεκτικά αυτό το κινούμενο σχήμα με τα Κινούμενα Σχήματα  15.2 και 15.3.


Παράρτημα A

A.1 Διπλά ολοκληρώματα: Συνοπτική επισκόπηση

[Επιστροφή στα περιεχόμενα]


Για μια οποιαδήποτε συνάρτηση f(x,y) δύο μεταβλητών, το ολοκλήρωμα της f:× στο υποσύνολο R×, συμβολίζεται ως,


Rf(x,y) dA    ή πιο απλά  Rf(x,y) dx  dy.

Αν η f(x,y) παίρνει θετικές τιμές, η γεωμετρική ερμηνεία του διπλού ολοκληρώματος είναι πως η τιμή του ισούται με τον όγκο του στερεού που περικλείεται μεταξύ του συνόλου R στο επίπεδο x-y και του γραφήματος z=f(x,y). Γενικά, η τιμή του διπλού ολοκληρώματος ισούται με τον όγκο του στερεού μεταξύ του R και της f(x,y) όπου αυτή είναι θετική, μείον τον όγκο μεταξύ του R και της f(x,y) όπου αυτή είναι αρνητική. Για παράδειγμα, το διπλό ολοκλήρωμα της συνάρτησης f(x,y)=xy στο R=[0,2]×[-2,3] είναι ο όγκος του στερεού που βρίσκεται μεταξύ του R1=[0,2]×[0,3], όπου η συνάρτηση είναι θετική, και του γραφήματος της f(x,y), μείον τον όγκο του στερεού που βρίσκεται μεταξύ του R2=[0,2]×[-2,0], όπου η συνάρτηση είναι αρνητική, και του γραφήματος της f(x,y), όπως απεικονίζεται στο  Σχήμα 1.1.

Σχήμα 1.1: Το διπλό ολοκλήρωμα της f(x,y)=xy ισούται με τον όγκο του στερεού πάνω από το ορθογώνιο [0,2]×[0,3] μείον τον όγκο του στερεού κάτω από το ορθογώνιο [0,2]×[-2,0].

Στο ακόλουθο θεώρημα συγκεντρώνουμε κάποιες από τις απλούστερες ιδιότητες των διπλών ολοκληρωμάτων. Επίσης σημειώνουμε πως, για να αποφύγουμε τεχνικές δυσκολίες που ξεπερνούν τους στόχους αυτού του βιβλίου, εμμέσως υποθέτουμε πως υπάρχουν όλα τα ολοκληρώματα που εμφανίζονται.

Θεώρημα A.1

Για κάθε ζεύγος συναρτήσεων f και g στο ×, για οποιεσδήποτε σταθερές a,b, και για οποιαδήποτε υποσύνολα R,S×, έχουμε:

  1. 1. 

    Το ολοκλήρωμα είναι γραμμικό:


    R(af(x,y)+bg(x,y)) dx  dy =aRf(x,y) dx  dy +bRg(x,y) dx  dy.
  1. 2. 

    Αν f(x,y)g(x,y) για κάθε (x,y)R, τότε:


    Rf(x,y) dx  dy Rg(x,y) dx  dy.
  2. 3. 

    Αν η f(x,y)0 για κάθε (x,y)S και το R είναι υποσύνολο του S, τότε:


    Rf(x,y) dx  dy Sf(x,y) dx  dy.
  3. 4. 

    Αν τα R και S είναι ξένα, τότε για οποιαδήποτε συνάρτηση f(x,y):


    RSf(x,y) dx  dy =Rf(x,y) dx  dy +Sf(x,y) dx  dy.
  4. 5. 

    Για οποιοδήποτε R×: R0 dx  dy =0.

  5. 6. 

    Αν το R× έχει εμβαδόν ίσο με μηδέν, τότε για οποιαδήποτε συνάρτηση f(x,y):


    Rf(x,y) dx  dy =0.

Το επόμενο αποτέλεσμα αποτελεί ένα πολύ χρήσιμο και βασικό εργαλείο για τον υπολογισμό διπλών ολοκληρωμάτων. Αμέσως μετά θα δούμε δύο παραδείγματα όπου εφαρμόζονται οι πιο πάνω ιδιότητες και το θεώρημα του Fubini.

Θεώρημα A.2 (Θεώρημα του Fubini)
  1. 1. 

    Έστω ένα υποσύνολο R× στο επίπεδο, το οποίο μπορεί να εκφραστεί ως,


    R={(x,y):axb,ϕ1(x)yϕ2(x)},
    (A.1)

    για κάποιες σταθερές a<b και κάποιες συνεχείς συναρτήσεις ϕ1,ϕ2:[a,b] τέτοιες ώστε ϕ1(x)ϕ2(x) για κάθε x[a,b]. (Ένα τέτοιο R απεικονίζεται στο Σχήμα 1.2.) Αν η f(x,y) είναι συνεχής στο R, τότε το διπλό ολοκλήρωμά της στο R υπάρχει και μπορεί να υπολογιστεί ως,


    Rf(x,y)𝑑x𝑑y=ab(ϕ1(x)ϕ2(x)f(x,y)𝑑y)𝑑x.
  2. 2. 

    Παρομοίως, έστω ένα υποσύνολο R× στο επίπεδο, το οποίο μπορεί να εκφραστεί ως,


    R={(x,y):ayb,ϕ1(y)xϕ2(y)},
    (A.2)

    για κάποιες σταθερές a<b και κάποιες συνεχείς συναρτήσεις ϕ1,ϕ2:[a,b] τέτοιες ώστε ϕ1(y)ϕ2(y) για κάθε y[a,b]. (Ένα τέτοιο R απεικονίζεται στο Σχήμα 1.2.) Αν η f(x,y) είναι συνεχής στο R, τότε το διπλό ολοκλήρωμά της στο R υπάρχει και μπορεί να υπολογιστεί ως,


    Rf(x,y)𝑑x𝑑y=ab(ϕ1(y)ϕ2(y)f(x,y)𝑑x)𝑑y.
  3. 3. 

    Στην ειδική περίπτωση που το R είναι ένα ορθογώνιο, R=[a,b]×[c,d], έχουμε:


    [a,b]×[c,d]f(x,y)𝑑x𝑑y=ab(cdf(x,y)𝑑y)𝑑x=cd(abf(x,y)𝑑x)𝑑y.
Σχήμα 1.2: Η πρώτη (αριστερά) και η δεύτερη (δεξιά) περίπτωση του θεωρήματος του Fubini.

Παράδειγμα A.1

Θα υπολογίσουμε το διπλό ολοκλήρωμα της συνάρτησης f(x,y)=y2x, x0,y, σε τρία διαφορετικά χωρία R.

  1. 1.

    Το ορθογώνιο R1 με γωνίες τα σημεία (0,0), (2,0), (0,1), και (2,1).

  2. 2.

    Το τρίγωνο R2 με γωνίες τα σημεία (0,0), (0,1), και (2,1).

  3. 3.

    Το χωρίο R3 που περικλείεται από τις ευθείες x=0, y=1, και την καμπύλη y=x/2.

Σε κάθε περίπτωση, το πιο σημαντικό βήμα είναι η έκφραση του αντίστοιχου Ri σε μία από τις μορφές (A.1) ή (A.2), όπως απαιτεί η εφαρμογή του Θεωρήματος A.2. Έχουμε:

  1. 1.

    Το R1 μπορεί να γραφεί ως R1={(x,y):  0x2,0y1}, άρα,


    R1f(x,y) dx  dy = 02(01y2x dy ) dx


    = 02x[y33]01 dy  dx


    = 02x3 dx


    = 29[x3/2]02=429.

    To R1 και ο όγκος του στερεού που μόλις υπολογίσαμε απεικονίζονται στο Σχήμα 1.3.

  2. 2.

    Για το R2, παρατηρούμε πως μπορεί να εκφραστεί ως {(x,y):  0x2,x/2y1}, οπότε,


    R2f(x,y) dx  dy = 02(x/21y2x dy ) dx


    = 02x[y33]x/21 dy  dx


    = 02x(13-x324) dx


    = [29x3/2-1108x9/2]02=8227.

    Όπως πριν, το R2 και ο όγκος του στερεού που μόλις υπολογίσαμε απεικονίζονται στο Σχήμα 1.3.

  3. 3.

    Στην τελευταία περίπτωση, όπως φαίνεται και στο Σχήμα 1.3, έχουμε,


    R3={(x,y):  0x2,x2y1},

    και εφαρμόζοντας και πάλι το θεώρημα του Fubini,


    R3f(x,y) dx  dy = 02(x/21y2x𝑑y) dx


    = 02x[y33]x/21 dx


    = 02(x3-162x2) dx


    = [29x3/2-1182x3]02=229.

Σχήμα 1.3: Τα στερεά των ολοκληρωμάτων στο Παράδειγμα A.1.

Το Θεώρημα A.2 μπορεί να εφαρμοστεί ακόμη και αν το διπλό ολοκλήρωμα είναι καταχρηστικό, δηλαδή σε περιπτώσεις που είτε το R δεν είναι πεπερασμένο, είτε η συνάρτηση f(x,y) δεν είναι φραγμένη. Ακολουθεί ένα τέτοιο παράδειγμα.


Παράδειγμα A.2

Θα υπολογίσουμε το ολοκλήρωμα της f(x,y)=e-x-2y, x,y στο τρίγωνο R που περικλείεται μεταξύ των ευθειών x=0 και y=x. Το R και το αντίστοιχο στερεό που δημιουργείται έχουν σχεδιαστεί στο Σχήμα 1.4.

Σχήμα 1.4: Το τρίγωνο R και το αντίστοιχο στερεό που προκύπτουν στο Παράδειγμα A.2.

Αρχικά παρατηρούμε πως,


R={(x,y):  0y,0xy},

και, χρησιμοποιώντας τη δεύτερη περίπτωση του θεωρήματος του Fubini, έχουμε,


Rf(x,y)dx  dy = 0(0ye-x-2y dx ) dy


= 0e-2y(0ye-x dx ) dy


= 0e-2y[-e-x]0y dy


= 0e-2y(1-e-y) dy


= [13e-3y-12e-2y]0=16.



A.2 Ασκήσεις Κεφαλαίου 2

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Τυχαία παιδιά. Ο χώρος πιθανότητας είναι το σύνολο Ω που αποτελείται από όλες τις δυνατές n-άδες της μορφής (X,X,,X), όπου X=A ή X=K. Άρα περιέχει 2n τέτοια στοιχεία. Π.χ., το στοιχείο ω=(K,A,A,,A) περιγράφει την περίπτωση όπου το ζευγάρι έκανε πρώτα ένα κορίτσι και μετά (n-1) αγόρια.

  2. 2.

    Κι άλλα τυχαία παιδιά. Ο χώρος πιθανότητας Ω εδώ περιέχει δύο ειδών στοιχεία: Εκείνα που αντιστοιχούν σε αποτελέσματα πεπερασμένου μήκους (K), (A,K), (A,A,K), (A,A,A,K) κ.ο.κ., και ένα που αντιστοιχεί στην περίπτωση όπου το ζευγάρι κάνει άπειρα αγόρια, το (A,A,A,). Δηλαδή,


    Ω={(K),(A,K),(A,A,K),,(A,,A,K),}{(A,A,A)}.

    Μια εναλλακτική, ισοδύναμη περιγραφή του αποτελέσματος αυτού του πειράματος μπορεί να δοθεί με το να καταγράψουμε απλώς το πόσα παιδιά συνολικά έκανε το ζευγάρι. Τότε, ο αντίστοιχος χώρος πιθανότητας θα μπορούσε να οριστεί ως Ω={1,2,3,}{}. Η αντιστοιχία των δύο χώρων πιθανότητας Ω και Ω είναι προφανής.

  3. 3.

    Δύο διαδοχικές ζαριές. Ο χώρος πιθανότητας Ω και όλα τα ζητούμενα ενδεχόμενα έχουν σχεδιαστεί στο Σχήμα 1.5.

    Σχήμα 1.5: Λύση Άσκησης 3.
  4. 4.

    Υπάρχουν και περίεργοι χώροι πιθανότητας. Εδώ ο χώρος πιθανότητας Ω μπορεί να περιγραφεί ως το ακόλουθο σύνολο:


    Ω={(x,y)2:x2+y2202}{ΣΚΥΛΟΣ}.
  5. 5.

    Δύο ταυτόχρονες ζαριές. Ο χώρος πιθανότητας Ω και όλα τα ζητούμενα ενδεχόμενα εμφανίζονται στο Σχήμα 1.6. Σε αυτή την περίπτωση, οι αριθμοί που προκύπτουν δεν είναι διατεταγμένες δυάδες, και συνεπώς δεν έχει νόημα να υπάρχουν στο χώρο πιθανότητας ταυτόχρονα οι δυάδες (1,2) και (2,1), (1,3) και (3,1) κ.ο.κ.

    Σχήμα 1.6: Λύση Άσκησης 5.
  6. 6.

    Τρία νομίσματα. Έστω ΚΚΚ το αποτέλεσμα να έρθουν τρεις Κορώνες, ΚΚΓ να έρθουν δύο Κορώνες και κατόπιν Γράμματα κλπ. Ο χώρος πιθανότητας είναι το,


    Ω={ΚΚΚ, ΚΚΓ, ΚΓΚ, ΚΓΓ, ΓΚΚ, ΓΚΓ, ΓΓΚ, ΓΓΓ},

    και τα ζητούμενα ενδεχόμενα είναι τα,


    A={ΚΚΚ, ΓΓΓ},B={ΓΓΓ, ΓΓΚ},C={ΚΚΓ, ΚΓΚ, ΓΚΚ, ΚΚΚ}.
  7. 7.

    Άσπρες και μαύρες μπάλες.

    1. (α’)

      Ο χώρος πιθανότητας του πειράματος είναι ο Ω1={AM,MA,MM}. Εφόσον υποθέσαμε ότι οι μαύρες είναι πανομοιότυπες, δεν μπορούμε να διακρίνουμε μεταξύ τους. Αν μπορούσαμε να τις διακρίνουμε, τότε ο χώρος πιθανότητας θα ήταν το σύνολο:


      {AM1,AM2,AM3,M1A,M2A,M3A,M1M2,M1M3,M2M1,M2M3,M3M1,M3M2}.
    2. (β’)

      Το ενδεχόμενο να κερδίσουμε συνολικά 10 ευρώ είναι προφανώς το A={MM}.

    3. (γ’)

      Ο νέος χώρος πιθανότητας είναι ο,


      Ω2={AM,MA,AA,MM},

      και το ζητούμενο ενδεχόμενο είναι το B={AM,MA}.

  8. 8.

    Λειτουργία δικτύου. Θυμηθείτε την Παρατήρηση 2 του Κεφαλαίου 2. Κατά συνέπεια, έχουμε: D=AB, E=AB, F=ABC, G=(AB)(AC)A.

  9. 9.

    Απλά διαγράμματα ενδεχομένων. Τα ζητούμενα ενδεχόμενα εμφανίζονται σκιασμένα στο Σχήμα 1.7.

    Σχήμα 1.7: Λύση Άσκησης 9.
  10. 10.

    Τρεις ζαριές. Ο χώρος πιθανότητας είναι το σύνολο που περιέχει όλες τις τριάδες που αποτελούνται από τα στοιχεία 1,2,3,4,5,6:


    Ω={111,112,113,114,..,666}.

    Τα ζητούμενα ενδεχόμενα είναι τα:


    A = {616,626,636,646,656,666},

    B = {111,122,133,144,155,166},

    C = {222,444,666}.
  11. 11.

    Σταθερά και κινητά τηλέφωνα. Για το χώρο πιθανότητας έχουμε,


    Ω={όλα τα ζεύγη διαφορετικών αριθμών από τα 1,2,3,,450}.

    Για το πρώτο ζητούμενο ενδεχόμενο,


    A = «επιλέξαμε ένα σταθερό και ένα κινητό»


    = {(1,401),(1,402),,(1,450),



     (2,401),(2,402),,(2,450),



                 



     (400,401),,(400,450)},

    δηλαδή το A αποτελείται από όλα τα μη διατεταγμένα ζεύγη ακεραίων (m,n) που έχουν 1m400 και 401n450.

    Τέλος, Β=, γιατί δεν υπάρχει συνδυασμός τηλεφώνων που να δίνει αυτό το κόστος.

  12. 12.

    Το πρόβλημα των τριών φυλακισμένων. Το πρόβλημα αυτό είναι εντελώς ανάλογο του προβλήματος Monty Hall στο Παράδειγμα 2.4, όπου στη θέση του δώρου έχουμε την απονομή χάριτος, στη θέση του διαγωνιζόμενου τον φυλακισμένο, και στη θέση του παρουσιαστή τον δεσμοφύλακα. Μπορούμε και πάλι να περιγράψουμε το χώρο πιθανότητας με χρήση του Σχήματος 2.4, εφόσον ορίσουμε ως A τον φυλακισμένο που θα ελευθερωθεί και ως B,C τους άλλους δύο. Εδώ, το πρώτο στοιχείο της τριάδας είναι το όνομα του φυλακισμένου που ρωτά, το δεύτερο στοιχείο της τριάδας είναι το όνομα του φυλακισμένου που ο δεσμοφύλακας αποκαλύπτει ότι δεν θα πάρει χάρη, και το τρίτο στοιχείο είναι το όνομα του φυλακισμένου του οποίου θα πάρει τη θέση ο φυλακισμένος που ρωτά.

  13. 13.

    Monty Hall 2. Ο νέος χώρος πιθανότητας και τα αποτελέσματα που οδηγούν σε νίκη εμφανίζονται στο Σχήμα 1.8. Παρατηρήστε ότι ο νέος χώρος πιθανότητας έχει τη μορφή δέντρου με τρεις αρχικούς κλάδους, ο καθένας εν των οποίων είναι ακριβώς ίδιος με το χώρο πιθανότητας του Παραδείγματος 2.4.

    Σχήμα 1.8: Ο χώρος πιθανότητας της Άσκησης 13. Στο πρώτο βήμα επιλέγεται η κουρτίνα στην οποία θα τοποθετηθεί το δώρο, στο δεύτερο ο διαγωνιζόμενος επιλέγει μια κουρτίνα, στο τρίτο ο παρουσιαστής ανοίγει μία από τις άλλες δύο, και στο τέταρτο ο διαγωνιζόμενος αλλάζει αν θέλει την επιλογή του. Τα αποτελέσματα που αντιστοιχούν σε «νίκη» είναι σημειωμένα με *.
  14. 14.

    Monty Hall 3. Ο νέος χώρος πιθανότητας και τα αποτελέσματα που οδηγούν σε νίκη εμφανίζονται στο Σχήμα 1.9. Παρατηρήστε ότι ο νέος χώρος πιθανότητας έχει μόλις 4 στοιχεία.

    Σχήμα 1.9: Ο χώρος πιθανότητας της Άσκησης 14. Στο πρώτο βήμα ο διαγωνιζόμενος επιλέγει μια κουρτίνα, στο δεύτερο ο παρουσιαστής ανοίγει μία από τις άλλες δύο, και στο τρίτο ο διαγωνιζόμενος διατηρεί την αρχική επιλογή του. Τα αποτελέσματα που αντιστοιχούν σε «νίκη» είναι σημειωμένα με *.
  15. 15.

    Monty Hall 4. Ο νέος χώρος πιθανότητας και τα αποτελέσματα που οδηγούν σε νίκη εμφανίζονται στο Σχήμα 1.10. Παρατηρήστε ότι και αυτός ο χώρος πιθανότητας έχει μόνο 4 στοιχεία.

    Σχήμα 1.10: Ο χώρος πιθανότητας της Άσκησης 15. Στο πρώτο βήμα ο διαγωνιζόμενος επιλέγει μια κουρτίνα, στο δεύτερο ο παρουσιαστής ανοίγει μία από τις άλλες δύο, και στο τρίτο ο διαγωνιζόμενος αλλάζει την αρχική επιλογή του. Τα αποτελέσματα που αντιστοιχούν σε «νίκη» είναι σημειωμένα με *.



A.3 Ασκήσεις Κεφαλαίου 3

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Η πιθανότητα της διαφοράς. Έστω Ω ο χώρος πιθανότητας όπου ορίζονται τα ενδεχόμενα E και F. Έχουμε κατ’ αρχάς ότι,


    E=EΩ=E(FF)=(EF)(EF).

    Όμως τα ενδεχόμενα EF και EF είναι ξένα, συνεπώς, από τον κανόνα πιθανότητας #3,


    Pr(E)=Pr(EF)+Pr(EF),

    που μας δίνει ακριβώς τη ζητούμενη σχέση. Δείτε το διάγραμμα του Σχήματος 1.11.

    Σχήμα 1.11: Διάγραμμα για την Άσκηση 1.
  2. 2.

    Περίεργα ζάρια. Έστω ο χώρος πιθανότητας Ω={1,2,3,4,5,6} και τα στοιχειώδη ενδεχόμενα Ei={i}=«το ζάρι ήρθε i», για 1i6. Έστω το μέτρο πιθανότητας που περιγράφει τις πιθανότητες αυτού του ζαριού. Μας έχει δοθεί ότι:


    (E1E2) = (E1)+(E2)=  1/3,

    και(E2E3) = (E2)+(E3)=  1/3.

    Για το κάτω φράγμα, προφανώς έχουμε (E2)0, και η τιμή (E2)=0 είναι εφικτή αν επιλέξουμε, για παράδειγμα, ως μέτρο πιθανότητας το ακόλουθο,


    (E1) = (E3)=(E5)=  1/3,

    και(E2) = (E4)=(E6)=  0,

    το οποίο είναι συμβατό με τα δεδομένα του προβλήματος.

    Για το άνω φράγμα, παρατηρούμε ότι θα πρέπει η πιθανότητα του E2, δηλαδή του να έρθει 2, να είναι το πολύ ίση με την πιθανότητα του ενδεχόμενου να έρθει 1 ή 2, η οποία είναι ίση με 1/3. (Αυτό προκύπτει από τον κανόνα πιθανότητας #2). Αυτό το άνω φράγμα είναι εφικτό και επιτυγχάνεται, για παράδειγμα, για το ακόλουθο μέτρο πιθανότητας:


    (E1)=(E3)=0,(E2)=(E4)=1/3,(E5)=(E6)=1/6.

    Παρατηρήστε ότι τα παραπάνω μέτρα πιθανότητας ικανοποιούν όλα τα αξιώματα πιθανοτήτων, και επομένως είναι αποδεκτά. Το κατά πόσο θα είναι χρήσιμα, εξαρτάται από το πόσο ανταποκρίνονται στην πραγματικότητα, και μπορούμε συνεπώς να τα χρησιμοποιήσουμε ως μοντέλα. [Από αυτή την άποψη, στις περισσότερες περιπτώσεις δεν είναι αποδεκτά, καθώς τα περισσότερα ζάρια ανταποκρίνονται στις συνθήκες (Ei)1/6 για κάθε 1i6.]

  3. 3.

    Τυχαία συνάντηση.

    1. (α’)

      Μπορούμε να χρησιμοποιήσουμε ως χώρο πιθανότητας το διάστημα Ω=[0,2]. Επειδή ο Γιάννης δεν έχει προτίμηση σε κάποιο διάστημα, είναι λογικό να υποθέσουμε ότι η πιθανότητα ενός οποιουδήποτε διαστήματος Ε είναι ανάλογη του μήκους του (E). Προκειμένου να είναι η πιθανότητα όλου του χώρου πιθανότητας Ω ίση με τη μονάδα, προκύπτει ότι πρέπει (E)=(E)/2. Άρα, έχουμε ότι:


      A=[0,1],
      (A)=1/2,

      B=[3/2,2],
      (B)=1/4,

      C=[1/2,2],
      (C)=3/4,

      AB=,
      (AB)=0,

      AC=[1/2,1],
      (AC)=1/4,

      BC=[3/2,2],
      (BC)=1/4.
    2. (β’)

      Χρησιμοποιώντας τον κανόνα πιθανότητας #4, βρίσκουμε,


      (AB) = ([0,1][3/2,2])=([0,1])+([3/2,2])=  1/2+1/4=  3/4,

      (AC) = ([0,1][1/2,2])=([0,2])=  1,

      (BC) = ([3/2,2][1/2,2])=([1/2,2])=3/4.

    Όλα τα πιο πάνω ενδεχόμενα εμφανίζονται στο Σχήμα 1.12.

    Σχήμα 1.12: Ο χώρος πιθανότητας και τα ενδεχόμενα της Άσκησης 3.
  4. 4.

    Ένωση τριών ενδεχόμενων. Παρατηρήστε κατ’ αρχάς πως το ABC είναι ίσο με την ένωση των τριών συνόλων A, AB, και ABC, δηλαδή


    ABC=A(AB)(ABC).

    [Αν θέλουμε να είμαστε σχολαστικοί, αυτό μπορεί να αποδειχθεί με τη συνήθη μέθοδο, δηλαδή δείχνοντας ότι κάθε στοιχείο που ανήκει στο ABC θα ανήκει και στην ένωση, και αντιστρόφως. Πράγματι, έστω ένα στοιχείο που ανήκει στο ABC. Τότε, αν ανήκει στο A, ανήκει και στην ένωση. Αν όχι, τότε, αν ανήκει στο B, θα ανήκει στο AB άρα και στην ένωση, ενώ, αν δεν ανήκει ούτε στο A ούτε στο B, τότε σίγουρα θα ανήκει στο C, οπότε και στο ABC, άρα και στην ένωση. Αντιστρόφως, αν ένα στοιχείο ανήκει στην ένωση, τότε είτε θα ανήκει στο A, είτε στο AB, άρα και στο B, είτε θα ανήκει στο ABC, άρα και στο C. Άρα, θα ανήκει στο ABC.]

    Επιπλέον, τα τρία σύνολα της ένωσης στη σχέση (3.2) είναι ξένα μεταξύ τους, όπως είναι εύκολο να δειχτεί, παίρνοντας τις τομές ανά δύο. Άρα, η πιθανότητα της ένωσής τους ABC, θα ισούται με το άθροισμα των πιθανοτήτων τους από τον κανόνα πιθανότητας #3, και έτσι προκύπτει το ζητούμενο. Τα τρία ξένα σύνολα έχουν σχεδιαστεί στο Σχήμα 1.13.

    Σχήμα 1.13: Διάγραμμα για την Άσκηση 4.
  5. 5.

    Ένας χώρος πιθανότητας με 3 στοιχεία. Τα στοιχειώδη ενδεχόμενα είναι ξένα μεταξύ τους, συνεπώς η πιθανότητα της ένωσής τους ισούται με το άθροισμα των πιθανοτήτων τους:


    916=({a,c})=({a}{c})=({a})+({c}).
    (A.3)

    Ομοίως προκύπτει και ότι:


    ({a})+({b})=34.
    (A.4)

    Τέλος, ο χώρος πιθανότητας Ω έχει (Ω)=1, συνεπώς έχουμε:


    ({a})+({b})+({c})=({a}{b}{c})=(Ω)=1.
    (A.5)

    Οι εξισώσεις (A.3), (A.4) και (A.5) είναι ένα απλό σύστημα τριών εξισώσεων με τρεις αγνώστους, το οποίο εύκολα υπολογίζουμε ότι έχει μόνη λύση τις τιμές:


    ({a})=516,({b})=716,({c})=14.
  6. 6.

    Τι λένε οι πιθανοθεωρίστες στα παιδιά τους. Έστω ότι συμβαίνει ένα τυχαίο έγκλημα κάπου στην Αττική. Ορίζουμε ως A το ενδεχόμενο το έγκλημα να έγινε στην Αθήνα, και ως N το ενδεχόμενο το έγκλημα να έγινε νύχτα. Μας δίνεται ότι Pr(N)=0.95, Pr(A)=0.54 και Pr(NA)=0.02, και ζητούνται οι πιθανότητες Pr(NA) και Pr(NA).

    Παρατηρούμε ότι,


    Pr(A)=Pr((NA)(NA))=Pr(NA)+Pr(NA),

    καθώς τα ενδεχόμενα NA και NA είναι ξένα. Συνεπώς,


    Pr(NA)=Pr(A)-Pr(NA)=0.52.

    Παρομοίως, έχουμε,


    Pr(N)=Pr((NA)(NA))=Pr(NA)+Pr(NA),

    και άρα,


    Pr(NA)=Pr(N)-Pr(NA)=0.95-0.52=0.43.
  7. 7.

    Διαιρέτες. Εφόσον η επιλογή είναι τυχαία, όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα και συνεπώς οι υπολογισμοί των πιθανοτήτων θα βασιστούν στον κανόνα πιθανότητας #5.

    1. (α’)

      Έστω Α το σύνολο των αριθμών στο Ω που διαιρούνται με το 2. Έχουμε #A=300, συνεπώς η ζητούμενη πιθανότητα είναι Pr(A)=#A#Ω=1/2.

    2. (β’)

      Έστω B το σύνολο των αριθμών στο Ω που διαιρούνται με το 3. Έχουμε #B=200, συνεπώς η ζητούμενη πιθανότητα είναι Pr(B)=#B#Ω=1/3.

    3. (γ’)

      Οι αριθμοί που διαιρούνται και με το 2 και με το 3 είναι ακριβώς αυτοί που διαιρούνται με το 6. Έστω C=AB το σύνολο των αριθμών στο Ω που διαιρούνται με το 6. Έχουμε #C=100, συνεπώς η ζητούμενη πιθανότητα είναι Pr(C)=#C#Ω=1/6.

    4. (δ’)

      Έστω D=AB το σύνολο των στοιχείων του Ω που διαιρούνται με τουλάχιστον έναν από τους αριθμούς. Έχουμε,


      #D = #(AB)


      = #A+#B-#(AB)


      = #A+#B-#C


      = 300+200-100=  400.

      Συνεπώς η ζητούμενη πιθανότητα είναι Pr(D)=#D#Ω=400600=2/3.

    5. (ε’)

      Έστω E το σύνολο των στοιχείων που διαιρούνται με το 2 αλλά όχι με το 3. Παρατηρήστε ότι D=EB, και ότι EB=. Συνεπώς Pr(D)=Pr(E)+Pr(B), άρα,


      Pr(E)=Pr(D)-Pr(B)=2/3-1/3=1/3.
  8. 8.

    Άλλη μία τυχαία συνάντηση. Ο χώρος πιθανότητας Ω αποτελείται από ζεύγη της μορφής (t1,t2), όπου t1,t2[0,1] είναι οι χρονικές στιγμές κατά τις οποίες καταφθάνουν στο μπαρ ο Σταύρος και ο Γιάννης αντίστοιχα. Δηλαδή το Ω είναι το τετράγωνο του επιπέδου μεταξύ 0 και 1: Ω=[0,1]×[0,1]={(t1,t2):  0t11,0t21}2.

    Η υπόθεσή μας ότι οι φίλοι δεν έχουν προτίμηση στη στιγμή που θα έρθουν, εντός της ώρας, μεταφράζεται στο ότι όλα τα ζεύγη τιμών έχουν την ίδια πιθανότητα. [Παρατηρήστε ότι αναγκαστικά αυτό σημαίνει ότι όλα τα ζεύγη τιμών έχουν πιθανότητα ακριβώς 0, αλλιώς έχουμε άτοπο, γιατί το άθροισμα των πιθανοτήτων όλων των αποτελεσμάτων θα είναι άπειρο και όχι 1.]

    Για να μπορέσουμε να λύσουμε την άσκηση, κάνουμε και την επιπλέον υπόθεση ότι ένα σύνολο σημείων έχει πιθανότητα να προκύψει ίση με το εμβαδόν του. Πράγματι, αυτός ο κανόνας δίνει στο τετράγωνο πιθανότητα 1, και ικανοποιεί και τη διαίσθησή μας σχετικά με το ότι όλα τα ζεύγη τιμών προτιμώνται εξίσου από τους δύο φίλους. Με αυτή την υπόθεση, εύκολα προκύπτει ότι η πιθανότητα του ενδεχομένου,


    Α={δεν θα περιμένει ο πρώτος τον δεύτερο για πάνω από ένα τέταρτο της ώρας},

    ισούται με το σκιασμένο εμβαδόν του Σχήματος 1.14, το οποίο είναι ίσο (γιατί;) με,


    Pr(A)=1-2(1/2)(3/4)(3/4)=5/16.

    Σχήμα 1.14: Άσκηση 8: Ο χώρος πιθανότητας Ω είναι το τετράγωνο [0,1]×[0,1], και το ενδεχόμενο A είναι το σκιασμένο υποσύνολο του Ω.
  9. 9.

    Το μέτρο πιθανότητας είναι συνεχής συνάρτηση.

    1. (α’)

      Έχουμε,


      (limiAi) = (A1(i=2(AiAi-1)))


      = (A1)+i=2(AiAi-1)


      = (A1)+i=2((Ai)-(Ai-1))


      = limn(An),

      όπου η πρώτη ισότητα προκύπτει από την υπόδειξη της άσκησης, η δεύτερη από τον κανόνα πιθανότητας #3, η τρίτη από το αποτέλεσμα της Άσκησης 1, και η τελευταία από το γεγονός ότι η εκεί σειρά είναι «τηλεσκοπική» δηλαδή ο κάθε όρος εμφανίζεται αρχικά με θετικό πρόσημο και αμέσως μετά με αρνητικό.

    2. (β’)

      Παρατηρήστε ότι αν τα Bi μικραίνουν, τότε τα Bi μεγαλώνουν, και μπορούμε να εφαρμόσουμε το πρώτο σκέλος γι’ αυτά. Επιπλέον, παρατηρήστε πως, από τις στοιχειώδεις ιδιότητες των πράξεων συνόλων και τον ορισμό του B, έχουμε,


      B=i=1Bn.

      Άρα,


      limi(Bi) = limi[1-(Bi)]


      = 1-limi(Bi)


      = 1-(limiBi)


      = 1-(B)=(B).



A.4 Ασκήσεις Κεφαλαίου 4

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Μέτρημα.

    1. (α’)

      Έχουμε 12 δυνατά αποτελέσματα για την πρώτη επιλογή, 11 για τη δεύτερη, και 10 για την τρίτη. Άρα υπάρχουν 12×11×10=1320 δυνατές εκδοχές. Πιο συστηματικά, από τον κανόνα αρίθμησης #3, το πλήθος των διατεταγμένων 3άδων είναι:


      12!(12-3)!=12×11×10×9!9!=1320.
    2. (β’)

      Καθεμία από τις 6 ρίψεις μπορεί να καταλήξει σε 2 αποτελέσματα, άρα, από τον κανόνα αρίθμησης #1, το πλήθος των δυνατών αποτελεσμάτων είναι:


      2×2×2×2×2×2=26=32.
    3. (γ’)

      Εφόσον δεν μας ενδιαφέρει η σειρά επιλογής, το πλήθος των μη διατεταγμένων 20άδων, από τον κανόνα αρίθμησης #4, είναι:


      (10020)=100!(100-20)!20!5.359×1020.
    4. (δ’)

      Κάθε ζαριά έχει 6 δυνατά αποτελέσματα, συνεπώς από τον κανόνα αρίθμησης #1 έχουμε 6×6×6×6×6×6×6=67 δυνατές εκδοχές.

    5. (ε’)

      Έχουμε 13 επιλογές για τον πρώτο που θα επιλέξουμε, 12 επιλογές για τον δεύτερο κ.ο.κ. Συνεπώς έχουμε συνολικά 13×12×11××1=13!=6,227,020,800 επιλογές. Το ίδιο αποτέλεσμα προκύπτει και απευθείας από τον κανόνα αρίθμησης #2.

    6. (στ’)

      Παρατηρήστε ότι τα φύλλα μοιράζονται με τη σειρά, συνεπώς ψάχνουμε για διατεταγμένες οκτάδες. Έχουμε 52 επιλογές για το πρώτο χαρτί, 51 επιλογές για το δεύτερο χαρτί κ.ο.κ., συνεπώς, από τον κανόνα αρίθμησης #3, το πλήθος από διαφορετικές οκτάδες είναι 52!(52-8)!=30,342,338,208,000.

    7. (ζ’)

      Κάθε νόμισμα έχει 2 δυνατά αποτελέσματα και κάθε ζάρι 6 δυνατά αποτελέσματα, άρα από τον κανόνα αρίθμησης #1 έχουμε 2×2×2×2×6×6=576 δυνατές εκδοχές.

  2. 2.

    Επιλογές με επανατοποθέτηση. Ένας βολικός τρόπος να αναπαραστήσουμε μια οποιαδήποτε επιλογή, είναι με μια ακολουθία από ακριβώς n-1 καθέτους (/) και ακριβώς k αστεράκια (*), σε αυθαίρετη σειρά. Ο αριθμός των φορών που επιλέξαμε το αντικείμενο i ισούται με τον αριθμό από αστεράκια ανάμεσα στην κάθετο i-1 και την κάθετο i. Ειδικά για το πρώτο αντικείμενο, μετράμε τα αστεράκια πριν την πρώτη κάθετο, και για το τελευταίο αντικείμενο μετράμε τα αστεράκια μετά την τελευταία κάθετο. Για παράδειγμα, στην περίπτωση του πρώτου παραδείγματος, η ακολουθία **////*/*/* σημαίνει ότι επιλέξαμε δύο φορές το πρώτο υλικό, μία φορά το πέμπτο, μία το έκτο, και μία το έβδομο. Όμως, ο αριθμός των διαφορετικών ακολουθιών αυτού του τύπου είναι ίσος με τον αριθμό των τρόπων που μπορούμε να τοποθετήσουμε k αστερίσκους σε n+k-1 θέσεις, οπότε ο ζητούμενος αριθμός από συνδυασμούς αυτού του τύπου είναι ίσος με:


    (n+k-1k).
  3. 3.

    1-2-Χ. Εδώ απλά θέλουμε να μοιράσουμε 9 «αντικείμενα» (τα 9 ματς) σε τρεις κατηγορίες των τεσσάρων, τριών και δύο. Συνεπώς, υπάρχουν,


    (94 3 2)=9!4!  3!  2!=1260τρόποι.
  4. 4.

    Τράπουλα. Κατ’ αρχάς παρατηρούμε ότι ο χώρος πιθανότητας Ω του προβλήματος περιλαμβάνει όλες τις δυνατές (μη διατεταγμένες) δεκάδες φύλλων που μπορούν να επιλεγούν από 52 φύλλα, οπότε, #Ω=(5210)=52!(52-10)!10!=15,820,024,220.

    1. (α’)

      Έστω A το ενδεχόμενο να μην επιλεγεί κανένας άσος. Υπάρχουν (4810) τρόποι με τους οποίους μπορεί να σχηματισθεί το Α, ένας για καθεμία επιλογή των 10 φύλλων από τα υπόλοιπα 48. Συνεπώς, από τον κανόνα πιθανότητας #5, Pr(A)=(4810)/(5210)0.41.

    2. (β’)

      Έστω B το ενδεχόμενο να πάρουμε το πολύ τρεις άσους. Το ενδεχόμενο B περιέχει όλες τις μοιρασιές στις οποίες πήραμε και τους 4 άσους, και ο υπολογισμός της πιθανότητάς του είναι απλούστερος. Πράγματι, υπάρχουν (44) τρόποι να επιλέξουμε τους 4 άσους και (486) τρόποι να επιλέξουμε τα υπόλοιπα 6 φύλλα. Συνεπώς, από τον κανόνα πιθανότητας #5,


      Pr(B)=1-Pr(B)=1-(44)(486)(5210)0.992.
  5. 5.

    Poker. Σε αυτό το παράδειγμα, ο χώρος πιθανότητας Ω αποτελείται από όλες τις (525) δυνατές πεντάδες φύλλων που μπορεί να έχει ο παίκτης, όπως προκύπτει από τον κανόνα αρίθμησης #4.

    1. (α’)

      Έστω Α το σύνολο των 5άδων που περιέχουν καρέ. Κατ’ αρχάς παρατηρούμε πως υπάρχουν 48 διαφορετικές πεντάδες με καρέ του άσου, μία για κάθε ένα από τα 48 φύλλα με τα οποία συμπληρώνουμε την πεντάδα. Υπάρχουν άλλες 48 πεντάδες με καρέ του ρήγα κ.ο.κ. Και εφόσον υπάρχουν 13 διαφορετικά καρέ, το συνολικό πλήθος των στοιχείων του A είναι 13×48. Άρα, από τον κανόνα πιθανότητας #5, η ζητούμενη πιθανότητα είναι:


      Pr(A)=#A#Ω=13×48(525)=13×48×5!×47!52!2.4×10-4.
    2. (β’)

      Έστω Β το σύνολο των 5άδων που αντιστοιχούν σε φουλ. Κατ’ αρχάς, πόσες πεντάδες αντιστοιχούν σε φουλ του άσου με ρηγάδες; Υπάρχουν (43) τρόποι να επιλέξουμε 3 άσους και (42) τρόποι να επιλέξουμε 2 ρηγάδες. Άρα υπάρχουν (43)×(42) πεντάδες που περιέχουν φουλ του άσου με ρηγάδες. Επιπλέον, υπάρχουν 13×12 διαφορετικά είδη φουλ: Φουλ του άσου με ρηγάδες, φουλ του άσου με ντάμες κ.ο.κ. Άρα, το πλήθος όλων των δυνατών 5άδων που αντιστοιχούν σε φουλ είναι #B=13×12×(43)×(42) και, από τον κανόνα πιθανότητας #5, η πιθανότητα για φουλ είναι:


      Pr(B)=#B#Ω = 13×12×(43)×(42)(525)


      = 13×12×4!×4!×5!×47!3!×1!×2!×2!×52!0.0014.
    3. (γ’)

      Τέλος, έστω C το σύνολο των 5άδων που αντιστοιχούν σε χρώμα. Υπάρχουν (135) πεντάδες από κούπες, και το ίδιο πλήθος για τα μπαστούνια, σπαθιά και καρό, άρα, #C=4×(135). Οπότε, από τον κανόνα πιθανότητας #5, η πιθανότητα του χρώματος είναι:


      Pr(C)=#C#Ω=4×(135)(525)=4×13!×5!×47!5!×8!×52!0.002.
  6. 6.

    Ξενοδοχείο Ακρόπολις.

    1. (α’)

      Έστω πως δίνουμε έναν αριθμό από το 1 ως το 4 στα διαφορετικά ξενοδοχεία. Το τυχαίο πείραμα εδώ συνίσταται στην τυχαία επιλογή του ξενοδοχείου μετάβασης για καθέναν από τους 6 φίλους. Το σύνολο των δυνατών αποτελεσμάτων θα αποτελείται από όλες τις διατεταγμένες εξάδες (a1,a2,a3,a4,a5,a6) ξενοδοχείων (όπου το κάθε αi=1,2,3 ή 4). Π.χ. το στοιχείο (2,3,2,1,4,4) αντιστοιχεί στο ενδεχόμενο ο πρώτος και ο τρίτος να πήγαν στο 2ο ξενοδοχείο, ο δεύτερος στο 3ο, ο τέταρτος στο 1ο, και οι πέμπτος και έκτος στο 4ο. Ο χώρος πιθανότητας Ω επομένως θα αποτελείται από όλες τις 46=4096 τέτοιες εξάδες.

    2. (β’)

      Έστω Α το ενδεχόμενο να καταλήξουν οι φίλοι σε τρία ζεύγη. Παρατηρήστε ότι, πριν σκεφτούμε σε ποια ξενοδοχεία θα πάνε, υπάρχουν (62)(42) τρόποι να μοιραστούν 6 άνθρωποι σε 3 ζεύγη, αν μας ενδιαφέρει η σειρά σχηματισμού. [Εναλλακτικά, από τον κανόνα πιθανότητας #5, υπάρχουν (62 2 2) τρόποι, το οποίο μας δίνει το ίδιο αποτέλεσμα.] Συνεπώς υπάρχουν (62)(42)/3! αν, όπως στην προκειμένη περίπτωση, δεν μας ενδιαφέρει η σειρά σχηματισμού. [Θυμηθείτε το συλλογισμό που μας οδήγησε από τον κανόνα πιθανότητας #3 στον #4.]

      Αφού έχουμε τα τρία ζευγάρια, υπάρχουν 4×3×2=24 τρόποι να μοιραστούν σε ξενοδοχεία (4 επιλογές για το πρώτο, 3 για το δεύτερο, 2 για το τρίτο). Άρα, το πλήθος των στοιχείων του Α είναι #Α=24×(42)(62)/3!, και, από τον κανόνα πιθανότητας #5, η ζητούμενη πιθανότητα ισούται με,


      Pr(A)=#A#Ω=24×(42)(62)/3!46=455120.0879.
    3. (γ’)

      Έστω B το ενδεχόμενο να βρεθούν δύο μόνοι τους και άλλοι τέσσερις σε δύο ζεύγη. Παρατηρήστε ότι υπάρχουν (62)(42) τρόποι να σχηματιστούν τα δύο ζεύγη αν μας ενδιαφέρει η σειρά σχηματισμού, και (62)(42)/2 αν δεν μας ενδιαφέρει. Οπότε υπάρχουν 4×3×2=24 τρόποι να μοιραστούν οι τέσσερις ομάδες (δύο ζεύγη και δύο άτομα μόνα) σε ξενοδοχεία (4 επιλογές για το πρώτο, 3 για το δεύτερο, 2 για το τρίτο). Άρα, από τον κανόνα πιθανότητας #5, η ζητούμενη πιθανότητα ισούται με:


      Pr(Β)=12×(42)(62)46=1355120.2637.
  7. 7.

    Superleague. Υπάρχουν δύο τρόποι να λύσουμε την άσκηση. Πρώτον, παρατηρήστε πως υπάρχουν συνολικά (162) ζεύγη ομάδων, και άρα πρέπει να γίνουν 2×(162)=240 αγώνες. Εναλλακτικά, παρατηρήστε πως καθεμία από τις 16 ομάδες θα υποδεχτεί καθεμία από τις άλλες 15 στο γήπεδό της, άρα θα γίνουν 16×15=240 αγώνες.

  8. 8.

    Λόττο. Υπάρχουν (496)=13,983,816 δυνατοί συνδυασμοί, όλοι τους ισοπίθανοι. Συνεπώς, από τον κανόνα πιθανότητας #5, η πιθανότητα να κερδίσουμε με έναν μόνο λαχνό είναι,


    1(496)7.15112384×10-8,

    δηλαδή μικρότερη από μία στα 10 εκατομμύρια.

  9. 9.

    Εύκολες και δύσκολες ασκήσεις. Εδώ ο χώρος πιθανότητας Ω αποτελείται από όλα τα #Ω=(186 6 6) δυνατά αποτελέσματα της μοιρασιάς. Εφόσον οι ασκήσεις μοιράζονται τυχαία, θα χρησιμοποιήσουμε τον κανόνα πιθανότητας #5.

    Έστω A το ενδεχόμενο να έχει ακριβώς μία εύκολη άσκηση κάθε ομάδα. Το πλήθος όλων των δυνατών συνδυασμών με τους οποίους οι ομάδες μπορούν να πάρουν από μία εύκολη άσκηση είναι (31 1 1), και οι συνδυασμοί με τους οποίους μπορούν να πάρουν τις δύσκολες ασκήσεις είναι (155 5 5). Άρα, τελικά έχουμε:


    Pr(A)=#A#Ω=(31 1 1)(155 5 5)(186 6 6)=3!15!6!6!6!5!5!5!18!0.2647.
  10. 10.

    Μέτρημα αποτελεσμάτων.

    1. (α’)

      Στη λέξη ΚΥΠΡΟΣ υπάρχουν 6 γράμματα, όλα διαφορετικά μεταξύ τους. Έχουμε 6 επιλογές για το ποιο γράμμα θα μπει πρώτο, 5 επιλογές για το ποιο γράμμα θα μπει δεύτερο κ.ο.κ. Συνεπώς, συνολικά έχουμε 6!=720 αναγραμματισμούς. Στη λέξη ΣΤΑΥΡΟΣ υπάρχουν 7 γράμματα, που ομοίως μπορούν να παρατεθούν με 7! τρόπους. Δύο από αυτά όμως (τα Σ), είναι όμοια, συνεπώς μπορούμε να αλλάξουμε τη σειρά τους, χωρίς να αλλάξει ο αναγραμματισμός. Επειδή τα δυο Σ μπορούν να τοποθετηθούν με δύο διαφορετικούς τρόπους, έχουμε συνολικά 7!2=2520 διαφορετικούς αναγραμματισμούς. Για τη λέξη ΣΙΣΙΝΙ, με παρόμοια συλλογιστική, βρίσκουμε ότι υπάρχουν 6!3!2!=60 διαφορετικοί αναγραμματισμοί.

    2. (β’)

      Μπορούμε να επιλέξουμε τις γυναίκες με (123) διαφορετικούς τρόπους και τους άντρες με (73) διαφορετικούς τρόπους. Από τις επιλεγμένες γυναίκες, η πρώτη μπορεί να επιλέξει τον καβαλιέρο της με 3 τρόπους, η δεύτερη με 2 τρόπους, και η τελευταία με έναν τρόπο. Συνοψίζοντας, τα ζεύγη μπορούν να σχηματιστούν με (123)(73)3!=46,200 τρόπους.

    3. (γ’)

      Στην περίπτωση που τα υλικά επαναλαμβάνονται, είμαστε στην περίπτωση της Άσκησης 2, άρα υπάρχουν (20+6-16)=(256)=177,100 συνδυασμοί. Στην περίπτωση που τα υλικά δεν επαναλαμβάνονται, από τον κανόνα αρίθμησης #4 έχουμε (206)=38,760 συνδυασμούς.



A.5 Ασκήσεις Κεφαλαίου 5

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Ένωση τριών ενδεχόμενων. Έχουμε:


    Pr(ABC) = Pr(A(BC))


    = Pr(A)+Pr(BC)-Pr(A(BC))


    = Pr(A)+Pr(B)+Pr(C)-Pr(BC)-Pr((AB)(AC))


    = Pr(A)+Pr(B)+Pr(C)-Pr(BC)



         -Pr(AB)-Pr(AC)+Pr((AB)(AC))


    = Pr(A)+Pr(B)+Pr(C)-Pr(AB)



         -Pr(AC)-Pr(BC)+Pr(ABC).

    Η δεύτερη και η τέταρτη ισότητα προκύπτουν από τον κανόνα πιθανότητας #8, και η τρίτη ισότητα προκύπτει από τον ίδιο κανόνα πιθανότητας και την ιδιότητα 4 για τις σχέσεις συνόλων στην τελευταία ενότητα του Κεφαλαίου 2.

    Μια διαισθητική ερμηνεία του αποτελέσματος μπορεί να προκύψει κοιτάζοντας Σχήμα 1.15: Η πιθανότητα της ένωσης ισούται με το άθροισμα των πιθανοτήτων Pr(A)+Pr(B)+Pr(C) των επιμέρους ενδεχομένων, εφόσον βέβαια αφαιρέσουμε τις πιθανότητες των κομματιών αυτών των ενδεχομένων που προστέθηκαν πάνω από μία φορά. Αν αφαιρέσουμε την ποσότητα Pr(AB)+Pr(AC)+Pr(BC), τότε οι πιθανότητες αυτών των κομματιών θα έχουν αφαιρεθεί σωστά με εξαίρεση την πιθανότητα του ABC, η οποία αφαιρέθηκε μία φορά παραπάνω από όσες έπρεπε, και συνεπώς πρέπει να προστεθεί στην τελική έκφραση.

    Σχήμα 1.15: Διάγραμμα για την Άσκηση 1.
  2. 2.

    Πιθανότητα ακριβώς ενός ενδεχομένου. Το ενδεχόμενο C να πραγματοποιηθεί ακριβώς ένα από τα ενδεχόμενα A, B, είναι το να πραγματοποιηθεί το Α και όχι το Β, ή να πραγματοποιηθεί το Β και όχι το Α, δηλαδή, C=(AB)(AB). Κατ’ αρχάς παρατηρούμε ότι C(AB)=AB και C(AB)= (γιατί;). Συνεπώς, από τον κανόνα πιθανότητας #3,


    Pr(AB)=Pr(C(AB))=Pr(C)+Pr(AB).
    (A.6)

    Επιπλέον, από τον κανόνα πιθανότητας #8,


    Pr(AB)=Pr(A)+Pr(B)-Pr(AB).
    (A.7)

    Συνδυάζοντας τις (A.6), (A.7), προκύπτει το ζητούμενο. Το αποτέλεσμα εύκολα μπορεί να αιτιολογηθεί και διαισθητικά, με χρήση του Σχήματος 1.16.

    Σχήμα 1.16: Διάγραμμα για την Άσκηση 2.
  3. 3.

    Τράπουλα. Έστω C το ενδεχόμενο να πάρουμε τουλάχιστον έναν άσο, και D το ενδεχόμενο να πάρουμε τουλάχιστον μία φιγούρα. Ζητείται η πιθανότητα του ενδεχόμενου CD. Εδώ ο χώρος πιθανότητας Ω αποτελείται από όλες τις δυνατές (μη διατεταγμένες) δεκάδες φύλλων που έχουν να επιλεγούν από 52 φύλλα, και εφόσον η επιλογή είναι τυχαία, όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα.

    Χρησιμοποιώντας τον κανόνα πιθανότητας #4 και μετά τον κανόνα πιθανότητας #8, έχουμε,


    Pr(CD)=1-Pr(CD)=1-Pr(C)-Pr(D)+Pr(CD),

    όπου η καθεμία από τις πιο πάνω πιθανότητες μπορεί να υπολογιστεί από τον κανόνα πιθανότητας #5 σε συνδυασμό και με κάποιους από τους κανόνες αρίθμησης του Κεφαλαίου 4. Συγκεκριμένα έχουμε #Ω=(5210), #C=(4810), #D=(4010) και #(CD)=(3610), οπότε:


    Pr(CD)=1-(4810)(5210)-(4010)(5210)+(3610)(5210)0.55.
  4. 4.

    Ιδιότητες δεσμευμένης πιθανότητας.

    1. (α’)

      Χρησιμοποιώντας απλώς τον ορισμό της δεσμευμένης πιθανότητας, έχουμε:


      Pr(A)Pr(B|A)Pr(C|AB) = Pr(A)Pr(AB)Pr(A)Pr(ABC)Pr(AB)


      = Pr(ABC).

      [Μπορείτε να γενικεύσετε την παραπάνω σχέση σε n αντί για μόνο 3 ενδεχόμενα;]

    2. (β’)

      Και πάλι θα χρησιμοποιήσουμε μόνο τον ορισμό της δεσμευμένης πιθανότητας. Αν ΑΒ=, τότε τα Α και Β είναι αδύνατον να συμβούν μαζί, οπότε, διαισθητικά, δεδομένου ότι έχει συμβεί το Β είναι αδύνατον να συμβεί και το Α. Πράγματι,


      Pr(A|B)=Pr(AB)Pr(B)=Pr()Pr(B)=0.

      Αν AB, τότε:


      Pr(A|B)=Pr(AB)Pr(B)=Pr(A)Pr(B).

      Αν BA, τότε, δεδομένου ότι έχει συμβεί το Β, σίγουρα θα έχει συμβεί κάποιο από τα αποτελέσματα που ανήκουν και στο Α. Πράγματι,


      Pr(A|B)=Pr(AB)Pr(B)=Pr(B)Pr(B)=1.
    3. (γ’)

      Χρησιμοποιώντας τον ορισμό της δεσμευμένης πιθανότητας, έχουμε,


      Pr(A|B)Pr(A)=Pr(AB)Pr(A)Pr(B)=Pr(B|A)Pr(B).

      Άρα, το αριστερό μέλος είναι >1, δηλαδή έχουμε Pr(A|B)>Pr(A), αν και μόνο αν και το δεξί μέλος είναι >1, δηλαδή Pr(B|A)>Pr(B).

  5. 5.

    Ρίψεις ζαριού. Ο χώρος πιθανότητας Ω αποτελείται από 36 αποτελέσματα, και συγκεκριμένα από τις διατεταγμένες δυάδες της μορφής (i,j), όπου i,j=1,2,,6. Χρησιμοποιώντας το γεγονός ότι το ζάρι είναι δίκαιο και οι ρίψεις ανεξάρτητες, προκύπτει ότι όλα τα στοιχειώδη ενδεχόμενα έχουν την ίδια πιθανότητα, προφανώς 1/36. Πράγματι, για παράδειγμα,


    Pr({(1,2)}) = Pr({«Πρώτο ζάρι =1»}{«Δεύτερο ζάρι =2»})


    = Pr({«Πρώτο ζάρι =1»})Pr({«Δεύτερο ζάρι =2»})


    = 16×16=136,

    όπου η δεύτερη ισότητα προκύπτει από την ανεξαρτησία και η τρίτη λόγω του ότι το ζάρι είναι δίκαιο. Βάσει των παραπάνω, μπορούμε να υπολογίσουμε την πιθανότητα οποιουδήποτε ενδεχόμενου απλά μετρώντας το πλήθος των στοιχείων του. Άρα, αφού υπάρχουν 18 μονά και 18 ζυγά αποτελέσματα, Pr(A)=Pr(B)=1836=12. Επιπλέον,


    Pr(C) = Pr({(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)})=636=16,

    Pr(D) = Pr({(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)})=636=16,

    Pr(G) = Pr({(1,5),(2,4),(3,3),(4,2),(5,1)})=536,

    ενώ προφανώς, Pr(E)=Pr(F)=1/6.

    Για να αποφανθούμε για την ανεξαρτησία των ζητούμενων ζευγαριών, χρειαζόμαστε την πιθανότητα της τομής τους, Εύκολα βρίσκουμε, αν μετρήσουμε τα αποτελέσματα που ανήκουν σε κάθε τομή, ότι:


    Pr(AB) = Pr()=  0,

    Pr(CB) = Pr(C)=16,

    Pr(DE) = Pr({(6,6)})=136,

    Pr(CF) = Pr({(1,6)})=136,

    Pr(G,F) = Pr({(1,5)})=136.

    Έτσι, συγκρίνοντας την πιθανότητα της τομής με το γινόμενο των επιμέρους πιθανοτήτων σε κάθε περίπτωση, παρατηρούμε ότι τα δύο ζεύγη D και E, C και F είναι ανεξάρτητα, ενώ όλα τα άλλα όχι.

  6. 6.

    Δύο δοχεία. Εφόσον υποθέτουμε πως Pr(F)=Pr(F)=12, από τον κανόνα συνολικής πιθανότητας,


    Pr(Μ)=Pr(Μ|F)Pr(F)+Pr(M|F)Pr(F)=12m1m1+w1+12m2m2+w2.

    Επιπλέον, από τον ορισμό της δεσμευμένης πιθανότητας,


    Pr(MF)=Pr(M|F)Pr(F)=12m1w1+m1.

    Άρα, για να έχουμε ανεξαρτησία των ενδεχόμενων M και F, εξ ορισμού απαιτείται να ισχύει ότι, Pr(MF)=Pr(M)Pr(F), δηλαδή,


    12m1m1+b1=12(12m1m1+w1+12b2m2+w2),

    ή, ισοδύναμα, απλοποιώντας την πιο πάνω σχέση,


    m1w1=m2w2.

    Η απάντηση αυτή είναι διαισθητικά αναμενόμενη: Για να είναι η επιλογή του τμήματος ανεξάρτητη από την επιλογή του φύλου, πρέπει η αναλογία φοιτητριών/φοιτητών στα δύο τμήματα να είναι η ίδια.

  7. 7.

    Poker με δεσμευμένες πιθανότητες.

    1. (α’)

      Φανταστείτε πως μας αποκαλύπτονται τα φύλλα όχι ταυτόχρονα, όπως σε λύσεις που βασίζονται σε συνδυαστική, αλλά διαδοχικά. Παρατηρήστε ότι το ενδεχόμενο του καρέ μπορεί να γραφεί ως ένωση πέντε ξένων ενδεχόμενων Ei, όπου το Ei είναι το «παράταιρο» φύλλο να είναι το i-οστό που θα μας αποκαλυφθεί. Λόγω συμμετρίας, η ζητούμενη πιθανότητα είναι ίση με 5Pr(Ε1) (γιατί;).

      Για να υπολογίσουμε το Pr(E1), σκεφτόμαστε ως εξής: Έστω πως έχουμε τραβήξει το πρώτο χαρτί. Η πιθανότητα να κάνουμε τελικά καρέ είναι η πιθανότητα η αξία (δηλαδή το «νούμερο», άσος, 2, 3 κλπ.) του δεύτερου φύλλου να είναι διαφορετική από του πρώτου (48/51), επί την πιθανότητα το τρίτο να έχει την ίδια αξία με το δεύτερο (3/50), επί την πιθανότητα το τέταρτο να είναι ίδιο με το δεύτερο (2/49), επί την πιθανότητα το τελευταίο να είναι ίδιο με το δεύτερο (1/48).

      Αν θέλουμε να είμαστε πιο σχολαστικοί, ορίζουμε τα ακόλουθα ενδεχόμενα:


      A2 = η αξία του δεύτερου φύλλου είναι διαφορετική από του πρώτου,

      A3 = το τρίτο φύλλο έχει ίδια αξία με το δεύτερο,

      A4 = το τέταρτο φύλλο έχει ίδια αξία με το δεύτερο,

      A5 = το πέμπτο φύλλο έχει ίδια αξία με το δεύτερο,

      Τότε, έχουμε, από τον ορισμό της δεσμευμένη πιθανότητας (δείτε και το πρώτο σκέλος της Άσκησης 4):


      Pr(E1) = Pr(A2A3A4A5)


      = Pr(A2)Pr(A3|A2)Pr(A4|A2A3)Pr(A5|A2A3A4)


      = 4851×350×249×148.

      Άρα, η πιθανότητα να έρθει καρέ είναι ίση με:


      5Pr(E1)=5×4851×350×249×1482.4×10-4.
    2. (β’)

      Για να υπολογίσουμε την πιθανότητα φουλ, θα υπολογίσουμε πρώτα την πιθανότητα του ενδεχόμενου Β2 να σηκώσουμε φύλλα από ακριβώς δύο αξίες. Παρατηρήστε ότι θα έχουμε φύλλα με ακριβώς δύο διαφορετικές αξίες αν και μόνο αν έχουμε καρέ ή φουλ, οπότε το ενδεχόμενο Β2 μπορεί να εκφραστεί ως ένωση δύο ξένων ενδεχομένων, Β2=AB, όπου Β=«έχουμε φουλ» και Α=«έχουμε καρέ». Την πιθανότητα του Α την υπολογίσαμε ήδη, άρα για να βρούμε τη ζητούμενη πιθανότητα,


      Pr(B)=Pr(B2)-Pr(A),

      αρκεί να υπολογίσουμε την πιθανότητα του Β2.

      Γι’ αυτόν το σκοπό θα εκφράσουμε το B2 ως την ένωση των ξένων ενδεχομένων,


      Β2=Β22Β23Β24Β25,

      όπου το B2i είναι το υποσύνολο του B2 όπου η δεύτερη από τις δύο αξίες της πεντάδας εμφανίζεται για πρώτη φορά στο φύλλο i. Παρατηρήστε πως:


      Pr(Β22) = 4851×650×549×448,

      Pr(Β23) = 351×4850×549×448,

      Pr(Β24) = 351×250×4849×448,

      Pr(Β25) = 351×250×149×4848.

      Άρα, τελικά, η ζητούμενη πιθανότητα Pr(B) ισούται με:


      Pr(B) = Pr(Β22)+Pr(Β23)+Pr(Β24)+Pr(Β25)-Pr(A)


      = 18051×50×49  0.0014.
    3. (γ’)

      Έστω ότι έχουμε τραβήξει το πρώτο χαρτί. Η πιθανότητα το δεύτερο να είναι του ίδιου χρώματος είναι 1251, γιατί έχουν μείνει 51 φύλλα προς επιλογή, εκ των οποίων 12 είναι του ίδιου χρώματος. Με δεδομένο ότι το δεύτερο φύλλο έχει το ίδιο χρώμα με το πρώτο, το τρίτο φύλλο θα είναι επίσης του ίδιου χρώματος με πιθανότητα 1150 κ.ο.κ.

      Πιο συστηματικά, ορίζοντας τα ενδεχόμενα,


      Ζi=«Το i φύλλο έχει ίδιο χρώμα με το πρώτο»,i=2,3,4,5,

      έχουμε, παρομοίως με το πρώτο σκέλος της άσκησης,


      Pr(«χρώμα») = Pr(Ζ2Ζ3Ζ4Ζ5)


      = Pr(Ζ2)Pr(Ζ3|Ζ2)Pr(Ζ4|Ζ2Ζ3)Pr(Ζ5|Ζ2Ζ3Ζ4)


      = 1251×1150×1049×948


      0.002.

    Ένα ηθικό δίδαγμα αυτής της άσκησης είναι ότι πολλά προβλήματα μπορούν να αντιμετωπιστούν είτε με την εφαρμογή κανόνων της συνδυαστικής, είτε με χρήση της δεσμευμένης πιθανότητας, αλλά πολύ συχνά η μία μέθοδος είναι σαφώς ευκολότερη.

  8. 8.

    Τεστ πολλαπλών απαντήσεων. Ορίζουμε τα ενδεχόμενα A= «Ο μαθητής απαντά σωστά» και C= «Ο μαθητής γνωρίζει την απάντηση», οπότε η ζητούμενη πιθανότητα είναι η Pr(C|A). Από τον κανόνα του Bayes:


    Pr(C|A) = Pr(A|C)Pr(C)Pr(A|C)Pr(C)+Pr(A|C)Pr(C)


    = 1×p1×p+1N×(1-p)


    = Np(N-1)p+1.
  9. 9.

    Δεσμευμένο μέτρο πιθανότητας.

    1. (α’)

      Από τον πρώτο κανόνα πιθανότητας έχουμε ότι Pr(AB)0, και υποθέτουμε ότι Pr(B)>0. Συνεπώς, από τον ορισμό της δεσμευμένης πιθανότητας:


      (A)=Pr(A|B)=Pr(AB)Pr(B)0.
    2. (β’)

      Απλά εφαρμόζοντας τον ορισμό του μέτρου πιθανότητας και τον ορισμό της δεσμευμένης πιθανότητας:


      (Ω)=Pr(Ω|B)=Pr(ΩB)Pr(B)=Pr(B)Pr(B)=1.
    3. (γ’)

      Για την τελευταία ιδιότητα έχουμε,


      (i=1Ai) = Pr(i=1Ai|B)


      = Pr((i=1Ai)B)Pr(B)


      = Pr(i=1(AiB))Pr(B)


      = i=1Pr(AiB)Pr(B)


      = i=1Pr(Ai|B)=i=1(Ai),

      όπου η πρώτη και η τελευταία ισότητα προκύπτουν από τον ορισμό του , η δεύτερη και η πέμπτη από τον ορισμό της δεσμευμένης πιθανότητας, η τρίτη από την αντίστοιχη σχέση πράξεων συνόλων, και η τέταρτη από τον κανόνα πιθανότητας #3 (διότι τα AiB είναι προφανώς ξένα ενδεχόμενα).

  10. 10.

    Συνέπειες ανεξαρτησίας.

    1. (α’)

      Το ότι τα A και B είναι ανεξάρτητα σημαίνει πως Pr(AB)=Pr(A)Pr(B). Από την ανεξαρτησία και τον κανόνα πιθανότητας #4, έχουμε,


      Pr(A)Pr(B) = Pr(A)(1-Pr(B))


      = Pr(A)-Pr(A)Pr(B)=Pr(A)-Pr(AB).

      Επίσης, από την υπόδειξη της άσκησης έχουμε,


      Pr(A)=Pr(AB)+Pr(AB),

      και συνδυάζοντας τις πιο πάνω σχέσεις έχουμε,


      Pr(AB)=Pr(AB)+Pr(AB)-Pr(AB)=Pr(A)Pr(B),

      συνεπώς τα A και B είναι ανεξάρτητα.

    2. (β’)

      Η ανεξαρτησία των A και B προκύπτει όμοια με το προηγούμενο σκέλος.

    3. (γ’)

      Αφού τα A και B είναι ανεξάρτητα, θα είναι και τα A και B, από το δεύτερο σκέλος. Εφαρμόζοντας τώρα το πρώτο σκέλος για τα A και B, προκύπτει ότι θα είναι ανεξάρτητα και τα A και B.

    Όλα τα αποτελέσματα έχουν διαισθητική εξήγηση. Για παράδειγμα, σχετικά με το πρώτο αποτέλεσμα, αν τα A,B είναι ανεξάρτητα, τότε, αν μάθουμε ότι έγινε το B, δεν αλλάζει η πιθανότητα να έχει συμβεί το A. Άρα, αν μάθουμε ότι έγινε το B, δηλαδή ότι δεν έγινε το B, πάλι δεν θα αλλάξει η πιθανότητα του A.

  11. 11.

    Ανεξαρτησία και δέσμευση.

    1. (α’)

      Από τον κανόνα πιθανότητας #4,


      Pr(ABC)=1-Pr((ABC))=1-Pr(ABC),

      και χρησιμοποιώντας το αποτέλεσμα της Άσκησης 4 (α’),


      Pr(ABC)=1-Pr(A|BC)Pr(B|C)Pr(C).
    2. (β’)

      Αν το A είναι ανεξάρτητο από τον εαυτό του, τότε η πιθανότητά του ικανοποιεί,


      Pr(A)=Pr(AA)=Pr(A)Pr(A)=(Pr(A)),2

      και οι μόνοι πραγματικοί αριθμοί x τέτοιοι ώστε x2=x είναι το 0 και το 1.

    3. (γ’)

      Έστω ένα οποιοδήποτε ενδεχόμενο B. Αν Pr(A)=0, τότε, εφόσον ΑBA, από τον κανόνα πιθανότητας #2 έχουμε Pr(AB)Pr(A)=0, συνεπώς Pr(AB)=0. Άρα τα δύο ενδεχόμενα είναι ανεξάρτητα:


      Pr(AB)=0=0Pr(B)=Pr(A)Pr(B).

      Παρομοίως, αν Pr(A)=1, τότε Pr(A)=1-Pr(A)=1-1=0, και άρα τα A και Β είναι ανεξάρτητα, οπότε, από το αποτέλεσμα της Άσκησης 10, τα A και B είναι επίσης ανεξάρτητα.

  12. 12.

    Κι άλλη τράπουλα.

    1. (α’)

      Όπως στους ανάλογους υπολογισμούς σε προβλήματα του Κεφαλαίου 4, εφαρμόζοντας τον κανόνα πιθανότητας #5 σε συνδυασμό με τους κανόνες αρίθμησης #1 και #4,


      Pr(«4 άσοι και μία φιγούρα»)=(44)(121)(525) = 12!  5!  47!1!  11!  52!


      0.0000046.
    2. (β’)

      Έστω τα ενδεχόμενα Α=«4 άσοι και μία φιγούρα» και Β=«ακριβώς μία φιγούρα». Από τον ορισμό της δεσμευμένης πιθανότητας παρομοίως έχουμε:


      Pr(A|B)=Pr(AB)Pr(B)=Pr(A)Pr(B) = (44)(121)(525)(121)(404)(525)


      0.000011.
    3. (γ’)

      Αν ορίσουμε τον ενδεχόμενο C=«4 φιγούρες και ένας άσος», όπως και στο σκέλος (α’) βρίσκουμε,


      Pr(C)=(124)(41)(525) = 12!4!8!4!3!1!52!5!47!


      0.0007618.
    4. (δ’)

      Τα ενδεχόμενα δεν είναι ανεξάρτητα γιατί είναι αδύνατον να συμβούν μαζί, ενώ το καθένα έχει θετική πιθανότητα. Συγκεκριμένα,


      Pr(ΑC)=Pr()=0Pr(A)×Pr(C)=0.0000046×0.0007618>0.
  13. 13.

    Κανόνας δεσμευμένης συνολικής πιθανότητας. Με συνεχόμενες χρήσεις του ορισμού της δεσμευμένης πιθανότητας, έχουμε,


    Pr(E|GF)Pr(G|F)+Pr(E|GF)Pr(G|F)

            =Pr(EGF)Pr(GF)Pr(GF)Pr(F)+Pr(EGF)Pr(GF)Pr(GF)Pr(F)

            =Pr(EGF)+Pr(EGF)Pr(F)

            =Pr((EGF)(EGF))Pr(F)

            =Pr((EF)(GG))Pr(F)

            =Pr(EF)Pr(F)=Pr(E|F),

    όπου η πρώτη και η τελευταία ισότητα προκύπτουν από τον ορισμό της δεσμευμένης πιθανότητας και η τρίτη από τον κανόνα πιθανότητας #3, αφού τα ενδεχόμενα (EGF) και (EGF) είναι ξένα.

  14. 14.

    Μεσογειακή αναιμία.

    1. (α’)

      Έστω A το ενδεχόμενο να βγει το αποτέλεσμα θετικό, και S να έχει το άτομο το στίγμα. Δίνεται ότι Pr(S)=0.08, Pr(A|S)=0.1 και Pr(A|S)=0.01. Από τον κανόνα πιθανότητας #4, έχουμε επίσης Pr(S)=0.92, και, από το Λήμμα 5.1, ότι Pr(A|S)=0.99.

      Από τον κανόνα του Bayes, η ζητούμενη πιθανότητα Pr(S|A) είναι:


      Pr(S|A) = Pr(A|S)Pr(S)Pr(A|S)Pr(S)+Pr(A|S)Pr(S)


      = 0.99×0,080.99×0,08+0.1×0.92


      0.4626.
    2. (β’)

      Έστω A1 το ενδεχόμενο να βγει το αποτέλεσμα θετικό στην πρώτη εξέταση, και A2 το ενδεχόμενο να βγει το αποτέλεσμα θετικό στη δεύτερη εξέταση. Με εφαρμογή του κανόνα του Bayes και της υπόθεσης της ανεξαρτησίας, έχουμε:


      Pr(S|A1A2) = Pr(A1A2|S)Pr(S)Pr(A1A2|S)Pr(S)+Pr(A1A2|S)Pr(S)


      = Pr(A1|S)Pr(A2|S)Pr(S)Pr(A1|S)Pr(A2|S)Pr(S)+Pr(A1|S)Pr(A2|S)Pr(S)


      = 0.99×0.01×0.080.99×0.01×0.08+0.1×0.9×0.92  0.0095.
  15. 15.

    Ανεπιθύμητες εγκυμοσύνες. Ορίζουμε τα ενδεχόμενα: Ε=«Υπάρχει εγκυμοσύνη» και Θ=«Το τεστ είναι θετικό». Από τα δεδομένα του προβλήματος έχουμε Pr(E)=0.12, Pr(Θ|E)=0.01 και Pr(Θ|E)=0.03. Από τον κανόνα πιθανότητας #4 έχουμε ότι, Pr(E)=0.88, και από το Λήμμα 5.1, Pr(Θ|E)=0.97

    1. (α’)

      Από τον κανόνα του Bayes και τα πιο πάνω δεδομένα:


      Pr(E|Θ) = Pr(Θ|E)Pr(E)Pr(Θ|E)Pr(E)+Pr(Θ|E)Pr(E)


      = 0.97×0.120.97×0.12+0.01×0.88


      92.97%.
    2. (β’)

      Έστω Θ1,Θ2 το ενδεχόμενο να βγει το αποτέλεσμα θετικό στην πρώτη ή στη δεύτερη εξέταση, αντίστοιχα. Από τον κανόνα του Bayes και την υπόθεση της ανεξαρτησίας, έχουμε:


      Pr(E|Θ1Θ2) = Pr(Θ1Θ2|E)Pr(E)Pr(Θ1Θ2|E)Pr(E)+Pr(Θ1Θ2|E)Pr(E)


      = 97%×3%×12%97%×3%×12%+1%×99%×88%


      28.613%.
  16. 16.

    Απάτη. Έστω τα ενδεχόμενα: Δ=«το ζάρι είναι δίκαιο» και A=«φέραμε 1,5,2,1,1,2». Γνωρίζουμε ότι Pr(Δ)=Pr(Δ)=1/2, και επίσης ότι για το δίκαιο ζάρι έχουμε,


    Pr(αποτέλεσμαi|Δ)=1/6,για κάθεi=1,2,,6,

    ενώ για το κάλπικο ζάρι, Pr(αποτέλεσμα  1|Δ)=1/3, Pr(αποτέλεσμα  6|Δ)=0, και Pr(αποτέλεσμαi|Δ)=1/6 για τα i=2,3,4,5.

    Χρησιμοποιώντας αυτά τα δεδομένα μαζί με τον κανόνα του Bayes:


    Pr(Δ|A) = Pr(A|Δ)Pr(Δ)Pr(A|Δ)Pr(Δ)+Pr(A|Δ)Pr(Δ)


    = 16×16×16×16×16×16×1216×16×16×16×16×16×12+13×16×16×13×13×16×12


    = 19.



A.6 Ασκήσεις Κεφαλαίου 6

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Μέση τιμή συναρτήσεων Τ.Μ. Έστω μια Τ.Μ. X με πυκνότητα P(x) στο σύνολο τιμών S, και έστω μια συνάρτηση f:SS. Τότε η νέα Τ.Μ. Y=f(X) έχει σύνολο τιμών το S και η πυκνότητά της, έστω Q(y), έχει την εξής ιδιότητα: Για κάθε yS υπάρχει ένα ή περισσότερα x τέτοια ώστε f(x)=y. Έστω Ay το σύνολο αυτών των x:


    Ay={xS:f(x)=y}.

    Τα σύνολα Ay είναι ξένα μεταξύ τους, και ικανοποιούν,


    S=ySAy.

    Συνεπώς, η πυκνότητα Q(y) μπορεί να εκφραστεί ως,


    Q(y)=Pr(Y=y)=Pr(f(X)=y)=Pr(XAy)=xAyP(x).

    Αν εφαρμόσουμε τον τύπο του ορισμού (6.4) για τη μέση τιμή της Y έχουμε,


    E(Y)=ySyQ(y) = yS[yxAyP(x)]


    = ySxAyf(x)P(x)=xSf(x)P(x),

    που ισούται με τον γενικό τύπο (6.5) για τη μέση τιμή E[f(X)] της f(X).

  2. 2.

    Η συνάρτηση κατανομής στο ±. Έστω πως η Τ.Μ. X έχει συνάρτηση κατανομής F(x) και είναι ορισμένη στο χώρο πιθανότητας Ω, στον οποίο έχουμε επίσης ορισμένο το μέτρο πιθανότητας .

    Ορίζουμε τα ενδεχόμενα An={Xn} για n=1,2, και παρατηρούμε ότι AnAn+1 για κάθε n και ότι, φυσικά, F(n)=(An). Επιπλέον, χρησιμοποιώντας την ορολογία του ορίου μιας ακολουθίας συνόλων όπως στην Άσκηση 9 του Κεφαλαίου 3, η ένωση των An ισούται με,


    Α=n=1An=limnAn={X<}=Ω.

    Η τελευταία ισότητα προκύπτει αμέσως από τον ορισμό μιας Τ.Μ. και η προτελευταία είναι συνέπεια του ορισμού των An. Οπότε, από το αποτέλεσμα του πρώτου σκέλους της Άσκησης 9 του Κεφαλαίου 3, έχουμε ότι,


    limn(An)=(limnAn),

    δηλαδή,


    limnF(n)=(Ω)=1.
    (A.8)

    Τέλος παρατηρούμε ότι, εφόσον η F(x) είναι αύξουσα και άνω φραγμένη, F(x)1, το όριό της καθώς το x υπάρχει και ισούται με το όριό της κατά μήκος οποιασδήποτε ακολουθίας {xn} πραγματικών αριθμών που τείνουν στο +. Αυτό, σε συνδυασμό με το αποτέλεσμα (A.8), συνεπάγεται το πρώτο αποτέλεσμα της άσκησης: limxF(x)=1.

    Η απόδειξη του δεύτερου ορίου, καθώς το x-, είναι ακριβώς ανάλογη. Ορίζουμε τώρα τα ενδεχόμενα Bn={X-n} για n=1,2,, παρατηρούμε ότι BnBn+1 για κάθε n και ότι F(-n)=(Bn). Οπότε,


    B=n=1Bn=limnAn=,

    όπου η τελευταία ισότητα προκύπτει από το συλλογισμό πως, αν κάποιο ωB, τότε θα πρέπει να έχουμε X(ω)n για κάθε n, πράγμα αδύνατο. Συνεπώς, από το αποτέλεσμα του δεύτερου σκέλους της Άσκησης 9 του Κεφαλαίου 3, έχουμε ότι,


    limnF(n)=limn(An)=()=0.
    (A.9)

    Τέλος, παρατηρούμε ότι, εφόσον η F(x) είναι αύξουσα και κάτω φραγμένη, F(x)0, το όριό της καθώς το x- υπάρχει και ισούται με το όριό της κατά μήκος οποιασδήποτε πραγματικής ακολουθίας {xn} που τείνει στο -. Αυτό, σε συνδυασμό με το αποτέλεσμα (A.9), συνεπάγεται το δεύτερο αποτέλεσμα της άσκησης: lim-xF(x)=0.

  3. 3.

    Ντετερμινιστικές Τ.Μ. Έστω μια ντετερμινιστική Τ.Μ. X με σύνολο τιμών SX={a}, οπότε Pr(X=a)=1, και μια οποιαδήποτε διακριτή Τ.Μ. Y με σύνολο τιμών SY. Η επιβεβαίωση του ότι ικανοποιείται ο ορισμός της ανεξαρτησίας για τις X,Y είναι τετριμμένη διότι, προφανώς, το ενδεχόμενο {X=a,Y=b} ισούται με το {Y=b} για οποιοδήποτε bSY. Άρα, πράγματι:


    Pr(X=a,Y=b)=Pr(Y=b)=Pr(X=a)Pr(Y=b).
  4. 4.

    Άπειρη μέση τιμή.

    1. (α’)

      Από τη δεύτερη βασική ιδιότητα της πυκνότητας ξέρουμε πως το άθροισμα όλων των τιμών της πρέπει να ισούται με 1, συνεπώς, πρέπει να έχουμε,


      1=k=1P(k)=k=1Ck2=Ck=11k2=Cπ26,

      και άρα C=6/π20.6079271.

    2. (β’)

      Η μέση τιμή της X είναι,


      μ=E(X)=k=1kP(k)=k=1k6π21k2=6π2k=11k,

      το οποίο ισούται με + αφού, ως γνωστόν, η αρμονική σειρά k=1(1/k) αποκλίνει.

  5. 5.

    Ανεξαρτησία και μέση τιμή. Έστω πως οι τυχαίες μεταβλητές (X,Y) παίρνουν καθένα από τα 4 ζευγάρια τιμών (0,1),(0,-1),(1,0),(-1,0) με πιθανότητα 1/4. Τότε η X έχει σύνολο τιμών το {-1,0,1} και η πυκνότητά της παίρνει τις εξής τιμές:


    P(-1) = Pr(X=-1)=Pr((X,Y)=(-1,0))=  1/4

    P(0) = Pr(X=0)=Pr((X,Y)=(0,1)ή(X,Y)=(0,-1))


    = Pr((X,Y)=(0,1))+Pr((X,Y)=(0,-1))=  1/4+1/4=1/2

    P(1) = Pr(X=1)=Pr((X,Y)=(1,0))=  1/4.

    Λόγω της συμμετρίας του προβλήματος, η Y έχει το ίδιο σύνολο τιμών και την ίδια πυκνότητα με τη X. Αλλά οι X,Y δεν είναι ανεξάρτητες, αφού,


    Pr(X=0,Y=0)=0(1/2)(1/2)=Pr(X=0)Pr(Y=0).

    Για τις μέσες τιμές έχουμε,


    E(X)=E(Y)=(-1)14+012+114=0,

    και επίσης,


    E(XY)=(01)14+(0(-1))14+(10)14+((-1)0)14=0,

    άρα, παρότι οι X,Y δεν είναι ανεξάρτητες, έχουμε E(XY)=E(X)E(Y)=0.

  6. 6.

    Ανεξαρτησία και διασπορά. Έστω μια Τ.Μ. X η οποία παίρνει τις τιμές 0 και 1 με πιθανότητα 1/2 και έστω Y=-X, οπότε και η Y έχει το ίδιο σύνολο τιμών και την ίδια πυκνότητα με τη X. Όπως είδαμε στο Παράδειγμα 6.7, η διασπορά τους ικανοποιεί,


    Var(X)=Var(Y)=(1/2)(1/2)=1/4>0.

    Αλλά, εφόσον εξ ορισμού η X+Y=0 είναι απλώς μια σταθερά, έχουμε Var(X+Y)=0, το οποίο φυσικά δεν ισούται με το άθροισμα των διασπορών Var(X)+Var(Y)=1/2!

  7. 7.

    Δύο ζάρια. Κατ’ αρχάς παρατηρούμε το εξής: Το γεγονός ότι οι δύο ζαριές είναι ανεξάρτητες και τα ζάρια δίκαια, είναι προφανώς ισοδύναμο με το να υποθέσουμε ότι όλα τα στοιχειώδη ενδεχόμενα είναι ισοπίθανα.

    1. (α’)

      Και οι τέσσερις Τ.Μ. έχουν, εξ ορισμού, το ίδιο σύνολο τιμών S={1,2,3,4,5,6}.

    2. (β’)

      Στα Σχήματα 1.17 και 1.18, έχουμε σχεδιάσει τα ενδεχόμενα που αντιστοιχούν σε καθεμία από τις δυνατές τιμές της X1, της X2, της Y και της Z, αντίστοιχα.

      Σχήμα 1.17: Ο χώρος πιθανότητας Ω, τα ενδεχόμενα {X1=x} που αντιστοιχούν στην καθεμία από τις δυνατές τιμές x της Τ.Μ. X1 (αριστερά), και τα ενδεχόμενα {X2=x} που αντιστοιχούν στην καθεμία από τις δυνατές τιμές x της Τ.Μ. X2 (δεξιά) στην Άσκηση 7.

      Σχήμα 1.18: Ο χώρος πιθανότητας Ω, τα ενδεχόμενα {Z=z} που αντιστοιχούν στην καθεμία από τις δυνατές τιμές z της Τ.Μ. Ζ (αριστερά), και τα ενδεχόμενα {Y=y} που αντιστοιχούν στην καθεμία από τις δυνατές τιμές y της Τ.Μ. Y (δεξιά) στην Άσκηση 7.
    3. (γ’)

      Για κάθε δυνατή τιμή x=1,2,3,4,5,6 της X1, υπάρχουν 6 στοιχεία του Ω που αντιστοιχούν σε αυτή την τιμή, και άρα η πιθανότητα του ενδεχομένου {X1=x}, από τον κανόνα πιθανότητας #5, είναι 6/36=1/6. Συνεπώς, η πυκνότητα της X1 είναι,


      PX1(x)=16,για κάθεx=1,2,,6.

      Η συνάρτηση κατανομής FX1(x) της X1 εύκολα μπορεί να υπολογιστεί από τη σχέση (6.1):


      FX1(x)=iS:ixPX1(x)=#{iS:ix}6.

      Η πυκνότητα και η συνάρτηση κατανομής της X1 έχουν σχεδιαστεί στο Σχήμα 1.19.

      Σχήμα 1.19: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. X1 στην Άσκηση 7.

      Με ακριβώς τον ίδιο τρόπο βρίσκουμε πως η X2 έχει την ίδια πυκνότητα και την ίδια συνάρτηση κατανομής με τη X1.

      Η πυκνότητα της Y=max{X1,X2} υπολογίζεται εύκολα από τον κανόνα πιθανότητας #5, μέσω της σχέσης,


      PY(y)=136#{Y=y}.

      Με τη βοήθεια του Σχήματος 1.18 βρίσκουμε:


      PY(1)=136,PY(2)=336,PY(3)=536,

      PY(4)=736,PY(5)=936,PY(6)=1136,

      ενώ η συνάρτηση κατανομής προκύπτει από τη σχέση (6.1) όπως και για τη X1. Στο Σχήμα 1.20 έχουμε σχεδιάσει και τις δύο.

      Σχήμα 1.20: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. Y στην Άσκηση 7.

      Παρομοίως υπολογίζεται και η πυκνότητα της Z=min{X1,X2}, από τον κανόνα πιθανότητας #5 και τη σχέση,


      PZ(z)=136#{Z=z}.

      Με τη βοήθεια του Σχήματος 1.18 βρίσκουμε,


      PZ(1)=1136,PZ(2)=936,PZ(3)=736,

      PZ(4)=536,PZ(5)=336,PZ(1)=136.

      Στο Σχήμα 1.21 έχουν σχεδιαστεί η PZ(z) και η FZ(x).

      Σχήμα 1.21: Άσκηση 7: H πυκνότητά και η συνάρτηση κατανομής της Τ.Μ. Z.
    4. (δ’)

      Από τον ορισμό της μέσης τιμής, για τη X1 έχουμε,


      E(X1)=16×1+16×2+16×3+16×4+16×5+16×6=216.

      Για τη διασπορά θα χρησιμοποιήσουμε την εναλλακτική έκφραση (6.8), οπότε υπολογίζουμε πρώτα τη μέση τιμή της X12,


      E(X12)=16×12+16×22+16×32+16×42+16×52+16×62=916,

      βρίσκουμε πως,


      Var(X1) = E(X12)-(E(X1))=2916-(216)2=3512.

      Εφόσον η X2 έχει την ίδια πυκνότητα με την X1, προφανώς έχει την ίδια μέση τιμή και την ίδια διασπορά.

      Με τον ίδιο τρόπο, για τη μέση τιμή της Y και της Y2 έχουμε,


      E(Y) = 136×1+336×2+536×3+736×4+936×5+1136×6


      = 16136,

      E(Y2) = 136×12+336×22+536×32+736×42+936×52+1136×62


      = 79136,

      οπότε η διασπορά της Y είναι,


      Var(Y) = E(Y2)-(E(Y))=279136-(16136)2=255512961.97.

      Τέλος, παρομοίως υπολογίζονται η μέση τιμή και η διασπορά της Z:


      E(Z) = 1136×1+936×2+736×3+536×4+336×5+136×6


      = 9136,

      E(Ζ2) = 1136×12+936×22+736×32+536×42+336×52+136×62


      = 30136,

      Var(Ζ) = E(Ζ2)-(E(Ζ))=230136-(9136)2=255512961.97.

      Παρατηρήστε πως, παρότι η Y και η Z έχουν διαφορετική μέση τιμή, και επιπλέον E(Y2)E(Z2), έχουν την ίδια διασπορά. Μπορείτε να το εξηγήσετε διαισθητικά;

  8. 8.

    Πού να βρω γυναίκα να σου μοιάζει. Χρησιμοποιώντας τις τυχαίες μεταβλητές της υπόδειξης έχουμε ότι X=X1+X2++XN. Επιπλέον, λόγω της συμμετρίας του προβλήματος, ισχυριζόμαστε πως η πιθανότητα οποιαδήποτε γυναίκα i να επιλέξει τον άντρα της είναι 1N. Για την πρώτη γυναίκα αυτό είναι προφανές. Γιατί ισχύει και για τις υπόλοιπες; Ένας τρόπος να πεισθούμε γι’ αυτό είναι να σκεφτούμε πως, αντί με τη σειρά οι γυναίκες να επιλέγουν, η μία μετά την άλλη, έναν άντρα, ισοδύναμα βάζουμε τους άντρες σε μια τυχαία διάταξη απέναντι από τις γυναίκες και η καθεμία παίρνει αυτόν που είναι μπροστά της. Προφανώς, για την κάθε γυναίκα i, η πιθανότητα απέναντί της να είναι ο άντρας της είναι ίση με 1/N.

    Συνεπώς, όπως στο Παράδειγμα 6.7, η μέση τιμή της κάθε Xi είναι,


    E(Xi)=1×(1/N)+0×(1-1/N))=1/Ν,

    και από την πρώτη ιδιότητα του Θεωρήματος 6.1,


    E(X)=E(X1+X2++XN)=E(X1)+E(X2)++E(XN)=N×1N=1.

    Άρα, κατά μέσο όρο, μόνο ένα σωστό ζευγάρι θα φύγει από το πάρτυ!

    Για να υπολογίσουμε τη διασπορά παρατηρούμε κατ’ αρχάς πως, εφόσον οι Xi είναι δυαδικές Τ.Μ., πάντοτε έχουμε Xi2=Xi και συνεπώς, E(Xi2)=E(Xi)=1/N. Επιπλέον, από τον ορισμό της δεσμευμένης πιθανότητας,


    E(X1X2) = Pr(X1=X2=1)1+(1-Pr(X1=X2=1))0


    = Pr(X2=1καιX1=1)


    = Pr(X1=1)Pr(X2=1|X1=1)


    = 1N1N-1.

    Ισχυριζόμαστε πως το ίδιο ισχύει για οποιαδήποτε ij:


    E(XiXj)=1N1N-1.

    Αν σκεφτούμε, όπως πριν, ότι οι άντρες τοποθετούνται σε μια τυχαία διάταξη απέναντι από τις γυναίκες και η καθεμία παίρνει αυτόν που είναι μπροστά της, τότε η πιθανότητα οι γυναίκες i και j να έχουν απέναντί τους τους άντρες τους είναι (1N)(1N-1). Οπότε,


    E(XiXj)=Pr(Xi=1,Xj=1)=1N1N-1.

    Τώρα είμαστε έτοιμοι να υπολογίσουμε τη διασπορά της X. Για τη μέση τιμή της X2 παρατηρούμε πως,


    E(X2) = E((i=1NXi)2)


    = E((i=1NXi)(j=1NXj))


    = E(i=1Nj=1NXiXj)


    = i=1Nj=1NE(XiXj),

    όπου και πάλι χρησιμοποιήσαμε την πρώτη ιδιότητα του Θεωρήματος 6.1. Στο τελευταίο παραπάνω διπλό άθροισμα υπάρχουν N όροι της μορφής E(Xi2) και N(N-1) όροι της μορφής E(XiXj) για ij. Άρα, χρησιμοποιώντας τα αποτελέσματα που βρήκαμε πιο πάνω,


    E(X2)=E((i=1NXi)2)=N(N-1)1N(N-1)+N1N=2,

    και από την έκφραση (6.8) για τη διασπορά έχουμε,


    Var(X)=E(X2)-(E(X))2=1.

    Σημείωση. Οι πιο πάνω υπολογισμοί μπορούν να θεωρηθούν ειδικές περιπτώσεις των αντίστοιχων υπολογισμών που θα κάνουμε στο επόμενο κεφάλαιο, και συγκεκριμένα στην Ενότητα 7.2, για τη μέση τιμή και τη διασπορά της λεγόμενης υπεργεωμετρικής κατανομής.

  9. 9.

    Συνέλιξη. Παρατηρούμε πως, για οποιοδήποτε τιμή m, η X+Y ισούται με m αν και μόνο αν η X=k και η Y=m-k για κάποιο k. Συνεπώς:


    PX+Y(m) = Pr(X+Y=m)


    = Pr(k=-({X=k}{Y=m-k}))


    = k=-Pr({X=k}{Y=m-k})


    = k=-k=Pr({X=k})Pr({Y=m-k})


    = k=-PX(k)PY(m-k).

    Η πρώτη και η τελευταία ισότητα προκύπτουν από τον ορισμό της πυκνότητας, η δεύτερη προκύπτει γράφοντας το ενδεχόμενο {X+Y=m} σαν ένωση ξένων ενδεχόμενων, η τρίτη προκύπτει ακριβώς επειδή τα ενδεχόμενα είναι ξένα, ενώ η τέταρτη λόγω της ανεξαρτησίας των X,Y.

  10. 10.

    Άλλα δύο ζάρια. Για τη V, αρχικά παρατηρούμε πως το σύνολο τιμών της είναι το SV={2,3,4,5,6,7,8,9,10,11,12}, ενώ τα ενδεχόμενα {V=v} στα οποία αντιστοιχεί η κάθε τιμή vSV φαίνονται στο Σχήμα 1.22.

    Σχήμα 1.22: Ο χώρος πιθανότητας Ω και τα ενδεχόμενα {V=v} που αντιστοιχούν στην καθεμία από τις δυνατές τιμές v της Τ.Μ. V στην Άσκηση 10.

    Όπως και στην Άσκηση 7, λαμβάνοντας υπόψη ότι τα αποτελέσματα είναι ισοπίθανα, εύκολα προκύπτει πως:


    PV(2)=136,PV(3)=236,PV(4)=336,PV(5)=436,PV(6)=536,PV(7)=636,

    PV(8)=536,PV(9)=436,PV(10)=336,PV(11)=236,PV(12)=136.

    Επιπλέον, η συνάρτηση κατανομής προκύπτει εύκολα από την πυκνότητα, μέσω της σχέσης (6.1). Και οι δύο έχουν σχεδιαστεί στο Σχήμα 1.23.

    Σχήμα 1.23: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. V στην Άσκηση 10.

    Για τη μέση τιμή και τη διασπορά της V, από τους ορισμούς και την έκφραση (6.8),


    E(V) = 136×2+236×3+336×4+436×5+536×6+636×7



    +536×8+436×9+336×10+236×11+136×12=  7,

    και,E(V2) = 136×22+236×32+336×42+436×52+536×62+636×72



    +536×82+436×92+336×102+236×112+136×122=3296,

    οπότε, Var(V)=E(V2)-(E(V))=23296-72=356.

    Παρομοίως εξετάζουμε και την Τ.Μ. W: Παρατηρούμε κατ’ αρχάς πως το σύνολο τιμών της είναι το SW={-5,-4,3,-2,-1,0,1,2,3,4,5} και τα ενδεχόμενα {W=w} που αντιστοιχούν στην κάθε τιμή wSW φαίνονται στο Σχήμα 1.24.

    Σχήμα 1.24: Ο χώρος πιθανότητας Ω και τα ενδεχόμενα {W=w} που αντιστοιχούν στην καθεμία από τις δυνατές τιμές w της Τ.Μ. W στην Άσκηση 10.

    Σημειώνοντας και πάλι πως όλα αποτελέσματα είναι ισοπίθανα, εύκολα βρίσκουμε:


    PW(-5)=136,PW(-4)=236,PW(-3)=336,PW(-2)=436,PW(-1)=536,

    PW(0)=636,PW(1)=536,PW(2)=436,PW(3)=336,PW(4)=236,PW(5)=136.

    Όπως και για τη V, η συνάρτηση κατανομής της W προκύπτει εύκολα από την πυκνότητα, μέσω της σχέσης (6.1). Και οι δύο έχουν σχεδιαστεί στο Σχήμα 1.25.

    Σχήμα 1.25: Άσκηση 10: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. W.

    Τέλος, για τη μέση τιμή και τη διασπορά της W, από τον ορισμό της μέσης τιμής και την εναλλακτική έκφραση (6.8) για τη διασπορά, έχουμε,


    E(W) = 136×(-5)+236×(-4)+336×(-3)+436×(-2)+536×(-1)



    +636×0+536×1+436×2+336×3+236×4+136×5


    = 0,

    και παρομοίως,


    E(W2) = 136×(-5)2+236×(-4)2+336×(-3)2+436×(-2)2+536×(-1)2



    +636×02+536×12+436×22+336×32+236×42+136×52


    = 356,

    Var(W) = E(W2)-(E(W))=2356-02=356.
  11. 11.

    Δέκα μπάλες. Συνολικά υπάρχουν (103) δυνατές επιλογές, άρα ο χώρος πιθανότητας αποτελείται από (103) στοιχεία και τα αντίστοιχα στοιχειώδη ενδεχόμενα είναι ισοπίθανα.

    Για το Y, παρατηρούμε αρχικά πως η μικρότερη δυνατή τιμή του είναι Y=3, και συνεπώς έχει σύνολο τιμών το SY={3,4,5,6,7,8,9,10}. Τώρα, για κάθε ySY, οι επιλογές που αντιστοιχούν σε Y=y είναι εκείνες κατά τις οποίες επιλέγουμε την μπάλα y και δύο ακόμα από τις 1,2,,y-1. Αυτό μπορεί να γίνει με (y-12) τρόπους, και από τον κανόνα πιθανότητας #5 προκύπτει πως η πυκνότητα της Y δίνεται από την έκφραση,


    PY(y)=(y-12)(103),y=3,4,,10.

    Η συνάρτηση κατανομής μπορεί εύκολα να προσδιοριστεί από την πυκνότητα, μέσω της σχέσης (6.1). Η πυκνότητα και η συνάρτηση κατανομής έχουν σχεδιαστεί στο Σχήμα 1.26.

    Σχήμα 1.26: Άσκηση 11: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. Y.

    Σχετικά με τη Z, παρομοίως παρατηρούμε πως η μεγαλύτερη δυνατή τιμή της είναι Z=8, και συνεπώς έχει σύνολο τιμών το SZ={2,3,4,5,6,7,8}. Για κάθε zSZ, οι επιλογές που αντιστοιχούν σε Z=z είναι εκείνες κατά τις οποίες επιλέγουμε την μπάλα z και δύο ακόμα από τις z+1,z+2,,10. Αυτό μπορεί να γίνει με (10-z2) τρόπους, και από τον κανόνα πιθανότητας #5 προκύπτει πως η πυκνότητα της Z δίνεται από την έκφραση,


    PZ(z)=(10-z2)(103),z=1,2,,8.

    Η συνάρτηση κατανομής της Z μπορεί εύκολα να προσδιοριστεί από την πυκνότητα, μέσω της σχέσης (6.1), και οι δύο συναρτήσεις έχουν σχεδιαστεί στο Σχήμα 1.27.

    Σχήμα 1.27: Άσκηση 11: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. Z.
  12. 12.

    Περιορισμοί στις παραμέτρους.

    1. (α’)

      Από τη βασική ιδιότητα της πυκνότητας πρέπει να έχουμε,


      xSXP(x)=1,

      και, επομένως, P(-2)+P(-1)+P(0)+P(1)+P(2)=1, ή, ισοδύναμα,


      110+a+b+a+110=1,δηλαδή    2a+b=45.

      Άρα, θα πρέπει να έχουμε a[0,2/5], b[0,4/5] και 2a+b=4/5.

    2. (β’)

      Η μέση τιμή της X είναι,


      μ=E(X)=xSXxP(x)=110(-2)+a(-1)+b0+a1+1102=0,

      η οποία παρατηρούμε ότι είναι ανεξάρτητη των a και b (γιατί;).

    3. (γ’)

      Όταν a=0, απαραίτητα έχουμε ότι b=4/5, από το πρώτο σκέλος, και επομένως η διασπορά της X είναι:


      Var(X)=xSX(x-μ)2P(x)=110(-2)2+a(-1)2+b02+a12+11022=45.
  13. 13.

    Επιζώντα ζευγάρια. Έστω οι τυχαίες μεταβλητές Mi,Fi, i=1,2,,n, όπου, για κάθε i, έχουμε Mi=1 (ή 0) αν ο i-οστός άνδρας επιβιώσει (ή πεθάνει), και αντιστοίχως Fi=1 (ή 0) αν η i-οστή γυναίκα επιβιώσει (ή πεθάνει). Επιπλέον, ορίζουμε τις Τ.Μ. Zi, οι οποίες παίρνουν την τιμή 1 αν το ζευγάρι i παραμείνει, αλλιώς Zi=0, και παρατηρούμε πως Zi=MiFi, για κάθε i (γιατί;).

    Το συνολικό πλήθος, έστω Z, των ζευγαριών που παραμένουν, μπορεί να εκφραστεί ως,


    Z=i=1nZi=i=1nΜiFi,

    και για τον υπολογισμό της ζητούμενης μέσης τιμής E(Z) αρκεί να υπολογίσουμε την E(Zi) της κάθε Zi. Παρατηρούμε ότι, από τον ορισμό της μέσης τιμής και τον ορισμό της δεσμευμένης πιθανότητας, έχουμε,


    E(Zi) = 1×Pr(Ζi=1)+0×Pr(Zi=0)


    = Pr({Mi=1}{Fi=1})


    = Pr(Mi=1)Pr(Fi=1|Mi=1).

    Ακολουθώντας ένα συλλογισμό αντίστοιχο με εκείνον της Άσκησης 8, βλέπουμε πως Pr(Mi=1)=2n-m2n και Pr(Fi=1|Mi=1)=2n-m-12n-1, για κάθε i. Συνοπτικά, η πιθανότητα του να επιβιώσει ο άντρας i είναι, όπως και για οποιοδήποτε άλλο μέλος του πληθυσμού, ίση με ένα μείον την πιθανότητα να πεθάνει, δηλαδή,


    1-m2n=2n-m2n.

    Παρομοίως, αν γνωρίζουμε ότι επιβίωσε ο άνδρας i, μένουν 2n-1 άτομα εκ των οποίων θα επιβιώσουν οι 2n-m-1.

    Τέλος, συνδυάζοντας τα πιο πάνω με την πρώτη ιδιότητα του Θεωρήματος 6.1, βρίσκουμε τη ζητούμενη μέση τιμή:


    E(Z)=E(i=1nZi)=i=1nE(Zi)=(2n-m)(2n-m-1)2(2n-1).
    (A.10)
  14. 14.

    Τρία ζάρια. Έστω πως X,Y,Z τα αποτελέσματα των τριών ρίψεων. Παρατηρούμε ότι η X+Y έχει σύνολο τιμών το S2={2,3,,8}, και από το αποτέλεσμα της Άσκησης 9 για τα X,Y, έχουμε ότι η πυκνότητα PX+Y της X+Y, ικανοποιεί,


    PX+Y(2) = PX(1)PY(1)=16×16,

    PX+Y(3) = PX(2)PY(1)+PX(1)PY(2)=2×16×16,

    PX+Y(4) = PX(3)PY(1)+PX(2)PY(2)+PX(1)PY(3)=3×16×16,

    όπου συμβολίζουμε με PX, PY και PZ τις πυκνότητες των X, Y και Z αντίστοιχα. Συνεχίζοντας με αυτό τον τρόπο προκύπτουν και οι υπόλοιπες τιμές της πυκνότητας του X+Y:


    PX+Y(5)=436,PX+Y(6)=536,PX+Y(7)=636,PX+Y(8)=536,

    PX+Y(9)=436,PX+Y(10)=336,PX+Y(11)=236,PX+Y(12)=136.

    Η συνάρτηση κατανομής της X+Y εύκολα υπολογίζεται από τη σχέση (6.1). Η πυκνότητα και η συνάρτηση κατανομής της X+Y έχουν σχεδιαστεί στο Σχήμα 1.28.

    Σχήμα 1.28: Οι πυκνότητες και οι συναρτήσεις κατανομής της Άσκησης 14.

    Τώρα, για να υπολογίσουμε την πυκνότητα της X+Y+Z, εφαρμόζουμε το αποτέλεσμα της Άσκησης 9 για τις τυχαίες μεταβλητές X+Y και Z. Αρχικά παρατηρούμε ότι η X+Y+Z έχει σύνολο τιμών το S3={3,4,,18}, και η πυκνότητά της ικανοποιεί,


    PX+Y+Z(3) = PX+Y(2)PZ(1)=136×16=1216,

    PX+Y+Z(4) = PX+Y(3)PZ(1)+PX+Y(2)PZ(2)=236×16+136×16=3216.

    Συνεχίζοντας με τον ίδιο τρόπο προκύπτουν και οι υπόλοιπες τιμές:


    PX+Y+Z(5)=6216,PX+Y+Z(6)=10216,PX+Y+Z(7)=15216,

    PX+Y+Z(8)=21216,PX+Y+Z(9)=25216,PX+Y+Z(10)=27216,

    PX+Y+Z(11)=27216,PX+Y+Z(12)=25216,PX+Y+Z(13)=21216,

    PX+Y+Z(14)=15216,PX+Y+Z(15)=10216,PX+Y+Z(16)=6216,

    PX+Y+Z(17)=3216,PX+Y+Z(18)=1216.

    Και πάλι, η συνάρτηση κατανομής της X+Y+Z εύκολα υπολογίζεται από τη σχέση (6.1), βλ. Σχήμα 1.28.

  15. 15.

    Παιχνίδι.

    1. (α’)

      Η μέση τιμή της X σε μία παρτίδα είναι:


      μ=E(X)=xSXxP(x)=(-5)16+012+216+1016=76.

      Η διασπορά της X είναι:


      Var(X) = xSX(x-μ)2P(x)


      = 16(-5-76)2+12(0-76)2+16(2-76)2+16(10-76)2


      = 72536.
    2. (β’)

      Έστω Y το συνολικό κέρδος του παίκτη σε τρεις ανεξάρτητες παρτίδες και X1,X2,X3 το κέρδος σε κάθε παρτίδα. Από την πρώτη ιδιότητα του Θεωρήματος 6.1, η μέση τιμή της Y είναι:


      E(Y)=E(i=13Xi)=i=13E(Xi)=376=72.

      Ομοίως, αφού οι παρτίδες είναι ανεξάρτητες, από την τέταρτη ιδιότητα του Θεωρήματος 6.1, η διασπορά της Y είναι:


      Var(Y)=Var(i=13Xi)=i=13Var(Xi)=372536=72512.
  16. 16.

    Η μέθοδος της δεύτερης ροπής. Έστω P(k), για kS={0,1,2,}, η πυκνότητα της X. Από τον ορισμό της διασποράς έχουμε,


    σ2=Var(X)=k=0(k-μ)2P(k),

    και, εφόσον όλοι οι όροι του πιο πάνω αθροίσματος είναι μεγαλύτεροι ή ίσοι του μηδενός, ολόκληρο το άθροισμα θα είναι μεγαλύτερο ή ίσο του όρου k=0,


    σ2=k=0(k-μ)2P(k)(0-μ)2P(0)=μ2Pr(X=0),

    που είναι ακριβώς η ζητούμενη ανισότητα.

  17. 17.

    Εναλλακτική έκφραση της E(X). Ξεκινάμε από τη ζητούμενη έκφραση και χρησιμοποιούμε την τρίτη βασική ιδιότητα της πυκνότητας:


    k=1Pr(Xk)=k=1j=kPr(X=j).

    Παρατηρούμε πως οι όροι του αθροίσματος δεν εξαρτώνται από το k, και πως ο κάθε όρος Pr(X=j) αθροίζεται ακριβώς j φορές. Συνεπώς,


    k=1Pr(Xk)=j=1jPr(X=j)=E(X),

    που είναι ακριβώς η ζητούμενη έκφραση.

  18. 18.

    Αποστάσεις μεταξύ πυκνοτήτων. Οι παρατηρήσεις του πρώτου σκέλους είναι άμεσες συνέπειες των ορισμών. Για το δεύτερο σκέλος παρατηρούμε ότι, προφανώς, από τον ορισμό της, οποιαδήποτε διασπορά είναι μεγαλύτερη ή ίση του μηδενός. Άρα, έχουμε,



    Var(f(X))


    =(a) E[f(X)2]-(E[f(X)])2


    =(b) xQ(x)f(x)2-(xQ(x)f(x))2


    = xQ(x)(|P(x)-Q(x)|Q(x))2-(xQ(x)|P(x)-Q(x)|Q(x))2


    = x(P(x)-Q(x))2Q(x)-(x|P(x)-Q(x)|)2


    = dχ2(P,Q)-(d1(P,Q))2,

    το οποίο μας δίνει ακριβώς τη ζητούμενη ανισότητα. Στο βήμα (a) πιο πάνω χρησιμοποιήσαμε την εναλλακτική έκφραση της διασποράς (6.8), και στο βήμα (b) τον γενικό τύπο (6.5) για τη μέση τιμή κάποιας συνάρτησης μιας Τ.Μ.



A.7 Ασκήσεις Κεφαλαίου 7

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Overbooking. Το πλήθος, έστω X, των επιβατών που θα προσέλθουν ακολουθεί διωνυμική κατανομή με παραμέτρους το πλήθος των ανεξάρτητων πειραμάτων N=55, και πιθανότητα επιτυχίας p=0.9. Θα έχουμε πρόβλημα υπεράριθμων επιβατών αν προσέλθουν 51 με 55 επιβάτες, δηλαδή αν X51. Η πιθανότητα αυτή μπορεί εύκολα να υπολογιστεί από τον τύπο της πυκνότητας της διωνυμικής κατανομής:


    Pr(X51) = Pr(X=51)+Pr(X=52)+Pr(X=53)



          +Pr(X=54)+Pr(X=55)


    = (5555)0.9550.10+(5554)0.9540.11+(5553)0.9530.12



          +(5552)0.9520.13+(5551)0.9510.14


    0.3451.
  2. 2.

    Δείκτριες τυχαίες μεταβλητές.

    1. (α’)

      Εφόσον η X παίρνει μόνο τις τιμές 0 και 1, προφανώς έχει Bern(p) κατανομή, όπου η παράμετρός της p=Pr(X=1)=(A).

    2. (β’)

      Και πάλι, εφόσον η συνάρτηση hx(y) παίρνει μόνο τις τιμές 0 και 1, η Τ.Μ. hx(Y) έχει κατανομή Bernoulli με παράμετρο p=Pr(hx(Y)=1)=Pr(Yx)=F(x).

  3. 3.

    Η ουρά της μέσης τιμής. Έστω πως η Τ.Μ. Y έχει πυκνότητα P(y) και σύνολο τιμών το S={a1,a2,}, όπου όλα τα ai0 και για ευκολία θεωρούμε ότι 0a1<a2<. Κατ’ αρχάς, από τον ορισμό της hx(y), παρατηρούμε πως η νέα Τ.Μ. Z=Y[1-hx(Y)] ισούται με την Y όταν η Y>x, αλλιώς ισούται με μηδέν. Άρα, για μεγάλες τιμές του x, διαισθητικά περιμένουμε ότι η Z θα είναι μη μηδενική με πολύ μικρή πιθανότητα. Με αυτό το σκεπτικό, το ζητούμενο αποτέλεσμα δεν μας εκπλήσσει.

    Πιο αναλυτικά τώρα, η μέση τιμή που μας ενδιαφέρει, από τον ορισμό της μέσης τιμής μιας συνάρτησης κάποιας Τ.Μ., είναι,


    E(Y[1-hx(Y)])=ySyP(y)[1-hx(y)].

    Αν το S είναι πεπερασμένο με μέγιστο στοιχείο ίσο με M, ή αν είναι άπειρο και όλα του τα στοιχεία είναι aiM, για κάποια σταθερά M, το αποτέλεσμα είναι τετριμμένο: Για κάθε x>M, όλες οι τιμές 1-hx(y) είναι ίσες με μηδέν, οπότε το άθροισμα προφανώς τείνει στο μηδέν καθώς το x.

    Τέλος, αν το S είναι άπειρο και όχι φραγμένο ως σύνολο, τότε για κάθε x υπάρχει κάποιο i(x) τέτοιο ώστε να έχουμε ai>x αν και μόνο αν ii(x). Και επιπλέον θα έχουμε ότι i(x) καθώς το x. Με αυτόν το συμβολισμό έχουμε,


    E(Y[1-hx(Y)])=i=1aiP(ai)[1-hx(ai)]=i=i(x)aiP(ai),

    αλλά επίσης ξέρουμε πως ολόκληρη η σειρά,


    E(Y)=i=1aiP(ai),

    συγκλίνει σε ένα πεπερασμένο άθροισμα. Άρα απαραίτητα η «ουρά» της σειράς θα τείνει στο μηδέν,


    E(Y[1-hx(Y)])=i=i(x)aiP(ai)0,

    αφού το i(x) καθώς το x.

  4. 4.

    Ελάχιστο δύο γεωμετρικών τυχαίων μεταβλητών. Ακολουθώντας την υπόδειξη, παρατηρούμε ότι το ελάχιστο Z είναι τουλάχιστον k, αν και μόνο αν και οι δύο Τ.Μ. X,Y παίρνουν τιμές τουλάχιστον k. Οπότε, για κάθε k1,


    Pr(Zk) = Pr(min(X,Y)k)


    = Pr(Xk,Yk)


    = Pr(Xk)Pr(Yk)


    = (1-p1)k-1(1-p2)k-1


    = [(1-p1)(1-p2)]k-1,

    όπου η τρίτη ισότητα ισχύει λόγω της πέμπτης ιδιότητας της ανεξαρτησίας στο Θεώρημα 6.1, και η τέταρτη από την πρώτη ιδιότητα της γεωμετρικής κατανομής στο Θεώρημα 7.1.

    Αν τώρα ορίσουμε q=1-(1-p1)(1-p2), εφόσον,


    Pr(Zk)=Pr(Z=k)+Pr(Zk+1),

    έχουμε,


    Pr(Z=k)=Pr(Zk)-Pr(Zk+1)=(1-q)k-1-(1-q)k=q(1-q)k-1.

    Συνεπώς, και η Z έχει γεωμετρική κατανομή, αλλά με παράμετρο q=1-(1-p1)(1-p2).

    Αυτό εξηγείται εύκολα: Αν διεξάγουμε ταυτόχρονα δύο ακολουθίες ανεξάρτητων πειραμάτων, μπορούμε να ορίσουμε ένα ολικό πείραμα στο οποίο θα έχουμε επιτυχία την πρώτη φορά που θα έχει επιτυχία ένα από τα δύο πειράματα. Σε αυτή την περίπτωση, το πλήθος των επαναλήψεων που απαιτούνται για την πρώτη επιτυχία του ολικού πειράματος είναι Z=min(X,Y) όπου X, Y είναι το πλήθος επαναλήψεων μέχρι την πρώτη επιτυχία στο πρώτο και το δεύτερο πείραμα, αντίστοιχα. Το ολικό πείραμα αποτυγχάνει όταν αποτύχουν και τα δύο επί μέρους, δηλαδή με πιθανότητα (1-p1)(1-p2), άρα η πιθανότητα επιτυχίας είναι 1-(1-p1)(1-p2)=q. Συνεπώς, το πλήθος των προσπαθειών του ολικού πειράματος μέχρι την πρώτη επιτυχία ακολουθεί γεωμετρική κατανομή με παράμετρο q.

  5. 5.

    Άθροισμα Poisson. Έστω PX(x) και PY(y) οι πυκνότητες των X και Y αντίστοιχα. Παρατηρούμε (όπως και στην Άσκηση 9 του Κεφαλαίου 6) πως η X+Y ισούται με z αν και μόνο αν για κάποιο k έχουμε X=k και Y=z-k. Αν PX+Y(z) είναι η πυκνότητα της X+Y, τότε έχουμε,


    PX+Y(z) = x=0zPX(x)PY(z-x)


    = x=0z(e-μμxx!)(e-λλz-x(z-x)!)


    = e-(μ+λ)z!x=0zz!x!(z-x)!μxλz-x


    = e-(μ+λ)z!x=0z(zx)μxλz-x


    = e-(μ+λ)z!(μ+λ)z,

    όπου η τελευταία ισότητα προκύπτει από το διωνυμικό θεώρημα. Συνεπώς, η τυχαία μεταβλητή X+YPoisson(λ+μ).

  6. 6.

    Ταυτότητα Vandermonde. Πρώτα εξετάζουμε την περίπτωση mn1 και mn2. Θα δείξουμε ότι τα δυο μέρη της σχέσης (7.14) εκφράζουν το ίδιο πλήθος συνδυασμών. Έστω πως έχουμε n1 άντρες και n2 γυναίκες. Το πλήθος των τρόπων με τους οποίους μπορούμε να δημιουργήσουμε μια επιτροπή με m από αυτά τα άτομα είναι προφανώς (n1+n2m). Συγχρόνως όμως, για κάθε k, υπάρχουν (n1k)(n2m-k) τρόποι να δημιουργήσουμε μια επιτροπή που να αποτελείται από k άντρες και m-k γυναίκες. Οπότε το αριστερό σκέλος είναι το άθροισμα του πλήθους των τρόπων με τους οποίους μπορούμε να φτιάξουμε μια επιτροπή m ατόμων, απλώς ομαδοποιώντας τους συνδυασμούς ανάλογα με το πόσους άνδρες θα έχει η επιτροπή.

    Αν το m είναι μεγαλύτερο του n1+n2, τότε και τα δύο σκέλη είναι ίσα με μηδέν.

    Τέλος, αν το m είναι μικρότερο ή ίσο του n1+n2, αλλά μεγαλύτερο του n1 ή του n2, τότε κάποιοι από τους όρους του αριστερού σκέλους είναι ίσοι με μηδέν, αλλά η πιο πάνω απόδειξη εξακολουθεί να ισχύει για τους όρους που απομένουν. Για παράδειγμα, αν n1=4, n2=4, m=6, τότε θα πρέπει να ισχύει:


    (42)(44)+(43)(43)+(44)(42)=(86).
  7. 7.

    Άθροισμα διωνυμικών Τ.Μ. Έστω PX(x) και PY(y) οι πυκνότητες των X και Y, αντίστοιχα. Παρατηρούμε ότι η X+Y έχει σύνολο τιμών το S={0,1,,n1+n2}. Επιπλέον, από το αποτέλεσμα της Άσκησης 9 του Κεφαλαίου 6 (βλ. και την παρόμοια λύση της παραπάνω Άσκησης 5), για κάθε mS έχουμε,


    PX+Y(m) = k=-PX(k)PY(m-k)


    = k=0m(n1k)pk(1-p)n1-k(n2m-k)pm-k(1-p)n2-m+k


    = (pm(1-p)n1+n2-m)k=0m(n1k)(n2m-k)


    = (n1+n2m)pm(1-p)n1+n2-m,

    όπου στην τελευταία ισότητα χρησιμοποιήσαμε την ταυτότητα του Vandermonde. Συνεπώς η πυκνότητα της X+Y είναι αυτή της Διων(n1+n2,p) κατανομής.

    Εναλλακτικά, θα μπορούσαμε να εκφράσουμε τις Τ.Μ. X,Y ως,


    X=i=1n1Zi,καιY=i=n1+1n1+n2Zi,

    όπου οι Zi είναι ανεξάρτητες Bern(p) Τ.Μ. Άρα, το άθροισμά τους X+Y μπορεί και αυτό να εκφραστεί ως το άθροισμα (n1+n2) ανεξάρτητων Bern(p) Τ.Μ., και συνεπώς έχει Διων(n1+n2,p) κατανομή.

    Τέλος, παρατηρούμε πως το αποτέλεσμα αυτό ισχύει μόνο αν η παράμετρος p και των αρχικών τυχαίων μεταβλητών X,Y είναι η ίδια.

  8. 8.

    Διάφορες κατανομές.

    1. (α’)

      Η Y ακολουθεί γεωμετρική κατανομή με παράμετρο p=1/6 αφού η πιθανότητα να φέρουμε διπλή είναι 1/6 (γιατί;), και τα πειράματα (δηλαδή οι διαδοχικές ζαριές) είναι ανεξάρτητα μεταξύ τους.

    2. (β’)

      Η X ακολουθεί διωνυμική κατανομή με παραμέτρους N=6 και p=1/4, αφού έχουμε το πλήθος επιτυχιών σε N=6 όμοια, ανεξάρτητα πειράματα με πιθανότητα επιτυχίας p=13/52=1/4.

    3. (γ’)

      H X ακολουθεί υπεργεωμετρική κατανομή με παραμέτρους (52,13,6) αφού επιλέγουμε χωρίς επανατοποθέτηση 6 φύλλα από τα 52 που έχει συνολικά μια τράπουλα, εκ των οποίων τα 13 είναι κούπες.

    4. (δ’)

      Η X ακολουθεί διωνυμική κατανομή με παραμέτρους N=20 και p=0.7, αφού έχουμε το πλήθος επιτυχιών σε N=20 όμοια, ανεξάρτητα πειράματα με πιθανότητα επιτυχίας p=Pr(Γράμματα)=1-0.3=0.7.

  9. 9.

    Ουρά στην τράπεζα.

    1. (α’)

      Οι 2 ώρες έχουν 24 πεντάλεπτα, κι εφόσον η πιθανότητα επιτυχίας, δηλαδή του να έρθει ένας νέος πελάτης, είναι 0.05, η κατανομή της X είναι XΔιων(24,0.05).

    2. (β’)

      Εφόσον X= πλήθος πελατών που έφτασαν τις πρώτες 2 ώρες, η πιθανότητα να έρθουν ακριβώς 3 πελάτες τις πρώτες δύο ώρες, από τον τύπο της πυκνότητας της διωνυμικής κατανομής είναι,


      Pr(X=3)=P(3)=(243)(0,05)3(1-0,05)24-30,0862.
    3. (γ’)

      H Y περιγράφει τη χρονική στιγμή της πρώτης επιτυχίας, άρα έχει γεωμετρική κατανομή με παράμετρο p=0.05: YΓεωμ(0.05).

    4. (δ’)

      Τα λεπτά που θα περιμένουν οι υπάλληλοι μέχρι την άφιξη του πρώτου πελάτη κατά μέσο όρο είναι πέντε φορές η μέση τιμή της Y. Έχουμε E(Y)=1/0.05=100/5=20 πεντάλεπτα, άρα ο αναμενόμενος χρόνος μέχρι τον πρώτο πελάτη είναι 5×20=100 λεπτά.

    5. (ε’)

      Παρατηρήστε ότι οι 2 ώρες έχουν 24 πεντάλεπτα και οι 2.5 ώρες έχουν 30 πεντάλεπτα. Λόγω της ιδιότητας έλλειψης μνήμης έχουμε:


      Pr(X>30|X>24) = Pr(X31|X>24)


      = Pr(X24+7|X>24)


      = Pr(X7)


      = Pr(X>6)=(1-0,05)6=(0,95)60.7351.
  10. 10.

    Επιθέσεις μηνυμάτων spam. Έστω X το πλήθος των χρηστών που ανταποκρίνονται στο email. Το X εκφράζει το πλήθος των επιτυχιών σε N=10 χιλιάδες όμοια, ανεξάρτητα πειράματα, που το καθένα έχει πιθανότητα επιτυχίας p=0.00018. Συνεπώς XΔιων(10000,0.00018).

    Εφόσον Np=10000×0.00018=1.8 είναι «της τάξεως του 1», προφανώς ικανοποιούνται όλες οι συνθήκες του Πορίσματος 7.1, και μπορούμε να προσεγγίσουμε την κατανομή της X μέσω της Poisson(λ), με λ=Np=10000×0.00018=1.8. Από τον τύπο της πυκνότητας της κατανομής Poisson έχουμε,


    Pr(X3) = 1-Pr(X2)


    = 1-Pr(X=0)-Pr(X=1)-Pr(X=2)


    1-e-1.81.800!-e-1.81.811!-e-1.81.822!


    0.269426.9%.

    [Δεδομένου του μηδαμινού κόστους της αποστολής των μηνυμάτων, η πρόβλεψη για τον διαφημιστή δεν είναι κι άσχημη!]

  11. 11.

    Τα «ν» του Βαρουφάκη.

    1. (α’)

      Έστω οι ανεξάρτητες Τ.Μ. X1,X2,,XN με κατανομή XiBern(p) για κάθε i. Αν N=800 και p=0.003, μπορούμε να θεωρήσουμε πως Xi=1 αν και μόνο αν τη φορά i ο διορθωτής έκανε λάθος και έγραψε το όνομα «Γιάννης» αντί για «Γιάνης».

      Άρα, αν ορίσουμε ως Y την Τ.Μ. Y=X1+X2++XN, τότε η YΔιων(N,p) και το συνολικό πλήθος από «ν» που χρησιμοποιήθηκαν θα είναι Z=N+Y.

    2. (β’)

      Εφόσον N=800, p=0.003 και λ=Np=2.4, προφανώς ικανοποιούνται οι συνθήκες του Πορίσματος 7.1, άρα μπορούμε να πούμε πως η Y έχει, κατά προσέγγιση, ίδια κατανομή με μια Τ.Μ. WPoisson(λ), οπότε έχουμε,


      Pr(Z=810)=Pr(800+Y=810)=Pr(Y=10)Pr(W=10),

      το οποίο ισούται με,


      e-λλ1010!0.00015850.016%.
  12. 12.

    Άσχετος φοιτητής. Ορίζουμε τις ανεξάρτητες Τ.Μ. X1,X2,,XN, όλες με την ίδια κατανομή XiBern(p) για κάθε i, όπου N=250, p=0.005 και θεωρούμε πως Xi=1 αν και μόνο αν ο εξεταζόμενος απάντησε σωστά στην ερώτηση i.

    Τότε το πλήθος Y=X1+X2++XN των σωστών απαντήσεών του έχει κατανομή YΔιων(N,p) και, εφόσον N=250, p=0.005 και λ=Np=1.25, βλέπουμε πως ικανοποιούνται οι συνθήκες του Πορίσματος 7.1. Συνεπώς, η κατανομή της Y είναι, κατά προσέγγιση, Poisson(λ), και άρα:


    Pr(Y=3)e-λλ33!0.0933.
  13. 13.

    Δύο διαφορετικές δημοσκοπήσεις.

    1. (α’)

      Όπως περιγράψαμε στο Παράδειγμα 7.2, το συνολικό πλήθος επιτυχιών σε προβλήματα επιλογής με επανατοποθέτηση κατά κανόνα έχει διωνυμική κατανομή. Εδώ, αν ορίσουμε τις ανεξάρτητες Τ.Μ. X1,X2,,XN, όπου το κάθε Xi=1 αν το άτομο i στο δείγμα είναι ψηφοφόρος του κόμματος και Xi=0 αν όχι, τότε μπορούμε να εκφράσουμε την Y ως το άθροισμα των Xi, οπότε YΔιων(N,p), όπου η παράμετρος p ισούται με την πιθανότητα ένα τυχαία επιλεγμένο άτομο να είναι ψηφοφόρος του κόμματος, δηλαδή p=0.3. Συνεπώς, για τη μέση τιμή και τη διασπορά της πρόβλεψης, έχουμε,


      E(Y/N) = 1NE(Y)=1NNp=0.3,

      Var(Y/N) = 1N2Var(Y)=1N2Np(1-p)=0.21N,

      όπου χρησιμοποιήσαμε τον τύπο για τη μέση τιμή και τη διασπορά της διωνυμικής κατανομής, και τις πρώτες δύο ιδιότητες του Θεωρήματος 6.1.

      Πριν προχωρήσουμε αξίζει να κάνουμε ορισμένες παρατηρήσεις. Πρώτον, η μέση τιμή E(Y/N) της εκτίμησης του εκλογικού αποτελέσματος είναι ίση με το πραγματικό αποτέλεσμα. Δεύτερον, η διασπορά Var(Y/N) της εκτίμησης μικραίνει, και συνεπώς η εκτίμηση γίνεται ακριβέστερη, καθώς το μέγεθος N του δείγματός μας μεγαλώνει. Και τρίτον, η μέση τιμή και η διασπορά της εκτίμησης δεν εξαρτώνται από το μέγεθος M του πληθυσμού.

    2. (β’)

      Από το Παράδειγμα 7.7 και τον ορισμό της υπεργεωμετρικής κατανομής, άμεσα έπεται πως εδώ η YΥπερ(Μ,3Μ/10,Ν), οπότε από τις σχέσεις (7.2) και (7.3), αντικαθιστώντας τις γνωστές τιμές του προβλήματος, βρίσκουμε,


      E(Y/N) = 1NE(Y)=1NN3M101M=0.3,

      Var(Y/N) = 1N2Var(Y)


      = 1N2N(3M/10)(M-3M/10)(M-N)M2(M-1)


      = 0.21N(M-N)(M-1),

      όπου και πάλι χρησιμοποιήσαμε τις πρώτες δύο ιδιότητες του Θεωρήματος 6.1.

      Από τα πιο πάνω αποτελέσματα παρατηρούμε τα εξής. Πρώτον, και πάλι η μέση τιμή E(Y/N) της εκτίμησης του εκλογικού αποτελέσματος είναι ίση με το πραγματικό αποτέλεσμα. Δεύτερον, και πάλι η διασπορά Var(Y/N) μικραίνει καθώς το μέγεθος N του δείγματός μεγαλώνει, αλλά αυτήν τη φορά εξαρτάται και από το μέγεθος M του πληθυσμού.

      Συγκεκριμένα, η διασπορά εδώ είναι μικρότερη από την περίπτωση δειγματοληψίας με επανατοποθέτηση, άρα, υπ’ αυτήν την έννοια, είναι προτιμότερη η επιλογή δειγμάτων χωρίς επανατοποθέτηση, πράγμα και διαισθητικά αναμενόμενο, μια που σ’ αυτή την περίπτωση είμαστε βέβαιοι ότι έχουμε εξετάσει N διαφορετικά άτομα χωρίς επαναλήψεις. Τέλος, παρατηρούμε ότι η διαφορά της εδώ διασποράς σε σχέση με το προηγούμενο ερώτημα είναι μεγάλη όταν το μέγεθος του δείγματος είναι σχετικά μεγάλο σε σχέση με τον συνολικό πληθυσμό. Αντίθετα, όταν το N είναι σημαντικά μικρότερο του M, καθώς το μέγεθος του πληθυσμού M αυξάνει, η διασπορά επίσης αυξάνεται και τείνει σ’ εκείνη που είχαμε στην περίπτωση επιλογής με επανατοποθέτηση.

  14. 14.

    Βελάκια. Έστω X το πλήθος από βελάκια που πέτυχαν το στόχο.

    1. (α’)

      Εδώ το X εκφράζει το πλήθος των επιτυχιών σε N=10 όμοια, ανεξάρτητα πειράματα, που το καθένα έχει πιθανότητα επιτυχίας p=0.01. Συνεπώς XΔιων(10,0.01), και από τον τύπο της πυκνότητάς της,


      Pr(X=2)=(102)0.012(1-0.01)10-20.00415240.42%.
    2. (β’)

      Παρομοίως, εδώ XΔιων(140,0.01). Εφόσον 140×0.01=1.4, προφανώς ικανοποιούνται όλες οι συνθήκες του Πορίσματος 7.1, και μπορούμε να προσεγγίσουμε την κατανομή της X μέσω της Poisson(λ), με λ=140×0.01=1.4. Από τον τύπο της πυκνότητας της κατανομής Poisson έχουμε,


      Pr(X=2)e-1.41.422!0.241724.1%.
  15. 15.

    Γινόμενο Bernoulli. Κατ’ αρχάς παρατηρούμε πως το γινόμενο μπορεί να πάρει μόνο δύο τιμές, την 0 και την 1, επομένως έχει κατανομή Bernoulli. Έστω q η ζητούμενη παράμετρος. Θα δώσουμε δύο λύσεις:

    Πρώτα παρατηρούμε πως η παράμετρος μιας Τ.Μ. Bernoulli είναι ίση με τη μέση τιμή της. Χρησιμοποιώντας την τρίτη ιδιότητα του Θεωρήματος 6.1 (λόγω της ανεξαρτησίας των Xi), βρίσκουμε,


    q=E(Z)=E(X1X2Xn)=E(X1)E(X2)E(Xn)=p1p2pn.

    Εναλλακτικά, παρατηρούμε πως,


    q=Pr(Z=1) = Pr(X1X2Xn=1)=Pr(X1=1,X2=1,,Xn=1)


    = Pr(X1=1)Pr(X2=1)Pr(Xn=1)=p1p2pn,

    όπου η τρίτη ισότητα προκύπτει λόγω της ανεξαρτησίας των Xi.

  16. 16.

    Χρηματιστήριο.

    1. (α’)

      Η κάθε Yi ορίζεται ως,


      Yi={1,με πιθανότητα 14%,0,με πιθανότητα 86%,

      άρα, η κάθε Yi έχει κατανομή Bernoulli με παράμετρο p=0.14. Επιπλέον, από την εκφώνηση του προβλήματος έχουμε υποθέσει ότι οι Yi είναι ανεξάρτητες μεταξύ τους.

    2. (β’)

      Η X ισούται με το άθροισμα 30 ανεξάρτητων τυχαίων μεταβλητών Bernoulli,


      X=i=130Yi,

      κι άρα η κατανομή της είναι διωνυμική, με παραμέτρους N=30 και p=0.14.

    3. (γ’)

      Από τον τύπο της πυκνότητας της διωνυμικής κατανομής,


      Pr(Ε) = Pr(10X12)=P(10)+P(11)+P(12)


      = (3010)(0.14)10(0.86)20+(3011)(0.14)11(0.86)19+(3012)(0.14)12(0.86)18


      0.0058.
    4. (δ’)

      Η τιμή Z της μετοχής μετά από 60 μέρες μπορεί να εκφραστεί ως,


      Z=100+i=160Yi,

      όπου το άθροισμα των Yi έχει Διων(N,p) κατανομή με παραμέτρους N=60 και p=0.14. Επομένως, από την πρώτη ιδιότητα του Θεωρήματος 6.1 και τον τύπο της μέσης τιμής της διωνυμικής κατανομής,


      E(Z)=Ε(100+i=160Yi)=100+Ε(i=160Yi)=100+60×0.14=108.4.

      Παρομοίως, από τη δεύτερη ιδιότητα του Θεωρήματος 6.1 και τον τύπο της διασποράς της διωνυμικής κατανομής,


      Var(Z)=Var(100+i=160Yi)=Var(i=160Yi)=60×0.14×(1-0.14)=7.224.
    5. (ε’)

      Σε αυτή την περίπτωση έχουμε,


      Z=100+i=1602Yi=100+2i=160Yi,

      όπου το άθροισμα των Yi έχει όπως πριν Διων(60,0.14) κατανομή. Επομένως, εφαρμόζοντας τις ίδιες ιδιότητες, βρίσκουμε,


      E(Z)=Ε(100+2i=160Yi)=100+2Ε(i=160Yi)=100+2×60×0.14=116.8,

      και για τη διασπορά,


      Var(Z) = Var(100+2i=160Yi)


      = 22Var(i=160Yi)


      = 4×60×0.14×(1-0.14)=  28.896.
  17. 17.

    XOR Bernoulli.

    1. (α’)

      Για να υπολογίσουμε την παράμετρο, έστω p, της Z χρησιμοποιούμε την ανεξαρτησία των X,Y:


      p=Pr(Z=1)=Pr(X=1,Y=0)+Pr(X=0,Y=1)=14×12+35×12=18.
    2. (β’)

      Θα δείξουμε πως, παρότι εκ πρώτης όψεως μοιάζουν να σχετίζονται, οι X και Z είναι ανεξάρτητες. Αυτό μπορεί να αποδειχθεί μέσω του ορισμού της ανεξαρτησίας, δείχνοντας πως,


      Pr(X=x,Z=z)=Pr(X=x)Pr(Z=z),

      και για τα 4 δυνατά ζευγάρια τιμών (x,z). Πράγματι, έχουμε,


      Pr(X=1,Ζ=1)=Pr(X=1,Y=0)=Pr(X=1)Pr(Y=0)=14×12=18,

      ενώ και,


      Pr(X=1)Pr(Ζ=1)=14×12=18.

      Παρομοίως,


      Pr(X=0,Ζ=1)=Pr(X=0,Y=1)=Pr(X=0)Pr(Y=1)=34×12=38,

      ενώ και,


      Pr(X=0)Pr(Ζ=1)=34×12=38.

      Επίσης,


      Pr(X=1,Ζ=0)=Pr(X=1,Y=1)=Pr(X=1)Pr(Y=1)=14×12=18,

      ενώ και,


      Pr(X=1)Pr(Ζ=0)=14×12=18.

      Και, τέλος,


      Pr(X=0,Ζ=0)=Pr(X=0,Y=0)=Pr(X=0)Pr(Y=0)=34×12=38,

      ενώ και,


      Pr(X=0)Pr(Ζ=0)=34×12=38.

      Άρα οι X,Ζ είναι ανεξάρτητες.

  18. 18.

    Διασπορά υπεργεωμετρικής κατανομής.

    1. (α’)

      Αυτό το βήμα προκύπτει από έναν απλό υπολογισμό, σε συνδυασμό με την πρώτη ιδιότητα του Θεωρήματος 6.1:


      E(Y2) = E[(i=1nXi)2]=E[(i=1nXi)(j=1nXj)]


      = E[i=1nj=1nXiXj]=i=1nj=1nE(XiXj).
    2. (β’)

      Με βάση το συλλογισμό που χρησιμοποιήσαμε για τον υπολογισμό της μέσης τιμής (στην παρατήρηση που ακολουθεί το Παράδειγμα 7.8) όλα τα Xi έχουν την ίδια κατανομή, συνεπώς E(Xi2)=E(X12). Επιπλέον, αφού τα Xi παίρνουν μόνο τις τιμές 0 και 1, προφανώς πάντοτε έχουμε X12=X1 και άρα E(X12)=E(X1).

      Με την ίδια λογική της εναλλακτικής περιγραφής του προβλήματος, οι πιθανότητες όλων των δυνατών αποτελεσμάτων για δύο (Xi,Xj) από όλες τις Τ.Μ. Xi, είναι ίδιες ανεξαρτήτως των (i,j), και συνεπώς E(XiXj)=E(X1X2) για κάθε ij.

    3. (γ’)

      Η παράμετρος της Bernoulli τυχαίας μεταβλητής X1X2 είναι η,


      Pr(X1X2=1)=Pr(X1=1,X2=1)=Pr(X2=1|X1=1)Pr(X1=1),

      όπου χρησιμοποιήσαμε τον ορισμό της δεσμευμένης πιθανότητας. Και χρησιμοποιώντας τώρα τις πιθανότητες που υπολογίστηκαν στις σχέσεις (7.1) και (7.2), έχουμε,


      Pr(X1X2=1)=k-1N-1kN.
    4. (δ’)

      Χρησιμοποιώντας τα τρία πιο πάνω βήματα βρίσκουμε,


      E(Y2) = i=1nj=1nE(XiXj)


      = nE(X1)+n(n-1)E(X1X2)


      = nkN+n(n-1)kNk-1N-1.
    5. (ε’)

      Από το προηγούμενο βήμα, σε συνδυασμό με τη γνωστή μέση τιμή E(Y)=kn/N, έχουμε,


      Var(Y) = E(Y2)-[E(Y)]2


      = nkN+n(n-1)kNk-1N-1-k2n2N2


      = nkN(N-1)+n(n-1)k(k-1)N-k2n2(N-1)N2(N-1)


      = nk(N-k)(N-n)N2(N-1),

      όπως ακριβώς και στη ζητούμενη σχέση (7.3).

  19. 19.

    Αναπαράσταση της ex.

    1. (α’)

      Για y(-1,) ορίζουμε τη συνάρτηση f(y)=log(1+y), η οποία έχει παραγώγους,


      f(y)=11+yκαιf′′(y)=-1(1+y)2.

      Συνεπώς, από ανάπτυγμα Taylor έχουμε πως, για κάποιο ζ με |ζ||y|,


      log(1+y)=f(1+y)=f(0)+yf(0)+y22f′′(ζ)=y-y22(1+ζ)2.
    2. (β’)

      Εφόσον η ακολουθία {xn} συγκλίνει, θα είναι υποχρεωτικά φραγμένη, άρα θα έχουμε |xn/n|[0,1) για κάθε n μεγαλύτερο ή ίσο με κάποιο n0. Εφαρμόζοντας το προηγούμενο αποτέλεσμα με y=xn/n, για nn0,


      log(1+xnn)=xnn-xn22n2(1+ζn)2,

      όπου τα ζn ικανοποιούν |ζn||xn/n|<1. Θέτοντας ξn=xn2/[(1+ζn)2] και πολλαπλασιάζοντας την πιο πάνω σχέση με n βρίσκουμε, για nn0,


      nlog(1+xnn)=xn-12nξn,

      όπου η ακολουθία {ξn} είναι εξ ορισμού φραγμένη.

    3. (γ’)

      Τέλος, παίρνοντας το όριο καθώς n στο αποτέλεσμα του προηγούμενου σκέλους, έχουμε,


      limnlog[(1+xnn)n]=limnnlog(1+xnn)=x=logex,

      το οποίο είναι προφανώς ισοδύναμο με το ζητούμενο αποτέλεσμα της σχέσης (7.5).



A.8 Ασκήσεις Κεφαλαίου 8

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Ένας άλλος randomized αλγόριθμος. Έστω ότι μας ζητείται να υπολογίσουμε την τιμή F(x) για κάποιο συγκεκριμένο x. Επιλέγουμε τυχαία έναν ακέραιο Y στο σύνολο S={0,1,,n-1} και παρατηρούμε ότι το (x+Ymodn) είναι επίσης ομοιόμορφα κατανεμημένο στο S. Από τον πίνακα χρησιμοποιούμε τις τιμές των F(x+Ymodn) και F(Y) και, εφόσον η συνάρτηση F πάντα ικανοποιεί τη σχέση F(x+Ymodn)=F(x)F(Y), ως απάντηση για το F(x) δίνουμε το F(x+Ymodn)/F(Y).

    Ποια είναι η πιθανότητα να έχουμε κάνει λάθος;

    Η μόνη περίπτωση να δώσουμε λάθος απάντηση είναι αν η τιμή του F(x+Ymodn) είναι λάθος στον πίνακα ή αν η τιμή του F(Y) είναι λάθος στον πίνακα. Άρα,


    Pr(λάθος απάντηση) Pr({F(Y)λάθος}{F(x+Ymodn)λάθος})


    Pr(F(Y)λάθος)+Pr(F(x+Ymodn)λάθος)


    = 15+15=  40%,

    όπου η δεύτερη ανισότητα προκύπτει από το φράγμα ένωσης της Ενότητας 5.2, και οι δύο πιθανότητες ίσες με 1/5 γιατί το Y και το (x+Ymodn) είναι ομοιόμορφα κατανεμημένα στο {0,1,n-1}.

    Παρατηρούμε πως, αν απλώς δίναμε την F(x) για απάντηση, θα κάναμε λάθος μόνο 20% του χρόνου, οπότε γιατί να μπούμε στον κόπο του πιο πολύπλοκου randomized αλγορίθμου; Η διαφορά είναι ότι, αν δεν κάναμε τίποτα, τότε για τα x τα οποία έχουν λάθος τιμές στον πίνακα θα κάναμε πάντοτε λάθος. Το πλεονέκτημα του randomized αλγορίθμου είναι πως, ακόμα και για τις τιμές που είναι λάθος στον πίνακα, τουλάχιστον 60% του χρόνου μάς δίνει τη σωστή απάντηση!

  2. 2.

    Αθροίσματα.

    1. (α’)

      Έστω πως k=1nk=(n/2)(n+1) για κάθε άρτιο n, και έστω n=m+1 όπου το m είναι άρτιο. Τότε προφανώς έχουμε,


      k=1nk=k=1mk+n=m2(m+1)+n=(n-12)n+n=n2(n+1).

      Εναλλακτικά, θα μπορούσαμε να τροποποιήσουμε την αρχική μέθοδο, προσθέτοντας, ανά ζεύγη, τους αριθμούς, 1+n, 2+(n-1), κ.ο.κ., έως το n-12+n+32, παίρνοντας το αποτέλεσμα [(n-1)/2]-φορές-το-(n+1), δηλαδή, n-12(n+1), και τέλος προσθέτοντας σε αυτό τον μεσαίο όρο n+12, καταλήγοντας στο ίδιο αποτέλεσμα.

    2. (β’)

      Για οποιαδήποτε n1 και 1mn-1, χρησιμοποιώντας το πιο πάνω αποτέλεσμα βρίσκουμε,


      k=m+1n(2k) = k=1n(2k)-k=1m(2k)


      = 2k=1nk-2k=1mk


      = 2n2(n+1)-2m2(m+1)


      = n2+n-m2-m


      = (n+m+1)(n-m).
  3. 3.

    Μέτρηση πράξεων. Η πρώτη μέθοδος δεν απαιτεί καμία ύψωση σε δύναμη, οπότε η πολυπλοκότητά της για μεγάλα n παραμένει,


    n2-n212n2.

    Η δεύτερη μέθοδος απαιτεί τον υπολογισμό των x2,x3,,xn για καθεμία από τις n ρίζες x=bi, οπότε το επιπλέον κόστος ισούται με


    nk=2nlogk=nlog(k=2nk)=nlogn!n[(n+1/2)logn-n]n2logn,

    όπου χρησιμοποιήσαμε την προσέγγιση logn!(n+1/2)logn-n, που προκύπτει από τον τύπο του Stirling. Άρα το συνολικό κόστος αυτής της μεθόδου, για μεγάλα n είναι της τάξης του n2+n2logn, δηλαδή της τάξης του n2logn.

    Παρομοίως, το συνολικό κόστος του randomized αλγορίθμου είναι,


    2n+2k=2nlogk=2n+2logn!2n+2[(n+1/2)logn-n]2nlogn.

    Συμπεραίνουμε λοιπόν πως, και με αυτή την ακριβέστερη έννοια, η πολυπλοκότητα του randomized αλγορίθμου είναι σημαντικά μικρότερη από εκείνη των δύο κλασικών μεθόδων.

  4. 4.

    Μικρότερη πιθανότητα σφάλματος. Οι δύο τρόποι είναι μάλλον προφανείς: Μπορούμε να αυξήσουμε το πλήθος Μ των δυνατών τιμών της τυχαίας μεταβλητής που χρησιμοποιούμε, ή μπορούμε να χρησιμοποιήσουμε την ίδια μέθοδο πολλές φορές.

    Στην πρώτη περίπτωση, αν αντί για 100n δυνατές τιμές επιλέξουμε μια Τ.Μ. X με Μ δυνατές τιμές, τότε αν το M ικανοποιεί Mn/p, ο ίδιος υπολογισμός όπως πριν δείχνει πως η πιθανότητα σφάλματος είναι το πολύ p.

    Στην δεύτερη περίπτωση, επαναλαμβάνουμε το ίδιο πείραμα k φορές, χρησιμοποιώντας k ανεξάρτητες Τ.Μ. X1,X2,,Xk με την ίδια κατανομή όπως πριν. Υπολογίζουμε τις τιμές f(Xi) και g(Xi), και αν f(Xi)=g(Xi) για κάθε i=1,2,,k, δηλώνουμε πως τα δύο πολυώνυμα είναι τα ίδια· αν f(Xi)g(Xi) για τουλάχιστον ένα i, δηλώνουμε πως είναι διαφορετικά. Και πάλι, η μόνη περίπτωση σφάλματος είναι αν τα f(x) και g(x) είναι διαφορετικά, οπότε έχουμε,


    Pe = Pr({f(X1)=g(X1)}{f(X2)=g(X2)}{f(Xk)=g(Xk)})


    =(a) i=1kPr(f(Xi)-g(Xi)=0)


    =(b) (Pr(f(X1)-g(X1)=0))k


    (c) (1100n)k,

    όπου στο βήμα (a) χρησιμοποιήσαμε την ανεξαρτησία των Xi, στο (b) το γεγονός ότι όλα τα Xi έχουν την ίδια κατανομή, και στο (c) αντικαταστήσαμε το ήδη γνωστό φράγμα για την πιθανότητα σφάλματος από την απλή περίπτωση μίας μόνο τυχαίας μεταβλητής. Από αυτό το αποτέλεσμα είναι προφανές ότι, επιλέγοντας ένα επαρκώς μεγάλο k, μπορούμε να καταστήσουμε το φράγμα [1/(100n)]k όσο κοντά στο μηδέν επιθυμούμε.

  5. 5.

    Πόσα min-cuts υπάρχουν; Έστω C το τυχαίο cut set το οποίο μας δίνει ο αλγόριθμος του Karger. Εφόσον κάθε πιθανότητα είναι μικρότερη ή ίση του 1, έχουμε ότι,


    1 Pr(το C είναι min-cut)


    = Pr({C=C1}{C=C2}{C=CM})


    = Pr(S(1)S(2)S(M))


    = Pr(S(1))+Pr(S(2))++Pr(S(M)),

    διότι τα ενδεχόμενα S(j)={C=Cj} είναι ξένα μεταξύ τους. Χρησιμοποιώντας τώρα την ανισότητα που μας υπενθύμισε η εκφώνηση, συνεχίζουμε τον πιο πάνω υπολογισμό και βρίσκουμε,


    1M2n(n-1),

    δηλαδή,


    Mn(n-1)2=n(n-1)(n-2)!(n-2)!2!=(n2).
  6. 6.

    Τυχαία cut sets.

    1. (α’)

      Θυμίζουμε το συλλογισμό που κάναμε πριν την περιγραφή του αλγορίθμου του Karger, σύμφωνα με τον οποίο κάθε cut set αντιστοιχεί σε ένα διαχωρισμό των κόμβων V του γράφου σε δύο (όχι κενά) υποσύνολα K1 και K2. Όπως αναφέρουμε εκεί, για οποιονδήποτε τέτοιο διαχωρισμό, προφανώς το σύνολο των ακμών που συνδέουν κόμβους του K1 με κόμβους στο K2 είναι cut set.

    2. (β’)

      Πιο συγκεκριμένα, ο παραπάνω συλλογισμός μάς λέει πως τα ζευγάρια (όχι κενών) υποσυνόλων {K1,K2} του V τέτοια ώστε K1K2=V, είναι σε 1-1 αντιστοιχία με τα cut sets του γράφου, όπου οι ρόλοι των K1,K2 είναι αντιστρέψιμοι. Για να αποδείξουμε ότι το τυχαίο C είναι ομοιόμορφα κατανεμημένο, αρκεί να αποδείξουμε πως το αντίστοιχο τυχαίο σύνολο κόμβων K1 είναι ομοιόμορφα κατανεμημένο, δηλαδή πως κάθε K1 επιλέγεται με την ίδια πιθανότητα. Αλλά αυτό είναι και πάλι προφανές από την κατασκευή του: Η επιλογή οποιουδήποτε συνόλου όπως περιγράφει η άσκηση έχει την ίδια πιθανότητα, δηλαδή 12×12××12×=1/2n, και, αφού αποκλείουμε το κενό σύνολο και το V, η επιλογή οποιουδήποτε K1 στο οποίο καταλήγουμε έχει πιθανότητα 1/[2n-2].

    3. (γ’)

      Έστω Α το σύνολο όλων των cut sets και B το σύνολο όλων των min-cuts. Από τον συλλογισμό που αναφέραμε πιο πάνω υπολογίσαμε πως το πλήθος των cut sets είναι #A=Γn=2n-1-1, και από την προηγούμενη άσκηση ξέρουμε πως το πλήθος των min-cuts ικανοποιεί #B(n2)=n(n+1)/2. Άρα, αφού στο σκέλος (β’) δείξαμε πως το C είναι τυχαία και ομοιόμορφα επιλεγμένο ανάμεσα σε όλα τα cut sets, έχουμε ότι:


      Ps=Pr(το C είναι min-cut)=#B#A(n2)2n-1-1=n(n-1)2(2n-1-1).
  7. 7.

    Φράγμα τομής. Χρησιμοποιώντας το φράγμα ένωσης, έχουμε,


    Pr(i=1nAi) =(a) 1-Pr[(i=1nAi)]


    = 1-Pr(i=1nAi)


    (b) 1-i=1nPr(Ai)


    =(c) 1-i=1n[1-Pr(Ai)]=  1+i=1nPr(Ai)-n,

    όπου τα βήματα (a) και (c) προκύπτουν από τον κανόνα πιθανότητας #4 και το βήμα (b) από το φράγμα ένωσης (Λήμμα 5.2).

  8. 8.

    Μια γενικότερη πιθανοκρατική ανάλυση. Για οποιοδήποτε (αυθαίρετο) ϵ>0, θέτουμε k=(1+ϵlog2(1/p))log2n. Θα αποδείξουμε κάτω από τις παρούσες συνθήκες πως,


    Pr(Ln>(1+ϵlog2(1/p))log2n)=Pr(Ln>k)1nϵ,
    (A.11)

    το οποίο πράγματι τείνει στο μηδέν καθώς το n. Ορίζουμε τα ενδεχόμενα Εi ακριβώς όπως πριν. Με τον ίδιο ακριβώς συλλογισμό και χρησιμοποιώντας το φράγμα ένωσης του Λήμματος 5.2, έχουμε,


    Pr(Ln>k)=Pr(i=1n-k+1Ei)i=1n-k+1Pr(Ei),

    όπου εδώ η πιθανότητα του κάθε ενδεχομένου Ei είναι,


    Pr(Ei)=Pr(Xi=1,Xi+1=1,,Xi+k-1=1)=pk,

    οπότε,


    Pr(Ln>(1+ϵlog2(1/p))log2n)(n-k+1)pk.

    Τέλος, χρησιμοποιώντας το προφανές φράγμα (n-k+1)n, γράφοντας pk=2-klog2(1/p), και αντικαθιστώντας την τιμή του k,


    Pr(Ln>(1+ϵlog2(1/p))log2n)n2-klog2(1/p)=n2-(1+ϵ)log2(n)=n1n1+ϵ,

    και έχουμε ακριβώς το ζητούμενο φράγμα (A.11).

    Το αποτέλεσμα αυτό μας λέει πως, για μεγάλα n, η τιμή του Ln είναι μικρότερη από,


    1log2(1/p)log2n,με μεγάλη πιθανότητα.

    Παρατηρούμε πως ο συντελεστής του (log2n) είναι αύξουσα συνάρτηση του p, άρα όσο μεγαλώνει το p, δηλαδή όσο μεγαλώνει η πιθανότητα του «1» στην ακολουθία των Xi, τόσο μεγαλώνει και το φράγμα μας για το μήκος Ln της μεγαλύτερης ακολουθίας συνεχόμενων «1» ανάμεσα στα Xi, το οποίο είναι διαισθητικά απολύτως λογικό.

  9. 9.

    Προσομοίωση. Και τα τρία ερωτήματα είναι καθαρά προγραμματιστικά. Για το τελευταίο μέρος του (γ’), σημειώνουμε πως μπορεί να αποδειχθεί ότι, πράγματι,


    Lnlog2n1log2(1/p),καθώς τοn,

    αλλά αυτή η σύγκλιση συμβαίνει με πολύ αργό ρυθμό, δηλαδή για πολύ μεγάλες τιμές του n. Γι’ αυτόν το λόγο, ίσως να μην είναι προφανής από τα αποτελέσματα βάσει των τιμών που δίνονται στην άσκηση.

  10. 10.

    Μεγάλοι χρόνοι αναμονής. Έχουμε X1,X2, ανεξάρτητες Bern(1/2) T.M., και η Τ.Μ. WN περιγράφει την πρώτη χρονική στιγμή κατά την οποία εμφανίζεται το μοτίβο 0011 μήκους 2Ν στα Xi. Θα αποδείξουμε την (ισοδύναμη με το ζητούμενο του προβλήματος) σχέση:


    Pr(WN2N)2-N.
    (A.12)

    Για να φράξουμε την πιθανότητα Pr(WN2N), ορίζουμε για κάθε i=1,2, τα ενδεχόμενα,


    Ai={Xi=Xi+1==Xi+N-1=0καιXi+N=Xi+N+1==Xi+2N-1=1}.

    Έχουμε,


    Pr(WN2N)=Pr(i=12NAi),

    και χρησιμοποιώντας το φράγμα ένωσης του Κεφαλαίου 5,


    Pr(WN2N)i=12NPr(Ai).

    Εφόσον οι Τ.Μ. Xi είναι ανεξάρτητες, για κάθε ενδεχόμενο Ai βρίσκουμε,


    Pr(Ai) = Pr(Xi=0,Xi+1=0,,Xi+N-1=0



       καιXi+N=1,Xi+N+1=1,,Xi+2N-1=1)


    = (12)2Ν=  2-2N,

    οπότε,


    Pr(WN2N)2N×2-2N=2-N,

    το οποίο αποδεικνύει την (A.12).

  11. 11.

    Τυχαίες διατάξεις.

    1. (α’)

      Το στοιχείο Zi αρχικά βρίσκεται στη θέση i. Αλλά το Zi είναι απλά ένας από τους αριθμούς 1 έως n, οπότε μετά την ταξινόμηση θα βρίσκεται στη θέση Zi. Άρα θα έχει μετακινηθεί κατά |Zi-i| θέσεις.

    2. (β’)

      Το ότι κάθε Zi έχει ομοιόμορφη κατανομή στο S={1,2,,n} είναι προφανές λόγω της συμμετρίας του προβλήματος. Για να το αποδείξουμε και αυστηρά μαθηματικά παρατηρούμε ότι προφανώς έχει σύνολο τιμών το S και ότι η Pr(Ζi=j) είναι η πιθανότητα του να επιλέξουμε μια διάταξη η οποία στη θέση i να έχει στο στοιχείο j. Το πλήθος αυτών των διατάξεων ισούται με το πλήθος των τρόπων με τους οποίους μπορούμε να διατάξουμε τα υπόλοιπα (n-1) στοιχεία στις υπόλοιπες (n-1) θέσεις, δηλαδή (n-1)!. Και εφόσον υπάρχουν συνολικά n! δυνατές διατάξεις η ζητούμενη πιθανότητα είναι, όπως περιμένουμε, ίση με Pr(Zi=j)=(n-1)!n!=1/n.

    3. (γ’)

      Για να υπολογίσουμε τη ζητούμενη μέση τιμή, κατ’ αρχάς χρησιμοποιώντας τον ορισμό της μέσης τιμής μιας συνάρτησης μιας Τ.Μ., θα υπολογίσουμε τη μέση τιμή,


      Ε(|Zi-i|) = j=1nPr(Zi=j)|j-i|


      = 1nj=1n|j-i|


      = 1nj=1i(i-j)+1nj=i+1n(j-i)


      = 1nk=0i-1k+1nk=1n-ik


      = 1n(i-1)i2+1n(n-i)(n-i+1)2


      = 1ni2-(n+1n)i+(n+12),

      όπου χρησιμοποιήσαμε τον τύπο για το άθροισμα μιας αριθμητικής προόδου όπως στην Άσκηση 2 πιο πάνω. Οπότε, εφαρμόζοντας την πρώτη ιδιότητα από το Θεώρημα 6.1, βρίσκουμε,


      E(i=1n|Zi-i|) = i=1nΕ(|Zi-i|)


      = 1ni=1ni2-(n+1n)i=1ni+n(n+1)2


      = (n+1)(2n+1)6-(n+1)22+n(n+1)2


      = n2-13,

      όπου χρησιμοποιήσαμε και πάλι τον τύπο για το άθροισμα μιας αριθμητικής προόδου, και τον τύπο (8.7) για το άθροισμα τετραγώνων που δίνεται στην εκφώνηση. [Άσκηση. Αποδείξτε τη σχέση (8.7) με επαγωγή.]

  12. 12.

    Ο randomized quicksort. Η απόδειξη του Θεωρήματος 8.3 είναι ακριβώς η ίδια με εκείνη του Θεωρήματος 8.2, με μόνη απαραίτητη τροποποίηση την τεκμηρίωσή του γιατί και εδώ η πιθανότητα pij είναι ίση με 2/(j-i+1). Όπως και στο Θεώρημα 8.2, λόγω της συμμετρίας του προβλήματος, αφού η επιλογή των οδηγών είναι τυχαία και ομοιόμορφη, και πάλι συμπεραίνουμε πως η πιθανότητα να επιλεγεί οποιοδήποτε από τα στοιχεία {yi,yi+1,,yj} πρώτο ως οδηγός, είναι η ίδια. Συνεπώς, όπως και πριν, pij=2/(j-i+1).



A.9 Ασκήσεις Κεφαλαίου 9

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Αφρικανικό χελιδόνι. Διαισθητικά, ο ισχυρισμός δεν μπορεί να ευσταθεί, γιατί ακόμα και αν το 60% των χελιδονιών είχε βάρος ακριβώς 200 γραμμάρια, και το υπόλοιπο 40% ακριβώς μηδέν (!) τότε το μέσο βάρος θα ήταν 0.6200+0.40=120 γραμμάρια, ενώ σε όλες τις άλλες περιπτώσεις το μέσο βάρος θα ήταν ακόμα μεγαλύτερο.

    Στην γλώσσα των πιθανοτήτων, παραβιάζεται η ανισότητα του Markov: Αν X είναι το βάρος ενός τυχαίου χελιδονιού, θα πρέπει να έχουμε,


    Pr(X200)E(X)200=100200=12,

    που δεν συμφωνεί με τον ισχυρισμό του βιολόγου ότι αυτή η πιθανότητα είναι ίση με 60%.

  2. 2.

    Απόσταση Τ.Μ. από τη μέση τιμή της. Αφού έχουμε σ2μ2 (δηλαδή η διασπορά της X είναι «πολύ μικρότερη» από τη μέση τιμή στο τετράγωνο), από την ανισότητα του Chebychev προκύπτει πως:


    Pr(|X-μ|3μ)σ2(3μ)2μ29μ2=19.

    Επομένως, ο στατιστικολόγος έχει δίκιο.

  3. 3.

    Ιδιότητες από κοινού πυκνότητας. Έστω N διακριτές τυχαίες μεταβλητές X1,X2,,XN με σύνολα τιμών SX1,SX2,,SXN και πυκνότητες PX1(x1),PX2(x2),,PXN(XN) αντίστοιχα.

    Η γενική μορφή των ιδιοτήτων της από κοινού πυκνότητάς τους P(x1,x2,,xN) είναι ως εξής:

    1. (α’)

      x1SX1,x2SX2,,xNSXNP(x1,x2,,xN)=1.

    2. (β’)

      Για κάθε i=1,2,,N:


      PXi(xi)=x1SX1,xi-1SXi-1,xi+1SXi+1,xNSXNP(x1,x2,,xN).
    3. (γ’)

      Οι X1,X2,,XN είναι ανεξάρτητες αν και μόνο αν,


      P(x1,x2,,xN)=PX1(x1)PX2(x2)PXN(xN),

      για κάθε N-άδα τιμών x1SX1,x2SX2,,xNSXN.

    Οι αποδείξεις είναι παρόμοιες με εκείνες που είδαμε για την περίπτωση των Ν=2 Τ.Μ.

    Εφόσον για διαφορετικές Ν-άδες τιμών (x1,x2,,xN) τα ενδεχόμενα,


    {X1=x1,X2=x2,,XN=xN},

    είναι ξένα μεταξύ τους, και προφανώς η ένωσή τους ισούται με όλο το Ω, από τον κανόνα συνολικής πιθανότητας έχουμε,


    1 = Pr(Ω)


    = Pr(x1SX1,x2SX2,,xNSXN{X1=x1,X2=x2,,XN=xN})


    = x1SX1,x2SX2,,xNSXNPr(X1=x1,X2=x2,,XN=xN)


    = x1SX1,x2SX2,,xNSXNP(x1,x2,,xN),

    που αποδεικνύει την πρώτη ιδιότητα.

    Παρομοίως, για κάθε δεδομένο xi, τα ενδεχόμενα {X1=x1,X2=x2,,XN=xN} είναι ξένα μεταξύ τους, και η ένωσή τους για διαφορετικά x1,,xi-1,xi+1,xN ισούται με το ενδεχόμενο {Xi=xi}. Άρα, πάλι από τον κανόνα συνολικής πιθανότητας, έχουμε τη δεύτερη ιδιότητα: H PXi(xi)=Pr(Xi=xi) ισούται με:




    Pr(x1SX1,xi-1SXi-1,xi+1SXi+1,xNSXN{X1=x1,X2=x2,,XN=xN})


    = x1SX1,xi-1SXi-1,xi+1SXi+1,xNSXNPr(X1=x1,X2=x2,,XN=xN)


    = x1SX1,xi-1SXi-1,xi+1SXi+1,xNSXNP(x1,x2,,xN).

    Τέλος, η τρίτη ιδιότητα είναι απλά αναδιατυπωμένος ο ορισμός της ανεξαρτησίας N διακριτών τυχαίων μεταβλητών.

  4. 4.

    Χρόνος εκτέλεσης αλγορίθμου.

    1. (α’)

      Κατ’ αρχάς, αν ορίσουμε, Z=i=1nXi, τότε η Z έχει κατανομή Διων(n,1/4), και συνεπώς,


      E(Z)=n4καιVar(Z)=n14(1-14)=3n16.

      Επιπλέον, από την εναλλακτική έκφραση για τη διασπορά στη σχέση (6.8), έχουμε,


      E(Z2)=Var(Z)+[E(Z)]2=3n16+n216.

      Παρατηρώντας πως ο χρόνος εκτέλεσης T μπορεί να εκφραστεί ως T=Y+2Z+Z2, από την Ιδιότητα 1 του Θεωρήματος 6.1, βρίσκουμε,


      E(T) = E(Y+2Z+Z2)


      = E(Y)+2E(Z)+E(Z2)


      = 140+142+145+149+2n4+3n16+n216


      = 4+11n16+n216.
    2. (β’)

      Από το προηγούμενο ερώτημα και την ανισότητα Markov έχουμε,


      Pr(Tn2)E(T)n2=116+1116n+4n2.
    3. (γ’)

      Ήδη γνωρίζουμε πως E(T)=4+11n16+n216, πως E(Y)=140+142+145+149=4, και παρομοίως μπορούμε να υπολογίσουμε ότι,


      E(Y2)=1402+1422+1452+1492=110.

      Επιπλέον έχουμε E(Z)=n/4 και E(Z2)=(3n+n2)/16. Οπότε, εφαρμόζοντας την εναλλακτική έκφραση για τη συνδιακύμανση (9.2),


      Cov(T,Y) = E(TY)-E(T)E(Y)


      = E[(Y+2Z+Z2)Y]-E(T)E(Y)


      =(a) E(Y2)+2E(YZ)+E(YZ2)-E(T)E(Y)


      =(b) E(Y2)+2E(Y)E(Z)+E(Y)E(Z2)-E(T)E(Y),

      όπου στο βήμα (a) εφαρμόσαμε την πρώτη ιδιότητα του Θεωρήματος 6.1 και στο βήμα (b) την τρίτη ιδιότητα, αφού οι Τ.Μ. Y και Z είναι ανεξάρτητες. Αντικαθιστώντας τις γνωστές τιμές στην παραπάνω έκφραση,


      Cov(T,Y)=  110+2n+3n4+n24-15-11n4-n24=  105.

      Παρατηρούμε κατ’ αρχάς ότι η συνδιακύμανση είναι θετική, γεγονός που δεν μας εκπλήσσει λόγω του ορισμού του T ως «Y + κάτι ανεξάρτητο». Άρα, όταν μεγαλώνει ή μικραίνει το Y, αντιστοίχως θα τείνει να μεγαλώνει ή να μικραίνει και το T. Επίσης παρατηρούμε πως το αποτέλεσμα δεν εξαρτάται από το n, πράγμα που και πάλι βρίσκουμε λογικό: Εφόσον η συσχέτιση μεταξύ του T και του Y δεν περιλαμβάνει άμεσα κάποιον όρο που να εξαρτάται από το n, αναμενόμενο είναι και η συνδιακύμανση μεταξύ τους να είναι ανεξάρτητη του n.

  5. 5.

    Μέγιστο και ελάχιστο δύο ζαριών.

    1. (α’)

      Η τιμές της από κοινού πυκνότητας P(x1,x2) των X1,X2 εύκολα υπολογίζονται μέσω της ανεξαρτησίας: Για κάθε x1,x2=1,2,3,4,5,6:


      P(x1,x2)=Pr(X1=x1,X2=x2)=Pr(X1=x1)Pr(X2=x2)=1616=136.

      Η δεύτερη ισότητα προέκυψε λόγω ανεξαρτησίας, και η τρίτη λόγω του ότι το ζάρι είναι δίκαιο.

    2. (β’)

      Έχουμε ένα πείραμα με 6×6=36 διαφορετικά αποτελέσματα. Επιπλέον, η από κοινού πυκνότητα PX,Y(x,y) των X,Y πρέπει να υπολογιστεί για 6×6=36 ζεύγη τιμών (x,y). Αρχικά παρατηρούμε πως κάποια από αυτά είναι αδύνατον να εμφανιστούν, π.χ., δεν μπορεί το ελάχιστο από τις δύο ζαριές να είναι 5 και το μέγιστο 2. Συνεπώς, PX,Y(5,2)=0, και γενικά PX,Y(x,y)=0 αν x>y.

      Για να υπολογίσουμε καθεμία από τις υπόλοιπες τιμές πρέπει να βρούμε τα αποτελέσματα που της αντιστοιχούν. Για παράδειγμα,


      PX,Y(1,1) = Pr(X1=1,X2=1)=136,

      PX,Y(1,2) = Pr(X1=1,X2=2)+Pr(X1=2,X2=1)=236.

      Συνεχίζοντας με τον ίδιο τρόπο, συμπληρώνουμε τις τιμές της PX,Y(x,y) στον ακόλουθο πίνακα:

      Y 1 2 3 4 5 6
      X





      PX(x)
      1 1/36 2/36 2/36 2/36 2/36 2/36 11/36
      2 0 1/36 2/36 2/36 2/36 2/36 9/36
      3 0 0 1/36 2/36 2/36 2/36 7/36
      4 0 0 0 1/36 2/36 2/36 5/36
      5 0 0 0 0 1/36 2/36 3/36
      6 0 0 0 0 0 1/36 1/36
      PY(y) 1/36 3/36 5/36 7/36 9/36 11/36
    3. (γ’)

      Οι περιθώριες πυκνότητες PX(x) και PY(y) υπολογίζονται στο περιθώριο του πιο πάνω πίνακα, αθροίζοντας τις τιμές της από κοινού πυκνότητας στην αντίστοιχη στήλη ή γραμμή, όπως μας λέει η δεύτερη βασική ιδιότητα της από κοινού πυκνότητας. Προφανώς, όλες μας οι απαντήσεις, παρότι υπολογισμένες με διαφορετικό τρόπο, συμπίπτουν ακριβώς με τα αντίστοιχα αποτελέσματα στην Άσκηση 7 του Κεφαλαίου 6.

  6. 6.

    Συναρτήσεις τυχαίων μεταβλητών.

    1. (α’)

      Έστω πως X,Y είναι ανεξάρτητες. Και οι δύο Τ.Μ. X2,Y2 έχουν σύνολο τιμών το S={0,1,4,9,16,}. Για οποιαδήποτε m,n1, από την ανεξαρτησία των X,Y και τον κανόνα συνολικής πιθανότητας έχουμε πως η πιθανότητα Pr(X2=m2,Y2=n2) ισούται με,




      Pr({X=m,Y=n}{X=m,Y=-n}



         {X=-m,Y=n}{X=-m,Y=-n})


      = Pr(X=m,Y=n)+Pr(X=m,Y=-n)



         +Pr(X=-m,Y=n)+Pr(X=-m,Y=-n)


      = Pr(X=m)Pr(Y=n)+Pr(X=m)Pr(Y=-n)



         +Pr(X=-m)Pr(Y=n)+Pr(X=-m)Pr(Y=-n)


      = Pr(X=m)[Pr(Y=n)+Pr(Y=-n)]



         +Pr(X=-m)[Pr(Y=n)+Pr(Y=-n)]


      = Pr(X=m)Pr(Y2=n2)+Pr(X=-m)Pr(Y2=n2)


      = [Pr(X=m)+Pr(X=-m)]Pr(Y2=n2)


      = Pr(X2=m2)Pr(Y2=n2),

      δηλαδή, για m1 και n1,


      Pr(X2=m2,Y2=n2)=Pr(X2=m2)Pr(Y2=n2).

      Με παρόμοιο τρόπο προκύπτει πως το ίδιο ισχύει και αν το ένα από τα δύο (ή και τα δύο) m,n είναι ίσο με μηδέν. Συνεπώς οι X2,Y2 είναι ανεξάρτητες Τ.Μ.

    2. (β’)

      Μία από τις πολλές δυνατές επιλογές είναι η ακόλουθη από κοινού κατανομή των X,Y,

      X -1 0 1
      Y


      PY(y)
      -1 0 1/9 0 1/9
      0 1/9 1/9 1/9 1/3
      1 0 1/9 4/9 5/9
      PX(x) 1/9 1/3 5/9

      από την οποία εύκολα βρίσκουμε και την από κοινού κατανομή των X2,Y2:

      X2 0 1
      Y2

      PY2(b)
      0 1/9 2/9 1/3
      1 2/9 4/9 2/3
      PX2(a) 1/3 2/3

      Παρατηρούμε πως,


      0=PX,Y(-1,-1)1919=PX(-1)PY(-1)=19,

      άρα οι X,Y δεν είναι ανεξάρτητες. Απ’ την άλλη μεριά, χρησιμοποιώντας τις τιμές του δεύτερου πίνακα εύκολα μπορούμε να επιβεβαιώσουμε πως ισχύει,


      Pr(X2=a,Y2=b)=Pr(X2=a)Pr(Y2=b),

      για κάθε ζευγάρι τιμών (a,b) με a,b= 0 ή 1, και κατά συνέπεια πως τα X2,Y2 είναι ανεξάρτητα.

    3. (γ’)

      Το αντίστροφο μέρος του ερωτήματος είναι προφανές: Αν οι f(X) και g(Y) είναι ανεξάρτητες για οποιεσδήποτε συναρτήσεις f και g, τότε επιλέγοντας f(x)=x και g(y)=y, συμπεραίνουμε πως και οι X,Y είναι ανεξάρτητες.

      Για το ορθό μέρος, έστω μια Τ.Μ. X με πυκνότητα PX(x) στο σύνολο τιμών SX, και έστω μια συνάρτηση f:SXSX. Τότε η νέα Τ.Μ. f(X) έχει σύνολο τιμών το SX και η πυκνότητά της Pf(X)(z) έχει την εξής ιδιότητα: Για κάθε zSX υπάρχει ένα ή περισσότερα x τέτοια ώστε f(x)=z. Έστω Az το σύνολο αυτών των x:


      Az={xSX:f(x)=z}.

      Τώρα η πυκνότητα Pf(X)(z) μπορεί να εκφραστεί ως,


      Pf(X)(z)=Pr(f(X)=z)=Pr(XAz).
      (A.13)

      Με ακριβώς το ίδιο σκεπτικό, η g(Y) έχει σύνολο τιμών το SY και πυκνότητα Pf(Y)(v) τέτοια ώστε,


      Pg(Y)(v)=Pr(g(Y)=v)=Pr(YBv),
      (A.14)

      όπου τα σύνολα Bv ορίζονται ως,


      Bv={ySY:g(y)=v}.

      Η ανεξαρτησία των f(X),g(Y) επιβεβαιώνεται εύκολα ως εξής: Για οποιεσδήποτε τιμές zSX,vSY,


      Pr(f(X)=z,g(Y)=v) = Pr(XAz,YBv)


      =(a) Pr(XAz)Pr(YBv)


      =(b) Pf(X)(z)Pg(Y)(v),

      όπου η ισότητα (a) προκύπτει από την Ιδιότητα 5 του Θεωρήματος 6.1, και η (b) από τις σχέσεις (A.13) και (A.14) πιο πάνω. Συνεπώς οι τυχαίες μεταβλητές f(X),g(Y) είναι πράγματι ανεξάρτητες.

      Αυτό το αποτέλεσμα εκ πρώτης όψεως φαίνεται να αντικρούει το αποτέλεσμα του προηγούμενου σκέλους: Αφού οι X2 και Y2 είναι ανεξάρτητες, δεν θα έπρεπε και οι X,Y να είναι ανεξάρτητες; Η απάντηση είναι «όχι απαραίτητα»: Όταν τα X,Y παίρνουν και θετικές και αρνητικές τιμές, το X δεν είναι απαραίτητα συνάρτηση του X2 (και αντίστοιχα για το Y), μια που γνωρίζοντας, π.χ., ότι X2=1, το μόνο που μπορούμε να συμπεράνουμε είναι ότι το X ισούται με +1 ή με -1, αλλά δεν ξέρουμε απαραίτητα ποια είναι η τιμή του.

  7. 7.

    Το φράγμα του Chernoff.

    1. (α’)

      Κατ’ αρχάς, εφόσον το λ είναι θετικό, έχουμε,


      Pr(Xc)=Pr(λXλc)=Pr(eλXeλc)=Pr(Yeλc),

      όπου έχουμε ορίσει τη νέα T.M. Y=eλX. Εφόσον η Y παίρνει πάντα τιμές Y0, χρησιμοποιώντας την ανισότητα του Markov για την Y, έχουμε:


      Pr(Xc)=Pr(Yeλc)E(Y)eλc=e-λcE(eλX),

      που είναι ακριβώς η ζητούμενη σχέση.

    2. (β’)

      Έστω τώρα πως XΔιων(n,1/2). Τότε, όπως είδαμε στην Ενότητα 7.1, η X μπορεί να εκφραστεί ως το άθροισμα X=i=1nYi, όπου οι Y1,Y2,,Yn είναι ανεξάρτητες Bern(1/2) Τ.Μ. Άρα, εφαρμόζοντας τη σχέση (9.4) του προηγούμενου σκέλους στη X, με τη σταθερά nc στη θέση της c, βρίσκουμε πως,


      Pr(Xnc)e-λncE(eλX)=[e-λc]nE(eλi=1nYi)=[e-λc]nE(i=1neλYi).

      Από το τρίτο σκέλος της Άσκησης 6 παραπάνω γνωρίζουμε πως, εφόσον οι Τ.Μ. Yi είναι ανεξάρτητες, θα είναι και οι Τ.Μ. eλYi ανεξάρτητες. Συνεπώς, χρησιμοποιώντας την Ιδιότητα 3 του Θεωρήματος 6.1, έχουμε,


      Pr(Xnc)[e-λc]ni=1nE(eλYi).

      Επιπλέον, αφού όλα τα Yi έχουν την ίδια κατανομή, όλοι οι όροι του πιο πάνω γινομένου είναι ίσοι μεταξύ τους και όλοι ίσοι με E(eλY1). Άρα,


      Pr(Xnc)[e-λc]n[E(eλY1)]n={e-λc[12e0+12eλ]}n={12e-λc[1+eλ]}n.
    3. (γ’)

      Έστω τώρα πως XΔιων(10,1/2).

      1. i.

        Για c=0.9, το φράγμα (9.5) που μόλις αποδείξαμε μας δίνει,


        Pr(X9){12e-0.9λ[1+eλ]}10.

        Για να βρούμε το καλύτερο δυνατό φράγμα αρκεί να υπολογίσουμε την τιμή του λ που ελαχιστοποιεί το δεξί μέρος της παραπάνω σχέσης. Για να βρούμε αυτή την τιμή, αρκεί να ελαχιστοποιήσουμε τη συνάρτηση f(λ)=e-λc(1+eλ) ως προς λ. Παίρνοντας παραγώγους, εύκολα βρίσκουμε πως,


        f(λ)=e-λc[(1-c)eλ-c],

        το οποίο ισούται με μηδέν αν και μόνο αν (1-c)eλ=c, δηλαδή για την τιμή,


        λ*=log(c1-c)=log9.

        Επιπλέον, η δεύτερη παράγωγος ισούται με


        f′′(λ)=e-λc[(1-c)2eλ+c2],

        το οποίο είναι προφανώς πάντα θετικό, άρα η τιμή λ* πράγματι ελαχιστοποιεί την f(λ). Αντικαθιστώντας αυτή την τιμή στο φράγμα μας,


        Pr(X9){12e-0.9log9[1+elog9]}100.0252.
      2. ii.

        Η Τ.Μ. X έχει μέση τιμή E(X)=10×(1/2)=5, όποτε η ανισότητα του Markov μάς δίνει,


        Pr(X9)E(X)9=590.5556,

        το οποίο είναι σαφώς σημαντικά ασθενέστερο.

      3. iii.

        Τέλος, η ζητούμενη πιθανότητα Pr(X9) μπορεί εύκολα να υπολογιστεί ακριβώς. Εφόσον το X έχει σύνολο τιμών το {0,1,,10}, από τον τύπο της πυκνότητας της διωνυμικής κατανομής έχουμε,


        Pr(X9)=P(9)+P(10)=(109)(12)9(1-12)1+(1010)(12)10(1-12)0,

        το οποίο ισούται με, Pr(X9)=11×(12)100.0107. Προφανώς το φράγμα του Chernoff εδώ μας δίνει ένα αποτέλεσμα πολύ πιο ισχυρό και πιο κοντά στην πραγματική τιμή από ό,τι η ανισότητα του Markov.

  8. 8.

    Συμπλήρωση πίνακα.

    1. (α’)

      Από τις απλές ιδιότητες της από κοινού κατανομής που είδαμε στην Ενότητα 9.2, εύκολα βρίσκουμε:

      X -5 -2 2 5
      Y



      PY(y)
      0 0.01 0.01 0.01 0.09 0.12
      1 0.05 0.09 0.05 0 0.19
      2 0.07 0.07 0.09 0.07 0.30
      3 0.15 0.09 0 0.15 0.39
      PX(x) 0.28 0.26 0.15 0.31
    2. (β’)

      Χρησιμοποιώντας τις σχετικές τιμές του πίνακα διαπιστώνουμε πως,


      Pr(X=5,Y=2)=0.070.093=Pr(X=5)Pr(Y=2),

      άρα οι X,Y, δεν είναι ανεξάρτητες.

    3. (γ’)

      Από τον ορισμό της δεσμευμένης πιθανότητας και τις τιμές του παραπάνω πίνακα, έχουμε,


      Pr(Y=1|X=2)=Pr(Y=1,X=2)Pr(X=2)=0.050.15=13.
  9. 9.

    Ενεργοποιημένες συνδέσεις. Σύμφωνα με την ανισότητα του Chebychev έχουμε ότι:


    Pr(|X-μ|s)σ2s2.

    Θέλουμε να βρούμε μια τιμή για το s ώστε το ενδεχόμενο να πέσει το δίκτυο να έχει πιθανότητα το πολύ 1%, δηλαδή θέλουμε


    Pr(|X-μ|s)0.01.

    Επομένως, θέτοντας σ2/s2=0.01 πετυχαίνουμε το επιθυμητό αποτέλεσμα, και η ζητούμενη τιμή του s είναι,


    s2=σ20.01=100×σ2=100×5002,

    δηλαδή s=5000.

  10. 10.

    Συντελεστής συσχέτισης. Κατ’ αρχάς, από την εναλλακτική έκφραση για τη συνδιακύμανση (9.2), έχουμε,


    Cov(X,Y) = E(XY)-E(X)E(Y)


    = E(X(aX+b))-E(X)E(aX+b)


    = E(aX2+bX)-E(X)(aE(X)+b)


    = aE(X2)+bE(X)-aE(X2)-bE(X)


    = aVar(X),

    όπου χρησιμοποιήσαμε την πρώτη ιδιότητα του Θεωρήματος 6.1, και την εναλλακτική έκφραση για τη διασπορά (6.8). Επίσης, πάλι από το Θεώρημα 6.1, έχουμε,


    Var(Y)=Var(aX+b)=a2Var(X),

    συνεπώς,


    ρX,Y = Cov(X,Y)[Var(X)Var(Y)]12


    = aVar(X)[Var(X)a2Var(X)]12


    = aa2=a|a|,

    το οποίο φυσικά ισούται με +1 αν το a>0 και με -1 αν το a<0.

  11. 11.

    Ασυσχέτιστες αλλά όχι ανεξάρτητες Τ.Μ. Η Τ.Μ. V έχει σύνολο τιμών το {0,1,2} και η W έχει σύνολο τιμών το {0,1}. Αρχικά υπολογίζουμε τις τιμές της κοινού πυκνότητας PV,W(v,w) των V,W:


    PV,W(0,0) = Pr(X=0,Y=0)=Pr(X=0)Pr(Y=0)=12×12=14,

    PV,W(1,1) = Pr(X=1,Y=0)+Pr(X=0,Y=1)


    = Pr(X=1)Pr(Y=0)+Pr(X=0)Pr(Y=1)


    = 14+14=12,

    PV,W(2,0) = Pr(X=1,Y=1)=Pr(X=1)Pr(Y=1)=14.

    Καθώς είναι αδύνατον να έχουμε V=0, W=1, η πιθανότητα PV,W(0,1)=0, και παρομοίως, PV,W(1,0)=PV,W(2,1)=0.

    Έχοντας υπολογίσει τις τιμές της από κοινού πυκνότητας, μπορούμε να υπολογίσουμε και τις περιθώριες πυκνότητες:


    PV(0)=14,PV(1)=12,PV(2)=14,

    PW(0)=12,PW(1)=12.

    Από τα παραπάνω εύκολα προκύπτει πως οι V,W δεν είναι ανεξάρτητες. Για παράδειγμα,


    0=PV,W(1,0)PV(1)PW(0)=12×12=14.

    Τέλος, για να δείξουμε ότι έχουν μηδενική συνδιακύμανση, υπολογίζουμε τις μέσες τιμές,


    E(V) = E(X+Y)=E(X)+E(Y)=12+12=1,

    E(W) = 0×PW(0)+1×PW(1)=12,

    E(VW) = (0×0)×PV,W(0,0)+(1×0)×PV,W(1,0)+(2×0)×PV,W(2,0)



    +(0×1)×PV,W(0,1)+(1×1)×PV,W(1,1)+(2×1)×PV,W(2,1)


    = 12.

    Και από την εναλλακτική έκφραση (9.2) βρίσκουμε πως η συνδιακύμανση,


    Cov(V,W)=E(VW)-E(V)E(W)=12-112=0,

    είναι πράγματι ίση με μηδέν.

  12. 12.

    Σύγκλιση κατά πιθανότητα.

    1. (α’)

      Εφόσον η κάθε XnBern(1/n), για αυθαίρετο ϵ>0 έχουμε,


      Pr(|Xn-0|<ϵ)=Pr(Xn<ϵ).

      Αν το ϵ1, τότε η πιθανότητα είναι ίση με 1 για κάθε n, ενώ αν ϵ<1 τότε,


      Pr(|Xn-0|<ϵ)=Pr(Xn<ϵ)=Pr(Xn=0)=1-1n,

      το οποίο προφανώς τείνει στο 1 καθώς το n. Άρα, έχουμε Xn0 κατά πιθανότητα καθώς n.

    2. (β’)

      Εδώ έχουμε μια σημαντική παρατήρηση: Ο ορισμός της σύγκλισης κατά πιθανότητα σε μια σταθερά εξαρτάται μόνο από πιθανότητες της μορφής Pr(|Xn-c|<ϵ), οι οποίες αφορούν μόνο μία μεταβλητή και συνεπώς εξαρτώνται μόνο από τις περιθώριες κατανομές των {Xn}. Άρα, το πιο πάνω αποτέλεσμα ισχύει ανεξαρτήτως του αν οι Τ.Μ. {Xn} είναι ανεξάρτητες ή όχι.

    3. (γ’)

      Αντίθετα με το προηγούμενο ερώτημα, για το αποτέλεσμα του Ν.Μ.Α. είναι πολύ σημαντική η υπόθεση ότι οι {Xn} είναι ανεξάρτητες, και δεν μπορεί να παραλειφθεί εντελώς. Για παράδειγμα, έστω ότι τα {Xn} έχουν όλα κατανομή Bern(1/2). Αν είναι ανεξάρτητα, τότε ο εμπειρικός τους μέσος όρος τείνει στο 1/2 κατά πιθανότητα, όπως μας λέει ο Ν.Μ.Α. Αντίθετα, αν όλα τα Xn είναι ίσα με το X1, τότε και ο εμπειρικός τους μέσος όρος είναι ίσος με το X1 για κάθε n, το οποίο προφανώς δεν συγκλίνει στο 1/2!

      Ο λόγος για τον οποίο η ανεξαρτησία εδώ είναι καίρια, είναι διότι, αν αλλάξει η από κοινού κατανομή των {Xn}, τότε αλλάζει και η περιθώρια κατανομή του εμπειρικού μέσου όρου X¯n.

  13. 13.

    Εκτίμηση με θόρυβο.

    1. (α’)

      Εφόσον τα Zi έχουν μέση τιμή ν, η κάθε Τ.Μ. Zi-ν έχει μέση τιμή μηδέν. Και επιπλέον, αφού όλες οι Τ.Μ. {Xn,Zn} είναι ανεξάρτητες, τότε και οι νέες τυχαίες μεταβλητές Wi=Yi-ν=Xi+Zi-ν σχηματίζουν μια ακολουθία ανεξάρτητων Τ.Μ. όπου όλες έχουν την ίδια κατανομή και συνεπώς την ίδια μέση τιμή,


      E(Wi)=E(Xi+Zi-ν)=E(Xi)+E(Zi)-ν=μ.

      Άρα, αν αποφασίσουμε να εκτιμήσουμε το μ μέσω του εμπειρικού μέσου όρου,


      W¯N=1Ni=1NWi=1Ni=1NXi+1Ni=1NZi-ν,

      ο Ν.Μ.Α. μάς εγγυάται πως θα έχουμε W¯Nμ κατά πιθανότητα, καθώς N.

    2. (β’)

      Παρομοίως και εδώ ορίζουμε τις νέες Τ.Μ. Vi=Yi-ν=X+Zi-ν, και ως εκτιμήτρια του X χρησιμοποιούμε τον εμπειρικό τους μέσο όρο,


      V¯N=1Ni=1nVi=X+1Ni=1N(Zi-ν).
      (A.15)

      Εφόσον οι Τ.Μ. Zi-ν είναι ανεξάρτητες, έχουν την ίδια κατανομή και έχουν μέση τιμή ίση με μηδέν, ο Ν.Μ.Α. μάς λέει πως ο δεύτερος όρος στο δεξί μέρος της (A.15) τείνει στο μηδέν, κατά πιθανότητα. Άρα διαισθητικά περιμένουμε πως θα έχουμε και V¯NX κατά πιθανότητα, καθώς N. Πράγματι, για αυθαίρετο ϵ>0,


      Pr(|V¯N-X|<ϵ) = Pr(|X+1Ni=1N(Zi-ν)-X|<ϵ)


      = Pr(|1Ni=1NZi-ν|<ϵ),

      όπου η τελευταία πιθανότητα πιο πάνω τείνει στο 1 καθώς N, από τον Ν.Μ.Α. για τον εμπειρικό μέσο όρο των Τ.Μ. {Zi}. Άρα, πράγματι η εκτίμησή μας είναι «ασυμπτωτικά συνεπής», δηλαδή V¯NX κατά πιθανότητα, καθώς N.

  14. 14.

    Σύγκλιση με πιθανότητα 1.

    1. (α’)

      Αν για κάποιο ωΩ ισχύει ότι |Xn(ω)-X(ω)|<ϵ για όλα τα nm, προφανώς το ίδιο θα ισχύει και για όλα τα nm+1. Άρα κάθε ω που ανήκει στο Tm, ανήκει και στο Tm+1, συνεπώς η ακολουθία των ενδεχομένων {Tm} είναι αύξουσα.

      Επιπλέον, αν για κάποιο συγκεκριμένο ω έχουμε limnXn(ω)=X(ω), τότε από τον κλασικό ορισμό του ορίου, για κάθε ϵ>0 υπάρχει κάποιο m1 τέτοιο ώστε |Xn(ω)-X(ω)|<ϵ για όλα τα nm. Με άλλα λόγια, αν κάποιο ω ανήκει στο Σ, τότε σίγουρα θα ανήκει και σε κάποιο από τα Tm. Άρα έχουμε ότι ισχύει η ζητούμενη σχέση (9.6).

    2. (β’)

      Από τον δεύτερο κανόνα πιθανότητας και τη σχέση (9.6) έχουμε πως,


      1=(Σ)(m=1Tm),

      όπου το γεγονός ότι (Σ)=1 προκύπτει από την υπόθεση ότι οι {Xn} συγκλίνουν στη X με πιθανότητα 1. Άρα η πιθανότητα της παραπάνω ένωσης ισούται κι αυτή με 1, και, δεδομένου του προηγούμενου σκέλους, από την Άσκηση 9 (α’) του Κεφαλαίου 3 συμπεραίνουμε πως,


      limn(Tm)=(m=1Tm)=1.
    3. (γ’)

      Τέλος, παρατηρούμε πως, για κάθε m,


      Tm={|Xn-X|<ϵγια κάθεnm}{|Xm-X|<ϵ},

      άρα, χρησιμοποιώντας τον δεύτερο κανόνα πιθανότητας στο αποτέλεσμα του πιο πάνω ερωτήματος έχουμε,


      Pr(|Xm-X|<ϵ)Pr(Tm)1,καθώςm,

      δηλαδή,


      limnPr(|Xm-X|<ϵ)=1.

      Και αφού το ϵ>0 που επιλέξαμε στην αρχή ήταν αυθαίρετο, έχουμε πράγματι αποδείξει ότι οι {Xn} τείνουν στη X κατά πιθανότητα.

A.10 Ασκήσεις Κεφαλαίου 10

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Κυκλικός δίσκος. Προφανώς οι δυνατές τιμές για το Ζ ανήκουν στο διάστημα [0,1], οπότε SZ=[0,1]. Για τη συνάρτηση κατανομής, θα έχουμε Zz αν και μόνο αν το επιλεγμένο σημείο είναι εντός του κυκλικού δίσκου Α με ακτίνα z που εμφανίζεται σκιασμένος στο Σχήμα 1.29.

    Σχήμα 1.29: Το ενδεχόμενο {Zz} στην Άσκηση 1.

    Εφόσον το σημείο επιλέγεται ομοιόμορφα ανάμεσα σε όλα τα σημεία του Ω, η πιθανότητα να έχουμε Zz ισούται με το εμβαδόν του σκιασμένου δίσκου προς το εμβαδόν όλου του Ω. Άρα, για z[0,1], έχουμε,


    F(z)=Pr(Zz)=πz2π=z2,

    και γενικά,


    F(z)={0,z<0,z2,0z1,1,z>1.

    Τέλος για την πυκνότητα, από τη σχέση (10.7) έχουμε,


    f(z)=F(z)={2z,z[0,1],0,z[0,1].

    Οι F(z), f(z), έχουν σχεδιαστεί στο Σχήμα  1.30.

    Σχήμα 1.30: Η πυκνότητα και η συνάρτηση κατανομής της Τ.Μ. Z στην Άσκηση 1.
  2. 2.

    Προσδιορισμός παραμέτρων.

    1. (α’)

      Από την τρίτη ιδιότητα της συνάρτησης κατανομής, θα πρέπει limxF(x)=1, οπότε θα πρέπει η Α να ισούται με μηδέν γιατί διαφορετικά limxF(x)=±. Άρα, για x4, F(x)=B-4/x, και το όριο της F(x) καθώς το x είναι, limx(B-4/x)=Β. Συνεπώς πρέπει να έχουμε και B=1, δηλαδή,


      F(x)={0,x<4,1-4x,x4.
    2. (β’)

      Για την πυκνότητα, από τη σχέση (10.7) βρίσκουμε,


      f(x)=F(x)={4x2,x4,0,x<4.

      Η γραφική αναπαράσταση των f(x) και F(x) δίνεται στο Σχήμα 1.31.

      Σχήμα 1.31: Γραφική αναπαράσταση της πυκνότητας f(x) και της συνάρτησης κατανομής F(x) στην Άσκηση 2.
    3. (γ’)

      Από τον ορισμό της δεσμευμένης πιθανότητας, και χρησιμοποιώντας τη συνάρτηση κατανομής F(x),


      Pr(X<5|X<6) = Pr({X<5}{X<6})Pr(X<6)


      = Pr(X<5)Pr(X<6)


      = F(5)F(6)


      = 1-4/51-4/6=1/51/3=  0.6.
  3. 3.

    Μια απλή πυκνότητα.

    1. (α’)

      Το ολοκλήρωμα της πυκνότητας από το - ως το + πρέπει να ισούται με 1, αλλά,


      -f(x) dx =01cx dx +12c dx =[cx22]01+[cx]01=12c+c=32c,

      οπότε πρέπει να έχουμε c=2/3. Άρα η πυκνότητα f(x), όπως αναπαρίσταται και στο Σχήμα 1.32, είναι:


      f(x)={0,x<0,23x,0x1,23,1x2,0,x>2.

      Σχήμα 1.32: Η πυκνότητα f(x) στην Άσκηση 3.
    2. (β’)

      Η ζητούμενη πιθανότητα εύκολα υπολογίζεται από την πυκνότητα,


      Pr({X>1.5}{X<0.5})

      =Pr(X>1.5)+Pr(X<0.5)

      =1.5f(x) dx +-0.5f(x) dx

      =1.5223 dx +00.523x dx

      =[23x]1.52+[23x22]00.5

      =43-1+112-0

      =512.
    3. (γ’)

      Από τον ορισμό της μέσης τιμής εύκολα βρίσκουμε,


      E(X)=-xf(x) dx =012x23 dx +122x3 dx =[2x39]01+[2x26]12=119.
  4. 4.

    Μέση τιμή συναρτήσεων Τ.Μ.

    1. (α’)

      Από τον τύπο (10.10) έχουμε,


      E[g(X)] = -g(x)f(x) dx


      = 01(-1)e-x dx +150e-x dx +51e-x dx


      = [e-x]01+0+[-e-x]5


      = e-1+e-5-1-0.6254.
    2. (β’)

      Η διακριτή Τ.Μ. Y=g(X) έχει σύνολο τιμών SY={-1,0,1} και οι τιμές της πυκνότητάς της υπολογίζονται εύκολα ως εξής,


      P(-1) = Pr(Y=-1)=Pr(g(X)=-1)=Pr(0X<1)


      = 01e-x dx =[-e-x]01=1-e-1,

      και παρομοίως,


      P(0) = Pr(Y=0)=Pr(g(X)=0)=Pr(1X5)


      = 15e-x dx =[-e-x]15=e-1-e-5,

      και,


      P(1) = Pr(Y=1)=Pr(g(X)=1)=Pr(X>5)


      = 5e-x dx =[-e-x]5=e-5.

      Εφαρμόζοντας τώρα τον ορισμό της μέσης τιμής μιας διακριτής Τ.Μ., βρίσκουμε,


      E(Y) = (-1)P(-1)+0P(0)+1P(1)


      = (-1)(1-e-1)+e-5


      = e-1+e-5-1,

      το οποίο φυσικά ισούται ακριβώς με την τιμή της E[g(X)] που υπολογίσαμε παραπάνω.

    Στην περίπτωση που η X είναι μια οποιαδήποτε διακριτή Τ.Μ., στην Άσκηση 1 του Κεφαλαίου 6 αποδείξαμε το αντίστοιχο αποτέλεσμα για τη μέση τιμή E[g(X)] μιας αυθαίρετης συνάρτησης της X.

  5. 5.

    Άπειρη μέση τιμή.

    1. (α’)

      Από τον Ορισμό 10.1 γνωρίζουμε πως το ολοκλήρωμα της πυκνότητας f(x) για όλα τα x πρέπει να ισούται με 1, συνεπώς,


      1=-f(x) dx =2Cx2 dx =[-Cx]2=C2,

      άρα έχουμε C=2.

    2. (β’)

      Από τον ορισμό της μέσης τιμής,


      E(X)=-xf(x) dx  =22x dx =221x dx =,

      μια που, ως γνωστόν, το καταχρηστικό ολοκλήρωμα a1x𝑑x= για κάθε a>0:


      a1x dx =limbab1x dx =limb[logx]ab=limb(logb-loga)=.
  6. 6.

    Κατανομή Βήτα.

    1. (α’)

      Η σταθερά c πρέπει να έχει τιμή τέτοια ώστε το ολοκλήρωμα της πυκνότητας να ισούται με τη μονάδα,


      -f(x) dx =01cx(1-x) dx =c01x-x2dx=c[x22-x33]01=c[12-13]=c6,

      Συνεπώς c=6. Η πυκνότητα έχει σχεδιαστεί στο Σχήμα 1.33.

      Σχήμα 1.33: Η πυκνότητα και η συνάρτηση κατανομής της τυχαίας μεταβλητής X στην Άσκηση 6.
    2. (β’)

      Παρομοίως, η ζητούμενη πιθανότητα είναι,


      Pr(12X34) = 1234f(x) dx


      = 61234x(1-x) dx


      = 6[x22-x33]1234


      = 6[932-18-964+124]


      = 1132.

      Το αντίστοιχο εμβαδόν εμφανίζεται σκιασμένο στο Σχήμα 1.33.

    3. (γ’)

      Προφανώς για x<0 έχουμε F(x)=0, και για x>1 έχουμε F(x)=1. Για την περίπτωση 0x1, βρίσκουμε:


      F(x)=-xf(t) dt =0x6t(1-t) dt =3x2-2x3.

      Συνεπώς:


      F(x)={0,x<0,3x2-2x3,0x1,1,x>1.

      Η συνάρτηση κατανομής έχει σχεδιαστεί στο Σχήμα 1.33.

  7. 7.

    Υποψήφιες πυκνότητες. Σε καθεμία από τις παρακάτω περιπτώσεις, για να είναι η f(x) πυκνότητα, θα πρέπει να ισχύει ότι f(x)0 για όλα τα x και -f(x) dx =1. Επομένως έχουμε:

    1. (α’)

      Για τη συνάρτηση f(x),


      -f(x) dx =-1134(1-x2) dx =[34x-x34]-11=34-14+34-14=1.

      Επιπλέον, προφανώς f(x)0 για κάθε x. Άρα η f(x) είναι πυκνότητα. Το γράφημά της δίνεται στο Σχήμα 1.34.

      Σχετικά με τη μέση τιμή και τη διασπορά, έχουμε:


      E(X) = -xf(x) dx =-1134x(1-x2) dx


      = -1134(x-x3) dx =34[x22-x44]-11=0,

      E(X2) = -11x2f(x) dx =-1134x2(1-x2) dx


      = -1134(x2-x4) dx =34[x33-x55]-11


      = 34×2×[13-15]=15,

      Var(X) = E(X2)-(E(X))=215.

      Το ότι η μέση τιμή είναι 0 είναι αναμενόμενο, λόγω του ότι η πυκνότητα είναι συμμετρική γύρω από το x=0. Και για τη ζητούμενη πιθανότητα,


      Pr(X>0) = 0f(x) dx =0134(1-x2) dx


      = 34[x-x33]01=34(1-13)=12,

      όπου και αυτό είναι αναμενόμενο λόγω της συμμετρίας της f(x). Bλ. Σχήμα 1.34.

      Σχήμα 1.34: Αριστερά, η πυκνότητα f(x) της Άσκησης α’, και το εμβαδόν που αντιστοιχεί στην πιθανότητα Pr(X>E(X)). Δεξιά, η συνάρτηση f(x) στην Άσκηση β’.
    2. (β’)

      Για τη συνάρτηση f(x) αυτού του υποερωτήματος,


      -f(x) dx =0134(1-x) dx =38[x-x22]01=34(1-12)=38.

      Άρα η f(x) δεν είναι πυκνότητα. Το γράφημά της φαίνεται στο Σχήμα 1.34.

    3. (γ’)

      Εδώ, το ολοκλήρωμα της f(x) είναι,


      -f(x) dx =-232334(1-x) dx =34[x-3x22]-2323=34(23-418+23+418)=1,

      και άρα, αφού επιπλέον f(x)0 παντού, η f(x) είναι πυκνότητα. Το γράφημά της δίνεται στο Σχήμα 1.35. Σχετικά με τη μέση τιμή και τη διασπορά, βρίσκουμε:


      E(X) = -xf(x) dx =-2323x34(1-x) dx =34-2323(x-x2) dx


      = 34[x22-x33]-2323=-427,

      E(X2) = -x2f(x) dx =-2323x234(1-x) dx


      = 34-2323(x2-x3) dx =34[x33-x44]-2323=427,

      Var(X) = E(X2)-(E(X))=2427-(-427)2=92729.

      Και για τη ζητούμενη πιθανότητα,


      Pr(X>-427) =-4271f(x) dx =-427134(1-x) dx


      =34-4271(x-x22) dx =34[1-12+427+12(-427)2]=9611458.

      Παρατηρούμε ότι η πιθανότητα δεν ισούται με 12. Το αντίστοιχο εμβαδόν εμφανίζεται σκιασμένο στο Σχήμα 1.35.

      Σχήμα 1.35: Αριστερά: Η πυκνότητα f(x) της Άσκησης γ’, και το εμβαδόν που αντιστοιχεί στην πιθανότητα Pr(X>E(X)). Δεξιά: Η συνάρτηση f(x) στην Άσκηση δ’.
    4. (δ’)

      Η f(x) εδώ δεν είναι πυκνότητα, διότι παίρνει αρνητικές τιμές όταν το x είναι μεγαλύτερο από 1/2. Το γράφημά της φαίνεται στο Σχήμα 1.35.

  8. 8.

    Μια απλή πυκνότητα στο .

    1. (α’)

      Η τιμή της c θα προσδιοριστεί χρησιμοποιώντας τη βασική ιδιότητα της πυκνότητας που μας λέει πως το ολοκλήρωμά της στο πρέπει να ισούται με τη μονάδα. Υπολογίζουμε, λοιπόν,


      -f(x) dx =-0ce4x dx +0ce-4x dx =(a)2c0e-4x dx =2c[-e-4x4]0=c2,

      όπου το βήμα (a) προκύπτει από την αλλαγή μεταβλητής x-x. Συνεπώς θα πρέπει να έχουμε c=2.

    2. (β’)

      Από τον ορισμό της E(X), εύκολα υπολογίζουμε,


      E(X) = -xf(x) dx


      = -02xe4x dx +02xe-4x dx


      =(b) -02xe-4x dx +02xe-4x dx =  0,

      όπου το βήμα (b) προκύπτει από την αλλαγή μεταβλητής x-x.

    3. (γ’)

      Παρομοίως με το προηγούμενο ερώτημα, από τον ορισμό της διασποράς βρίσκουμε,


      Var(X) = E[(X-E(X))]2


      = E(X2)


      = -x2f(x) dx


      = -02x2e4x dx +02x2e-4x dx


      =(c) 40x2e-4x dx


      = -0x2(e-4x) dx


      = -[x2e-4x]0+20xe-4x dx


      = -120x(e-4x) dx


      = -12[xe-4x]0+120e-4x dx


      = -180(e-4x) dx


      = 18,

      όπου η ισότητα (c) προκύπτει με αλλαγή μεταβλητής x-x, και τα όρια που εμφανίζονται στα παραπάνω καταχρηστικά ολοκληρώματα είναι όλα ίσα με μηδέν, όπως προκύπτει με απλή εφαρμογή του κανόνα του L’Hôpital.

    4. (δ’)

      Τέλος, από τον ορισμό της πυκνότητας, εύκολα βρίσκουμε πως,


      Pr(|X|1/2) = Pr(X1/2)+Pr(X-1/2)


      = 122e-4x dx +--122e4x dx


      = 412e-4x dx


      = 12(-e-4x) dx


      = e-2,

      όπου η τρίτη ισότητα και πάλι προκύπτει από την αλλαγή μεταβλητής x-x.

  9. 9.

    Βαρουφάκης εναντίον Merkel. Έστω Z η συνολική διάρκεια του Eurogroup, οπότε Z=X ή Z=Y, με πιθανότητα 1/2 και για τις δύο περιπτώσεις.

    Για τη ζητούμενη πιθανότητα, από τον κανόνα συνολικής πιθανότητας έχουμε,


    Pr(Z1/6) = Pr(Z1/6|Z=X)Pr(Z=X)+Pr(Z1/6|Z=Y)Pr(Z=X)


    = 12Pr(X1/6)+12Pr(Y1/6)


    = 1201/613 dx +1201/61y dy 


    = 121613+12[2y]01/6


    = 136+16  0.436.
  10. 10.

    Συνεχείς και διακριτές τυχαίες μεταβλητές.

    1. (α’)

      Για την Pr(Y11/2) χρησιμοποιούμε τον κανόνα συνολικής πιθανότητας:


      Pr(Y11/2)= Pr(0Y11/2|X=1)Pr(X=1)


      +Pr(0Y11/2|X=2)Pr(X=2)


      +Pr(0Y11/2|X=3)Pr(X=3)

      = 1301/2f1(z) dz +1301/2f2(z) dz +1301/2f3(z) dz

      = 1301/21 dz +1301/212 dz +1301/213 dz

      = 16+112+118=1136.
    2. (β’)

      Από τον Ορισμό 10.1, μια συνάρτηση f(y) για να είναι η πυκνότητα του Y1 πρέπει να ικανοποιεί τη σχέση, Pr(aY1b)=abf(y)𝑑y, για οποιοδήποτε διάστημα [a,b]. Με τον ίδιο συλλογισμό όπως στο πρώτο ερώτημα, η πιο πάνω πιθανότητα είναι:


      Pr(aY1b)= Pr(aY1b|X=1)Pr(X=1)


      +Pr(aY1b|X=2)Pr(X=2)


      +Pr(aY1b|X=3)Pr(X=3)

      = 13abf1(z) dz +13abf2(z) dz +13abf3(z) dz

      = ab13[f1(z)+f2(z)+f3(z)]dz.

      Συνεπώς, η συνάρτηση,


      f(y)=13[f1(y)+f2(y)+f3(y)]={0,y<0,11/18,0y1,5/18,1<y2,1/9,2<y3,0,y>3,

      είναι η πυκνότητα του Y1, αφού προφανώς ικανοποιεί και τις δύο άλλες συνθήκες του ορισμού, δηλαδή, f(y)0 για κάθε y, και -f(y) dy =1. Βλ. Σχήμα 1.36.

      Επιπλέον, παρατηρούμε ότι προφανώς και η Y2 έχει την ίδια πυκνότητα.

      Σχήμα 1.36: Η πυκνότητα f(y) της Άσκησης 10.
    3. (γ’)

      Αφού, δεδομένης της τιμής του X, τα Y1 και Y2 είναι ανεξάρτητα, έχουμε,


      Pr(Y11/2,Y21/2|X=1)=Pr(Y11/2|X=1)Pr(Y21/2|X=1),

      όπου οι δύο παραπάνω πιθανότητες είναι και οι δύο ίσες με 01/21𝑑y=1/2, οπότε,


      Pr(Y11/2,Y21/2|X=1)=1212=14.
    4. (δ’)

      Για την τελευταία πιθανότητα, χρησιμοποιώντας τον κανόνα του Bayes βρίσκουμε ότι η Pr(X=1|Y11/2,Y21/2) ισούται με,


      Pr(Y112,Y212|X=1)Pr(X=1)i=13Pr(Y112,Y212|X=i)Pr(X=i).

      Υπολογίζοντας αρχικά τους τρεις όρους του παρονομαστή όπως πριν,


      Pr(Y112,Y212|X=1)Pr(X=1) = (01/21 dy )213=112,

      Pr(Y112,Y212|X=2)Pr(X=2) = (01/212 dy )213=148,

      Pr(Y112,Y212|X=3)Pr(X=3) = (01/213dy )213=1108,

      και αντικαθιστώντας, βρίσκουμε τελικά:


      Pr(X=1|Y11/2,Y21/2)=112112+148+1108=3649.
  11. 11.

    Απόσταση χ2.

    1. (α’)

      Αναπτύσσοντας το τετράγωνο στο ορισμό της dχ2(f,g) βρίσκουμε,


      dχ2(f,g) = Sf(x)2+g(x)2-2f(x)g(x)g(x) dx


      = Sf(x)2g(x) dx +Sg(x) dx -2Sf(x) dx


      = Sf(x)2g(x) dx -1,

      όπου χρησιμοποιήσαμε τη βασική ιδιότητα του ορισμού μιας συνεχούς πυκνότητας που μας λέει πως το ολοκλήρωμά της σε ολόκληρο το (ή, ισοδύναμα, σε ολόκληρο το σύνολο τιμών της) ισούται με 1.

    2. (β’)

      Παρομοίως, για δύο διακριτές πυκνότητες P(x) και Q(x) στο ίδιο σύνολο τιμών S, έχουμε,


      dχ2(P,Q) = xS(P(x)-Q(x))2Q(x)


      = xSP(x)2+Q(x)2-2P(x)Q(x)Q(x)


      = xSP(x)2Q(x)+xSQ(x)-2xSP(x),

      άρα,


      dχ2(P,Q)=xSP(x)2Q(x)-1,

      όπου παραπάνω χρησιμοποιήσαμε την αντίστοιχη ιδιότητα μιας διακριτής πυκνότητας, δηλαδή το ότι το άθροισμα όλων των τιμών της ισούται με 1.



A.11 Ασκήσεις Κεφαλαίου 11

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Από την ομοιόμορφη στην εκθετική κατανομή. Θα υπολογίσουμε τη συνάρτηση κατανομής F(y) της Y. Κατ’ αρχάς, παρατηρούμε ότι, εξ ορισμού, η Υ έχει σύνολο τιμών το [0,), άρα F(y)=0 για y0. Για y>0,


    F(y)=Pr(Yy) = Pr(-λlogUy)


    = Pr(logU-y/λ)


    = Pr(Ue-y/λ)=e-y/λ1 1 dx =  1-e-y/λ.

    Συνεπώς, η Υ έχει συνάρτηση κατανομής εκείνη της Εκθ(λ) κατανομής, βλ. Θεώρημα 11.1, άρα έχουμε YΕκθ(λ).

  2. 2.

    Χρόνος μετάδοσης.

    1. (α’)

      Η μέση τιμή του χρόνου T είναι:


      E(T)=E(X(X+1)4) = 14E(X2+X)


      =(a) 14[E(X2)+E(X)]


      =(b) 14[Var(X)+(E(X))+2E(X)]


      =(c) 14[52+52+5]=  13.75,

      όπου στο βήμα (a) χρησιμοποιήσαμε την Ιδιότητα 1 του Θεωρήματος 11.5, στο βήμα (b) εφαρμόσαμε τον εναλλακτικό τύπο για τη διασπορά (10.13), και στο βήμα (c) αντικαταστήσαμε τις τιμές για τη μέση τιμή και τη διασπορά μιας εκθετικής Τ.Μ. από το Θεώρημα 11.1.

    2. (β’)

      Η πιθανότητα ο χρόνος εκτέλεσης να ξεπεράσει τα 10 λεπτά, δηλαδή T>10 είναι,


      Pr(T>10) = Pr(X(X+1)4>10)


      = Pr(X(X+1)>40)


      = Pr(X2+X-40>0).

      Αλλά το τριώνυμο x2+x-40 παραγοντοποιείται ως (x--1-1612)(x--1+1612), και εφόσον η Τ.Μ. X παίρνει μόνο θετικές τιμές, το πιο πάνω τριώνυμο είναι θετικό αν και μόνο αν το x είναι μεγαλύτερο από τη θετική του ρίζα. Συνεπώς,


      Pr(T>10) = Pr(X>-1+1612)


      = 1-Pr(X-1+1612)


      =(d) e--1+16110  0.3107,

    όπου στο βήμα (d) αντικαταστήσαμε τον τύπο της συνάρτησης κατανομής μιας εκθετικής Τ.Μ. από το Θεώρημα 11.1.

  3. 3.

    Μηνυματάκια! Έστω οι ακόλουθες τυχαίες μεταβλητές:


    X1 = η διάρκεια αποστολής του πρώτου SMS,

    X2 = η διάρκεια αποστολής του δεύτερου SMS,

    Y = η διάρκεια αποστολής του MMS,

    Z = η συνολική διάρκεια αποστολής των δύο SMS και του MMS,

    οπότε, Z=X1+X2+Y.

    1. (α’)

      Για τη μέση τιμή της συνολικής διάρκειας αποστολής, από την πρώτη ιδιότητα του Θεωρήματος 11.5,


      E(Z)=E(X1+X2+Y)=E(X1)+E(X2)+E(Y)=3+12+3+12+8=12,

      αφού οι X1, X2 έχουν ομοιόμορφη κατανομή στο διάστημα [1,3] και η Y έχει εκθετική κατανομή με μέση τιμή 8.

    2. (β’)

      Εφόσον οι τρεις αποστολές είναι ανεξάρτητες μεταξύ τους, η πιθανότητα και τα 2 SMS να έχουν διάρκεια πάνω από 2 δευτερόλεπτα το καθένα είναι:


      Pr(X1>2,X2>2)=Pr(X1>2)Pr(X2>2)=[2313-1 dx ]2=(12)2=14.
    3. (γ’)

      H πιθανότητα το MMS να έχει διάρκεια μεγαλύτερη από τη μέση τιμή της συνολικής διάρκειας των 2 SMS είναι,


      Pr(Y>E(X1+X2))=Pr(Y>2+2)=1-Pr(Y4)=1-[1-e-4/8]0.6065,

      όπου χρησιμοποιήσαμε τον τύπο της συνάρτησης κατανομής μιας εκθετικής Τ.Μ. από το Θεώρημα 11.1.

    4. (δ’)

      Από τον ορισμό της δεσμευμένης πιθανότητας και τον τύπο της συνάρτησης κατανομής F(y) της εκθετικής Τ.Μ. Y (βλ. Θεώρημα 11.1), η ζητούμενη δεσμευμένη πιθανότητα ισούται με:


      Pr(10<Y<20|Y>10) = Pr(10<Y<20,Y>10)Pr(Y>10)


      = Pr(10<Y<20)Pr(Y>10)


      = F(20)-F(10)1-FY(10)


      = 1-e-20/8-1+e-10/81-1+e-10/8  0.7135.
  4. 4.

    Ελάχιστο και μέγιστο δύο Τ.Μ. 

    1. (α’)

      Για τη συνάρτηση κατανομής της W, χρησιμοποιώντας το γεγονός ότι οι X,Y είναι ανεξάρτητες και παρατηρώντας πως το μέγιστο μεταξύ δύο αριθμών είναι μικρό αν και μόνο αν και οι δύο αριθμοί είναι μικροί, έχουμε,


      FW(w) = Pr(Ww)


      = Pr({Xw}{Yw})


      = Pr(Xw)Pr(Yw)


      = FX(w)FY(w).

      Παρομοίως, για να βρούμε τη συνάρτηση κατανομής της V, παρατηρώντας πως το ελάχιστο μεταξύ δύο αριθμών είναι μεγάλο αν και μόνο αν και οι δύο αριθμοί είναι μεγάλοι, υπολογίζουμε,


      FV(v) = Pr(Vv)


      = 1-Pr(V>v)=1-Pr({X>v}{Y>v})


      = 1-Pr(X>v)Pr(Y>v)


      = 1-(1-FX(v))(1-FY(v)).
    2. (β’)

      Εφόσον οι X και Y έχουν σύνολο τιμών το S=[0,), και η V θα έχει το ίδιο σύνολο τιμών, συνεπώς FV(v)=0 για v<0. Και για v0, χρησιμοποιώντας το αποτέλεσμα του προηγούμενου ερωτήματος και τον τύπο για την εκθετική συνάρτηση κατανομής από το Θεώρημα 11.1,


      FV(v)=1-(1-FX(v))(1-FY(v))=1-e-v/θe-v/ϕ=1-exp{-v(1/θ+1/ϕ)},

      άρα και η V έχει εκθετική κατανομή, με παράμετρο, (1/θ+1/ϕ)-1.

      Παρατηρούμε πως αυτό το αποτέλεσμα είναι ακριβώς ανάλογο του αντίστοιχου αποτελέσματος για τη γεωμετρική κατανομή στην Άσκηση 4 του Κεφαλαίου 7.

  5. 5.

    Ελάχιστο N Τ.Μ. 

    1. (α’)

      Όπως και στην προηγούμενη άσκηση, παρατηρούμε πως το ελάχιστο μεταξύ N αριθμών είναι μεγάλο αν και μόνο αν και οι N αριθμοί είναι μεγάλοι. Άρα, χρησιμοποιώντας την ανεξαρτησία των Xi,


      FV(v) = Pr(Vv)=1-Pr(V>v)


      = 1-Pr({X1>v}{X2>v}{XN>v})


      = 1-Pr(X1>v)Pr(X2>v)Pr(XN>v)


      = 1-(1-Pr(X1v))(1-Pr(X1v))(1-Pr(XNv))


      = 1-(1-FX(v)).N
    2. (β’)

      Στην ειδική περίπτωση που η FX(x) είναι εκθετική με παράμετρο θ, δηλαδή


      FX(x)={1-e-xθ,x0,0,x<0,

      τότε από το προηγούμενο ερώτημα προκύπτει πως,


      FV(v)={1-e-nNθ,v0,0,v<0,

      δηλαδή η V είναι επίσης εκθετικά κατανεμημένη, με παράμετρο θ/N.

  6. 6.

    Γραμμικός μετασχηματισμός. Επαναλαμβάνουμε την ίδια απόδειξη όπως για την Ιδιότητα 3 του Θεωρήματος 11.2, αυτήν τη φορά όμως υποθέτοντας πως η σταθερά a είναι αρνητική. Εξετάζουμε αρχικά τις συναρτήσεις κατανομής, έστω F(x) και G(y) των τυχαίων μεταβλητών X,Y αντίστοιχα. Για την G(y) έχουμε,


    G(y)=Pr(Yy)=Pr(aX+by)=Pr(Xy-ba)=1-F(y-ba),

    όπου η ανισότητα αντιστρέφεται όταν πολλαπλασιάζουμε με την αρνητική ποσότητα 1/a. Και τώρα υπολογίζουμε την πυκνότητα της Y ως την παράγωγο της συνάρτησης κατανομής της, από τη σχέση (10.7),


    g(y)=G(y)=ddy[1-F(y-ba)]=-1aF(y-ba),

    άρα, όταν η a είναι αρνητική, η Y έχει πυκνότητα,


    g(y)=-1af(y-ba).

    Παρατηρήστε πως μπορούμε να εκφράσουμε και τις δύο περιπτώσεις (a<0 και a>0) με ενιαίο τρόπο ως,


    g(y)=1|a|f(y-ba).
  7. 7.

    Κανονικοποίηση. (α’) Στην περίπτωση που η X είναι συνεχής, χρησιμοποιώντας την πρώτη ιδιότητα του Θεωρήματος 11.2,


    E(X-μσ)=E(1σX-μσ)=1σE(X)+μσ=0,

    και παρομοίως, εφαρμόζοντας τη δεύτερη ιδιότητα του Θεωρήματος 11.2,


    Var(X-μσ)=Var(1σX-μσ)=1σ2Var(X)=1.

    (β’) Η απόδειξη στη διακριτή περίπτωση είναι ακριβώς η ίδια, με τη μόνη διαφορά ότι αντί για την πρώτη και τη δεύτερη ιδιότητα του Θεωρήματος 11.2, επικαλούμαστε τις δύο πρώτες ιδιότητες του Θεωρήματος 6.1 αντίστοιχα.

  8. 8.

    Το φράγμα του Chernoff για συνεχείς Τ.Μ. 

    1. (α’)

      Η λύση είναι ακριβώς ίδια όπως για το αντίστοιχο ερώτημα της Άσκησης 7 του Κεφαλαίου 9.

    2. (β’)

      Έστω τώρα πως XΕκθ(θ). Από τον γενικό ορισμό της μέσης τιμής μιας συνάρτησης Τ.Μ., μαζί με τον ορισμό της πυκνότητας της εκθετικής κατανομής,


      E(eλX) = -eλxf(x) dx


      = 0eλx1θe-x/θ dx


      = 1θ0e-x(1/θ-λ) dx


      = 1θ(1/θ-λ)[-e-x(1/θ-λ)]0


      = 11-λθ,

      όπου παρατηρούμε πως το παραπάνω καταχρηστικό ολοκλήρωμα υπάρχει, επειδή το όριο,


      limxe-x(1/θ-λ),

      υπάρχει και ισούται με μηδέν, κι αυτό λόγω του περιορισμού που έχουμε θέσει ότι λ<1/θ.

      Αντικαθιστώντας αυτό το αποτέλεσμα στη σχέση 11.5, έχουμε,


      Pr(Xc)e-λc1-λθ.
    3. (γ’)

      Έστω τώρα πως XΕκθ(1).

      1. i.

        Για c=10, το φράγμα (11.6), που μόλις αποδείξαμε, μας δίνει,


        Pr(X10)e-10λ1-λ.

        Για να βρούμε το καλύτερο δυνατό φράγμα αρκεί να υπολογίσουμε την τιμή του λ που ελαχιστοποιεί το δεξί μέρος της παραπάνω σχέσης. Για να βρούμε αυτή την τιμή θα ελαχιστοποιήσουμε τη συνάρτηση f(λ)=e-λc/(1-λ) ως προς λ. Παίρνοντας παραγώγους, εύκολα βρίσκουμε πως,


        f(λ)=e-λc[1-c(1-λ)](1-λ)2,

        το οποίο ισούται με μηδέν αν και μόνο αν 1-c(1-λ)=0, δηλαδή για την τιμή,


        λ*=1-1c=0.9.

        Επιπλέον, η δεύτερη παράγωγος ισούται με,


        f′′(λ)=e-λc(1-λ)[(c-11-λ)2+1(1-λ)2],

        το οποίο είναι προφανώς πάντα θετικό για c0 και λ(0,1), άρα η τιμή λ* πράγματι ελαχιστοποιεί την f(λ). Αντικαθιστώντας αυτή την τιμή στο φράγμα μας,


        Pr(X10)e-10λ*1-λ*=10e-90.00123.
      2. ii.

        Η Τ.Μ. X έχει μέση τιμή E(X)=1, όποτε η ανισότητα του Markov μάς δίνει,


        Pr(X10)E(X)10=110=0.1,

        το οποίο είναι προφανώς εξαιρετικά ασθενέστερο.

      3. iii.

        Τέλος, η ζητούμενη πιθανότητα Pr(X10) μπορεί εύκολα να υπολογιστεί ακριβώς. Εφόσον το XΕκθ(1), γνωρίζουμε από το Θεώρημα 11.1 πως,


        Pr(X10)=1-Pr(X10)=1-F(10)=e-100.0000454.

        Προφανώς, λοιπόν, και πάλι το φράγμα του Chernoff μάς δίνει ένα αποτέλεσμα πολύ πιο ισχυρό και πιο κοντά στην πραγματική τιμή από ό,τι η ανισότητα του Markov.

  9. 9.

    Γραμμικοί συνδυασμοί. Κατ’ αρχάς έχουμε,


    E(X)=E(Y)=2καιVar(X)=Var(Y)=22=4.

    Επίσης θυμίζουμε πως, από τη σχέση (10.13), για οποιαδήποτε Τ.Μ. X έχουμε,


    E(X2)=Var(X)+(E(X)).2

    Χρησιμοποιώντας αυτήν τη σχέση, και τις δύο ιδιότητες του Θεωρήματος 11.5, βρίσκουμε,


    E(A) = E(2X+Y)=  2E(X)+E(Y)=  6,

    E(B) = E(2X-Y)=  2E(X)-E(Y)=  2,

    Var(A) = 22Var(X)+Var(Y)=  20,

    Var(B) = 22Var(X)+(-1)2Var(Y)=  20,

    E(AB) = E[(2X+Y)(2X-Y)]


    = E(4X2-Y2)=  3E(X2)=  3Var(X)+3(E(X))=2  24.
  10. 10.

    Συνάρτηση μιας εκθετικής Τ.Μ. Εφόσον η X έχει σύνολο τιμών το [0,), η Y προφανώς έχει σύνολο τιμών το [5,). Αν, τώρα, F(x) και f(x) είναι η συνάρτηση κατανομής και η πυκνότητα του X αντίστοιχα, και G(y), g(y) είναι η συνάρτηση κατανομής και η πυκνότητα του Y αντίστοιχα, τότε για y<5 έχουμε G(y)=0, ενώ για y5,


    G(y)=Pr(Yy)=Pr(X3+5y)=Pr(X3y-5)-Pr(X(y-5)1/3),

    οπότε,


    G(y)={F((y-5)1/3),y5,0,y<5.

    Άρα η πυκνότητα της Y θα είναι,


    g(y) = G(y)


    = {F((y-5)1/3)((y-5)1/3),y5,0,y<5,


    = {f((y-5)1/3)13(y-5)-2/3,y5,0,y<5,


    = {160(y-5)-23e-(y-5)1/320,y5,0,y<5.
  11. 11.

    Ανισότητα Markov. Ξεκινώντας από τον ορισμό της μέσης τιμής,


    μ=0xf(x) dx =0cxf(x) dx +cxf(x) dx.

    Εφόσον όλες οι τιμές x στο πρώτο ολοκλήρωμα είναι μεγαλύτερες ή ίσες του μηδενός, το ολοκλήρωμα είναι κι αυτό μεγαλύτερο ή ίσο του μηδενός, συνεπώς,


    μcxf(x) dx ccf(x) dx =ccf(x) dx,

    όπου χρησιμοποιήσαμε το γεγονός ότι στο πρώτο από τα παραπάνω ολοκληρώματα όλα τα x εκεί είναι μεγαλύτερα ή ίσα του c. Παρατηρώντας, τέλος, πως από τον ορισμό της πυκνότητας το τελευταίο από τα παραπάνω ολοκληρώματα ισούται με Pr(Xc), έχουμε,


    μcPr(Xc),

    που είναι η ζητούμενη ανισότητα.

  12. 12.

    Ανισότητα Chebychev. Η απόδειξη της ανισότητας Chebychev στη συνεχή περίπτωση είναι ακριβώς η ίδια με την απόδειξη του αντίστοιχου αποτελέσματος για μια διακριτή Τ.Μ. στο Θεώρημα 9.2, με τη μόνη διαφορά ότι, αντί για τη διακριτή ανισότητα Markov στο Θεώρημα 9.1, επικαλούμαστε το ανάλογο συνεχές αποτέλεσμα, δηλαδή την ανισότητα Markov του Θεωρήματος 11.3.

  13. 13.

    Πόσο ακριβής είναι η ανισότητα Chebychev; Αν η X είναι ομοιόμορφα κατανεμημένη στο [-k,k], τότε μ=0 και σ2=(2k)2/12=k2/3. Άρα η ανισότητα Chebychev μας δίνει,


    Pr(|X-μ|c)σ2c2=k23c2,

    ενώ στην πραγματικότητα η παραπάνω πιθανότητα είναι,


    Pr(|X-μ|c)=Pr(|X|c)={1-ck,ck,0,c>k,

    όπως προκύπτει απλά ολοκληρώνοντας την πυκνότητα της X. Παρατηρούμε ότι, καθώς αυξάνει to c, το φράγμα τείνει στο 0 σχετικά αργά, ενώ στην πραγματικότητα η πιθανότητα γίνεται ακριβώς 0 για ck.

  14. 14.

    Απόδειξη του Ν.Μ.Α. Στη συνεχή περίπτωση η απόδειξη του Ν.Μ.Α. είναι ακριβώς η ίδια με την απόδειξη του αντίστοιχου αποτελέσματος για διακριτές Τ.Μ. στο Θεώρημα 9.3, με τις ακόλουθες διαφορές:

    • Αντί για την Ιδιότητα 1 του Θεωρήματος 6.1, εδώ επικαλούμαστε τη σχέση (11.3) που γενικεύει την αντίστοιχη Ιδιότητα 1 του Θεωρήματος 11.5.

    • Αντί για την Ιδιότητα 2 του Θεωρήματος 6.1, εδώ επικαλούμαστε την αντίστοιχη Ιδιότητα 2 του Θεωρήματος 11.2.

    • Αντί για την Ιδιότητα 4 του Θεωρήματος 6.1, εδώ επικαλούμαστε τη σχέση (11.4) που γενικεύει την αντίστοιχη Ιδιότητα 2 του Θεωρήματος 11.5.

    • Αντί για τη διακριτή ανισότητα Chebychev στο Θεώρημα 9.2, εδώ επικαλούμαστε το ανάλογο συνεχές αποτέλεσμα, δηλαδή την ανισότητα Chebychev του Θεωρήματος 11.4.

  15. 15.

    Συνεχείς και διακριτές Τ.Μ.  Θυμίζουμε πως στην Άσκηση 10 του Κεφαλαίου 10 δείξαμε ότι Pr(Y11/2)=Pr(Y21/2)=1136, και επίσης υπολογίσαμε πως,


    Pr(Y112,Y212) = i=13Pr(Y112,Y212|X=i)Pr(X=i)


    = 112+148+1108=49432.

    Εφόσον 494321136×1136, έχουμε ότι,


    Pr(Y112,Y212)Pr(Y11/2)×Pr(Y21/2),

    άρα οι Y1 και Y2 δεν είναι ανεξάρτητες.

    Ο λόγος είναι απλός: Δεδομένης της τιμής της Y, όταν δηλαδή γνωρίζουμε την κατανομή των Y1,Y2, τότε είναι πράγματι ανεξάρτητες. Αλλά όταν δεν ξέρουμε το X, τότε βλέποντας την τιμή της Y1 αποκτάμε κάποια ένδειξη για το X και άρα και για τις πιθανές τιμές της Y2. Π.χ., αν η Y1=2.8, ξέρουμε σίγουρα ότι το X=3 και ξέρουμε με βεβαιότητα την κατανομή της Y2. Ενώ αν η Y1=0.4, έχουμε πολύ μεγαλύτερη αβεβαιότητα για την κατανομή της Y2.

  16. 16.

    Άλλος ένας γραμμικός μετασχηματισμός. Έστω FX(x) και FY(y) οι συναρτήσεις κατανομής των X και Y αντίστοιχα. Παρατηρούμε πως, από τον ορισμό της Y,


    FY(y)=Pr(Yy)=Pr(10X+5y)=Pr(Xy-510)=FX(y-510).

    Όμως, η FX(x) είναι η:


    FX(x)={0,x<0,x,0x1,1,x>1.

    Ακολούθως, παίρνουμε περιπτώσεις:

    Αν το y<5, τότε (y-5)/10<0 και άρα FY(y)=FX((y-5)/10)=0. Αν το y>15, τότε (y-5)/10>1 οπότε FY(y)=FX((y-5)/10)=1. Τέλος, αν 5y15, τότε 0(y-5)/101 και επομένως FY(y)=FX((y-5)/10)=(y-5)/10. Συνεπώς,


    FY(y)={0,y<0,y-510,5y15,1,y>15,

    δηλαδή η Y έχει ομοιόμορφη κατανομή στο διάστημα [5,15].

  17. 17.

    Συνδιακύμανση και συσχέτιση.

    1. (α’)

      Αν εφαρμόσουμε την ανισότητα Cauchy-Schwarz της Πρότασης 11.1 στις τυχαίες μεταβλητές X=X-E(X) και Y=Y-E(Y), βρίσκουμε πως,


      (E[(X-E(X))(Y-E(Y))])2E[(X-E(X))]2E[(Y-E(Y))]2,

      ή, ισοδύναμα, αντικαθιστώντας τους ορισμούς της συνδιακύμανσης και της διασποράς,


      [Cov(X,Y)]2Var(X)Var(Y)
      (A.16)

      το οποίο προφανώς συνεπάγεται και το ζητούμενο αποτέλεσμα.

    2. (β’)

      Η ανισότητα |ρX,Y|1, δηλαδή η,


      ρX,Y2=[Cov(X,Y)]2Var(X)Var(Y)1,

      είναι άμεση συνέπεια της (A.16) πιο πάνω.

      Επιπλέον, αν για κάποια Τ.Μ. X με μη μηδενική διασπορά θέσουμε Y=X, τότε Var(Y)=Var(X) και,


      Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E[(X-E(X))]2=Var(X),

      οπότε έχουμε,


      ρX,Y=Cov(X,Y)Var(X)Var(Y)=1.

      Παρομοίως, αν θέσουμε Y=-X, θα έχουμε ρX,Y=-1.



A.12 Ασκήσεις Κεφαλαίου 12

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Τυχαία επιλογή Τ.Μ. Ορίζουμε την Τ.Μ. B η οποία παίρνει την τιμή 1 αν φέρουμε κορώνα και την τιμή 0 αν φέρουμε Γράμματα. Επιπλέον, έστω Τ η τιμή που καταγράψαμε. Χρησιμοποιώντας τον κανόνα του Bayes, ή επαναλαμβάνοντας τα ίδια βήματα, η ζητούμενη πιθανότητα ισούται με:


    Pr(B=1|T>4)


    = Pr(B=1,T>4)Pr(T>4)


    = Pr(B=1,X>4)Pr(T>4|B=1)Pr(B=1)+Pr(T>4|B=0)Pr(B=0)


    =(a) Pr(X>4)Pr(B=1)Pr(X>4)Pr(B=1)+Pr(Y>4)Pr(B=0)


    = 124518 dx 124518 dx +12Pr(Y-110>4-110)


    = 1818+(1-Φ(310))


    0.422,

    όπου στο βήμα (a) χρησιμοποιήσαμε την ανεξαρτησία των Τ.Μ. B,X, στο τέλος εφαρμόσαμε τη γενική μέθοδο υπολογισμού πιθανοτήτων για την κανονική κατανομή που είδαμε στην Ενότητα 12.1, και αντικαταστήσαμε την τιμή Φ(310)Φ(0.95)0.8289 από τον Πίνακα 12.2.

  2. 2.

    Ύψη μαθητών. Ορίζουμε τις Τ.Μ.,


    X = ύψος ενός τυχαία επιλεγμένου αγοριού,

    Y = ύψος ενός τυχαία επιλεγμένου κοριτσιού,

    έτσι ώστε XN(1.7,0.01) και YN(1.6,0.01). Επίσης ορίζουμε τα σχετικά ενδεχόμενα A=«Ο μαθητής είναι αγόρι» και B=«ο μαθητής είναι πάνω από 1.80m». Τότε, από τον κανόνα συνολικής πιθανότητας,


    Pr(B) = Pr(B|A)Pr(A)+Pr(B|A)Pr(A)


    = Pr(X>1.8)12+Pr(Y>1.8)12


    = 12[1-Pr(X1.8)]+12[1-Pr(Y1.8)],

    και, χρησιμοποιώντας τη γενική μέθοδο υπολογισμού πιθανοτήτων για την κανονική κατανομή που είδαμε στην Ενότητα 12.1, έχουμε,


    Pr(B) = 12[1-Pr(Z1.8-1.70.1)]+12[1-Pr(Z<1.8-1.60.1)]


    = 1-12Φ(1)-12Φ(2)0.09075,

    όπου η Τ.Μ. ZN(0,1) και αντικαταστήσαμε τις σχετικές τιμές της Φ(z) από τον Πίνακα 12.2.

  3. 3.

    Αριθμητικοί υπολογισμοί με την κανονική κατανομή. Σε πολλά από τα παρακάτω ερωτήματα θα χρησιμοποιήσουμε τη γενική μέθοδο υπολογισμού πιθανοτήτων για την κανονική κατανομή που είδαμε στην Ενότητα 12.1. Έστω ZN(0,1).

    1. (α’)

      Αντικαθιστώντας τις σχετικές τιμές της Φ(z) από τους Πίνακες 12.1 και 12.2,


      Pr(X<+1.22) = Pr(Z<1.22)=Φ(1.22)  0.8888,

      Pr(X>-1.22) = Pr(Z>-1.22)=  1-Pr(Z-1.22)=  1-Φ(-1.22)



                           0.8888.
    2. (β’)

      Παρομοίως έχουμε,


      Pr(X>2.7)=Pr(Z>2.7-11)=1-Φ(2.7-11)=1-Φ(1.7)0.0446,

      και,


      Pr(X<-4.7ήX>2.7) = Pr(X<-4.7)+Pr(X>2.7)


      = Pr(Ζ<-4.7-11)+1-Pr(Z2.7-11)


      = Φ(-5.7)+1-Φ(1.7)


      0+1-0.9554=  0.0446.
    3. (γ’)

      Όπως και στο προηγούμενο ερώτημα,


      Pr(X>2.1 ή-1<X<1)


      =Pr(X>2.1)+Pr(-1<X<1)


      =1-Pr(X2.1)+Pr(X<1)-Pr(X-1)


      =1-Pr(Z2.1-11)+Pr(Z<1-11)-Pr(Z-1-11)


      =1-Φ(1.1)+Φ(0)-Φ(-2)


      1-0.8643+0.5-0.0228


      =0.6129.
    4. (δ’)

      Εδώ έχουμε,


      Pr(X>3)=1-Pr(X3)=1-Pr(Z3-(-1)2)=1-Φ(2)0.0228,

      και,


      Pr(X>2)=1-Pr(X2)=1-Pr(Z2-(-1)2)=1-Φ(1.5),

      οπότε,


      Pr(X>3|X>2)=Pr(X>3,X>2)Pr(X>2) = Pr(X>3)Pr(X>2)


      = 1-Φ(2)1-Φ(1.5)


      1-0.97721-0.9332


      0.3413.
    5. (ε’)

      Εφόσον για οποιαδήποτε Τ.Μ. έχουμε Var(X)=E(X2)-[E(X)]2,


      E(Y)=E(1-X2)=1-E(X2)=1-(σ2+μ2)=1-3.5-4=-6.5,

      και για τη V=(X+2)15 έχουμε,


      E(V)=E((X+2)15)=E(W15),

      όπου W=X+2 είναι μια Τ.Μ. με κατανομή Ν(0,3.5). Αν συμβολίσουμε την πυκνότητα της W με f(x),


      E(Y)=E(W15)=-w15f(w) dw =12πσ2-w15e-w2/2σ2 dw.

      και παρατηρούμε ότι έχουμε το ολοκλήρωμα από το - ως το + της περιττής συνάρτησης g(w)=12πσ2w15e-w2/2σ2 [δηλαδή η g(w) ικανοποιεί g(-w)=-g(w)], άρα το ολοκλήρωμα ισούται με μηδέν!

    6. (στ’)

      Κατ’ αρχάς έχουμε,


      Pr(X<0)=Pr(X-2σ<-2σ)=Pr(Z<-2/σ)=Φ(-2/σ),

      και από τον Πίνακα 12.2 βρίσκουμε πως η τιμή z για την οποία το Φ(z) είναι όσο το δυνατόν πιο κοντά στο 1/3, είναι το z=-0.43. Άρα για να ισχύει η ζητούμενη σχέση πρέπει να έχουμε, -2/σ-0.43, δηλαδή, σ221.63.

  4. 4.

    Τετράγωνο κανονικής Τ.Μ. Υπολογίζουμε πρώτα τη συνάρτηση κατανομής. Για την περίπτωση y0, προφανώς G(y)=0, ενώ για y>0,


    G(y) = Pr(Yy)


    = Pr(aX2y)


    = Pr(|X|ya)


    = Pr(Xya)-Pr(X<ya)


    = Pr(Zyaσ2)-Pr(Ζ<yaσ2)


    = Φ(yaσ2)-Φ(-yaσ2),

    όπου η Τ.Μ. ZN(0,1), άρα τελικά,


    G(y)={Φ(yaσ2)-Φ(-yaσ2),y>0,0,y0.
    (A.17)

    Τώρα η πυκνότητα g(y) μπορεί εύκολα να υπολογιστεί παίρνοντας παραγώγους. Για y0 έχουμε g(y)=0, ενώ για y>0,


    g(y) = [Φ(yaσ2)]-[Φ(-yaσ2)]


    = Φ(yaσ2)(yaσ2)-Φ(-yaσ2)(-yaσ2)


    = 12aσ2y[ϕ(yaσ2)-ϕ(-yaσ2)]


    = 12πaσ2yexp[-y2aσ2],

    όπου χρησιμοποιήσαμε τη βασική ιδιότητα της πυκνότητας ως παράγωγο της συνάρτησης κατανομής, δηλαδή ϕ(z)=Φ(z) για την τυπική κανονική κατανομή, και τον τύπο της N(0,1) πυκνότητας ϕ(z). Τελικά, λοιπόν, προκύπτει ότι,


    g(y)={12πaσ2yexp[-y2aσ2],y>00,y0.
    (A.18)
  5. 5.

    Η κατανομή χ2.

    1. (α’)

      Έστω ϕ(z) η πυκνότητα της Z1N(0,1) για την οποία, όπως παρατηρήσαμε στην απόδειξη του Θεωρήματος 12.1, ισχύει ότι -ϕ(z)=zϕ(z). Για τη ζητούμενη μέση τιμή, ολοκληρώνοντας κατά παράγοντες βρίσκουμε,


      E(Z14)=-z4ϕ(z) dz =-z3(zϕ(z)) dz =[-z3ϕ(z)]-+3-z2ϕ(z) dz,

      όπου θέσαμε u=z3 και dv=zϕ(z)dz, έτσι ώστε du=3z2dz και v=-ϕ(z). Και συνεχίζοντας τον παραπάνω υπολογισμό, έχουμε,


      E(Z14)=3E(Z12)=3Var(Z1)=3.
    2. (β’)

      Χρησιμοποιώντας το γεγονός ότι E(Zi2)=Var(Zi)=1 για κάθε i και εφαρμόζοντας το Θεώρημα 11.5, η μέση τιμή της Yχ2(k) είναι,


      E(Y)=E(i=1kZi2)=i=1kE(Zi2)=k.
    3. (γ’)

      Για k=1, χρησιμοποιώντας το αποτέλεσμα του πρώτου σκέλους, η διασπορά της Y=Z12χ2(1) υπολογίζεται εύκολα ως,


      Var(Y)=Var(Z12)=E(Z14)-[E(Z12)]2=2.

      H πυκνότητα και η συνάρτηση κατανομής της Y=Ζ12 έχουν ήδη υπολογιστεί στις σχέσεις (A.18) και (A.17) της Άσκησης 4, στην ειδική περίπτωση σ2=1 και a=1.

  6. 6.

    Λογαριθμοκανονική κατανομή. Και πάλι θα ξεκινήσουμε από τη συνάρτηση κατανομής. Προφανώς για y0 έχουμε G(y)=0, ενώ για y>0,


    G(y)=Pr(Yy)=Pr(eXy)=Pr(Xlogy)=F(logy).

    Και παίρνοντας παραγώγους βρίσκουμε ότι, για y>0,


    g(y)=1yF(logy),

    ενώ προφανώς έχουμε g(y)=0 όταν y0.

    Με αντικατάσταση της κανονικής συνάρτησης κατανομής και πυκνότητας στις παραπάνω εκφράσεις, προκύπτει ότι,


    G(y) = {Φ(logy-μσ),y>0,0,y0,

    g(y) = {12πσyexp[-(logy-m)22σ2],y>0,0,y0.

    Παρατηρήστε ότι η πυκνότητα g(y) καθώς το y0+.

  7. 7.

    Γραμμικός μετασχηματισμός. Έστω ότι η X έχει κατανομή N(μ,σ2) με πυκνότητα fX(x). Ο ευκολότερος τρόπος να βρούμε την κατανομή της Y=aX+b είναι παρατηρώντας, από το Θεώρημα 11.2 και την Άσκηση 6 του Κεφαλαίου 11, ότι (για a0), η πυκνότητα fY(y) της Y είναι,


    fY(y) = 1|a|fX(y-ba)


    = 1|a|12πσ2exp{12σ2(y-ba-μ)2}


    = 12πa2σ2exp{12a2σ2(y-(aμ+b))2},

    την οποία αναγνωρίζουμε φυσικά ως την πυκνότητα της κατανομής N(aμ+b,a2σ2).

    Η περίπτωση a=0 είναι, προφανώς, τετριμμένη. (Γιατί;)

  8. 8.

    Όλα στο 13! Κατ’ αρχάς ορίζουμε τις εξής Τ.Μ.:


    Z1 = συνολικά χρήματα του πρώτου παίκτη μετά το παιχνίδι,

    Z2 = συνολικά χρήματα του δεύτερου παίκτη μετά από όλα τα παιχνίδια,

    Xi = χρήματα που παίρνει πίσω ο δεύτερος παίκτης μετά το παιχνίδιi,



                         γιαi=1,2,N=120.
    1. (α’)

      Η Z1 παίρνει τις τιμές 36×120 και 0, με αντίστοιχες πιθανότητες 1/37 και 36/37, άρα,


      E(Z1)=137×36×120+0×3637=120×3637116.76.

      Η Z2 ισούται με το άθροισμα των Xi, όπου η κάθε Xi παίρνει τις τιμές 36 και 0 με αντίστοιχες πιθανότητες 1/37 και 36/37, οπότε,


      E(Xi)=137×36+0×3637=3637,

      συνεπώς η μέση τιμή της Z2 είναι,


      E(Z2)=E(i=1120Xi)=i=1120E(Xi)=120Ε(X1)=120×3637116.76,

      η οποία είναι ακριβώς ίδια με την E(Z1).

    2. (β’)

      Παρομοίως υπολογίζουμε και τις αντίστοιχες διασπορές. Για τον πρώτο παίκτη,


      Var(Z1) = E(Z12)-(E(Z1))2


      = (137×(36×120)2+3637×02)-(120×3637)2


      = 1202×35×(3637)2.

      Για κάθε γύρο του παιχνιδιού του δεύτερου παίκτη έχουμε,


      Var(Xi)=E(Xi2)-(E(Xi))=2137×362+3637×02-(3637)2=35×(3637)2,

      και επειδή τα διαδοχικά του παιχνίδια είναι ανεξάρτητα,


      Var(Z2)=Var(i=1120Xi)=i=1120Var(Xi)=120×35×(3637)2.

      Παρατηρούμε πως, παρότι οι δύο παίκτες έχουν το ίδιο αναμενόμενο κέρδος, η διασπορά των χρημάτων του πρώτου παίκτη είναι 120 φορές μεγαλύτερη από του δεύτερου! Αυτό είναι αναμενόμενο, μια και ο πρώτος παίκτης ή τα χάνει όλα ή έχει τεράστιο κέρδος, ενώ για τον δεύτερό υπάρχουν και πολλά «ενδιάμεσα» ενδεχόμενα.

    3. (γ’)

      H Z1 παίρνει μόνο 2 τιμές, Z1=0 με πιθανότητα 36/37, και Z1=36×120=4320 με πιθανότητα 1/37. Επομένως,


      Pr(Z1>100)=Pr(Z1=4320)=137.

      Η Z2, από την άλλη, ισούται με το άθροισμα N=120 ανεξάρτητων τυχαίων μεταβλητών με ίδια κατανομή, άρα μπορούμε να προσεγγίσουμε την κατανομή της με βάση το Κ.Ο.Θ. Κατ’ αρχάς έχουμε,


      Pr(Z2>100)=Pr(i=1120Xi>100)=1-Pr(i=1120Xi100),

      και σημειώνοντας πως πιο πάνω βρήκαμε για τις Τ.Μ. Xi ότι μ=E(Xi)=36/37 και σ2=Var(Xi)=35(36/37)2, κανονικοποιώντας το πιο πάνω άθροισμα και χρησιμοποιώντας το Κ.Ο.Θ.:


      Pr(Z2>100) = 1-Pr(1σΝi=1Ν(Xi-μ)100-120×363735×3637×120)


      1-Pr(S¯N-0.27)


      1-Φ(-0.27)


      0.6064.

      Άρα, ο πρώτος παίκτης που τα ποντάρει όλα μαζί σε ένα παιχνίδι είναι πολύ πιο απίθανο να βγει «λίγο χαμένος», κατά μόνο 20 ευρώ, από τον πιο συντηρητικό δεύτερο παίκτη, ο οποίος ποντάρει σιγά σιγά και γι’ αυτόν τον λόγο τα χρήματά του έχουν μικρότερες τυχαίες διακυμάνσεις.

  9. 9.

    Κόκκινο-μαύρο. Έστω N=150 ανεξάρτητες Τ.Μ. X1,X2,,XN όπου η κάθε Xi ισούται με +1 με πιθανότητα 16/33, ή με -1 με πιθανότητα 17/33. Έτσι, αν ορίσουμε την Τ.Μ. Y=X1+X2++XN, η Y περιγράφει το κέρδος του παίκτη μετά από N γύρους, και ο παίκτης τελικά δεν θα έχει βγει χαμένος αν Y0.

    Θα προσεγγίσουμε την κατανομή του Y μέσω του Κ.Ο.Θ., οπότε θα χρειαστούμε τη μέση τιμή και τη διασπορά των Xi,


    μ = E(Xi)=(+1)×1633+(-1)×1733=-133,

    σ2 = Var(Xi)=E(Xi2)-μ2=1-(133)2=10881089,

    όπου χρησιμοποιήσαμε το γεγονός ότι πάντοτε Xi2=1. Τώρα μπορούμε εύκολα να εφαρμόσουμε το Κ.Ο.Θ. με σ=1088/330.9995408, για να υπολογίσουμε τη ζητούμενη πιθανότητα,


    Pr(Y0)=Pr(Y1/2)=Pr(X¯N1/300),

    όπου X¯N=Y/N είναι ο εμπειρικός μέσος όρος των Xi, και όπως έχουμε εξηγήσει, επειδή η Τ.Μ. Y παίρνει μόνο ακέραιες τιμές, προσθέσαμε ένα επιπλέον 1/2. Συνεχίζοντας τον παραπάνω υπολογισμό, η Pr(Y0) ισούται με,


    Pr(1Ni=1N(Xi-μ)>1300+133)=Pr(1σNi=1N(Xi-p)>(1300+133)150σ),

    άρα τελικά από το Κ.Ο.Θ. παίρνουμε την προσέγγιση,


    Pr(Y0)Pr(S¯N>0.412)1-Φ(0.41)34.1%.
  10. 10.

    Online game.

    1. (α’)

      Από τον ορισμό και τις απλές ιδιότητες της μέσης τιμής και της διασποράς, εύκολα βρίσκουμε ότι:


      μ=E(X) = 0×0.3+20×0.6+40×0.1=16,

      E(X2) = 02×0.3+202×0.6+402×0.1=400,

      σ2=Var(X) = E(X2)-(E(X))=2144.
    2. (β’)

      Έστω Ν=100 ανεξάρτητες Τ.Μ. X1,X2,,XM, όπου η κάθε Xi ισούται με τις μονάδες ζωής που αφαιρεί η βολή i και έχει την ίδια κατανομή με την X του προηγούμενου σκέλους. Θέλουμε να υπολογίσουμε την πιθανότητα το άθροισμα όλων των Xi να ξεπερνάει το 1700. Θα την προσεγγίσουμε χρησιμοποιώντας το Κ.Ο.Θ.: Εφόσον οι Xi έχουν μέση τιμή μ=16 και τυπική απόκλιση σ=12,


      Pr(i=1100Xi>1700) = Pr(i=1100(Xi-μ)>1700-16×100)


      = Pr(1σNi=1100(Xi-μ)>10012×10)


      = Pr(S¯N>5/6)


      1-Φ(5/6)  0.2023.
  11. 11.

    Χαμένος χρόνος. Έστω N=259 ανεξάρτητες Τ.Μ. X1,X2,,XN όπου η κάθε Xi έχει Εκθ(20) κατανομή, και περιγράφει πόσα λεπτά περίμενα το λεωφορείο τη μέρα i Αν ορίσουμε την Τ.Μ. Y=X1+X2++XN, τότε η Y περιγράφει συνολικά πόσο χρόνο περίμενα το λεωφορείο (σε λεπτά) σε ένα χρόνο. Μας ενδιαφέρει η πιθανότητα το Y να είναι μεγαλύτερο από 4×24×60=5760 λεπτά.

    Εφόσον η κάθε Xi έχει γνωστή μέση τιμή και τυπική απόκλιση μ=σ=20, χρησιμοποιώντας για ακόμα μια φορά το Κ.Ο.Θ.:


    Pr(Y>5760) = Pr(i=1NXi>5760)


    = Pr(i=1N(Xi-μ)>5760-259×20)


    = Pr(1σNi=1N(Xi-μ)>58020×259)


    = Pr(S¯N>1.802)


    1-Φ(1.8)  3.6%.
  12. 12.

    Ζυγοβίστι Αρκαδίας.

    1. (α’)

      Παρατηρούμε ότι η X έχει ομοιόμορφη κατανομή στο διάστημα [30,130], επομένως, από τις γνωστές ιδιότητες της ομοιόμορφης κατανομής, έχουμε:


      μ=E(X)=30+1302=80,καισ2=Var(X)=(130-30)212=25003.
    2. (β’)

      Από το Θεώρημα 11.5 απλώς έχουμε,


      E(Y)=E(20X+500)=20E(X)+500=20×80+500=2100.
    3. (γ’)

      Θα χρησιμοποιήσουμε το Κ.Ο.Θ. Έστω Xi, i=1,2,,N, η βροχόπτωση για κάθε ένα από τα N=80 χρόνια. Η πιθανότητα να πετύχει η δενδροφύτευση ισούται με:


      Pr(i=1NXi<5200) = Pr(i=1N(Xi-μ)<7000-80×80)


      = Pr(1σNi=1N(Xi-μ)<6002500/380)


      = Pr(S¯N<2.324)


      Φ(2.32)


      98.98%.
  13. 13.

    Αποσυγχρονισμός. Για κάθε i=1,2,,N=200, έστω Xi η Τ.Μ. που περιγράφει κατά πόσα δέκατα του δευτερολέπτου αποσυγχρονίστηκε το βίντεο τη φορά i που το μετακίνησα. Ξέρουμε ότι οι Τ.Μ. Xi είναι ανεξάρτητες, και από την Άσκηση 8 του Κεφαλαίου 10 επίσης γνωρίζουμε ότι έχουν μέση τιμή μ=E(Xi)=0 και διασπορά σ2=Var(Xi)=1/8.

    Μας ενδιαφέρει η πιθανότητα το άθροισμα των Xi να ξεπερνά σε απόλυτη τιμή το ένα δευτερόλεπτο. Χρησιμοποιώντας το Κ.Ο.Θ. μπορούμε εύκολα να την εκτιμήσουμε ως,


    Pr(|i=1nXi|>10) = Pr(|i=1n(Xi-μ)|>10)


    = Pr(|1σNi=1n(Xi-μ)|>101/8200)


    = Pr(|S¯N|>2)


    = Pr(S¯N|<-2)+1-Pr(S¯N2)


    Φ(-2)+1-Φ(2)


    0.0456.
  14. 14.

    Τηλεφωνικές κλήσεις. Έστω μια Τ.Μ. YΕκθ(85). Η πιθανότητα μια κλήση να είναι σύντομη είναι,


    p=Pr(Y60)=1-e-60/850.55.

    Έστω, τώρα, ανεξάρτητες Bern(p) Τ.Μ. Xi, όπου η κάθε Xi=1 αν η κλήση i είναι σύντομη. Η ζητούμενη πιθανότητα είναι,


    Pr(i=1NXi<120) = Pr(i=1NXi119.5)


    = Pr(i=1N(Xi-μ)119.5-250×0.55),

    όπου μ=p=0.55 είναι η μέση τιμή των Xi, N=250 είναι το πλήθος τους, και αφαιρέσαμε 1/2 με ακριβώς το ίδιο σκεπτικό όπως στο Παράδειγμα 12.5 και το Πόρισμα 12.1. Εφόσον τα Xi έχουν διασπορά σ2=Var(X)=p(1-p)=0.2465, χρησιμοποιώντας το Κ.Ο.Θ. η παραπάνω πιθανότητα μπορεί να εκφραστεί ως,


    Pr(1σNi=1N(Xi-μ)-180.2465×250) Pr(Z-2.29)


    = Φ(-2.29)


    0.011.
  15. 15.

    Εκτίμηση με θόρυβο.

    1. (α’)

      Εφαρμόζοντας όπως και στις προηγούμενες περιπτώσεις το Κ.Ο.Θ., για οποιοδήποτε μέγεθος δείγματος N έχουμε ότι η πιθανότητα που μας ενδιαφέρει μπορεί να προσεγγιστεί ως,


      Pr(|X¯N-μ|0.2) = Pr(-0.21Ni=1N(Xi-μ)0.2)


      = Pr(-N5σ1σNi=1N(Xi-μ)N5σ)


      = Pr(-N/5S¯NN/5)


      = 1-Pr(S¯N<-N/5)-Pr(S¯N>N/5)


      1-Pr(Z<-N/5)-Pr(Z>N/5)


      = 1-2Φ(-N5),

      όπου η ZN(0,1), και χρησιμοποιήσαμε το γεγονός ότι η πυκνότητα ϕ(z) της τυπικής κανονικής κατανομής είναι συμμετρική γύρω από το μηδέν, και άρα, για οποιοδήποτε z, Pr(Z<-z)=Pr(Z>z).

      Για να ισούται αυτή η πιθανότητα με 0.95, θα πρέπει να έχουμε 1-2Φ(-N/5)0.95, δηλαδή Φ(-N/5)0.025, το οποίο, από τους πίνακες τιμών της Φ(z), συμβαίνει για -N/5-1.96, δηλαδή για N96.

    2. (β’)

      Όπως στη λύση της Άσκησης 13 του Κεφαλαίου 9, ορίζουμε τις νέες (ανεξάρτητες) Τ.Μ. Wi=Xi+Zi-ν, για i=1,2,,N, και εκτιμούμε το μ μέσω του εμπειρικού μέσου όρου,


      W¯N=1Ni=1NWi=1Ni=1N(Xi+Zi-ν),

      Όπως είδαμε εκεί, ο εμπειρικός μέσος όρος W¯N πράγματι συγκλίνει κατά πιθανότητα στη ζητούμενη τιμή μ.

      Για να επιλέξουμε το μέγεθος του δείγματος N, κατ’ αρχάς εύκολα υπολογίζουμε,


      ξ = E(Wi)=E(Xi+Zi-ν)=E(Xi)+E(Zi)-ν=μ,

      ρ2 = Var(Wi)=Var(Xi+Zi-ν)=Var(Xi)+Var(Zi)=σ2+τ2=  4,

      όπου χρησιμοποιήσαμε τις βασικές ιδιότητες της μέσης τιμής και της διασποράς. Οπότε, τώρα μπορούμε να επαναλάβουμε ακριβώς τα ίδια βήματα όπως στο προηγούμενο ερώτημα, αντικαθιστώντας το X¯N με το W¯N, και το κανονικοποιημένο άθροισμα S¯N με το αντίστοιχο,


      T¯N=1ρNi=1N(Wi-ξ)=12Ni=1N(Wi-μ).

      Έτσι, παρομοίως βρίσκουμε,


      Pr(|W¯N-μ|0.2) = Pr(-0.21Ni=1N(Wi-μ)0.2)


      = Pr(-N1012Ni=1N(Wi-μ)N10)


      = Pr(-N/10T¯NN/10)


      1-Pr(Z<-N/10)-Pr(Z>N/10)


      = 1-2Φ(-N10).

      Και πάλι, για να είναι η πιθανότητα αυτή κατά προσέγγιση ίση με 0.95, θα πρέπει να έχουμε Φ(-N/10)0.025, το οποίο, από τους πίνακες τιμών της Φ(z), συμβαίνει για -N/10-1.96, δηλαδή για N384.

      Παρατηρούμε πως, αφού τετραπλασιάστηκε η διασπορά των δειγμάτων μας (αρχικά Var(Xi)=1 ενώ Var(Wi)=4), επίσης τετραπλασιάστηκε και το απαιτούμενο μέγεθος του δείγματος ώστε η εκτίμησή μας να διατηρήσει την ίδια ακρίβεια.



A.13 Ασκήσεις Κεφαλαίου 13

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Σύγκλιση κατά πιθανότητα σύγκλιση κατά κατανομή. Για κάθε n, συμβολίζουμε με Fn(x) τη συνάρτηση κατανομής της Xn και αντίστοιχα με F(x) τη συνάρτηση κατανομής της X. Έστω ένα οποιοδήποτε x στο οποίο η F(x) είναι συνεχής. Θα δείξουμε το ζητούμενο αποτέλεσμα σε δύο βήματα.

    Πρώτα, για οποιοδήποτε n1 και κάθε ϵ>0, έχουμε,


    Fn(x) = Pr(Xnx)


    = Pr((Xn-X)+Xx)


    =(a) Pr({(Xn-X)+Xx}{|Xn-X|<ϵ})



    +Pr({(Xn-X)+Xx}{|Xn-X|ϵ})


    (b) Pr({Xx-(Xn-X)}{|Xn-X|<ϵ})+Pr(|Xn-X|ϵ)


    (c) Pr(Xx+ϵ)+Pr(|Xn-X|ϵ)


    = F(x+ϵ)+Pr(|Xn-X|ϵ),

    όπου στο βήμα (a) χρησιμοποιήσαμε τον κανόνα συνολικής πιθανότητας, στο (b) το προφανές γεγονός ότι η τομή δύο ενδεχομένων είναι υποσύνολο του καθενός από τα δύο, σε συνδυασμό με τον δεύτερο κανόνα πιθανότητας, και στο (c) πάλι εφαρμόσαμε τον δεύτερο κανόνα πιθανότητας, αφού, για οποιοδήποτε δ με |δ|<ϵ, {Xx-δ}{Xx+ϵ}.

    Τώρα, παίρνοντας το όριο n στην παραπάνω ανισότητα, εφόσον Pr(|Xn-X|ϵ)0 από την υπόθεση ότι τα {Xn} συγκλίνουν κατά πιθανότητα, έχουμε ότι για κάθε ϵ>0:


    lim supnFn(x)F(x+ϵ).

    Και παίρνοντας το όριο ϵ0+, από τη συνέχεια της F(x) στο x συμπεραίνουμε πως,


    lim supnFn(x)F(x).
    (A.19)

    Παρομοίως, για οποιοδήποτε n1 και κάθε ϵ>0, προς την αντίθετη κατεύθυνση έχουμε,


    Fn(x) = Pr({(Xn-X)+Xx}{|Xn-X|<ϵ})



    +Pr({(Xn-X)+Xx}{|Xn-X|ϵ})


    Pr({Xx-(Xn-X)}{|Xn-X|<ϵ})


    (d) Pr(Xx-ϵ)


    = F(x-ϵ),

    όπου το βήμα (d) προκύπτει από τον δεύτερο κανόνα πιθανότητας, αφού, για οποιοδήποτε δ με |δ|<ϵ, {Xx-ϵ}{Xx-δ}. Παίρνοντας το όριο n, αμέσως προκύπτει πως,


    lim infnFn(x)F(x-ϵ),

    για κάθε ϵ>0, και παίρνοντας τώρα το όριο ϵ0+, από τη συνέχεια της F(x) στο x, έχουμε,


    lim infnFn(x)F(x).
    (A.20)

    Ο συνδυασμός των (A.19) και (A.20) συνεπάγεται πως limnFn(x)=F(x), και άρα οι {Xn} συγκλίνουν στη X κατά κατανομή.

  2. 2.

    Σύγκλιση κατά κατανομή ⇏ σύγκλιση κατά πιθανότητα. Θα ξεκινήσουμε αποδεικνύοντας το (γ’). Έχουμε, για αυθαίρετο ϵ>0,


    Pr(|Xn-Y|<ϵ)=Pr(1nZ<ϵ)=Pr(Z<nϵ),

    το οποίο όχι απλώς τείνει στο 1, αλλά είναι ίσο με 1 για κάθε n>1/ϵ. Συνεπώς οι {Xn} τείνουν στην Y κατά πιθανότητα, αποδεικνύοντας το ζητούμενο του (γ’). Αυτό, σε συνδυασμό με το αποτέλεσμα της προηγούμενης άσκησης, επίσης συνεπάγεται ότι οι {Xn} τείνουν στην Y κατά κατανομή, αποδεικνύοντας το (α’).

    Για το (β’), παρατηρούμε πως η συνάρτηση κατανομής F(z) της Z είναι η


    F(z)={0,για z<0,12,για 0z<1,1,για z1,

    και πως η κάθε Xn παίρνει τέσσερις δυνατές τιμές, τις {0,1/n,1,1+1/n} με πιθανότητα 1/4 για την καθεμία, συνεπώς η συνάρτηση κατανομής Fn(x) της Xn είναι,


    Fn(x)={0,για x<0,14,για 0x<1/n,12,για 1/nz<1,34,για 1z<1+1/n,1,για z1+1/n.

    Θα δείξουμε, για κάθε z στο οποίο η F(z) είναι συνεχής, δηλαδή για κάθε πραγματικό z0,1, ότι Fn(z)F(z) καθώς n. Για z<0, η σύγκλιση είναι προφανής και τετριμμένη αφού F(z)=Fn(z)=0 για κάθε n. Όταν z>1, για όλα τα n που είναι αρκετά μεγάλα ώστε να έχουμε 1+1/nz, Fn(z)=1, η οποία προφανώς συγκλίνει στην F(z)=1. Τέλος, όταν το z(0,1), για κάθε n>1/z έχουμε Fn(z)=F(z)=1/2. Άρα έχουμε αποδείξει ότι Fn(z)F(z) καθώς n, για όλα τα z0,1, συνεπώς οι {Xn} συγκλίνουν στη Z κατά κατανομή, αποδεικνύοντας το (β’).

    Για να αποδείξουμε το (δ’), παρατηρούμε ότι η Τ.Μ. W=Xn-Z=Y-(1-1n)Z παίρνει τέσσερις δυνατές τιμές, τις {-1+1/n,0,1/n,1} με πιθανότητα 1/4 για την καθεμία. Συνεπώς, για οποιοδήποτε ϵ<1/4 και για κάθε n5, η πιθανότητα,


    Pr(|Xn-Z|<ϵ)=Pr(|W|<ϵ)=Pr(W=0ήW=1/n}=14+14=12,

    το οποίο φυσικά δεν τείνει στο 1, άρα οι {Xn} δεν τείνουν στη Z κατά πιθανότητα.

  3. 3.

    Σύγκλιση κατά κατανομή και κατά πιθανότητα σε σταθερά. Έστω Fn(x) η συνάρτηση κατανομής της Xn, για κάθε n. Η σταθερά c, ως τυχαία μεταβλητή, έχει συνάρτηση κατανομής,


    F(x)={0,για x<c,1,για xc.

    Εφόσον οι {Xn} τείνουν στην c κατά κατανομή, έχουμε ότι για κάθε xc,


    Fn(x)=Pr(Xnx)F(x),καθώςn.

    Για να αποδείξουμε ότι η σύγκλιση ισχύει και κατά πιθανότητα, παρατηρούμε ότι, για αυθαίρετο ϵ>0,


    Pr(|Xn-c|<ϵ) = Pr(-ϵ<Xn-c<ϵ)


    = Pr(Xn-c<ϵ)-Pr(Xn-c-ϵ)


    = Pr(Xn<c+ϵ)-Pr(Xnc-ϵ)


    Pr(Xnc+ϵ/2)-Pr(Xnc-ϵ)


    = Fn(c+ϵ/2)-Fn(c-ϵ),

    όπου η ανισότητα προκύπτει από τον δεύτερο κανόνα πιθανότητας. Εφόσον, τώρα, καθώς το n,


    Fn(c+ϵ/2)-Fn(c-ϵ)F(c+ϵ/2)-F(c-ϵ)=1-0=1,

    συμπεραίνουμε πως και οι πιθανότητες Pr(|Xn-c|<ϵ)1, άρα οι {Xn} συγκλίνουν στην c και κατά πιθανότητα.

  4. 4.

    Η ουρά της μέσης τιμής μιας συνεχούς Τ.Μ. Έστω πως η Τ.Μ. Y έχει πυκνότητα f(y) και σύνολο τιμών κάποιο S[0,). Η απόδειξη σε αυτή την περίπτωση είναι απολύτως ανάλογη με εκείνη που είδαμε στην Άσκηση 3 του Κεφαλαίου 7 για διακριτές Τ.Μ.

    Εδώ, η μέση τιμή που μας ενδιαφέρει, από τον ορισμό της μέσης τιμής μιας συνάρτησης κάποιας Τ.Μ., είναι,


    E[YHx(Y)]=0yf(y)Hx(y) dy,

    και παρατηρώντας πως Hx(y)0 αν και μόνο αν y>x, έχουμε,


    E[YHx(Y)]=xyf(y)Hx(y) dy =xyf(y) dy.

    Αλλά, εφόσον μας δίνεται πως το καταχρηστικό ολοκλήρωμα E(Y)=0yf(y) dy είναι πεπερασμένο, απαραίτητα η «ουρά» του ολοκληρώματος θα τείνει στο μηδέν, δηλαδή,


    E[YHx(Y)]=xyf(y) dy 0,

    καθώς το x, που είναι ακριβώς το ζητούμενο αποτέλεσμα.

  5. 5.

    Σύγκλιση ως προς την απόσταση χ2. Έστω πως οι αποστάσεις dχ2(Pn,P)0 καθώς n. Από το αποτέλεσμα της Άσκησης 18 του Κεφαλαίου 6, έχουμε πως, καθώς n,


    0xS|Pn(x)-P(x)|dχ2(Pn,P)0,

    το οποίο συνεπάγεται πως,


    Pn(x)P(x),για κάθεxS.

    Αν η κάθε Xn έχει συνάρτηση κατανομής Fn(x), και η X έχει συνάρτηση κατανομής F(x), τότε, για οποιοδήποτε y, χρησιμοποιώντας τη σύγκλιση όλων των τιμών Pn(x) των πυκνοτήτων Pn, έχουμε, καθώς n,


    Fn(y)=Pr(Xny)=xS:xyPn(x)xS:xyP(x)=Pr(Xy)=F(y),

    το οποίο μας λέει ακριβώς ότι οι {Xn} τείνουν στη X κατά κατανομή.

  6. 6.

    Σύγκλιση της διωνυμικής στην Poisson. Παρατηρούμε κατ’ αρχάς πως αρκεί να αποδείξουμε απευθείας το ερώτημα (β’). Έστω λοιπόν {Xn} μια ακολουθία Τ.Μ. με αντίστοιχες πυκνότητες Pn(k), συναρτήσεις κατανομής Fn(x), και σύνολο τιμών S={0,1,2,}. Και έστω Z μια άλλη Τ.Μ. με το ίδιο σύνολο τιμών S, πυκνότητα P(k) και συνάρτηση κατανομής F(x). Υποθέτουμε ότι οι Pn συγκλίνουν στην P όπως στην σχέση (13.25).

    Για x<0 έχουμε, εξ ορισμού, Fn(x)=F(x)=0, ενώ για οποιοδήποτε x0 η Fn(x) μπορεί να εκφραστεί ως,


    Fn(x)=0kxPn(k).

    Αλλά από την (13.25) ξέρουμε πως ο κάθε όρος Pn(k) σε αυτό το πεπερασμένο άθροισμα τείνει, καθώς το n, στο αντίστοιχο P(k), και συνεπώς,


    Fn(x)=0kxPn(k)0kxP(k)=F(k),

    άρα οι Xn τείνουν στη Z κατά κατανομή.

    Παρατηρούμε, τέλος, πως σ’ αυτήν την περίπτωση η πιο πάνω σύγκλιση ισχύει για όλα τα x, όχι μόνο για εκείνα στα οποία η F(x) είναι συνεχής.



A.14 Ασκήσεις Κεφαλαίου 14

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Διάρκειες τραγουδιών. Έστω X1,X2,,XN οι διάρκειες των N=145 τραγουδιών στην έρευνα της εταιρίας, όπου υποθέτουμε ότι οι Τ.Μ. Xi είναι ανεξάρτητες, με άγνωστο μέσο μ=E(Xi) και τυπική απόκλιση σ=Var(Xi)=54/60=0.9 λεπτά.

    1. (α’)

      Ακολουθούμε τη γενική μέθοδο της Ενότητας 14.1 στην περίπτωση γνωστής διασποράς. Έχοντας ήδη την τιμή του εμπειρικού μέσου X¯N=3.12, για το επίπεδο εμπιστοσύνης c=98% βρίσκουμε την τιμή του z*=2.326, και από τη σχέση (14.5) υπολογίζουμε το μέγεθος του στατιστικού σφάλματος e=σz*/N0.1738 λεπτά ή e10.4 δευτερόλεπτα. Άρα, έχουμε το διάστημα εμπιστοσύνης [2.9462,3.2938] με επίπεδο εμπιστοσύνης 98%.

    2. (β’)

      Ακολουθώντας την ίδια μεθοδολογία, από τη σχέση (14.6) βρίσκουμε πως το ελάχιστο πλήθος δειγμάτων που απαιτούνται ώστε να έχουμε στατιστικό σφάλμα e=5 δευτερόλεπτα, δηλαδή e=0.0833 λεπτά, είναι Ν=(σz*/e)2632 δείγματα.

  2. 2.

    Ελέφαντες. Έχουμε τον εμπειρικό μέσο X¯N=7.2 των N=83 ανεξάρτητων Τ.Μ. X1,X2,,XN, οι οποίες έχουν άγνωστη μέση τιμή μ=E(Xi) και τυπική απόκλιση σ=Var(Xi) μεταξύ 5σσmax=7.

    Εδώ εφαρμόζουμε τη γενική μέθοδο της Ενότητας 14.1 στην περίπτωση άγνωστης διασποράς. Έχοντας ήδη την εκτίμηση X¯N=7.2, για το c=90% βρίσκουμε z*=1.645, και από τη σχέση (14.7) υπολογίζουμε ότι το στατιστικό σφάλμα e είναι eσmaxz*/N1.26. Συνεπώς, βρίσκουμε ένα 90%-διάστημα εμπιστοσύνης όχι μεγαλύτερο από το [5.94,8.46].

  3. 3.

    Ναύτες. Έστω y1,y2,,yM τα ύψη των M=4000 ναυτών στο στρατόπεδο, και έστω Xi το ύψος του ναύτη i στην τυχαία επιλογή μας, για i=1,2,,N=108. Η κάθε Xi έχει μέση τιμή,


    μ=E(Xi)=1Mj=1Myj,

    και διασπορά,


    σ2=Var(Xi)=1Mj=1M(yj-μ)2.

    Θέλουμε να εκτιμήσουμε τον άγνωστο μέσο μ, ενώ υποθέτουμε ότι η τυπική απόκλιση των Xi είναι μεταξύ 0.03σσmax=0.09.

    1. (α’)

      Χρησιμοποιώντας και πάλι τη γενική μέθοδο της Ενότητας 14.1 στην περίπτωση άγνωστης διασποράς, έχουμε X¯N=1.77 και για το c=98% βρίσκουμε z*=2.326. Οπότε, από τη σχέση (14.7) υπολογίζουμε ότι το στατιστικό σφάλμα e ικανοποιεί eσmaxz*/N0.02 μέτρα και, άρα, με επίπεδο εμπιστοσύνης c=98% έχουμε διάστημα εμπιστοσύνης όχι μεγαλύτερο από το [1.75,1.79].

    2. (β’)

      Το διάστημα εμπιστοσύνης [X¯N-e,X¯N+e] βασίζεται στο γεγονός ότι, από το Κ.Ο.Θ., γνωρίζουμε κατά προσέγγιση την κατανομή του εμπειρικού μέσου X¯N. Βάσει αυτής της προσέγγισης, υπολογίζουμε την πιθανότητα του διαστήματος εμπιστοσύνης:


      Pr(μ[X¯N-e,X¯N+ϵ])=Pr(X¯N[μ-e,μ+e])=98%.

      Αυτή η πιθανότητα προφανώς δεν είναι η ίδια με το ποσοστό των ναυτών που έχουν ύψος εντός του διαστήματος εμπιστοσύνης, το οποίο ποσοστό ισούται με:


      Pr(Xi[X¯N-e,X¯N+ϵ]).

      H διαφορά μεταξύ αυτών των δύο πιθανοτήτων μπορεί να παρατηρηθεί πιο ανάγλυφα στο εξής παράδειγμα. Έστω πως 500 ναύτες έχουν ύψος 1.60, 3000 έχουν ύψος 1.77 και 250 έχουν ύψος 1.94. Τότε το μέσο ύψος είναι,


      μ=E(Xi)=14000[500×1.6+3000×1.77+500×1.94]=1.77,

      και η διασπορά,


      σ2 = 14000[500×(1.6-μ)2+3000×(1.77-μ)2+500×(1.94-μ)2]


      0.007225,

      οπότε η τυπική απόκλιση σ0.085. Αυτές οι τιμές συμφωνούν με τα δεδομένα του προβλήματος, και η εκτίμηση X¯N=1.77 είναι επίσης απολύτως λογική. Αλλά παρότι έχουμε το 98%-διάστημα εμπιστοσύνης [1.75,1.79], βλέπουμε πως μόνο το 75% των ναυτών έχει ύψος εντός αυτού του διαστήματος.

    3. (γ’)

      Ακολουθώντας την ίδια γενική μέθοδο όπως στο πρώτο σκέλος, για το επίπεδο εμπιστοσύνης c=99% έχουμε z*=2.576, και το επιθυμητό στατιστικό σφάλμα είναι e=0.02. Άρα, το μέγεθος N του στατιστικού δείγματος που απαιτείται ώστε να έχουμε επίπεδο εμπιστοσύνης 99%, από τη σχέση (14.8) είναι (σmaxz*/e)2134.

    4. (δ’)

      Με N=108 δείγματα και στατιστικό σφάλμα e=0.01, το μόνο που μπορούμε να μεταβάλουμε είναι το επίπεδο εμπιστοσύνης c του διαστήματος [1.76,1.78]. Επιστρέφοντας στη βασική σχέση (14.4), έχουμε,


      1-c2=Φ(-eNσmax)Φ(-1.54)0.0618,

      όπου και πάλι λάβαμε υπόψη μας την χειρότερη δυνατή περίπτωση της τυπικής απόκλισης, και αντικαταστήσαμε την τιμή του Φ(-1.54) από τον σχετικό πίνακα της Ενότητας 12.4. Λύνοντας ως προς c βρίσκουμε c=0.8764, άρα το καλύτερο αποτέλεσμα που μπορούμε να δώσουμε στον Αρχιπλοίαρχο κ. Τζίφα είναι ότι το διάστημα [1.76,1.78] έχει επίπεδο εμπιστοσύνης 87.6%.

  4. 4.

    Μια πιο ρεαλιστική δημοσκόπηση. Έστω X1,X2,,XN ανεξάρτητες Bern(p) T.M., όπου το μέγεθος του δείγματος N=1000 και θέλουμε να εκτιμήσουμε την παράμετρο p=E(Xi).

    1. (α’)

      Η διασπορά σ2=Var(Xi)=p(1-p) των Xi μάς είναι άγνωστη, αλλά παρατηρούμε ότι είναι μέγιστη στην περίπτωση p=1/2, οπότε έχουμε ότι η τυπική απόκλιση σσmax=1/4=0.5.

      Θα εφαρμόσουμε και εδώ τη γενική μέθοδο της Ενότητας 14.1 στην περίπτωση άγνωστης διασποράς. Έχοντας ήδη την εκτίμηση X¯N=0.305, για το επίπεδο εμπιστοσύνης c=95% βρίσκουμε z*=1.96, και από τη σχέση (14.7) υπολογίζουμε ότι το στατιστικό σφάλμα eσmaxz*/N0.031=3.1%. Άρα, έχουμε 95%-διάστημα εμπιστοσύνης όχι μεγαλύτερο από το 27.4% έως 33.6%.

      Παρατηρήστε πως το αποτέλεσμα που υπολογίσαμε εδώ είναι ακριβώς ίδιο με αυτό που ανακοίνωσε η εταιρία alco βασισμένη στα ίδια δεδομένα!

    2. (β’)

      Υποθέτοντας τώρα ότι το p είναι μεταξύ 0.2 και 0.35, η μέγιστη τιμή που μπορεί να πάρει η διασπορά σ2=p(1-p) αντιστοιχεί στο p=0.35, οπότε έχουμε,


      σσmax=0.22750.477.

      Επαναλαμβάνοντας τον υπολογισμό του προηγούμενου σκέλους με τη νέα τιμή σmax, το στατιστικό σφάλμα είναι eσmaxz*/N0.0296=2.96%, και συνεπώς μπορούμε να δώσουμε ένα λίγο μικρότερο 95%-διάστημα εμπιστοσύνης, το [0.2754,0.3346].

  5. 5.

    Εκτίμηση διασποράς.

    1. (α’)

      Εφόσον ορίσαμε το μ^=X¯N, χρησιμοποιώντας τις βασικές ιδιότητες της μέσης τιμής (Ιδιότητα 1 του Θεωρήματος 6.1 και Ιδιότητα 1 του Θεωρήματος 11.5) υπολογίζουμε,


      E[(X1-μ^)2] = E[(1Ni=1NX1-1Ni=1NXi)2]


      = E[(1Ni=2N(X1-Xi))2]


      = E[(1Ni=2N(X1-Xi))(1Nj=2N(X1-Xj))]


      = 1N2E[i,j=2N(X1-Xi)(X1-Xj)],

      το οποίο μας δίνει,


      E[(X1-μ^)2]=1N2i,j=2NE(X12-X1Xi-X1Xj+XiXj).
      (A.21)

      Το παραπάνω διπλό άθροισμα έχει (Ν-1) όρους, αυτούς που αντιστοιχούν στα ζεύγη i=j1, της μορφής,


      E(X12-X1Xi-X1Xi+Xi2) = 2E(X12)-2E(X1)E(Xi)
      (A.22)


      = 2[E(X12)-μ2]=2σ2,

      όπου χρησιμοποιήσαμε την ανεξαρτησία των Xi, την Ιδιότητα 3 του Θεωρήματος 6.1, την αντίστοιχη ιδιότητα για συνεχείς Τ.Μ. η οποία θα αποδειχθεί στο Θεώρημα 15.1 του Κεφαλαίου 15, και την εναλλακτική έκφραση για τη διασπορά από τις εκφράσεις (6.8) και (10.13). Εφαρμόζοντας πάλι τις ίδιες ιδιότητες, βρίσκουμε ότι οι υπόλοιποι (N-1)(N-2) όροι του διπλού αθροίσματος στην έκφραση (A.21), οι οποίοι αντιστοιχούν στα ζεύγη ij, είναι της μορφής,


      E(X12-X1Xi-X1Xj+XiXj)=E(X12)-μ2-μ2+μ2=σ2.
      (A.23)

      Οπότε, αντικαθιστώντας τα αποτελέσματα (A.22) και (A.23) στη σχέση (A.21), τελικά βρίσκουμε,


      E[(X1-μ^)2]=1N2(N-1)(2σ2)+1N2(N-1)(N-2)σ2=(N-1)Nσ2.
    2. (β’)

      Εδώ κατ’ αρχάς παρατηρούμε πως, λόγω της συμμετρίας του προβλήματος, το αποτέλεσμα του προηγούμενου σκέλους παραμένει το ίδιο με οποιαδήποτε Τ.Μ. Xi στη θέση της X1, δηλαδή,


      E[(X1-μ^)2]=E[(Xi-μ^)2]=(N-1)σ2N,

      για κάθε i=1,2,,N. Χρησιμοποιώντας αυτή την έκφραση (και εφαρμόζοντας και πάλι την Ιδιότητα 1 του Θεωρήματος 6.1 και την αντίστοιχη Ιδιότητα 1 του Θεωρήματος 11.5), έχουμε,


      E(σ^2)=E[1Ni=1N(Xi-μ^)2]=1Ni=1NE(Xi-μ^)2=(N-1N)σ2,

      και παρομοίως,


      E(s^2)=E[1N-1i=1N(Xi-μ^)2]=1N-1i=1NE(Xi-μ^)2=σ2.
    3. (γ’)

      Ο ορισμός της σ^2 είναι εκ πρώτης όψεως πιο φυσικός, υπό την έννοια ότι βασίζεται στον εμπειρικό μέσο όρο των (Xi-X¯N)2 οπότε αντιστοιχεί ακριβώς στον ορισμό της διασποράς.

      Από την άλλη μεριά, η s^2 έχει την επιθυμητή ιδιότητα η μέση τιμή της να είναι ίση με τη ζητούμενη ποσότητα σ2. Τέτοιου είδους εκτιμήτριες ονομάζονται «αμερόληπτες» και παίζουν σημαντικό ρόλο στην κλασική στατιστική.

  6. 6.

    Τυχαίο; Νομίζω. Εδώ έχουμε ένα παράδειγμα ελέγχου υπόθεσης παραμέτρου Bernoulli όπως στην Ενότητα 14.2.1, με p*=1/6 που είναι η πιθανότητα να έρθουν διπλές σε μία ζαριά. Ακολουθώντας την εκεί γενική μεθοδολογία, υπολογίζουμε τον εμπειρικό μέσο όρο X¯N=53/2750.1927 των N=275 παρατηρήσεων και, για να είμαστε αρκετά επιεικείς, επιλέγουμε το επίπεδο σημαντικότητας α=10%. Η τιμή της στατιστικής συνάρτησης εδώ ισούται με δ1.345, και για την p-τιμή από τους πίνακες του Κεφαλαίου 12 βρίσκουμε ότι ισούται με 2Φ(-1.16)0.246. Εφόσον η p-τιμή είναι μεγαλύτερη του α=0.1, απαντάμε στο φίλο μας ότι, βάσει της επίδοσής του, δεν μπορούμε να απορρίψουμε την υπόθεση ότι η τύχη του είναι ίδια με την τύχη όλων μας, σε επίπεδο σημαντικότητας 10%!

  7. 7.

    Στυτική δυσλειτουργία. Το πρόβλημα είναι της ίδιας ακριβώς μορφής με αυτό του Παραδείγματος 14.10. Με Ν=66+59=125 για το συνολικό πλήθος των ασθενών, Xi=1 ή 0 ανάλογα με το αν ο ασθενής i αντιμετώπισε ή όχι στυτικά προβλήματα, και Yi=1 ή 0 αν πήρε το φάρμακο ή το placebo αντίστοιχα, για τις εμπειρικές κατανομές έχουμε,


    PX,N(1) = 1-PX,N(0)=36+28125=64125,

    PY,N(1) = 1-PY,N(0)=66125,

    PXY,N(1,1) = 36125,PXY,N(0,1)=30125,

    PXY,N(1,0) = 28125καιPXY,N(0,0)=31125,

    από τις οποίες βρίσκουμε ότι την τιμή της στατιστικής συνάρτησης ισούται με,


    δ = 125×[(36125-6412566125)26412566125+(30125-6112566125)26112566125



    +(28125-6412559125)26412559125+(31125-6112559125)26112559161],

    δηλαδή δ0.626. Άρα η αντίστοιχη p-τιμή είναι 2Φ(-0.791)=0.43, και συμπεραίνουμε ότι δεν μπορούμε να απορρίψουμε τη μηδενική υπόθεση (δηλαδή το ενδεχόμενο τα προβλήματα που παρουσιάστηκαν στους ασθενείς να είναι ανεξάρτητα του φαρμάκου) με επίπεδο εμπιστοσύνης 5%.

  8. 8.

    Γιωργάκη, θα πουντιάσεις!

    1. (α’)

      Από την περιγραφή του προβλήματος έχουμε πως οι Yi προήλθαν από μια ακολουθία ανεξάρτητων Bern(q) Τ.Μ. Επιπλέον θεωρούμε πως, για κάθε i, δεδομένης της τιμής του Yi, η αντίστοιχη Xi έχει κατανομή με αυθαίρετη πυκνότητα P0(x) ή P1(x) όταν η Yi ισούται με 0 ή 1 αντίστοιχα.

    2. (β’)

      Αν συμβολίσουμε τις τιμές των δύο παραπάνω πυκνοτήτων P0(-1)=a, P0(0)=b, P0(1)=1-a-b, και P1(-1)=c, P1(0)=d, P1(1)=1-c-d, τότε το μοντέλο έχει παραμέτρους τις τιμές q,a,b,c και d, οι οποίες όλες ανήκουν στο (0,1) και ικανοποιούν τους περιορισμούς a+b<1 και c+d<1. Η μηδενική υπόθεση H0, η οποία περιγράφει την περίπτωση ανεξαρτησίας των Xi από τα Yi, αντιστοιχεί στη συνθήκη a=c και b=d. Για την εναλλακτική υπόθεση H1 έχουμε ότι οι τιμές a,b,c,d είναι αυθαίρετες.

    3. (γ’)

      Όπως στην πιο απλή περίπτωση του χ2 ελέγχου ανεξαρτησίας στην Ενότητα 14.2.2, προκειμένου να απαντήσουμε στο αν οι Xi και οι Yi είναι ανεξάρτητες, θα συγκρίνουμε την εμπειρική κατανομή των δεδομένων με την κατανομή που θα είχαν αν τα Xi και τα Yi ήταν ανεξάρτητα. Στη γενικότερη αυτή περίπτωση ορίζουμε τις εμπειρικές πυκνότητες,


      P^XY,N(x,y) = 1N[πλήθος από ζεύγη (x,y) μεταξύ των (Xi,Yi)],

      P^X,N(x) = 1N[πλήθος από x μεταξύ των Xi],

      P^Y,N(y) = 1N[πλήθος από y μεταξύ των Yi],

      για κάθε x{-1,0,1} και y{0,1}. Και τώρα μπορούμε να ορίσουμε τη στατιστική συνάρτηση ΔN ως N φορές την χ2-απόσταση μεταξύ της από κοινού εμπειρικής πυκνότητας P^XY,N(x,y) και της από κοινού πυκνότητας P^X,N(x)P^Y,N(y) που θα είχαν τα (Xi,Yi) αν ήταν ανεξάρτητα:


      ΔN = Νdχ2(P^XY,N,P^X,NP^Y,N)


      = Νx=-1,0,1,y=0,1(P^XY,N(x,y)-P^X,N(x)P^Y,N(y))2P^X,N(x)P^Y,N(y).
    4. (δ’)

      Μας δίνεται πως, κάτω από τη μηδενική υπόθεση H0, η στατιστική συνάρτηση, ΔN συγκλίνει κατά κατανομή στη χ2(2), καθώς N. Επιπλέον, από το αποτέλεσμα της Άσκηση2 2 του Κεφαλαίου 15 έχουμε ότι η κατανομή χ2(2) είναι η Εκθ(1), οπότε, καθώς N,


      Pr(ΔNδ)1-e-δ,για κάθεδ0.

      Βάσει αυτού, προτείνουμε την εξής μέθοδο χ2-ελέγχου ανεξαρτησίας για το εδώ σενάριο:

      1. i.

        Από τα δεδομένα (X1,Y1),(X2,Y2),,(XN,YN), υπολογίζουμε τις εμπειρικές πυκνότητες P^X,N,P^Y,N και P^XY,N, και την τιμή δ της στατιστικής συνάρτησης όπως ορίστηκαν παραπάνω.

      2. ii.

        Επιλέγουμε το επιθυμητό επίπεδο σημαντικότητας α(0,1).

      3. iii.

        Υπολογίζουμε την p-τιμή, δηλαδή την πιθανότητα, κάτω από τη μηδενική υπόθεση H0, η ΔN να είναι τόση ή μεγαλύτερη από την τιμή δ που υπολογίσαμε. Από το παραπάνω αποτέλεσμα:


        p-τιμή=Pr(ΔNδ|H0)e-δ.
      4. iv.

        Αν η p-τιμή α, η H0 απορρίπτεται σε επίπεδο σημαντικότητας α.
        Αν η p-τιμή >α, η H0 δεν απορρίπτεται σε επίπεδο σημαντικότητας α.

    5. (ε’)

      Από τον πίνακα της εκφώνησης εύκολα υπολογίζουμε τις τιμές της από κοινού εμπειρικής πυκνότητας:

      Απο κοινου εμπειρικη


      κατανομη P^XY,N x=-1 0 +1
      y=1 6/173 65/173 8/173
      y=0 13/173 71/173 10/173

      Και για τις εμπειρικές κατανομές των Xi και Yi αντίστοιχα έχουμε:


      P^X,N(-1) = 19173,P^X,N(0)=136173,P^X,N(1)=18173,

      P^Y,N(0) = 94173,P^Y,N(1)=79173.

      Αντικαθιστώντας αυτές τις τιμές στον ορισμό της ΔN, η τιμή της στατιστικής συνάρτησης εδώ είναι,


      δ = 173×[(6173-1917379173)21917379173+(65173-13617379173)213617379173+(8173-1817379173)21817379173



          +(13173-1917394173)21917394173+(71173-13617394173)213617394173+(10173-1817394173)21817394173],

      που μας δίνει δ0.0103, οπότε για την p-τιμή βρίσκουμε e-δ0.9898. Για ακόμα μια φορά, λοιπόν, η Ελληνίδα μάνα διαψεύδεται!

  9. 9.

    Μεταβλητές ελέγχου. Η άσκηση είναι καθαρά προγραμματιστική. Στα Σχήματα 1.37 και 1.38 δίνουμε δύο ακόμα αποτελέσματα προσομοίωσης για καθένα από τα δύο προβλήματα.

    Σχήμα 1.37: Οι τιμές των εκτιμητριών μN(θ^) (έντονη γραμμή) και μ^n (απλή γραμμή), σε δύο ακόμα πειράματα προσομοίωσης για τον υπολογισμό ενός ολοκληρώματος όπως στο Παράδειγμα 14.12. Παρατηρούμε ότι η προσαρμοστική εκτιμήτρια μN(θ^) είναι σημαντικά αποτελεσματικότερη από τον εμπειρικό μέσο μ^N.

    Σχήμα 1.38: Οι τιμές των εκτιμητριών μN(θ^) (έντονη γραμμή) και μ^n (απλή γραμμή), σε δύο ακόμα πειράματα προσομοίωσης για το πρόβλημα τιμολόγησης ενός παραγώγου όπως στο Παράδειγμα 14.13. Και εδώ βλέπουμε ότι η προσαρμοστική εκτιμήτρια μN(θ^) είναι σημαντικά αποτελεσματικότερη από τον εμπειρικό μέσο μ^N.
  10. 10.

    Διαφορετική μεταβλητή ελέγχου. Η μεθοδολογία που ακολουθούμε είναι ακριβώς ίδια με του Παραδείγματος 14.12, όπου χρησιμοποιούμε τους γενικούς τύπους (14.14), (14.15) και (14.16) για τον ορισμό της προσαρμοστικής εκτιμήτριας μN(θ^), με τη μόνη διαφορά ότι τώρα έχουμε H(x)=x3 και ν=E[H(X)]=E(X3)=0 (γιατί;).

    Στο Σχήμα 1.39 δίνονται τα αποτελέσματα τεσσάρων πειραμάτων για τις τρεις εκτιμήτριες μ^N, μN(θ^) με H(x)=x, και μN(θ^) με H(x)=x3. Είναι εμφανές ότι η προσαρμοστική εκτιμήτρια με την μεταβλητή ελέγχου H(X)=X3 είναι πιο αποτελεσματική από τον εμπειρικό μέσο, αλλά δεν συγκλίνει τόσο γρήγορα όσο στην περίπτωση της H(X)=X.

    Σχήμα 1.39: Αποτελέσματα πειραμάτων προσομοίωσης του προβλήματος στο Παράδειγμα 14.12 με N=5000 δείγματα. Η τιμές του εμπειρικού μέσου εμφανίζονται ως μια απλή γραμμή, της προσαρμοστικής εκτιμήτριας μN(θ^) με μεταβλητή ελέγχου την H(X)=X αναπαρίστανται ως έντονες κουκκίδες, και της μN(θ^) με μεταβλητή ελέγχου την H(X)=X3 ως *. Για λόγους ευκρίνειας, οι τιμές των δύο τελευταίων εκτιμητριών σχεδιάστηκαν μόνο κάθε 100 βήματα.
  11. 11.

    Προεξοφλημένη τιμή μετοχής. Για τη ζητούμενη μέση τιμή, από τη σχέση (14.18) έχουμε,


    Ε[e-rTX(T)] = Ε[e-rTX(0)exp{(r-12σ2)T+σTZ}]
    (A.24)


    = X(0)e-σ2T/2E[eσTZ],

    όπου η Z έχει τυπική κανονική κατανομή με πυκνότητα ϕ(z)=12πe-z2/2. Οπότε η τελευταία μέση τιμή παραπάνω ισούται με,


    -eσTz12πe-z2/2 dz = -12πexp{-12[z2-2σT]} dz


    = eσ2T/2-12πexp{-12[(z-σT)2]} dz,

    όπου αναγνωρίζουμε το τελευταίο παραπάνω ολοκλήρωμα ως το ολοκλήρωμα της πυκνότητας της N(σT,1) κατανομής σε όλο το , το οποίο φυσικά ισούται με 1. Συνεπώς,


    E[eσTZ]=eσ2T/2,

    και αντικαθιστώντας αυτή την έκφραση στη (A.24) προκύπτει ακριβώς το ζητούμενο αποτέλεσμα.



A.15 Ασκήσεις Κεφαλαίου 15

[Επιστροφή στα περιεχόμενα]


  1. 1.

    Παραδείγματα ανεξαρτησίας.

    1. (α’)

      Οι Τ.Μ. X,Y του Παραδείγματος 15.1 έχουν από κοινού πυκνότητα fXY(x,y)=1 για x,y[0,1] και fXY(x,y)=0 για x,y[0,1]. Από την τέταρτη βασική ιδιότητα της από κοινού πυκνότητας εύκολα υπολογίζουμε πως η περιθώρια πυκνότητα του X είναι,


      fX(x)=-fXY(x,y) dy =01fXY(x,y) dy ={1,γιαx[0,1],0,γιαx[0,1],

      και παρομοίως ότι η fY(y) είναι της ίδιας ακριβώς μορφής, δηλαδή πως fY(y)=1 όταν y[0,1] και fY(y)=0 όταν όχι. Είναι προφανές από τις παραπάνω εκφράσεις ότι έχουμε fXY(x,y)=fX(x)fY(y) για κάθε x,y, άρα από το κριτήριο (15.7) προκύπτει ότι οι X και Y είναι ανεξάρτητες Τ.Μ. Επιπλέον παρατηρούμε ότι και οι δύο έχουν κατανομή U[0,1].

    2. (β’)

      Εδώ μπορούμε εύκολα να δείξουμε ότι οι Τ.Μ. X,Y του Παραδείγματος 15.2 δεν είναι ανεξάρτητες, χωρίς να χρειαστεί να κάνουμε λεπτομερείς υπολογισμούς. Από την τέταρτη ιδιότητα της από κοινού πυκνότητας και τον ορισμό της fXY, αμέσως βλέπουμε πως οι περιθώριες πυκνότητες fX(x) και fY(y) παίρνουν αυστηρά θετικές τιμές για όλα τα x,y[-1,1], οπότε και οι πιθανότητες,


      Pr(4/5X1)>0καιPr(4/5Y1)>0,

      είναι θετικές. Αλλά το ορθογώνιο R=[4/5,1]×[4/5,1] είναι ξένο ως προς το σύνολο τιμών S του ζευγαριού (X,Y), άρα η πιθανότητα,


      Pr((X,Y)R)=Pr(4/5X1,4/5Y1)=0,

      και συνεπώς δεν ισούται με το γινόμενο των Pr(4/5X1) και Pr(4/5Y1). Οπότε από τον ορισμό (15.6), οι X,Y δεν είναι ανεξάρτητες.

  2. 2.

    Περισσότερα για την κατανομή χ2(k). Όπως στην Άσκηση 5 του Κεφαλαίου 12, για τις ανεξάρτητες Τ.Μ. Z1,Z2,,Zk όπου κάθε ΖiN(0,1), ορίζουμε την τυχαία μεταβλητή Y=Z12+Z22++Zk2χ2(k). Επίσης θυμίζουμε πως, εκεί, δείξαμε ότι η μέση τιμή της κατανομής χ2(k) είναι E(Y)=k, και ότι E(Zi4)=3 για κάθε i.

    1. (α’)

      Για τη διασπορά της Y πρώτα υπολογίζουμε,


      E(Y2)=E[(i=1kZi2)2]=E[(i=1kZi2)(j=1kZj2)]=E[i=1kj=1kZi2Zj2],

      και από το Πόρισμα 3,


      E(Y2)=i=1kj=1kE[Zi2Zj2].

      Το παραπάνω διπλό άθροισμα έχει k όρους της μορφής E(Zi4)=3 που αντιστοιχούν στις τιμές i=j, και k(k-1) όρους της μορφής E(Zi2Zj2) για ij, όπου, λόγω της ανεξαρτησίας των Zi2, από το Θεώρημα 15.1 έχουμε E(Zi2Zj2)=E(Zi2)E(Zj2)=1. Οπότε η E(Y2)=3k+k(k-1) και η ζητούμενη διασπορά είναι,


      Var(Y)=E(Y2)-[E(Y)]2=3k+k(k-1)-k2=2k.
    2. (β’)

      Για k=1, η πυκνότητα της κατανομής χ2(1) είναι η πυκνότητα f1(y) της Τ.Μ. Y=Z12, για την οποία, από το αποτέλεσμα της Άσκησης 4 του Κεφαλαίου 12, έχουμε,


      f1(y)={12πyexp(-y2),y>0,0,y0.

      Για k=2, η πυκνότητα f2(y) της χ2(2) είναι η πυκνότητα της Y=Z12+Z22, όπου οι Z12,Z22 είναι ανεξάρτητες (από την τέταρτη ιδιότητα του Θεωρήματος 15.1) και έχουν κοινή πυκνότητα την f1(y). Άρα, για y0 η f2(y)=0, ενώ για y>0 σύμφωνα με το Θεώρημα 15.2 η f2(y) δίνεται από τη συνέλιξη,


      f2(y) = -f1(x)f1(y-x) dx


      = 0y12πxexp(-x2)12π(y-x)exp(-y-x2) dx


      = 12πe-y/20y1x(y-x) dx.

      Και κάνοντας στο τελευταίο παραπάνω ολοκλήρωμα διαδοχικά τις αντικαταστάσεις z=x/y, w=z, και θ=arccosw, βρίσκουμε πως,


      f2(y) = 12πe-y/2011z(1-z) dz


      = 1πe-y/20111-w2 dw


      = 1πe-y/20π/2 =12e-y/2,

      την οποία αναγνωρίζουμε ως την πυκνότητα της Εκθ(2) κατανομής! Άρα η χ2(2) είναι η ίδια κατανομή με την Εκθ(2).

      Παρομοίως, για k=3, η πυκνότητα f3(y) της χ2(3) είναι η πυκνότητα της Τ.Μ. Y=(Z12+Z22)+Ζ32, όπου η (Z12+Ζ22) έχει πυκνότητα f2(y) και είναι ανεξάρτητη από τη Z32 η οποία έχει πυκνότητα f1(y). Άρα, για y0 η f3(y)=0, και για y>0 σύμφωνα με το Θεώρημα 15.2 η f3(y) μπορεί να υπολογιστεί ως η συνέλιξη,


      f3(y) = -f2(x)f1(y-x) dx


      = 0y12exp(-x2)12π(y-x)exp(-y-x2) dx


      = 122πe-y/20y1y-x dx.

      Κάνοντας τις ίδιες διαδοχικές αντικαταστάσεις όπως για την f2, έχουμε,


      f3(y) = 122πye-y/20111-z dz


      = 12πye-y/201w1-w2 dw


      = 12πye-y/20π/2cosθdθ


      = 12πye-y/2[sinθ]0π/2,

      οπότε, τελικά βρίσκουμε,


      f3(y)={12πye-y/2,y>0,0,y0.
  3. 3.

    Ασυσχέτιστες αλλά όχι ανεξάρτητες συνεχείς Τ.Μ.

    1. (α’)

      Από την τέταρτη ιδιότητα της από κοινού πυκνότητας, η περιθώρια πυκνότητα της X είναι fX(x)=0 για x[-1,1], και για x[-1,1],


      fX(x)=-fXY(x,y) dy =-1-x21-x21π dy =21-x2π.

      Λόγω συμμετρίας, η περιθώρια πυκνότητα του Y είναι ακριβώς ίδια, fY(y)=fX(y), για όλα τα y.

    2. (β’)

      Οι συναρτήσεις fX(x) και fY(y) είναι άρτιες, οπότε οι αντίστοιχες συναρτήσεις xfX(x) και yfY(y) είναι περιττές, άρα τα ολοκληρώματά τους σε όλο το , τα οποία είναι ίσα με τις μέσες τιμές τους E(X) και E(Y), είναι ίσα με μηδέν. Επιπλέον, η μέση τιμή E(XY) είναι και αυτή ίση με μηδέν όπως εύκολα διαπιστώνουμε λόγω της συμμετρίας του προβλήματος ή υπολογίζοντας αναλυτικά το διπλό ολοκλήρωμα,


      E(XY)=SxyfXY(x,y) dx  dy =1π-11x-1-x21-x2y dy  dx,

      το οποίο ισούται με μηδέν αφού στο εσωτερικό ολοκλήρωμα (ως προς y) ολοκληρώνουμε μια περιττή συνάρτηση. Συνεπώς η συνδιακύμανση,


      Cov(X,Y)=E(XY)-E(X)E(Y)=0.

      Το γεγονός ότι οι X,Y δεν είναι ανεξάρτητες προκύπτει με το ίδιο ακριβώς επιχείρημα όπως στο δεύτερο σκέλος της Άσκησης 1.

  4. 4.

    Χρόνοι διεργασιών. Εφόσον οι Τ.Μ. X, Y είναι ανεξάρτητες με κοινή κατανομή U[0,1], σύμφωνα με το κριτήριο (15.7) μπορούμε να θέσουμε για την από κοινού πυκνότητά τους fXY(x,y)=fX(x)fY(y)=1 για (x,y)R=[0,1]2, και fXY(x,y)=0 αλλού. [Παρατηρήστε ότι η από κοινού κατανομή των (X,Y) είναι ίδια με αυτή του Παραδείγματος 15.1 και της Άσκησης 1.]

    1. (α’)

      Η πιθανότητα Pr(|X-Y|<1/2) ισούται με το ολοκλήρωμα της από κοινού πυκνότητας στο σύνολο A={(x,y):|x-y|<12,0x,y1}, δηλαδή με τον όγκο του στερεού που περικλείεται ανάμεσα στο A και το γράφημα της fXY. Αλλά αφού η πυκνότητα ισούται με 1 σε όλα τα σημεία του A, η ζητούμενη πιθανότητα είναι ίση με το εμβαδόν του A το οποίο, όπως βλέπουμε και από το Σχήμα 1.40, ισούται με 3/4. Άρα, Pr(|X-Y|<1/2)=3/4.

      Σχήμα 1.40: Άσκηση 4: Η από κοινού πυκνότητα είναι ίση με τη μονάδα εντός του τετραγώνου R={(x,y)  0x,y1}, και μηδενική εκτός.
    2. (β’)

      Η ζητούμενη μέση τιμή μπορεί να εκφραστεί ως το διπλό ολοκλήρωμα,


      E(|X-Y|) = --|x-y|fXY(x,y) dx  dy


      = 0101|x-y| dx  dy


      = 010x(x-y) dy  dx +01x1(y-x) dy  dx,

      όπου το πρώτο πιο πάνω ολοκλήρωμα υπολογίζεται απλά ως,


      010x(x-y) dy  dx =01[xy-y22]0x dx =01x22 dx =[x36]01=16.

      Το δεύτερο ολοκλήρωμα μπορεί να υπολογιστεί με τον ίδιο τρόπο ή, εναλλακτικά, παρατηρώντας πως λόγω συμμετρίας πρέπει να ισούται με το πρώτο. Άρα, τελικά,


      E(|X-Y|)=16+16=13.
    3. (γ’)

      Η μέση τιμή του κόστους είναι εύκολο να υπολογιστεί, βάσει της Πρότασης 15.3, και των ιδιοτήτων της ομοιόμορφης κατανομής:


      E(Z)=E(20X+10Y)=20E(X)+10E(Y)=20×12+10×12=15.
    4. (δ’)

      Για τη ζητούμενη πιθανότητα κατ’ αρχάς παρατηρούμε πως,


      Pr(Z>20) = Pr(20X+10Y>20)


      = Pr(2X+Y>2)


      = BfXY(x,y) dx  dy,

      όπου το σύνολο B2 ορίζεται ως,


      B={(x,y):  2x+y>2,0x,y1},

      και έχει σχεδιαστεί στο Σχήμα 1.40. Με το ίδιο σκεπτικό όπως στο πρώτο σκέλος της άσκησης, παρατηρούμε πως η ζητούμενη πιθανότητα ισούται με το εμβαδόν του B το οποίο, όπως βλέπουμε και από το Σχήμα 1.40, ισούται με 1/4, συνεπώς έχουμε, Pr(Z>20)=1/4.

    5. (ε’)

      Αφού οι X,Y είναι ανεξάρτητες, από το Θεώρημα 15.1 γνωρίζουμε πως η συνδιακύμανση Cov(X,Y)=0.

  5. 5.

    Θεραπείες.

    1. (α’)

      Από την πρώτη ιδιότητα της από κοινού πυκνότητας γνωρίζουμε ότι το ολοκλήρωμα της fXY σε όλο το 2 πρέπει να ισούται με τη μονάδα:


      --fXY(x,y) dx  dy = c0101x(1-y) dx  dy


      = c(01x dx )(01(1-y) dy )


      = c×12×12,

      συνεπώς πρέπει να έχουμε c=4. Η πυκνότητα έχει σχεδιαστεί στο Σχήμα 1.41.

      Σχήμα 1.41: Η πυκνότητα fXY(x,y) της Άσκησης 5.
    2. (β’)

      Θα χρησιμοποιήσουμε την τέταρτη ιδιότητα της από κοινού πυκνότητας. Προφανώς για x>1 ή x<0, η περιθώρια πυκνότητα fX(x)=0, ενώ για 0x1, έχουμε:


      fX(x)=-fXY(x,y) dy =014x(1-y) dy =4x01(1-y) dy =2x.

      Παρομοίως, η περιθώρια πυκνότητα της Y είναι fY(y)=0 όταν y[0,1], ενώ για y[0,1]:


      fY(y)=-fXY(x,y) dx =014x(1-y) dx =(1-y)014x dx =2(1-y).
    3. (γ’)

      Για κάθε ζεύγος (x,y)×, εύκολα διαπιστώνουμε ότι fXY(x,y)=fX(x)fY(y), άρα βάσει του κριτηρίου (15.7) οι X, Y είναι ανεξάρτητες. Συνεπώς, από το Θεώρημα 15.1, η συνδιακύμανση Cov(X,Y)=0.

    4. (δ’)

      Τέλος, υπολογίζουμε τη ζητούμενη πιθανότητα:


      Pr(XY) = {(x,y):xy}fXY(x,y) dx  dy


      = 010y4x(1-y) dx  dy


      = 014(1-y)[x22]0y dy


      = 014(1-y)y22 dy


      = [4y36-y48]01


      = 16.

      Στο Σχήμα 1.42 έχουμε σχεδιάσει το στερεό του οποίου ο όγκος αντιστοιχεί στην παραπάνω πιθανότητα.

      Σχήμα 1.42: Ο όγκος του στερεού ισούται με την Pr(XY) της Άσκησης 5.
  6. 6.

    Εναλλακτικές θεραπείες.

    1. (α’)

      Και πάλι, πρέπει το ολοκλήρωμα της fXY(x,y) στο × να ισούται με τη μονάδα:


      --fXY(x,y) dx  dy = 0101-ycx(1-y) dx  dy


      = 01c[x]01-y(1-y) dx  dy


      = 01c2(1-y)3 dy


      = [c8(1-y)4]10dy=c8.

      Άρα, c=8. Η πυκνότητα έχει σχεδιαστεί στο Σχήμα 1.43.

      Σχήμα 1.43: Η πυκνότητα της Άσκησης 6.
    2. (β’)

      Από την τέταρτη ιδιότητα της από κοινού πυκνότητας, όταν x[0,1] η fX(x)=0, ενώ για x[0,1],


      fX(x)=-fXY(x,y) dy =01-x8x(1-y) dy =[-8x(1-y)22]01-x=4x(1-x2).

      Παρομοίως, αν y[0,1] τότε fY(y)=0, ενώ αν y[0,1],


      fY(y)=-fXY(x,y) dx =01-y8x(1-y) dx =[4(1-y)x2]01-y=4(1-y)3.

      Οπότε, συγκεντρωτικά,


      fX(x) = {4x(1-x2),x[0,1],0,x[0,1],

      καιfY(y) = {4(1-y)3,y[0,1],0,y[0,1].
    3. (γ’)

      Για τη συνδιακύμανση, υπολογίζουμε τη μέση τιμή των X,Y,


      E(X) =-xfX(x) dx =014x2(1-x2) dx =4[13x3-15x5]01=815,

      E(Y) =-yfY(y) dy =401y(1-y)3 dy =401(1-z)z3 dz =[z4-4z55]01=15,

      όπου για τη μέση τιμή του Y πραγματοποιήσαμε την αντικατάσταση z=1-y, και τη μέση τιμή του γινομένου τους,


      E(XY) = -xyfXY(x,y) dx  dy


      = 0101-x8x2(1-y)y dy  dx


      = 018x2[y22-y33]01-x dx


      = 018x2(12(1-x)2-13(1-x)3) dx


      = 01(83x5-4x4+43x2) dx


      = [49x6-45x5+49x3]01


      = 445.

      Οπότε τελικά,


      Cov(X,Y)=E(XY)-E(X)E(Y)=445-815×15=-4225.

      Και εφόσον η συνδιακύμανση Cov(X,Y) είναι μη μηδενική, από το Θεώρημα 15.1 έχουμε ότι οι X,Y δεν είναι ανεξάρτητες.

  7. 7.

    Τριπλά ολοκληρώματα. Καταρχάς ορίζουμε το σύνολο τιμών των (X,Y,Z) ως το σύνολο S=[0,3]×[0,2]×[0,1]3 όπου η από κοινού πυκνότητα παίρνει θετικές τιμές.

    1. (α’)

      Θα υπολογίσουμε τη σταθερά k απαιτώντας το ολοκλήρωμα της fXYZ(x,y,z) σε όλο το 3 να είναι ίσο με 1. Γι’ αυτό τον υπολογισμό (και όλους τους παρακάτω σε αυτήν την άσκηση), χρησιμοποιούμε την τρισδιάστατη εκδοχή του θεωρήματος του Fubini:


      1 = 3fXYZ(x,y,z) dx  dy  dz


      = S1k(2x+3y2+4z3) dx  dy  dz


      = 0102032xk dx  dy  dz +0103023y2k dy  dx  dz +0302014z3k  dz  dy  dx


      = 2k(032x dx )+3k(02  3y2 dy )+6k(014z3 dz )=48k,

      όπου έχουμε παραλείψει τον λεπτομερή υπολογισμό των τελευταίων τριών απλών ολοκληρωμάτων. Επομένως, k=48.

    2. (β’)

      Με παρόμοιο τρόπο θα υπολογίσουμε και τη μέση τιμή E(XYZ), ως,


      3 xyzfXYZ(x,y,z)dxdydz


      =148Sxyz(2x+3y2+4z3) dx  dy  dz


      =1480102032x2yz dx  dy  dz +1480102033xy3z dx  dy  dz


      +1480102034xyz4 dx  dy  dz


      =124(03x2 dx )(02y dy )(01z dz )


      +116(03x dx )(02y3 dy )(01z dz )


      +112(03x dx )(02y dy )(01z4 dz )=3780,

      όπου και πάλι έχουμε παραλείψει τον λεπτομερή υπολογισμό των τελευταίων εννέα ολοκληρωμάτων.

    3. (γ’)

      Τέλος, ορίζοντας το σύνολο, B={(x,y,z):x+y+z1}3, έχουμε,


      Pr(X+Y+Z1) = BfXYZ(x,y,z) dx  dy  dz


      = 148SB(2x+3y2+4z3) dx  dy  dz


      = 14801(01-z(01-y-z(2x+3y2+4z3) dx ) dy ) dz.

      Το εσωτερικό ολοκλήρωμα ως προς x είναι,


      01-y-z (2x+3y2+4z3)dx


      =[x2+(3y2+4z3)x]01-y-z


      =[1+z2-2z+4z3-4z4]+y[-2+z-4z3]+y2[4-3z]-3y3,

      και αντικαθιστώντας την παραπάνω έκφραση στο δεύτερο ολοκλήρωμα ως προς y έχουμε ότι ισούται με,


      [(1+z2-2z+4z3-4z4)y+(-1+12z-2z3)y2+(43-z)y3-34y4]01-z

      =2z5-154z4+16z3+72z2-52z+712,

      οπότε αντικαθιστώντας αυτή την έκφραση στο τρίτο ολοκλήρωμα ως προς z, βρίσκουμε,


      Pr(X+Y+Z1) = 14801[2z5-154z4+16z3+72z2-52z+712] dz


      = 148[13z6-1520z5+124z4+76z3-54z2+712]01


      = 1384.
  8. 8.

    Περιθώρια και από κοινού πυκνότητα. Η απόδειξη είναι παρόμοια με εκείνη της τέταρτης βασικής ιδιότητας της από κοινού πυκνότητας: Για οποιαδήποτε a<b και a<b, η πιθανότητα Pr(aXb,aYb) μπορεί να εκφραστεί ως,


    Pr(aXb,aYb,-<Y<)=abab(-fXYZ(x,y,z) dz ) dy  dx,

    άρα, αν ορίσουμε τη συνάρτηση,


    fXY(x,y)=-fXYZ(x,y,z) dz,

    τότε ικανοποιεί τον ορισμό της από κοινού πυκνότητας 15.1 για δύο συνεχείς Τ.Μ. X,Y.

  9. 9.

    Μίξη πυκνοτήτων. Όταν η Z=1 η W=X, ενώ όταν η Z=1 η W=Y. Άρα μπορούμε να σκεφτούμε την W ως μια τυχαία επιλογή, με πιθανότητα 1/2 για τα δύο αποτελέσματα, μεταξύ της X και της Y.

    Για να βρούμε την πυκνότητα της W εφαρμόζουμε τον κανόνα συνολικής πιθανότητας: Για a<b αυθαίρετα,


    Pr(aWb) =Pr(aWb|Z=1)Pr(Z=1)+Pr(aWb|Z=0)Pr(Z=0)


    =12Pr(aXb)+12Pr(aYb)


    =12abfX(x) dx +12abfY(y) dy


    =ab[12fX(x)+12fY(x)] dx.

    Άρα, αντικαθιστώντας τις τιμές των πυκνοτήτων fX(x) και fY(y), αν ορίσουμε τη συνάρτηση,


    g(x)=12fX(x)+12fY(x)={12e-x,για  0x<1καιx>2,12e-x+12,για  1x2,0,γιαx<0,

    τότε η g(x) ικανοποιεί τον ορισμό της πυκνότητας της συνεχούς Τ.Μ. W όπως δίνεται στο Κεφάλαιο 10.

  10. 10.

    Φτου φτου φτου.

    1. (α’)

      Η περιθώρια πυκνότητα του X, από την τέταρτη ιδιότητα της από κοινού πυκνότητας είναι fX(x)=0 για x0, ενώ για x>0 έχουμε,


      fX(x) = --fXYZ(x,y,z) dy  dz


      = -5/x10/xx502πexp{-x2-(y-z)250} dy  dz


      = x10e-x/25/x10/x(-12π×52exp{-(y-z)22×52} dz ) dy,

      όπου παρατηρούμε ότι το εσωτερικό ολοκλήρωμα ως προς z είναι το ολοκλήρωμα της πυκνότητας της N(y,52) κατανομής σε όλο το , άρα ισούται με 1. Οπότε βρίσκουμε,


      fX(x) = x10e-x/25/x10/x𝑑y=12e-x/2,

      δηλαδή η περιθώρια κατανομή του χρόνου των χασμουρητών X είναι Εκθ(2). Συνεπώς, η madame Depy χασμουριέται κατά μέσο όρο για δύο λεπτά ανά ξεμάτιασμα.

    2. (β’)

      Από τον ορισμό της δεσμευμένης πιθανότητας, η ζητούμενη πιθανότητα είναι,


      Pr(Y10|X<1)=Pr(X<1,Y10)Pr(X<1),
      (A.25)

      όπου, από το πρώτο σκέλος, ήδη ξέρουμε πως XΕκθ(2), άρα, ο παρονομαστής είναι, Pr(X<1)=1-e-1/2. Για τον αριθμητή παρατηρούμε ότι, από τους περιορισμούς των τιμών της πυκνότητας, η μόνη περίπτωση να έχουμε Y10 και X<1 είναι αν το X1/2. Οπότε,


      Pr(X<1,Y10) = Pr(X<1,Y10,-<Z<)


      = -010-1fXYZ(x,y,z) dx  dy  dz


      = 1/215/x10-x502πexp{-x2-(y-z)250} dz  dy  dx,

      και προχωρώντας όπως και στο προηγούμενο ερώτημα, το παραπάνω τριπλό ολοκλήρωμα μπορεί να υπολογιστεί ως,


      1/215/x10x10e-x/2(-12π×52exp{-(y-z)22×52} dz ) dy  dx,

      όπου το εσωτερικό ολοκλήρωμα ως προς z ισούται με ένα. Συνεπώς,


      Pr(X<1,Y10) = 1/215/x10x10e-x/2  dy  dx


      = 1/21(10-5x)x10e-x/2 dx


      = 1/21(x-12)e-x/2 dx


      = [-(2x+3)e-x/2]1/21


      = 4e-1/4-5e-1/2.

      Τέλος, αντικαθιστώντας στη σχέση (A.25), βρίσκουμε,


      Pr(Y10|X<1)=4e-1/4-5e-1/21-e-1/20.2098.
  11. 11.

    Συσχέτιση, συνδιακύμανση, διασπορά. Οι αποδείξεις είναι ακριβώς ίδιες με εκείνες που είδαμε στη διακριτή περίπτωση, στις λύσεις της Άσκησης 10 του Κεφαλαίου 9 και της Άσκησης 17 του Κεφαλαίου 11. Η μόνη διαφορά είναι ότι χρησιμοποιούμε τις αντίστοιχες ιδιότητες της μέσης τιμής, της διασποράς και της συνδιακύμανσης για συνεχείς αντί για διακριτές Τ.Μ. Συγκεκριμένα:

    • Αντί για τις εναλλακτικές εκφράσεις (6.8) και (9.2) της διασποράς και της συνδιακύμανσης διακριτών Τ.Μ., εδώ χρησιμοποιούμε τη σχέση (10.13) και την Ιδιότητα 3 της Πρότασης 15.4 αντίστοιχα.

    • Αντί για τη βασική ιδιότητα της μέσης τιμής από την πρώτη ιδιότητα του Θεωρήματος 6.1, εδώ χρησιμοποιούμε την Πρόταση 15.3.

    • Για τη διασπορά του γινομένου μιας σταθεράς με μια Τ.Μ., αντί για την Ιδιότητα 2 του Θεωρήματος 6.1, χρησιμοποιούμε την Ιδιότητα 3 του Θεωρήματος 11.2.

  12. 12.

    Η διμεταβλητή κανονική κατανομή.

    1. (α’)

      Από το Πόρισμα 15.1 σε συνδυασμό με τις απλές ιδιότητες της κανονικής κατανομής στο Θεώρημα 12.1 έχουμε πως οι X,Y ακολουθούν κανονική κατανομή με,


      E(X) = μ+σE(Z)=μ,

      E(Y) = ν+cσE(Z)+τ2-c2σ2E(W)=ν,

      Var(X) = σ2Var(Z)=σ2,

      καιVar(Y) = c2σ2Var(Z)+(τ2-c2σ2)Var(W)=τ2.
    2. (β’)

      Χρησιμοποιώντας τις τιμές των E(X) και E(Y) που μόλις υπολογίσαμε, από τον ορισμό της συνδιακύμανσης και τους ορισμούς των X,Y, βρίσκουμε ότι,


      Cov(X,Y) = E[(X-E(X))(Y-E(Y))]


      = E[σZ(cσZ+τ2-c2σ2W)]


      =(a) cE(Z2)+στ2-c2σ2E(ZW)


      =(b) c+στ2-c2σ2E(Z)E(W)


      =(c) c,

      όπου στο βήμα (a) χρησιμοποιήσαμε τη βασική ιδιότητα της μέσης τιμής από την Πρόταση 15.3, στο (b) αντικαταστήσαμε την E(Z2)=Var(Z)+(E(Z))=21 και χρησιμοποιήσαμε την Ιδιότητα 1 από το Θεώρημα 15.1 επειδή οι Z,W είναι ανεξάρτητες, και στο βήμα (c) απλά χρησιμοποιήσαμε το γεγονός ότι E(Z)=E(W)=0.

    3. (γ’)

      Η Άσκηση 11 παραπάνω μάς λέει πως ο συντελεστής συσχέτισης ρX,Y21, δηλαδή,


      ρX,Y2=[Cov(X,Y)]2Var(X)Var(Y)=c2σ2τ21,

      οπότε πάντοτε θα έχουμε c2σ2τ2.

      Ο επιπλέον περιορισμός c±στ απλώς αποκλείει την τετριμμένη περίπτωση όπου η Y μπορεί απλά να εκφραστεί ως γραμμικός μετασχηματισμός της X. Για παράδειγμα, αν c=στ, τότε,


      X=μ+σZ,Y=ν+τZ,

      και κατά συνέπεια,


      Y=(ν-τμσ)+τσX.

      [Η περίπτωση c=-στ είναι παρόμοια.]

    4. (δ’)

      Αν και απαιτεί μακροσκελείς υπολογισμούς, η βασική ιδέα της απόδειξης του τελευταίου ερωτήματος είναι απλή: Θα εξετάσουμε την πιθανότητα Pr(aXb,aYb) και θα δείξουμε, μέσω απλών μετασχηματισμών, ότι μπορεί να εκφραστεί ως το διπλό ολοκλήρωμα της fXY που ορίστηκε από την (15.8) στο ορθογώνιο [a,b]×[a,b].

      Κατ’ αρχάς, αντικαθιστώντας του ορισμούς των Τ.Μ. X,Y, η ζητούμενη πιθανότητα είναι,


      Pr(aX b,aYb)


      =Pr(aμ+σZb,aν+cσZ+τ2-c2σ2Wb)


      =Pr(aμ+σZb,aν+τ[ρZ+1-ρ2]Wb),

      και εκφράζοντάς την ως προς τις Z,W αντί για τις X,Y γίνεται,


      Pr(a-μσZb-μσ,a-ντ-ρZ1-ρ2Wb-ντ-ρZ1-ρ2).

      Τώρα, εφόσον οι Z,W είναι ανεξάρτητες, το κριτήριο (15.7) μας λέει πως έχουν από κοινού πυκνότητα ϕ(z)ϕ(w), όπου ϕ είναι η πυκνότητα της τυπικής κανονικής κατανομής. Άρα, από το θεώρημα του Fubini, η πιο πάνω πιθανότητα ισούται με το διπλό ολοκλήρωμα,


      (a-μ)/σ(b-μ)/σa-ντ-ρz1-ρ2b-ντ-ρz1-ρ212πe-z2/212πe-w2/2 dw  dz ,

      και κάνοντας στο εσωτερικό ολοκλήρωμα την αντικατάσταση,


      y=ν+τ[ρz+1-ρ2w],

      έτσι ώστε,


      dy=τ1-ρ2dwκαιw=y-ντ-ρz1-ρ2,

      έχουμε,


      Pr(aXb,aYb)

      =(a-μ)/σ(b-μ)/σab12πτ1-ρ2exp{-z22-12(1-ρ2)(y-ντ-ρz)2} dy  dz

      =(a-μ)/σ(b-μ)/σab12πτ1-ρ2exp{-12(1-ρ2)[(y-ν)2τ2+z2-2ρzy-ντ]} dy  dz

      Τέλος, πραγματοποιώντας την αντικατάσταση x=σz+μ, έτσι ώστε z=x-μσ και dx=σdz, βρίσκουμε,


      Pr(aXb,aYb)

      =abab12πστ1-ρ2

          exp{-12(1-ρ2)[(y-ν)2τ2+(x-μσ)2-2ρ(x-μσ)(y-ντ)]}dydx

      =ababfXY(x,y) dy   dx,

      άρα, σύμφωνα με τον Ορισμό 15.1, η fXY(x,y) είναι πράγματι η από κοινού πυκνότητα των X,Y.

  13. 13.

    Το Κ.Ο.Θ. χωρίς το «Ο». Έστω πως οι Τ.Μ. {Xn} είναι ανεξάρτητες με κοινή κατανομή XiN(μ,σ2). Τότε, από την Ιδιότητα 3 του Θεωρήματος 12.1, η κάθε Xi-μσ έχει κατανομή N(0,1), και από το Πόρισμα 15.1 το άθροισμα,


    1σi=1N(Xi-μ)N(0,N).

    Οπότε, εφαρμόζοντας και πάλι την Ιδιότητα 3 του Θεωρήματος 12.1, το κανονικοποιημένο άθροισμα,


    S¯N=1σNi=1N(Xi-μ),

    έχει τυπική κανονική κατανομή για κάθε N1, όχι μόνο κατά προσέγγιση για μεγάλα N όπως μας λέει το Κ.Ο.Θ.


[Επιστροφή στα περιεχόμενα]

Βιβλιογραφία

Παραθέτουμε έναν συνοπτικό κατάλογο βιβλίων, στα ελληνικά και τα αγγλικά, που μπορούν να χρησιμοποιηθούν για περαιτέρω ή ταυτόχρονη μελέτη.

  1. 1.

    Εισαγωγη στις πιθανοτητεσ

    1. (α’)

      Εισαγωγή στις πιθανότητες, D.P. Bertsekas, J.N. Tsitsiklis. Εκδόσεις Τζιόλα, 2010. [Πρωτότυπο στα αγγλικά: Introduction to Probability, D.P. Bertsekas, J.N. Tsitsikli. 2η έκδοση, Athena Scientific, 2008.]

    2. (β’)

      Εισαγωγή στη θεωρία πιθανοτήτων, P. Hoel, S. Port, C. Stone. Πανεπιστημιακές Εκδόσεις Κρήτης, 2001. [Πρωτότυπο στα αγγλικά: Introduction to Probability Theory, P.G. Hoel, S.C. Port, C.J. Stone. Brooks Cole, 2009.]

    3. (γ’)

      Βασικές αρχές θεωρίας πιθανοτήτων, S. Ross. Εκδόσεις Κλειδάριθμος, 2012. [Πρωτότυπο στα αγγλικά: First Course in Probability, S. Ross. 8η έκδοση, Prentice Hall, 2009.]

  2. 2.

    Περαιτερω θεωρια και εφαρμογες των πιθανοτητων

    1. (α’)

      Πιθανότητες, τυχαίες μεταβλητές και στοχαστικές διαδικασίες, A. Papoulis, S.U. Pillai. 4η έκδοση, Εκδόσεις Τζιόλα, 2007. [Πρωτότυπο στα αγγλικά: Probability, Random Variables and Stochastic Processes, A. Papoulis, S.U. Pillai. 4η έκδοση, McGraw Hill, 2002.]

    2. (β’)

      Introduction to Probability Models, S. Ross. 10η έκδοση, Academic Press, 2010.

    3. (γ’)

      Stochastic Processes, S. Ross. 2η έκδοση, Wiley, 1995.

  3. 3.

    Εφαρμογες των πιθανοτητων στην πληροφορικη

    1. (α’)

      Probability and Computing: Randomized Algorithms and Probabilistic Analysis, M. Mitzenmacher, E. Upfal. Cambridge University Press, 2005.

    2. (β’)

      Randomized Algorithms, R. Motwani, P. Raghavan. Cambridge University Press, 1995.

    3. (γ’)

      Average Case Analysis of Algorithms on Sequences, W. Szpankowski. Wiley Series in Discrete Mathematics and Optimization, 2011.

    4. (δ’)

      Probability and Algorithms, J.M. Steele, D. Aldous, D.J. Bertsimas, E.G. Coffman, D. Hochbaum, M. Hofri, J.C. Lagarias, S.T. Weidman. U.S. National Research Council, 1992. Διαθέσιμο online:

  4. 4.

    Στατιστικη και προσομοιωση

    1. (α’)

      Introduction to the Practice of Statistics, D.S. Moore, G.P. McCabe, B.A. Craig. W.H. Freeman, 2014.

    2. (β’)

      Statistical Inference, G. Casella, R.L. Berger. Duxbury Press, 2001.

    3. (γ’)

      Monte Carlo Statistical Methods, C.P. Robert, G. Casella. Springer, 2004.

    4. (δ’)

      Monte Carlo Methods in Financial Engineering, P. Glasserman. Springer, 2003.

  5. 5.

    Θεωρια πιθανοτητων βασει της θεωριας μετρου

    1. (α’)

      An Introduction to Probability Theory and Its Applications, volumes I-II, W. Feller. 3η έκδοση, Wiley, 1968.

    2. (β’)

      Probability and Measure, P. Billingsley. 3η έκδοση, Wiley, 1995.

    3. (γ’)

      Probability: Theory and Examples, R. Durrett. 4η έκδοση, Cambridge University Press, 2010.

  6. 6.

    Μαθηματικος λογισμος

    1. (α’)

      Διαφορικός και ολοκληρωτικός λογισμός, τόμοι Ι-ΙΙ, T.M. Apostol. 1η έκδοση, Εκδόσεις Ατλαντίς, 1962. [Πρωτότυπο στα αγγλικά: Calculus, volumes I-II, T.M. Apostol. 2η έκδοση, Wiley, 1967.]

    2. (β’)

      Διαφορικός και ολοκληρωτικός λογισμός, M. Spivak. 2η έκδοση, Πανεπιστημιακές Εκδόσεις Κρήτης, 2010. [Πρωτότυπο στα αγγλικά: Calculus, M. Spivak. 4η έκδοση, Publish or Perish, 2009.]

    3. (γ’)

      Απειροστικός λογισμός (ενιαίος τόμος), R.L. Finney, F.R. Giordano, M.D. Weir. Πανεπιστημιακές Εκδόσεις Κρήτης, 2012. [Πρωτότυπο στα αγγλικά: Thomas’ Calculus, R.L. Finney, F.R. Giordano, M.D. Weir. Addison Wesley Longman, 2001.]



Ευρετήριο

  • Βαρουφάκης, Γιάνης 9., 11.
  • Βήτα κατανομή 6.
  • Ζυγοβίστι Αρκαδίας 12.

Απόδοση αγγλικών όρων

  • average case analysis: πιθανοκρατική ανάλυση

  • bits: δυαδικά δεδομένα, δυαδικά ψηφία

  • cut set: σύνολο αποκοπτουσών ακμών

  • divide and conquer: διαίρει και βασίλευε

  • min-cut: ελαχιστιαίο σύνολο αποκοπτουσών ακμών

  • quicksort algorithm: αλγόριθμος γρήγορης ταξινόμησης

  • randomized algorithm: τυχαιοκρατικός αλγόριθμος

  • string matching: ταίριασμα ακολουθιών

  • worst case analysis: ανάλυση χειρότερης περίπτωσης

Αρκτικόλεξα

  •  

    Κ.Ο.Θ.: Κεντρικό Οριακό Θεώρημα

  •  

    Ν.Μ.Α.: Νόμος των Μεγάλων Αριθμών

  •  

    Τ.Μ.: Τυχαία Μεταβλητή

[Επιστροφή στα περιεχόμενα]