Ανάκτηση Πληροφορίας

Κεφάλαιο 8Λανθάνουσα Σημασιολογική Ανάλυση

8.1 Εισαγωγή

Το κοινό χαρακτηριστικό του Boolean, του Διανυσματικού και του Πιθανοκρατικού μοντέλου ανάκτησης είναι ότι βασίζονται αποκλειστικά στην αναπαράσταση των εγγράφων με όρους. Δύο όροι θεωρούνται ανεξάρτητοι μεταξύ τους ενώ δεν υπάρχει πρόβλεψη για την περίπτωση όπου δύο ή περισσότεροι όροι αν και διαφορετικοί, ωστόσο αναφέρονται στην ίδια έννοια (π.χ., αυτοκίνητο, αμάξι, όχημα).

Η Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis, LSA) αποτελεί μία πολύ σημαντική τεχνική ανάκτησης που οποίο λαμβάνει υπόψη τις αλληλοεξαρτήσεις μεταξύ των όρων. Τα κλασικά μοντέλα θεωρούν ότι η ομοιότητα μεταξύ των ερωτημάτων και των εγγράφων καθορίζεται από το σύνολο των όρων που περιέχονται σε αυτά. Η προσέγγιση αυτή δε λαμβάνει υπόψη συσχετίσεις (ή αλλιώς εξαρτήσεις) που υπάρχουν σε λανθάνουσα μορφή, με αποτέλεσμα οι επιδόσεις των συστημάτων να μην είναι πάντοτε ικανοποιητικές. Η μέθοδος LSA έχει τη δυνατότητα να αντιληφθεί τη σχετικότητα μεταξύ όρων κι έτσι να μετατρέψει την αναπαράσταση των εγγράφων από το χώρο των όρων στο χώρο των εννοιών (concepts). Επίσης, η τεχνική αυτή έχει τη δυνατότητα να μειώσει τον αριθμό των διαστάσεων. Η μείωση της διαστασιμότητας είναι πολύ σημαντική για την απόδοση στην επεξεργασία των ερωτημάτων. Βέβαια, η μείωση της διαστασιμότητας συνοδεύεται από απώλεια πληροφορίας η οποία όμως με τις σωστές τεχνικές δεν επιφέρει αρνητικές επιπτώσεις στην αποτελεσματικότητα της μεθόδου, ενώ προσφέρει καλύτερους χρόνους απόκρισης κατά την επεξεργασία των ερωτημάτων λόγω της απλούστευσης στην αναπαράσταση των εγγράφων. Επίσης, αν και ένας όρος μπορεί να μην εμφανίζεται σε ένα έγγραφο (άρα το βάρος του όρου στο διάνυσμα του εγγράφου θα είναι μηδέν), μετά την εφαρμογή της μεθόδου LSA το βάρος του όρου στο έγγραφο μπορεί να έχει μη μηδενική τιμή. Αυτό είναι πολύ σημαντικό, καθώς επιτρέπει την ανάκτηση εγγράφων ακόμη και αν δεν περιέχουν τους όρους του ερωτήματος, αλλά σχετίζονται με αυτούς.

Η μέθοδος LSA στηρίζεται σε εργαλεία της Γραμμικής Άλγεβρας. Η βασική τεχνική που χρησιμοποιείται είναι η διάσπαση του πίνακα όρων-εγγράφων με τη βοήθεια της μεθόδου SVD (Singular Value Decomposition). Ο αρχικός πίνακας όρων-εγγράφων εκφράζεται ως γινόμενο πινάκων (παραγοντοποίηση) χρησιμοποιώντας ιδιοτιμές και ιδιοδιανύσματα. Στη συνέχεια, έχουμε τη δυνατότητα να περιορίσουμε τον αριθμό των γραμμών ή στηλών των πινάκων διατηρώντας τις σημαντικότερες έννοιες των εγγράφων. Με τον τρόπο αυτό αντιμετωπίζονται τα προβλήματα της συνωνυμίας και της πολυσημίας που βλάπτουν την ακρίβεια και την ανάκληση αντίστοιχα, όπως έχουμε ήδη αναφέρει στο Κεφάλαιο 2.

8.2 Βασικές Έννοιες Γραμμικής Άλγεβρας

Θα ξεκινήσουμε με μία σύντομη παρουσίαση μερικών βασικών εννοιών της Γραμμικής Άλγεβρας τις οποίες θα χρειαστούμε στη συνέχεια για την πληρέστερη κατανόηση της μεθόδου LSA. Θα εστιάσουμε κυρίως στο χειρισμό πινάκων και στα βασικά τους χαρακτηριστικά. Τονίζεται ότι το κείμενο δεν αποτελεί μία εις βάθος ανάλυση της Γραμμικής Άλγεβρας, αλλά φωτίζει τα σημεία που θα βοηθήσουν στην κατανόηση της Λανθάνουσας Σημασιολογικής Ανάλυσης.

8.2.1 Πίνακες και Διανύσματα

Έστω M ένας πίνακας που αποτελείται από n γραμμές και m στήλες και κάθε στοιχείο M[i,j] του πίνακα είναι μία πραγματική τιμή. Εάν n = m τότε ο πίνακας καλείται τετραγωνικός. Ο πίνακας MT καλείται ανάστροφος (transpose) του πίνακα M, έχει διαστάσεις m × n και προκύπτει από τον M μετατρέποντας τις γραμμές του M σε στήλες (άρα οι στήλες γίνονται γραμμές). Ο πίνακας M-1 καλείται αντίστροφος (inverse) του πίνακα M και έχει την ιδιότητα ότι αν πολλαπλασιαστεί με τον πίνακα M το αποτέλεσμα είναι ο μοναδιαίος πίνακας In. Πιο συγκεκριμένα:

M-1M=MM-1=In (8.1)
Ορισμός 8.1.

Ένας τετραγωνικός πίνακας M καλείται ορθοκανονικός (orthogonal) όταν ο αντίστροφός του ισούται με τον ανάστροφο, δηλαδή MT = M-1.

Σημαντικό ρόλο στη Γραμμική Άλγεβρα παίζουν οι συμμετρικοί πίνακες. Ένας τετραγωνικός πίνακας M διαστάσεων n×n καλείται συμμετρικός όταν το στοιχείο που βρίσκεται στην i-οστή γραμμή και την j-οστή στήλη ισούται με το στοιχείο που βρίσκεται στην j-οστή γραμμή και την i-οστή στήλη.

Παράδειγμα 8.1

Έστω ο πίνακας M=(435-10). Ο πίνακας M δεν είναι συμμετρικός αλλά είναι τετραγωνικός (ο αριθμός των γραμμών ισούται με τον αριθμό των στηλών). Ο ανάστροφος του M είναι ο MT=(453-10). Έστω τώρα ο πίνακας Q=(3-115). Ο αντίστροφος του Q είναι ο: Q-1=(5/161/16-1/163/16). Πράγματι, αν πολλαπλασιάσουμε τους δύο πίνακες προκύπτει ο μοναδιαίος πίνακας 2×2:

QQ-1=(3-115)(5/161/16-1/163/16)=(1001) (8.2)
Q-1Q=(5/161/16-1/163/16)(3-115)=(1001) (8.3)

Στη συνέχεια ας δούμε ένα πααάδειγμα ορθοκανονικού πίνακα. Σύμφωνα με τον ορισμό, ένας πίνακας καλείται ορθοκανονικός όταν ο ανάστροφος ισούται με τον αντίστροφό του. Έστω ο πίνακας R=(1/21/2-1/21/2). Ο ανάστροφος του R είναι ο RT=(1/2-1/21/21/2) και όπως μπορούμε εύκολα να διαπιστώσουμε RRT=RTR=I, και επομένως R-1=RT.

Το άθροισμα δύο πινάκων προκύπτει με άθροιση των στοιχείων που βρίσκονται στις ίδιες θέσεις και στους δύο πίνακες. Απαραίτητη προϋπόθεση είναι οι πίνακες να έχουν τις ίδιες διαστάσεις. Έστω οι πίνακες A, B και C=A+B διαστάσεων m×n. Αν συμβολίσουμε με A[i,j] (B[i,j]) το στοιχείο του πίνακα A (B) που βρίσκεται στην i-οστή γραμμή και την j-οστή στήλη τότε C[i,j] = A[i,j] + B[i,j], 1im, 1jn. Ο πολλαπλασιασμός δύο πινάκων A και B είναι εφικτός αν ο αριθμός των στηλών του A είναι ίσος με τον αριθμό των γραμμών του B. Έτσι, αν ο A έχει διαστάσεις m × n και ο B έχει διαστάσεις n × k τότε ο πίνακας C = A B έχει διαστάσεις m × k. Θυμίζουμε στον αναγνώστη ότι το στοιχείο στη γραμμή i και στη στήλη j του τελικού πίνακα ισούται με το άθροισμα των γινομένων των στοιχείων της i-οστής γραμμής και της j-οστής στήλης, όπως δίνεται παρακάτω:

C[i,j]=k=1nA[i,k]B[k,j] (8.4)

Οι γραμμές και οι στήλες ενός πίνακα M μπορούν να θεωρηθούν ως διανύσματα. Σε πολλές περιπτώσεις μας ενδιαφέρει να εξετάσουμε τη σχέση που έχουν δύο διανύσματα. Μία από αυτές τις σχέσεις είναι η γραμμική ανεξαρτησία.

Ορισμός 8.2.

Δύο διανύσματα v1 και v2 καλούνται γραμμικά ανεξάρτητα, αν το ένα δεν μπορεί να εκφραστεί ως γραμμικός συνδυασμός του άλλου. Πιο συγκεκριμένα, τα v1 και v2 είναι γραμμικά ανεξάρτητα αν δεν υπάρχουν πραγματικοί αριθμοί a10 και a20 έτσι ώστε: a1v1+a2v2=0 (ο τύπος γενικεύεται και για περισσότερα διανύσματα).

Ορισμός 8.3.

Ως βαθμός (rank) ενός πίνακα M ορίζεται ο μέγιστος αριθμός των γραμμικά ανεξάρτητων στηλών (γραμμών) του M.

8.2.2 Ιδιοτιμές και Ιδιοδιανύσματα

Έστω M ένας τετραγωνικός πίνακας διαστάσεων n × n. Η τιμή λ καλείται ιδιοτιμή (eigenvalue) του M εάν υπάρχει ένα μή μηδενικό διάνυσμα v έτσι ώστε να ισχύει η ακόλουθη σχέση:

Mv=λv (8.5)

Στην περίπτωση αυτή, το διάνυσμα v66Για λόγους απλούστευσης στη συνέχεια το διάνυσμα v θα αναγράφεται χωρίς το βέλος, δηλαδή v. καλείται ιδιοδιάνυσμα (eigenvector) του M. Παρατηρήστε ότι ενδεχομένως να υπάρχουν πολλά διανύσματα v και πολλές τιμές λ που να ικανοποιούν τη σχέση 8.5. Η γεωμετρική ερμηνεία της εξίσωσης 8.5 έχει ως εξής: εφαρμόζοντας το μετασχηματισμό που προσδιορίζεται από τον πίνακα M στο ιδιοδιάνυσμα v έχει ως αποτέλεσμα είτε την αλλαγή του μέτρου του v είτε την αλλαγή της φοράς του v είτε και τα δύο. Σε καμία όμως περίπτωση δε μεταβάλεται η διεύθυνση του v. Η μεταβολή του μέτρου ή της φοράς καθορίζεται από τις ιδιοτιμές του M. Επομένως, τα ιδιοδιανύσματα του M έχουν μία ιδιαίτερη σημασία, και για το λόγο αυτό χαρακτηρίζουν τον πίνακα M. Η εξίσωση 8.5 μπορεί να γραφεί και ως εξής:

(M-λIn)v=0 (8.6)

όπου In είναι ο μοναδιαίος πίνακας διαστάσεων n × n.

Για να εντοπιστούν οι ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα M θα πρέπει να επιλυθούν μερικά συστήματα εξισώσεων. Ας δούμε με ποιον τρόπο μπορεί να γίνει αυτό. Σύμφωνα με γνωστό θεώρημα της Γραμμικής Άλγεβρας, οι τιμές λ που ικανοποιούν τη σχέση 8.6 είναι αυτές για τις οποίες ο πίνακας M-λIn γίνεται μη-αντιστρέψιμος. Ένας πίνακας είναι μη-αντιστρέψιμος όταν η ορίζουσά του είναι μηδενική. Στην περίπτωση αυτή ο πίνακας καλείται επίσης και ιδιάζων (singular). Επομένως, για να εντοπιστούν οι ιδιοτιμές του πίνακα M αρκεί να λυθεί το σύστημα εξισώσεων που περιγράφεται από την παρακάτω σχέση, που είναι γνωστή και ως χαρακτηριστική εξίσωση του πίνακα M:

[det(M-λIn)=0] (8.7)
Παράδειγμα 8.2

Στο παράδειγμα αυτό θα προσδιορίσουμε τις ιδιοτιμές ενός πίνακα M διαστάσεων 2 × 2 σύμφωνα με τη μέθοδο που αναφέρθηκε προηγουμένως. Έστω ο ακόλουθος πίνακας M:

Μ=(435-10) (8.8)

Ο πίνακας M-λI2 ισούται με:

M-λI2=(435-10)-λ(1001)=(4-λ35-10-λ) (8.9)

Η χαρακτηριστική εξίσωση του πίνακα M έχει ως εξής:

det(M-λI2)=0det(4-λ35-10-λ)=0 (8.10)

Με βάση τη μέθοδο υπολογισμού της ορίζουσας πίνακα, η παραπάνω σχέση παίρνει τη ακόλουθη μορφή δευτεροβάθμιας εξίσωσης με άγνωστο το λ:

(4-λ)(-10-λ)-(35)=0λ2+6λ-55=0 (8.11)

Οι τιμές που επαληθεύουν την παραπάνω σχέση είναι οι λ1=5 και λ2=-11, και επομένως αυτές είναι και οι ιδιοτιμές του πίνακα M.

Ο προσδιορισμός των ιδιοτιμών αποτελεί το πρώτο βήμα για την εύρεση των ιδιοδιανυσμάτων του πίνακα. Ωστόσο, για κάθε ιδιοτιμή υπάρχει ένα άπειρος αριθμός ιδιοδιανυσμάτων, όπως προκύπτει από την επίλυση του συστήματος εξισώσεων 8.6, όπου λ είναι η εκάστοτε ιδιοτιμή που χρησιμοποιείται. Το σύνολο των ιδιοδιανυσμάτων που αντιστοιχούν σε μία ιδιοτιμή καλείται ιδιοχώρος (eigenspace). Ο αριθμός των διαστάσεων του ιδιοχώρου που αντιστοιχεί στην ιδιοτιμή λ εξαρτάται από το πόσες εμφανίζεται το λ ως ιδιοτιμή. Για παράδειγμα, εάν μία ιδιοτιμή εμφανίζεται δύο φορές τότε ο αντίστοιχος ιδιοχώρος είναι δισδιάστατος.

Παράδειγμα 8.3

Ας δούμε στη συνέχεια πως υπολογίζονται τα ιδιοδιανύσματα του πίνακα M για τις ιδιοτιμές 5 και -11. Αν θεωρήσουμε ότι x1 και x2 είναι οι δύο συντεταγμένες του διανύσματος, τότε από την εξίσωση 8.6 έχουμε:

[(435-10)-λ(1001)](x1x2)=(00) (8.12)

Για τον προσδιορισμό των ιδιοδιανυσμάτων που αντιστοιχούν στην ιδιοτιμή 5, θέτουμε στην παραπάνω εξίσωση λ=5. Μετά απο πράξεις προκύπτουν οι ακόλουθες εξισώσεις:

-x1+3x2=0 (8.13)
5x1-15x2=0 (8.14)

Είναι προφανές ότι οι δύο παραπάνω εξισώσεις είναι ισοδύναμες, με αποτέλεσμα να υπάρχει ένας άπειρος συνδυασμός τιμών x1 και x2 που να τις ικανοποιούν. Πράγματι, η σχέση που συνδέει τα x1 και x2 είναι η x1=3x2. Οπότε, αν θέσουμε x2=1 προκύπτει ότι x1=3.

Η ίδια μέθοδος χρησιμοποιείται για τον προσδιορισμό των ιδιοδιανυσμάτων που αντιστοιχούν στην ιδιοτιμή -11. Οι εξισώσεις που προκύπτουν είναι:

15x1+3x2=0 (8.15)
5x1+x2=0 (8.16)

Οι εξισώσεις αυτές είναι ισοδύναμες και επομένως η σχέση που συνδέει τα x1 και x2 είναι η x1=-15x2. Αν θέσουμε x2=5 προκύπτει ότι x1=-1 και έτσι προσδιορίστηκε ένα από τα ιδιοδιανύσματα. Επομένως, για κάθε μία από τις ιδιοτιμές λ1=5 και λ2=-11 δύο από τα ιδιοδιανύσματα που προκύπτουν είναι:

v1=(31),v2=(-15) (8.17)

Τονίζεται ακόμη μία φορά, ότι υπάρχουν άπειρα ιδιοδιανύσματα που αντιστοιχούν στην ίδια ιδιοτιμή. Ωστόσο, μία από τις βασικές ιδιότητες αναφέρει ότι τα ιδιοδιανύσματα που αντιστοιχούν σε διαφορετικές ιδιοτιμές είναι γραμμικά ανεξάρτητα μεταξύ τους και επομένως, κανένα δεν μπορεί να εκφραστεί ως γραμμικός συνδυασμός των υπολοίπων, κάτι που δηλώνει τη σημαντική πληροφορία την οποία καταγράφουν. Είναι γνωστό από τη θεωρία της Γραμμικής Άλγεβρας (π.χ., [36]) ότι ένα σύνολο διανυσμάτων είναι γραμμικά ανεξάρτητα αν ο πίνακας που σχηματίζεται θέτοντας ως στήλες τα διανύσματα έχει μη μηδενική ορίζουσα. Σύμφωνα με το Παράδειγμα 8.3, τα δύο ιδιοδιανύσματα που προέκευψαν βασίζονται σε διαφορετικές ιδιοτιμές και επομένως θα πρέπει να είναι γραμμικά ανεξάρτητα. Πράγματι, η ορίζουσα του πίνακα που σχηματίζεται θεωρώντας το κάθε διάνυσμα ως στήλη του πίνακα είναι:

det(3-115)=35-(-1)1=16 (8.18)

και επομένως μπορούμε να συμπεράνουμε ότι τα δύο ιδιοδιανύσματα είναι γραμμικά ανεξάρτητα.

Αν ο πίνακας M διαστάσεων n×n είναι συμμετρικός, τότε έχει ακριβώς n ιδιοτιμές όχι κατ’ ανάγκη διαφορετικές μεταξύ τους. Επίσης, δύο ιδιοδιανύσματα που αντιστοιχούν σε διαφορετικές ιδιοτιμές είναι μεταξύ τους ορθοκανονικά (κάθετα), επομένως το εσωτερικό γινόμενό τους ισούται με μηδέν.

Θεώρημα 8.1.

Αν ο πίνακας M είναι συμμετρικός, τότε δύο ιδιοδιανύσματα που αντιστοιχούν σε διαφορετικές ιδιοτιμές είναι ορθοκανονικά μεταξύ τους.

Μερικές φορές μας ενδιαφέρει να κρατήσουμε μοναδιαία διανύσματα (unit vectors), τα οποία έχουν μέτρο τη μονάδα. Το μέτρο ενός διανύσματος v στις n διαστάσεις ορίζεται ως εξής:

v=x12+x22++xn2 (8.19)

όπου xi, 1in είναι οι συντεταγμένες του διανύσματος. Για να μετατρέψουμε ένα διάνυσμα v σε μοναδιαίο αρκεί να διαιρέσουμε όλες τις συντεταγμένες του με το μέτρο του. Συμβολίζουμε με v¯ το μοναδιαίο διάνυσμα που αντιστοιχεί στο διάνυσμα v. Ένα μοναδιαίο διάνυσμα μας δίνει πληροφορία για τη διεύθυνση στην οποία δείχνει.

Παράδειγμα 8.4

Έστω τα δύο ιδιονύσματα του πίνακα M από το Παράδειγμα 8.3:

v1=(31),v2=(-15) (8.20)

Τα μέτρα των δύο διανυσμάτων είναι: v1 = 32+12 = 10 και v2 = (-1)2+52 = 26. Επομένως, τα αντίστοιχα μοναδιαία διανύσματα που προκύπτουν είναι:

v¯1=(3/101/10),v¯2=(-1/265/26) (8.21)

Μπορεί εύκολα να επιβεβαιωθεί ότι τα μέτρα των δύο διανυσμάτων είναι ίσα με τη μονάδα:

v¯1=(3/10)2+(1/10)2=9/10+1/10=1=1 (8.22)
v¯2=(-1/26)2+(5/26)2=1/26+25/26=1=1 (8.23)

8.2.3 Διαγωνιοποίηση

Πολλές φορές, οι ιδιοτιμές και τα ιδιοδιανύσματα ενός πίνακα M μπορούν να απεικονιστούν με τη βοήθεια της διαδικασίας της διαγωνιοποίησης (diagonalization), με την οποία ο πίνακας M γράφεται ως γινόμενο τριών πινάκων ως εξής:

[M=PDP-1] (8.24)

όπου M είναι ένας πραγματικός πίνακας n×n, D είναι ένας διαγώνιος πίνακας n×n που περιέχει τις ιδιοτιμές του M και P είναι ένας τετραγωνικός πίνακας n×n του οποίου οι στήλες αποτελούν τα ιδιοδιανύσματα του M. Το επόμενο βασικό θεώρημα συνδέει την διαγωνιοποίηση με τον αριθμό των ιδιοδιανυσμάτων.

Θεώρημα 8.2.

Ένας πίνακας M διαστάσεων n×n μπορεί να διαγωνιοποιηθεί εάν και μόνο εάν έχει n γραμμικά ανεξάρτητα ιδιοδιανύσματα.

Μία από τις εφαρμογές που έχει η διαγωνιοποίηση ενός πίνακα M είναι ο γρήγορος υπολογισμός των πινάκων Mk, k1. Μπορεί να αποδειχθεί ότι Mk = PDkP-1, και εφόσον ο πίνακας Dk υπολογίζεται πολύ εύκολα, το κόστος υπολογισμού του Mk μειώνεται δραστικά.

Παράδειγμα 8.5

Στο Παράδειγμα 8.3 προσδιορίστηκαν δύο ιδιοδιανύσματα του πίνακα M. Επομένως, αφού ο M είναι ένας πίνακας 2×2 και έχει δύο γραμμικά ανεξάρτητα ιδιοδιανύσματα, σύμφωνα με το Θεώρημα 8.2 μπορεί να διαγωνιοποιηθεί. Εφόσον γνωρίζουμε τις ιδιοτιμές και τα δύο γραμμικά ανεξάρτητα ιδιοδιανύσματα του M μπορούμε να κατασκευάσουμε τους πίνακες D και P:

Μ=(435-10),D=(500-11),P=(3-115) (8.25)

Ο αντίστροφος του πίνακα P είναι:

P-1=(5/161/16-1/163/16) (8.26)

Ας επιβεβαιώσουμε στη συνέχεια ότι ισχύει η σχέση 8.24.

PDP-1=(3-115)(500-11)(5/161/16-1/163/16)=(435-10) (8.27)

Έως τώρα συναντήσαμε την έννοια του διαγωνιοποιήσιμου πίνακα. Ας δούμε τώρα πότε ένας πίνακας είναι ορθοκανονικά διαγωνιοποιήσιμος.

Ορισμός 8.4.

Ένας πίνακας M είναι ορθοκανονικά διαγωνιποιήσιμος όταν υπάρχει ένας ορθοκανονικός πίνακας P (άρα πρέπει PT = P-1) και ένας διαγώνιος πίνακας D έτσι ώστε να ισχύει M=PDPT = PDP-1.

Επομένως, η ύπαρξη ενός ορθοκανονικού πίνακα P στον παραπάνω ορισμό συνεπάγεται την ύπαρξη n ορθοκανονικών ιδιοδιανσυμάτων. Έστω τώρα ότι ο πίνακας M είναι συμμετρικός (άρα και τετραγωνικός). Υπάρχει κάποια ιδιαιτερότητα σε σχέση με τη διαγωνιοποίηση; Η απάντηση είναι ναι, και επαληθεύεται από την ακόλουθη συζήτηση. Προηγουμένως, μελετήσαμε την έννοια της διαγωνιοποίησης. Ας δούμε το συμβαίνει όταν ο πίνακας είναι συμμετρικός. Από το Θεώρημα 8.1 γνωρίζουμε ότι δύο ιδιοδιανύσματα που αντιστοιχούν σε διαφορετικές ιδιοτιμές είναι ορθοκανονικά μεταξύ τους αν ο πίνακας είναι συμμετρικός. Ειδικά για τους συμμετρικούς πίνακες ισχύει το ακόλουθο:

Θεώρημα 8.3.

Ένας πίνακας M διαστάσεων n×n είναι ορθοκανονικά διαγωνιοποιήσιμος αν και μόνο αν είναι συμμετρικός.

Το προηγούμενο θεώρημα είναι πολύ σημαντικό διότι μας εξασφαλίζει μία ισοδυναμία μεταξύ της διαγωνιοποιησιμότητας ενός πίνακα και της συμμετρίας συτού. Επομένως, η συμμετρία του πίνακα M διαστάσεων n×n συνεπάγεται την ύπαρξη ενός ορθοκανονικού πίνακα P έτσι ώστε M = PDPT, και το αντίστροφο. Σε περίπτωση που ο αριθμός των διακριτών ιδιοτιμών είναι ακριβώς n, τότε ο προσδιορισμός του πίνακα P είναι πολύ απλή υπόθεση (τα n ορθοκανονικά ιδιοσιανύσματα γίνονται οι στήλες του P). Διαφορετικά, θα πρέπει να εκτελεστούν κάποιες επιπλέον πράξεις ώστε να εντοπιστούν όλα τα ορθοκανονικά διανύσματα που θα αποτελέσουν τις στήλες του P. Για παράδειγμα, εάν μία ιδιοτιμή είναι διπλή (είναι δύο φορές ρίζα του χαρακτηριστικού πολυωνύμου) τότε πρέπει να εντοπιστούν δύο ορθοκανονικά διανύσματα για το συγκεκριμένο ιδιοχώρο. Εάν η ιδιοτιμή είναι τριπλή, θα πρέπει να εντοπιστούν τρία ορθοκανονικά διανύσματα του ιδιοχώρου. Ο πίνακας P κατασκευάζεται από τα διανύσματα που έχουν εντοπιστεί σύμφωνα με την προηγούμενη μεθοδολογία. Άρα, σε κάθε περίπτωση, ανεξάρτητα από το αν οι ιδιοτιμές του πίνακα M εμφανίζονται μία η περισσότερες φορές, η κατασκευή του ορθοκανονικού πίνακα P είναι πάντα εφικτή.

Παράδειγμα 8.6

Έστω ο συμμετρικός πίνακας M διαστάσεων 2×2:

M=(1111) (8.28)

Οι ιδιοτιμές του M είναι λ1 = 0 και λ2 = 2. Τα δύο μοναδιαία ιδιοδιανύσματα του M είναι τα:

v1=(-0.70710.7071),v2=(0.70710.7071) (8.29)

Οι πίνακες P και D έχουν ως εξής:

D=(0002),P=(-0.70710.70710.70710.7071) (8.30)

Επομένως:

(1111)M=(-0.70710.70710.70710.7071)P(0002)D(-0.70710.70710.70710.7071)PT (8.31)

8.2.4 Παραγοντοποίηση Ιδιαζουσών Τιμών (SVD)

Η διάσπαση ενός πίνακα M σε γινόμενο τριών πινάκων χρησιμοποιώντας τη μέθοδο της διαγωνιοποίησης δεν είναι πάντοτε εφικτή, και εξαρτάται από τα χαρακτηριστικά του πίνακα M. Ωστόσο, υπάρχει μία μέθοδος διάσπασης σύμφωνα με την οποία ένας οποιοσδήποτε πίνακας Μ με διαστάσεις m×n μπορεί να εκφραστεί ως γινόμενο τριών πινάκων:

[M=USVT] (8.32)

όπου, S είναι ένας διαγώνιος πίνακας m×n που περιέχει στην κύρια διαγώνιο τις ιδιάζουσες τιμές (singular values) του πίνακα M σε φθίνουσα διάταξη, U είναι ένας ορθοκανονικός πίνακας με διαστάσεις m×m και V είναι ένας ορθοκανονικός πίνακας n×n. Η διάσπαση αυτή καλείται επίσης και παραγοντοποίηση ιδιαζουσών τιμών (singular value decomposition). Οι ιδιάζουσες τιμές του πίνακα M προκύπτουν από τις ιδιοτιμές του πίνακα MTM. Πιο συγκεκριμένα, για κάθε ιδιοτιμή λ του πίνακα MTM προκύπτει η ιδιάζουσα τιμή λ.

Παράδειγμα 8.7

Έστω M=(435-10). Σύμφωνα με την παραγοντοποίηση ιδιαζουσών τιμών, μπορούμε να εκφράσουμε τον M ως γινόμενο: M=USVT. Αφού ο M έχει διαστάσεις 2×2 οι πίνακες U, S και V θα είναι επίσης 2×2. Η παραγοντοποίηση έχει ως εξής:

M=USVT=(-0.09850.99510.99510.0985)(11.2245004.9000)(0.4082-0.91290.91290.4082) (8.33)

Η κύρια διαγώνιος του S περιέχει τις τιμές 11.2245 και 4.9000. Οι ιδιοτιμές του πίνακα MTM είναι οι 125.9902 και 24.0098. Παρατηρούμε ότι οι τιμές 11.2245 και 4.9000 που βρίσκονται στην κύρια διαγώνιο του πίνακα S είναι οι τετραγωνικές ρίζες των τιμών 125.9902 και 24.0098 αντίστοιχα.

Παράδειγμα 8.8

Στο προηγούμενο παράδειγμα είδαμε την παραγοντοποίηση ενός τετραγωνικού πίνακα. Έστω τώρα ο πίνακας M=(123456) διαστάσεων 3×2. Εφαρμόζοντας την παραγοντοποίηση ιδιαζουσών τιμών έχουμε:

M=(-0.22980.88350.4082-0.52470.2408-0.8165-0.8196-0.40190.4082)(9.5255000.514300)(-0.6196-0.7849-0.78490.6196) (8.34)

Ο αναγνώστης μπορεί να επιβεβαιώσει ότι οι τιμές 9.5255 και 0.5143 είναι οι τετραγωνικές ρίζες των ιδιοτιμών του πίνακα:

MTM=(135246)(123456)=(35444456) (8.35)

Ο πίνακας S, όπως έχει αναφερθεί, περιέχει τις ιδιάζουσες τιμές του M (που προκύπτουν από τις ιδιοτιμές του MTM) στην κύρια διαγώνιο. Οι ιδιάζουσες τιμές ενός πίνακα έχουν παρόμοια φυσική σημασία με αυτή των ιδιοτιμών. Αν ο πίνακας M είναι συμμετρικός, οι απόλυτες τιμές των ιδιοτιμών εκφράζουν το μέγεθος της συρρίκνωσης ή της επέκτασης των ιδιοδιανυσμάτων. Έστω λ μία ιδιοτιμή του M και v το μοναδιαίο ιδιοδιάνυσμα77Για τη συνέχεια δε θα χρησιμοποιείται ο συμβολισμός v¯ για να δηλώσει μοναδιαίο διάνυσμα. Θα υπάρχει ειδική αναφορά στο κείμενο αν κάποιο διάνυσμα είναι μοναδιαίο ή όχι. που αντιστοιχεί στην ιδιοτιμή λ.

Ισχύει ότι: Mv = λv = |λ|v = |λ| (αφού το v είναι μοναδιαίο και επομένως το μέτρο του ισούται με τη μονάδα). Έστω λk η ιδιοτιμή του πίνακα M με τη μεγαλύτερη απόλυτη τιμή και vk το μοναδιαίο ιδιοδιάνυσμα που αντιστοιχεί στην λk. Τότε, το vk προσδιορίζει τη διεύθυνση ως προς την οποία η επίδραση του M μεγιστοποιείται. Αυτό συμβαίνει διότι η ποσότητα Mv μεγιστοποιείται όταν θέσουμε λ = λk και v = vk. Αντικαθιστώντας τις τιμές αυτές έχουμε:

Mvk=|λk| (8.36)

Έστω M πίνακας διαστάσεων n×m. Ο πίνακας MTM είναι συμμετρικός και επομένως είναι ορθοκανονικά διαγωνιοποιήσιμος σύμφωνα με το Θεώρημα 8.3. Άρα, μπορούμε να βρούμε n ορθοκανονικά μοναδιαία ιδιοδιανύσματα v1,v2,,vn που αντιστοιχούν στις n ιδιοτιμές λ1,λ2,,λn. Για κάθε ιδιοτιμή λi και ιδιοδιάνυσμα vi (που αντιστοιχεί στην λi) ισχύει ότι:

Mvi2 =(Mvi)T(Mvi) από τον ορισμό του μέτρου
=viT(MTMvi) από τον ορισμό του ανάστροφου γινομένου
=viTλivi το $\lambda^{\prime}_{i}$ είναι ιδιοτιμή του $M^{T}\cdotM$
=λi το $v^{\prime}_{i}$ είναι μοναδιαίο

Από την παραπάνω σχέση προκύπτει ότι οι ιδιοτιμές του πίνακα MTM δεν μπορεί να είναι αρνητικοί αριθμοί, αφού ισχύει ότι Mvi20. Για κάθε ιδιοτιμή λi του πίνακα MTM υπάρχει μία ιδιάζουσα τιμή σi = λi. Με βάση την προηγούμενη σχέση, η ιδιάζουσα τιμή σi ισούται με το μέτρο του γινομένου Mvi. Έστω τώρα σk η μεγαλύτερη ιδιάζουσα τιμή του M, που προφανώς αντιστοιχεί στη μεγαλύτερη ιδιοτιμή του πίνακα MTM, και vk το σντίστοιχο μοναδιαίο ιδιοδιάνυσμα. Σύμφωνα με την προηγούμενη συζήτηση ισχύει η ακόλουθη σχέση:

Mvk=σk (8.37)

Η ομοιότητα των σχέσεων 8.36 και 8.37 είναι εμφανής. Ωστόσο, η 8.36 δείχνει τη σχέση του πίνακα M με τις ιδιοτιμές και τα ιδιοδιανύσματά του, ενώ η 8.37 συσχετίζει τον πίνακα M με τις ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα MTM. Η μέθοδος SVD στηρίζεται ακριβώς σε αυτήν την παρατήρηση.

Ας εξετάσουμε τώρα πιο προσεκτικά τις ιδιότητες των πινάκων U, S και V της σχέσης 8.32. Θα ξεκινήσουμε από τον πίνακα S για τον οποίο γνωρίζουμε ότι είναι διαγώνιος και περιέχει τις ιδιάζουσες τιμές του M σε φθίνουσα διάταξη. Το ακόλουθο θεώρημα συνδέει το βαθμό του πίνακα με το πλήθος των μη μηδενικών ιδιαζουσών τιμών.

Θεώρημα 8.4.

Αν r είναι ο αριθμός των μη μηδενικών ιδιαζουσών τιμών ενός πίνακα M διαστάσεων n×m, τότε ο βαθμός του M ισούται με r.


Επομένως, αναμένουμε ότι ο αριθμός των μη μηδενικών στοιχείων στην κύρια διαγώνιο του πίνακα S είναι ίσος με το βαθμό του πίνακα M, δηλαδή με το μέγιστο αριθμό των γραμμικά ανεξάρτητων γραμμών. Ας δούμε τι συμβαίνει με τους πίνακες U και V. Οι στήλες του πίνακα U καλούνται αριστερά ιδιάζοντα διανύσματα (left singular vectors) και οι στήλες του V ονομάζονται δεξιά ιδιάζοντα διανύσματα (right singular vectors). Πιο συγκεκριμένα, έστω v1, …, vr είναι τα μοναδιαία ιδιοδιανύσματα του πίνακα MTM και λ1, …, λr οι αντίστοιχες ιδιοτιμές, όπου λ1 λ2 λr. Από κάθε ιδιοτιμή του MTM προκύπτει μία ιδιάζουσα τιμή του M: σi = λi, 1ir. Προφανώς ισχύει ότι: σ1 σ2 σr.

Αφού ο βαθμός του M είναι r ισχύει ότι rmin{n,m}. Εφόσον τα διανύσματα v1, …, vr είναι ορθοκανονικά, τα διανύσματα Mv1, …, Mvr είναι επίσης ορθοκανονικά, και μάλιστα σύμφωνα με τη θεωρία, αποτελούν βάση του χώρου που παράγεται από τις στήλες του πίνακα M. Για κάθε διάνυσμα vi όπου 1ir ορίζουμε το διάνυσμα ui σύμφωνα με τον ακόλουθο τύπο:

ui=1MviMviui=1σiMviMvi=σiui (8.38)

Η παραπάνω σχέση δηλώνει ότι και τα διανύσματα ui, 1ir είναι ορθοκανονικά και αποτελούν επίσης μία βάση του χώρου που παράγεται από τις στήλες του πίνακα M. Στη συνέχεια, επεκτείνουμε το σύνολο {u1,,ur} στο σύνολο {u1,,un} και το σύνολο {v1,,vr} στο σύνολο {v1,,vm} έτσι ώστε τα ui να αποτελούν βάση του χώρου n και τα vi να αποτελούν βάση του χώρου m. Στη συνέχεια κατασκευάζουμε τους ορθοκανονικούς πίνακες U και V που περιέχουν ως στήλες τα ορθοκανονικά διανύσματα ui και vi αντίστοιχα. Θα δείξουμε τώρα ότι MV=US.

MV=[Mv1Mv2Mvr00m-r]=[σ1u1σ2u2σrur00m-r] (8.39)
US=[u1u2urun]S=[σ1u1σ2u2σrur00m-r] (8.40)

Από τις σχέσεις 8.39 και 8.40 είναι προφανές ότι MV = US. Ο πίνακας V είναι ορθοκανονικός και επομένως V-1 = VT. Επομένως, πολλαπλασιάζοντας τα δύο μέλη με VT παίρνουμε ότι M=USVT. Η παραπάνω μεθοδολογία μας επιτρέπει να προσδιορίσουμε τους πίνακες U, S και V έτσι ώστε η παραγοντοποίηση ιδιαζουσών τιμών να είναι πάντοτε εφικτή για οποιονδήποτε πίνακα M, ανεξαρτήτως διαστάσεων.

8.2.5 Προσέγγιση Πίνακα

Ας εξετάσουμε στη συνέχεια μία πολύ σημαντική ιδιότητα της παραγοντοποίησης SVD. Όπως έχει αναφερθεί, αν ο πίνακας M έχει διαστάσεις m×n, τότε ο πίνακας U είναι m×m, ο S είναι m×n και ο V είναι n×n. Επίσης, έχουμε δει ότι ο αριθμός των μη μηδενικών ιδιαζουσών τιμών του M (που βρίσκονται στην κύρια διαγώνιο του S), ισούται με το βαθμό του πίνακα M. Έστω τώρα ότι εκτελούμε τις ακόλουθες ενέργειες επιλέγοντας έναν ακέραιο αριθμό kr:

  • διατηρούμε τις k μεγαλύτερες ιδιάζουσες τιμές του M και θέτουμε τις υπόλοιπες r-k ίσες με μηδέν στον πίνακα S,

  • διατηρούμε τις πρώτες k στήλες του πίνακα U και θέτουμε τις υπόλοιπες n-r στήλες σε μηδέν, και τέλος

  • διατηρούμε τις πρώτες k γραμμές του πίνακα VT και θέτουμε τις υπόλοιπες m-r στήλες σε μηδέν.

Σχήμα 8.1: Προσέγγιση πίνακα.

Η παραπάνω διαδικασία απεικονίζεται στο Σχήμα 8.1. Εφόσον ισχύει ότι kr και rmin{n,m} τότε προφανώς οι ποσότητες r-k, n-k και m-k θα είναι πάντοτε θετικές ή μηδέν. Το αποτέλεσμα των παραπάνω ενεργειών είναι να προκύψουν τρεις νέοι πίνακες, οι Uk, Sk και Vk, διαστάσεων m×k, k×k και k×n αντίστοιχα. Άρα, πολλαπλασιάζοντας τους τρεις πίνακες προκύπτει ο πίνακας M~:

M~=UkSkVkT (8.41)

Ο πίνακας M~ έχει διαστάσεις m×n (όπως και ο M). Ωστόσο, ο βαθμός του πίνακα M~ είναι k, ενώ του M είναι r, όπου kr. Τι σχέση έχουν όμως οι πίνακες M~ και M; Εάν διατηρήσουμε όλες τις μη μηδενικές ιδιάζουσες τιμές του M, τότε προφανώς M~ = M. Η διατήρηση όμως μερικών μόνο (k) ιδιαζουσών τιμών οδηγεί στην κατασκευή ενός πίνακα M~ ο οποίος έχει τη μικρότερη δυνατή απόσταση από τον M με βάση τη νόρμα Frobenius 88Ferdinand Georg Frobenius (26 Οκτωβρίου 1849 - 3 Αυγούστου 1917). Γερμανός μαθηματικός που έγινε γνωστός κυρίως για τη συνεισφορά του στις διαφορικές εξισώσεις και τη θεωρία ομάδων. Επίσης, ήταν ο πρώτος που έχει δώσει πλήρη απόδειξη του θεωρήματος Cayley-Hamilton., που ορίζεται ως εξής:

M-M~F=i=1nj=1m|M[i,j]-M~[i,j]|2 (8.42)

Η σημαντικότητα της παραγοντοποίησης SVD γίνεται περισσότερο προφανής εάν αναλύσουμε τη σχέση M=USVT. Αν εκφράσουμε την παραπάνω σχέση με τη μορφή αθροίσματος (με εφαρμογή του ορισμού του πολλαπλασιασμού πινάκων) έχουμε:

M=σ1u1v1T+σ2u2v2T++σrurvrT (8.43)

Κάθε γινόμενο uiviT είναι ένας πίνακας Mi διαστάσεων m×n, όπως ακριβώς και ο M. Ο κάθε πίνακας Mi συμμετέχει στη σύνθεση του πίνακα M με κάποιο βάρος που προσδιορίζεται από την ιδιάζουσα τιμή σi. Εφόσον τα διανύσματα ui και viT είναι μοναδιαία, είναι προφανές ότι η επίδραση του πίνακα Mi καθορίζεται από τον παράγοντα σi. Επομένως, όσο μεγαλύτερη η τιμή του σi τόσο μεγαλύτερη και η συμμετοχή του Mi στη σύνθεση του αρχικού πίνακα M. Εάν κρατήσουμε τις k μεγαλύτερες ιδιάζουσες τιμές (και θέσουμε τις υπόλοιπες στο μηδέν) θα έχουμε μία προσέγγιση του πίνακα M η ποιότητα της οποίας εξαρτάται από το k και από τις τιμές σ1 έως σk.

Στη βιβλιογραφία, πολλές φορές συναντούμε έναν ισοδύναμο ορισμό για την παραγοντοποίηση SVD, όπου οι πίνακας U, S και VT έχουν διαστάσεις m×r, r×r και r×n αντίστοιχα, όπου r είναι ο βαθμός του πίνακα M. Η αναπαράσταση αυτή θεωρείται οικονομικότερη από πλευράς χώρου αποθήκευσης, καθώς για το βαθμό του πίνακα M ισχύει ότι rmin{m,n}, οπότε ο πίνακας S δε χρειάζεται να έχει περισσότερες από r γραμμές και στήλες, διότι τα στοιχεία στις θέσεις αυτές θα είναι μηδενικά. Αντίστοιχα, ο πίνακας U δε χρειάζεται να έχει πάνω από r στήλες και ο VT πάνω από r γραμμές.

8.3 Η Μέθοδος LSA

Μία από τις εφαρμογές της μεθόδου SVD είναι η αναπαράσταση εγγράφων κειμένου. Στην ουσία, η μέθοδος SVD μας δίνει το μαθηματικό υπόβαθρο για τη μέθοδο της Λανθάνουσας Σημασιολογικής Ανάλυσης (Latent Semantic Analysis) των εγγράφων, γνωστή στη διεθνή βιβλιογραφία ως LSA. Η μέθοδος προσπαθεί να επιλύσει τρία βασικά προβλήματα που χαρακτηρίζουν και τα τρία μοντέλα ανάκτησης που μελετήσαμε (Boolean, Διανυσματικό, Πιθανοκρατικό). Τα προβλήματα αυτά είναι η συνωνυμία των όρων, η πολυσημία των όρων και η εξάρτηση μεταξύ των όρων. Η εφαρμογή της μεθόδου LSA έχει ως αποτέλεσμα να βελτιωθεί η αποτελεσματικότητα των συστημάτων, πετυχαίνοντας καλύτερες τιμές ανάκλησης και ακρίβειας.

Για τη συνέχεια του κεφαλαίου θα θεωρήσουμε ότι έχουμε στη διάθεσή μας τον πίνακα M, διαστάσεων m×n, όπου m είναι το πλήθος των όρων και n το πλήθος των εγγράφων της συλλογής. Επομένως, η j-οστή στήλη του M είναι το διάνυσμα του j-οστού εγγράφου. Το κελί M[i,j] του πίνακα M περιέχει το βάρος του i-οστού όρου στο j-οστό έγγραφο, που προσδιορίζεται σύμφωνα με τη συζήτηση που έχει προηγηθεί στο Κεφάλαιο 4. Εδώ θα υποθέσουμε ότι το βάρος ενός όρου σε ένα έγγραφο προσδιορίζεται από το πλήθος των εμφανίσεων του όρου στο έγγραφο (συχνότητα εμφάνισης). Επίσης, για απλότητα στην παρουσίαση παραλείπουμε όλους τους όρους (π.χ., τα άρθρα, τους συνδέσμους, τα ρήματα) και διατηρούμε μόνο τα ουσιαστικά από τη γνωστή συλλογή εγγράφων που περιλαμβάνει πληροφορίες για τους πλανήτες και τους κομήτες. Επίσης, όλα τα ουσιαστικά μετατρέπονται στον ενικό αριθμό και στην ονομαστική πτώση. Μετά την προεπεξεργασία των εγγράφων, η συλλογή που προκύπτει δίνεται στο Σχήμα 8.2.

d1: κομήτης Χάλλεϋ εβδομήντα έξι χρόνος
d2: κομήτης Χάλλεϋ αστρονόμος Έντμοντ Χάλλεϋ
d3: κομήτης ελλειπτική τροχιά
d4: πλανήτης Άρης δύο φυσικός δορυφόρος Δείμος Φόβος
d5: πλανήτης Δίας εξήντα τρεις γνωστός φυσικός δορυφόρος
d6: Ήλιος αστέρας
d7: Άρης πλανήτης ηλιακό σύστημα
Σχήμα 8.2: Συλλογή εγγράφων.
d1 d2 d3 d4 d5 d6 d7
κομήτης 1 1 1 0 0 0 0
Χάλλεϋ 1 2 0 0 0 0 0
εβδομήντα 1 0 0 0 0 0 0
έξι 1 0 0 0 0 0 0
χρόνος 1 0 0 0 0 0 0
αστρονόμος 0 1 0 0 0 0 0
Έντμοντ 0 1 0 0 0 0 0
ελλειπτική 0 0 1 0 0 0 0
τροχιά 0 0 1 0 0 0 0
πλανήτης 0 0 0 1 1 0 1
Άρης 0 0 0 1 0 0 1
δύο 0 0 0 1 0 0 0
φυσικός 0 0 0 1 1 0 0
δορυφόρος 0 0 0 1 1 0 0
Δείμος 0 0 0 1 0 0 0
Φόβος 0 0 0 1 0 0 0
Δίας 0 0 0 0 1 0 0
εξήντα 0 0 0 0 1 0 0
τρεις 0 0 0 0 1 0 0
γνωστός 0 0 0 0 1 0 0
Ήλιος 0 0 0 0 0 1 0
αστέρας 0 0 0 0 0 1 0
ηλιακό 0 0 0 0 0 0 1
σύστημα 0 0 0 0 0 0 1
Σχήμα 8.3: Ο πίνακας M όρων-εγγράφων.

Ο πίνακας M όρων-εγγράφων που προκύπτει από τη συλλογή έχει διαστάσεις 24 × 7 και δίνεται στο Σχήμα 8.3. Στη συνέχεια, εφαρμόζουμε την παραγοντοποίηση SVD ώστε να εκφράσουμε τον πίνακα M ως γινόμενο των πινάκων U, S και VT. Για το συγκεκριμένο παράδειγμα χρησιμοποιήθηκε η εφαρμογή MATLAB, η οποία εμπεριέχει πολλές ευκολίες για την επεξεργασία πινάκων, μεταξύ αυτών και την παραγοντοποίηση SVD. Επειδή ο βαθμός του πίνακα M είναι ίσος με 799Αυτό μπορούμε να το διαπιστώσουμε χρησιμοποιώντας την εφαρμογή MATLAB ή εφαρμόζοντας μεθόδους γραμμικής άλγεβρας., δεν έχει νόημα να χρησιμοποιήσουμε περισσότερες από 7 γραμμές για τον πίνακα S, διότι θα περιέχουν μόνο μηδενικά στοιχεία. Επομένως, ο πίνακας U έχει 24 γραμμές και 7 στήλες, ο πίνακας S έχει 7 γραμμές και 7 στήλες και ο πίνακας VT έχει 7 γραμμές και 7 στήλες. Οι πίνακες U, S και VT έχουν ως εξής:

U=(00.512700.333300.2654000.70040-0.33330-0.0971000.187700.33330-0.3626000.187700.33330-0.3626000.187700.33330-0.3626000.25640-0.333300.1327000.25640-0.333300.1327000.068700.333300.4953000.068700.333300.49530-0.50530-0.108900.275500-0.30640-0.457900.157900-0.21290-0.22280-0.319500-0.411800.12620-0.202000-0.411800.12620-0.202000-0.21290-0.22280-0.319500-0.21290-0.22280-0.319500-0.198900.349000.117600-0.198900.349000.117600-0.198900.349000.117600-0.198900.349000.117600000000-0.7071000000-0.7071-0.09350-0.235100.477500-0.09350-0.235100.477500) (8.44)
S=(3.268200000003.076400000002.100300000001.732100000001.705200000001.592500000001.4142) (8.45)
VT=(000-0.6958-0.65000-0.30560.57740.78870.21130000000-0.46800.73300-0.49370.5774-0.57740.57740000000-0.54490.200500.8142-0.57740.21130.78870.000000000000-1.00000) (8.46)

Με βάση τα όσα έχουμε αναφέρει για την παραγοντοποίηση SVD, ο πίνακας U περιέχει τα ιδιοδιανύσματα του πίνακα MMT. Στην πράξη, για την περίπτωση μας, ο πίνακας U περιγράφει τη μετάβαση από τους όρους (terms) στις έννοιες (concepts). Ο πίνακας S περιγράφει τη συνεισφορά της κάθε έννοιας (με τη χρήση των ιδιαζουσών τιμών) και τέλος ο πίνακας VT περιγράφει τη μετάβαση από τις έννοιες στα έγγραφα.

Εάν διατηρήσουμε όλες τις ιδιάζουσες τιμές του M και εκτελέσουμε τον πολλαπλασιασμό USVT τότε προφανώς θα προκύψει ο αρχικός πίνακας M. Στόχος μας είναι να μειώσουμε τη διαστασιμότητα του χώρου και να μεταβούμε από το χώρο των όρων στο χώρο των εννοιών. Αυτό μπορεί να γίνει διατηρώντας τις k μεγαλύτερες ιδιάζουσες τιμές του M και εκτελώντας προβολή των διανυσμάτων του M σε ένα νέο σύστημα συντεταγμένων. Από τον πίνακα U διατηρούμε τις k πρώτες στήλες του και προκύπτει ο πίνακας Uk. Αρχικά, όπως προσδιορίζεται από τον πίνακα M, το κάθε διάνυσμα εγγράφου αποτελείται από m διαστάσεις (όσοι είναι και οι όροι της συλλογής). Για να μεταβούμε στις km διαστάσεις πολλαπλασιάζουμε από αριστερά τον πίνακα M με τον ανάστροφο του Uk. Πιο συγκεκριμένα, ο πίνακας Mk που περιέχει ως στήλες τα διανύσματα των εγγράφων στις k διαστάσεις προσδιορίζεται ως εξής:

Mk=UkTM (8.47)

Έστω ότι αποφασίζουμε να διατηρήσουμε τις k = 3 μεγαλύτερες ιδιάζουσες τιμές του M, που σύμφωνα με τον πίνακα S είναι οι 3.2682, 3.0764 και 2.1003 (οι τρεις πρώτες τιμές στην κύρια διαγώνιο του S). Ταυτόχρονα, διατηρούμε τις πρώτες στήλες του πίνακα U, και λαμβάνουμε τον πίνακα U3 που έχει τη μορφή:

U3=(00.5127000.7004000.1877000.1877000.1877000.2564000.2564000.0687000.06870-0.50530-0.1089-0.30640-0.4579-0.21290-0.2228-0.411800.1262-0.411800.1262-0.21290-0.2228-0.21290-0.2228-0.198900.3490-0.198900.3490-0.198900.3490-0.198900.3490000000-0.09350-0.2351-0.09350-0.2351) (8.48)

Στη συνέχεια, εφαρμόζοντας την εξίσωση 8.47 λαμβάνουμε τον πίνακα M3 ο οποίος περιέχει τα τελικά διανύσματα των εγγράφων της συλλογής:

M3=(000-2.2739-2.12440-0.99871.77612.42630.6501000-0.0000000-0.98291.53940-1.0369) (8.49)

Αυτό που έχουμε πετύχει μέχρι στιγμής είναι να μετατρέψουμε τα διανύσματα των εγγράφων από το χώρο των όρων στο χώρο των εννοιών. Για την ακρίβεια, αποφασίσαμε να κρατήσουμε τις τρεις μεγαλύτερες ιδιάζουσες τιμές του πίνακα M με αποτέλεσμα χρησιμοποιώντας τη σχέση 8.47 να μεταβούμε στο χώρο των τριών διαστάσεων. Με βάση όμως αυτά που έχουμε μελετήσει σε προηγούμενα κεφάλαια, ένα σύστημα ανάκτησης χρησιμοποιείται κυρίως για την επεξεργασία ερωτημάτων με στόχο την κάλυψη των πληροφοριακών αναγκών των χρηστών. Στην περίπτωση που διατηρήσουμε τον αρχικό πίνακα M, ένας αντεστραμμένος κατάλογος θα μας βοηθήσει στην αποδοτική επεξεργασία ενός ερωτήματος: αναζητούνται οι λίστες εμφανίσεων των όρων που περιέχονται στο ερώτημα, βαθμολογούνται τα αντίστοιχα έγγραφα και τα k έγγραφα με το μεγαλύτερο βαθμό επιστρέφονται στο χρήστη (για περισσότερες λεπτομέρειες ο αναγνώστης μπορεί να ανατρέξει στο Κεφάλαιο 6). Στην περίπτωση της μεθόδου LSA, δε διατηρείται ο αρχικός πίνακας, ενώ τα διανύσματα των εγγράφων έχουν αλλάξει μορφή. Επομένως, εύλογα τίθεται το ερώτημα σχετικά με τον τρόπο επεξεργασίας ενός ερωτήματος χρησιμοποιώντας τη μέθοδο LSA.

Έστω q ένα ερώτημα που αναφέρει κάποιους όρους. Το ερώτημα μπορεί να αναπαρασταθεί ως ένα διάνυσμα στις m διαστάσεις, όπου m το πλήθος των όρων της συλλογής. Για παράδειγμα, το ερώτημα που αναζητά πληροφορίες για τον κομήτη του Χάλλεϋ θα έχει δύο άσσους στις θέσεις που αντιστοιχούν στους όρους κομήτης και Χάλλεϋ και θα έχει τη μορφή:

q=(11000) (8.50)

Παρατηρήστε ότι το διάνυσμα του ερωτήματος είναι ορισμένο στις 24 διαστάσεις ενώ τα διανύσματα των εγγράφων βρίσκονται στις 3 διαστάσεις. Επομένως, θα πρέπει να μετασχηματίσουμε το διάνυσμα του ερωτήματος έτσι ώστε να είναι συγκρίσιμο με τα διανύσματα των εγγράφων. Για το λόγο αυτό χρησιμοποιείται ο ακόλουθος μετασχηματισμός ο οποίος προβάλει το διάνυσμα q στο χώρο των k διαστάσεων που ορίζεται από τις στήλες του πίνακα Uk:

qk=Sk-1UkTq (8.51)

Παρατηρούμε ότι το διάνυσμα του ερωτήματος πολλαπλασιάζεται από αριστερά και με τον πίνακα Uk και με τον πίνακα Sk-1, έτσι ώστε να ληφθούν υπόψη τα βάρη των θεμάτων που υπάρχουν στη συλλογή και να προσαρμοστεί ανάλογα και το διάνυσμα του ερωτήματος.
Η εφαρμογή της σχέσης 8.51 στο ερώτημα που αναφέρεται στον κομήτη του Χάλλεϋ δίνει ότι:

q3=(01.2131) (8.52)

και στη συνέχεια, μπορεί να εφαρμοστεί η συνάρτηση ομοιότητας του συνημιτόνου (ή οποιαδήποτε άλλη συνάρτηση ομοιότητας) για τον προσδιορισμό των στηλών του πίνακα M3 που είναι πλησιέστερα στο διάνυσμα q3.

Έχει αναφερθεί ότι ένα από τα πλεονεκτήματα της μεθόδου LSA είναι ότι βρίσκει συσχετίσεις μεταξύ των όρων της συλλογής με βάση τις κοινές εμφανίσεις των όρων στα έγγραφα. Ως αποτέλεσμα της συσχέτισης αυτής είναι το ότι ένα έγγραφο μπορεί να ανακτηθεί ακόμη και αν δεν περιέχει κανέναν όρο του ερωτήματος! Για παράδειγμα, θεωρήστε το ερώτημα Q που αποτελείται μόνο από τον όρο Χάλλεϋ. Το αρχικό διάνυσμα του ερωτήματος θα έχει έναν άσσο στη θέση του Χάλλεϋ (δεύτερη θέση του διανύσματος). Μετασχηματίζοντας το διάνυσμα στις 3 διαστάσεις έχουμε ότι:

Q3=(00.7004) (8.53)

Παρατηρώντας τα διανύσματα των εγγράφων του πίνακα M3 είναι προφανές ότι η απόσταση μεταξύ του Q3 και των τριών πρώτων στηλών του M3 (που αντιστοιχούν στα διανύσματα των εγγράφων d1, d2 και d3) θα είναι μηδέν (λόγω της χρήσης της συνάρτησης του συνημιτόνου). Για τα d1 και d2 δεν υπάρχει κάποια έκπληξη, καθώς και τα δύο έγγραφα περιέχουν τον όρο Χάλλεϋ. Αντίθετα, το d3 δεν περιέχει τον όρο Χάλλεϋ. Επειδή όμως το d3 περιέχει τον όρο κομήτης ο οποίος εμφανίζεται μαζί με τον όρο Χάλλεϋ σε άλλα έγγραφα θα υπάρχει κάποια ομοιότητα με το Q3.

Για την καλύτερη κατανόηση των εννοιών θα εξετάσουμε και ένα ακόμη παράδειγμα με λιγότερους όρους. Έστω ο πίνακας όρων-εγγράφων που δίνεται στον Πίνακα 8.1 ο οποίος αποτελείται από m = 10 όρους (γραμμές) και n = 6 έγγραφα (στήλες). Όπως και προηγουμένως, θεωρούμε ότι στο κελί που προσδιορίζεται από την i-οστή γραμμή και τη j-οστή στήλη αποθηκεύεται η συχνότητα εμφάνισης του i-οστού όρου στο j-οστό έγγραφο της συλλογής.

d1 d2 d3 d4 d5 d6
Ιντεφίξ 2 1 1 0 0 0
Αστερίξ 3 2 1 0 3 0
μαρμίτα 0 2 2 0 4 0
Τομ 0 0 1 3 0 2
Τζέρυ 0 0 0 2 0 3
ποντίκι 0 1 0 1 0 0
Καίσαρας 1 0 1 1 1 1
Πανοραμίξ 2 2 0 1 0 0
γάτα 0 1 0 0 0 1
Οβελίξ 1 2 0 1 1 0
Πίνακας 8.1: Ο πίνακας M όρων-εγγράφων.
d1 d2 d3 d4 d5 d6
d1 0 0.2632 0.5133 0.8853 0.5143 0.9408
d2 0.2632 0 0.4322 0.8279 0.2936 0.9408
d3 0.5133 0.4322 0 0.6464 0.1835 0.7261
d4 0.8853 0.8279 0.6464 0 0.9038 0.1609
d5 0.5143 0.2936 0.1835 0.9038 0 0.9503
d6 0.9408 0.9408 0.7261 0.1609 0.9503 0
Πίνακας 8.2: Αρχικές αποστάσεις συνημιτόνου μεταξύ εγγράφων.
d1 d2 d3 d4 d5 d6
d1 0 0.0002 0.0512 0.8479 0.0002 0.9357
d2 0.0002 0 0.0457 0.8303 0.0007 0.9180
d3 0.0512 0.0457 0 0.5435 0.0579 0.6238
d4 0.8479 0.8303 0.5435 0 0.8684 0.0039
d5 0.0002 0.0007 0.0579 0.8684 0 0.9565
d6 0.9357 0.9180 0.6238 0.0039 0.9565 0
Πίνακας 8.3: Αποστάσεις συνημιτόνου μεταξύ εγγράφων μετά την εφαρμογή LSA στις δύο διαστάσεις.

Ας εξετάσουμε τώρα την ομοιότητα των εγγράφων πριν και μετά την εφαρμογή της μεθόδου LSA. Στον Πίνακα 8.2 δίνεται ο πίνακας των αποστάσεων μεταξύ όλων των εγγράφων χρησιμοποιώντας τον αρχικό πίνακα M όρων-εγγράφων. Η ομοιότητα μεταξύ δύο εγγράφων καθορίζεται με βάση την ομοιότητα συνημιτόνου. Υπενθυμίζεται ότι για δύο διανύσματα a και b η ομοιότητα συνημιτόνου δίνεται από την ακόλουθη έκφραση:

Scosine(a,b)=cos(θ)=ab|a||b| (8.54)

όπου θ είναι η γωνία μεταξύ των δύο διανυσμάτων. Με βάση τον παραπάνω τύπο, εάν δύο έγγραφα παρουσιάζουν ομοιότητα -1 τότε θεωρούνται εντελώς ανόμοια, ενώ αν παρουσιάζουν ομοιότητα 1 τότε είναι εντελώς όμοια. Μετατρέπουμε το μέτρο ομοιότητας σε μάτρο απόστασης αφαιρώντας την τιμή που δίνει ο παραπάνω τύπος από τη μονάδα. Έτσι, η απόσταση μεταξύ των εγγράφων που περιγράφονται από τα διανύσματα a και b δίνεται από τη σχέση:

Dcosine(a,b)=1-Scosine(a,b)=ab|a||b| (8.55)

Οι αποστάσεις του Πίνακα 8.2 έχουν υπολογιστεί με βάση το μέτρο Dcosine. Επομένως, εάν μία τιμή είναι μηδέν τότε τα δύο έγγραφα θεωρούνται εντελώς όμοια. Όσο μεγαλώνει η τιμή αυτή τόσο πιο ανόμοια είναι τα έγγραφα. Είναι προφανές ότι ένα έγγραφο είναι εντελώς όμοιο με τον εαυτό του, και αυτός είναι ο λόγος που τα στοιχεία στην κύρια διαγώνιο είναι μηδενικά. Παρατηρήστε επίσης ότι ο πίνακας είναι συμμετρικός.

Μετά την εφαρμογή της μεθόδου LSA και τη μείωση του αριθμού των διαστάσεων σε δύο προκύπτει ο ακόλουθος πίνακας που περιέχει ως στήλες τα νέα διανύσματα των εγγράφων στο χώρο των δύο διαστάσεων:

M2=(3.36753.89512.32671.22274.60440.86080.57940.5990-0.3539-3.65150.8910-3.5999) (8.56)

ενώ στον Πίνακα 8.3 δίνονται οι νέες αποστάσεις μεταξύ των εγγράφων. Παρατηρώντας τους Πίνακες 8.2 και 8.3 βλέπουμε ότι οι αποστάσεις έχουν διαφοροποιηθεί αρκετά. Πιο συγκεκριμένα, ενώ αρχικά το έγγραφο d5 είχε απόσταση 0.5143 από το d1, μετά την εφαρμογή της μεθόδου LSA η απόσταση έχει γίνει μόλις 0.0002 με αποτέλεσμα τα d2 και d5 να είναι πλέον τα πλησιέστερα έγγραφα στο d1.

Στη συνέχεια ας δούμε τι συμβαίνει κατά την επεξεργασία ερωτημάτων. Έστω τα ερωτήματα x = {Ιντεφίξ, Αστερίξ, μαρμίτα, Πανοραμίξ, Οβελίξ}, y = {Τομ, Τζέρυ}, και z = {ποντίκι, γάτα}. Για κάθε ένα από τα ερωτήματα αυτά προσδιορίζουμε τις αποστάσεις συνημιτόνου προς όλα τα έγγραφα της συλλογής πριν και μετά την εφαρμογή της μεθόδου LSA. Τα αποτελέσματα συνοψίζονται στους Πίνακες 8.4 και 8.5.

d1 d2 d3 d4 d5 d6
x 0.1792 0.0766 0.3675 0.8882 0.3115 1.0000
y 1.000 1.000 0.7500 0.1161 1.0000 0.0871
z 1.000 0.6756 1.0000 0.8232 1.0000 0.8174
Πίνακας 8.4: Αποστάσεις συνημτόνου μεταξύ ερωτημάτων και εγγράφων πριν την εφαρμογή LSA.
d1 d2 d3 d4 d5 d6
x 0.0010 0.0020 0.0665 0.8929 0.0003 0.9811
y 0.9967 0.9789 0.6810 0.0111 1.0174 0.0019
z 0.5051 0.4897 0.2560 0.0659 0.5232 0.1010
Πίνακας 8.5: Αποστάσεις συνημτόνου μεταξύ ερωτημάτων και εγγράφων μετά την εφαρμογή LSA.

8.4 Σύνοψη και Περαιτέρω Μελέτη

Στο κεφάλαιο αυτό, μελετήθηκαν οι βασικές έννοιες και τεχνικές ανάλυσης του περιεχομένου των εγγράφων με τη βοήθεις της Λανθάνουσας Σημασιολογικής Ανάλυσης (LSA). Με την τεχνική αυτή είναι δυνατή η σημαντική μείωση των διαστάσεων των διανυσμάτων των εγγράφων κάτι το οποίο συνεπάγεται την πιο γρήγορη επεξεργασία τους. Επίσης, με την τεχνική LSA επιτυγχάνεται η εύρεση των θεμάτων που υπάρχουν στη συλλογή κι έτσι μειώνονται οι αρνητικές επιπτώσεις των φαινομένων της πολυσημίας και της συνωνυμίας.

Η μέθοδος LSA στηρίζεται στην παραγοντοποίηση SVD που αποτελεί ένα πολύ σημαντικό αποτέλεσμα της Γραμμικής Άλγεβρας. Το θεώρημα της παραγοντοποίησης SVD αναφέρει ότι ένας οποιοσδήποτε πίνακας M μπορεί να εκφραστεί ως γινόμενο USVT, όπου U και V είναι ορθοκανονικοί πίνακες και S διαγώνιος πίνακας. Οι στήλες του U είναι τα μοναδιαία ιδιοδιανύσματα του πίνακα MMT, οι στήλες του V είναι τα μοναδιαία ιδιοδιανύσματα του MTM και η κύρια διαγώνιος του S περιέχει τις ιδιάζουσες τιμές του M σε φθίνουσα διάταξη. Επιλέγοντας τις k μεγαλύτερες ιδιάζουσες τιμές μπορούμε να μειώσουμε τη διαστασιμότητα του χώρου και να μετασχηματίσουμε τα διανύσματα των εγγράφων από το χώρο των όρων στο χώρο των εννοιών.

Προτείνουμε τον ενδιαφερόμενο αναγνώστη να μελετήσει το άρθρο [12] όπου εισάγεται η τεχνική LSA. Επίσης, προτείνουμε την μελέτη του άρθρου [33] στο οποίο αναλύεται η τεχνική LSA με χρήση πιθανοτήτων.

8.5 Ασκήσεις

  • 8.1

    Σε ποιό μαθηματικό εργαλείο βασίζεται η μέθοδος LSA;

  • 8.2

    Να περιγράψετε τα προβλήματα τα οποία προσπαθεί να επιλύσει η μέθοδος LSA.

  • 8.3

    Χρησιμοποιώντας λογισιμικό όπως R ή MATLAB να κατασκευάσετε έναν πίνακα όρων-εγγράφων και να εφαρμόσετε την παραγοντοποίηση SVD.

  • 8.4

    Με βάση τη συλλογή που χρησιμοποιήσατε στην προηγούμενη άσκηση, να μειώσετε το πλήθος των διαστάσεων σε 2 και να απεικονίσετε τα διανύσματα των εγγράφων.

  • 8.5

    Για τον ακόλουθο πίνακα όρων-εγγράφων να εφαρμόσετε LSA και να μειώσετε το πλήθος των διαστάσεων σε δύο. Στη συνέχεια, να υπολογίσετε τις ομοιότητες για όλα τα ζεύγη εγγράφων και να σχολιάσετε το αποτέλεσμα.

    d1 d2 d3 d4
    Δίας 2 1 0 0
    Κρόνος 3 3 0 0
    Κύτταρο 0 0 2 5
    Βιολογία 0 0 3 3
    DNA 0 0 2 5