Ανάκτηση Πληροφορίας

Κεφάλαιο 4Το Διανυσματικό Μοντέλο

4.1 Εισαγωγή

Στο κεφάλαιο αυτό μελετούμε το Διανυσματικό μοντέλο ανάκτησης, που χρησιμοποιείται εκτενώς στα σύγχρονα συστήματα ανάκτησης. Το Διανυσματικό μοντέλο στηρίζεται στη διανυσματική αναπαράσταση εγγράφων και ερωτημάτων ενώ η ομοιότητα ενός κειμένου και ενός ερωτήματος προσδιορίζεται με τη χρήση ειδικών μετρικών ομοιότητας. Στο Κεφάλαιο 3 μελετήσαμε το εκτεταμένο Boolean μοντέλο, που επίσης χρησιμοποιεί διανύσματα για την αναπαράσταση των εγγράφων. Ωστόσο, το Διανυσματικό μοντέλο είναι γενικότερο, πιο απλό στη χρήση του και χαρακτηρίζεται από πολύ καλή αποτελεσματικότητα.

Αρχικά δίνουμε τις βασικές έννοιες που χαρακτηρίζουν το Διανυσματικό μοντέλο, μελετώντας τους τρόπους αναπαράστασης εγγράφων και ερωτημάτων. Στη συνέχεια εξετάζονται οι μετρικές ομοιότητας που χρησιμοποιούνται και αναλύεται ο τρόπος επεξεργασίας ερωτημάτων. Τέλος αναφέρονται επεκτάσεις του απλού διανυσματικού μοντέλου που έχουν προταθεί στη βιβλιογραφία με στόχο τη βελτίωση των επιδόσεων. Τονίζεται ότι το Διανυσματικό μοντέλο προτάθηκε πριν το εκτεταμένο Boolean μοντέλο. Αυτός είναι και ο λόγος του ότι μερικές από τις τεχνικές που χρησιμοποιεί το εκτεταμένο Boolean μοντέλο αρχικά είχαν εφαρμοστεί στο Διανυσματικό μοντέλο ανάκτησης.

4.2 Βασικές Έννοιες

Το Διανυσματικό μοντέλο ανάκτησης (vector space model) προτάθηκε από τον Salton (και τους συνεργάτες του) [59, 58], έναν από τους σημαντικότερους και πρωτοπόρους ερευνητές στην επιστημονική περιοχή της ανάκτησης πληροφορίας. Κάθε έγγραφο dj της συλλογής αναπαριστάται με ένα διάνυσμα dj = (wt1,dj, wt2,dj, …, wtM,dj), όπου M είναι το πλήθος των όρων της συλλογής και wti,dj είναι το βάρος του όρου ti στο έγγραφο dj. Τονίζεται ότι η τιμή του M εξαρτάται από την προεπεξεργασία που έχουν υποστεί τα έγγραφα. Εάν έχουμε αναπαράσταση πλήρους εγγράφου, η τιμή του M θα είναι ο αριθμός όλων των μοναδικών λέξεων που εμφανίζονται σε όλα τα έγγραφα της συλλογής, ενώ εάν έχει προηγηθεί απαλοιφή άρθρων, ρημάτων και άλλων τύπων τότε η τιμή του M θα είναι σαφώς μικρότερη.

Στην πιο απλή του μορφή, το Διανυσματικό μοντέλο θεωρεί ότι τα βάρη wti,dj είναι είτε 0 είτε 1. Σε περίπτωση που ο όρος ti περιέχεται στο έγγραφο dj έχουμε wti,dj = 1, ενώ σε διαφορετική περίπτωση έχουμε wti,dj = 0. Η διανυσματική αναπαράσταση των εγγράφων γίνεται περισσότερο κατανοητή εάν κατασκευάσουμε τον πίνακα όρων-εγγράφων, τον οποίο καλούμε πίνακα D. Ο πίνακας αυτός έχει M γραμμές και N στήλες, όπου N το πλήθος των εγγράφων της συλλογής και M το πλήθος των όρων της συλλογής. Το κελί του πίνακα στη γραμμή i και τη στήλη j είναι το βάρος wti,dj του όρου ti στο έγγραφο dj 22Στη βιβλιογραφία πολλές φορές χρησιμοποιείται ο πίνακας εγγράφων-όρων που είναι ο ανάστροφος του πίνακα όρων-εγγράφων..

d1: Ο κομήτης του Χάλλεϋ μας επισκέπτεται περίπου κάθε εβδομήντα έξι χρόνια.
d2: Ο κομήτης του Χάλλεϋ ανακαλύφθηκε από τον αστρονόμο Έντμοντ Χάλλεϋ.
d3: Ένας κομήτης διαγράφει ελλειπτική τροχιά.
d4: Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το Δείμο και το Φόβο.
d5: Ο πλανήτης Δίας έχει εξήντα τρεις γνωστούς φυσικούς δορυφόρους.
d6: Ο Ήλιος είναι ένας αστέρας.
d7: Ο Άρης είναι ένας πλανήτης του ηλιακού μας συστήματος.
Σχήμα 4.1: Συλλογή εγγράφων.

Ο πίνακας όρων-εγγράφων για τη μικρή συλλογή εγγράφων του Σχήματος 4.1 δίνεται στον Πίνακα 4.1. Έχουμε θεωρήσει, για λόγους απλότητας, ότι οι όροι που μας ενδιαφέρουν και που χαρακτηρίζουν τη συλλογή εγγράφων είναι οι: κομήτης, πλανήτης, Χάλλεϋ, Άρης, Δίας, τροχιά. Ωστόσο, χωρίς πρόβλημα θα μπορούσαμε να χρησιμοποιήσουμε όλες τις λέξεις που εμφανίζονται στα έγγραφα. Κάθε στήλη του πίνακα αποτελεί το διάνυσμα για το αντίστοιχο έγγραφο. Για παράδειγμα, το διάνυσμα d1 του κειμένου d1 είναι:

d1=(1,0,1,0,0,0) (4.1)
όρος d1 d2 d3 d4 d5 d6 d7
κομήτης 1 1 1 0 0 0 0
πλανήτης 0 0 0 1 1 0 1
Χάλλεϋ 1 1 0 0 0 0 0
Άρης 0 0 0 1 0 0 1
Δίας 0 0 0 0 1 0 0
τροχιά 0 0 1 0 0 0 0
Πίνακας 4.1: Πίνακας όρων-εγγράφων με δυαδικά βάρη.

Στο παράδειγμα που μελετούμε, τα διανύσματα των εγγράφων ορίζονται στο χώρο των έξι (6) διαστάσεων. Ο αριθμός των διαστάσεων ισούται με τον αριθμό των όρων που χρησιμοποιούνται για την περιγραφή του περιεχομένου των εγγράφων. Συνήθως, ο αριθμός των όρων είναι πολύ μεγάλος, με αποτέλεσμα τα διανύσματα να ορίζονται σε χώρους πολλών διαστάσεων. Επειδή ο μεγάλος αριθμός διαστάσεων δημιουργεί προβλήματα στην αποδοτική επεξεργασία των ερωτημάτων, έχουν προταθεί τεχνικές μείωσης της διαστασιμότητας. Μία από τις τεχνικές αυτές μελετάται σε ξεχωριστό κεφάλαιο.

Η διανυσματική αναπαράσταση των εγγράφων που εξατάσαμε προηγουμένως χρησιμοποιεί δυαδικά βάρη (0 ή 1). Η χρήση δυαδικών βαρών δε λαμβάνει υπόψη τη συχνότητα εμφάνισης του όρου στο έγγραφο, ούτε τον αριθμό των εγγράφων στα οποία εμφανίζεται ο συγκεκριμένος όρος. Εάν ένας όρος εμφανίζεται πολύ συχνά σε ένα έγγραφο τότε η σημαντικότητά του για το έγγραφο αυτό θα πρέπει να είναι μεγαλύτερη από αυτήν ενός όρου που εμφανίζεται μόνο μία φορά. Επίσης, αν ένας όρος εμφανίζεται σε πολλά έγγραφα, τότε δεν αποτελεί χαρακτηριστικό ενός κειμένου. Οι δύο αυτές παρατηρήσεις οδήγησαν τους ερευνητές στη μελέτη εναλλακτικών μεθόδων προσδιορισμού των βαρών wti,dj όπου ti είναι κάποιος όρος και dj ένα έγγραφο της συλλογής. Στο Κεφάλαιο 3 μελετήσαμε έναν τρόπο προσδιορισμού βαρών για το εκτεταμένο Boolean μοντέλο ο οποίος στηρίζεται στο σχήμα tf-idf (term frequency - inverse document frequency). Η μέθοδος αυτή εφαρμόστηκε αρχικά για το Διανυσματικό μοντέλο ανάκτησης και για λόγους πληρότητας εξετάζεται συνοπτικά στη συνέχεια. Ο Πίνακας 4.2 περιέχει τα σύμβολα που χρησιμοποιούνται στη συνέχεια.

σύμβολο περιγραφή
𝒟 συλλογή εγγράφων
N πλήθος εγγράφων της συλλογής (N=|𝒟|)
𝒯 σύνολο μοναδικών όρων της συλλογής
M πλήθος όρων (M=|𝒯|)
t, ti ο όρος t, ο i-οστός όρος (ti)
d, dj το έγγραφο d, το j-οστό έγγραφο της συλλογής (dj)
q έγγραφο ερωτήματος
𝒯d σύνολο μοναδικών όρων στο έγγραφο d της συλλογής
𝒯q σύνολο μοναδικών όρων στο έγγραφο ερωτήματος q
𝒯q,d σύνολο μοναδικών όρων στο q και d (𝒯q,d = 𝒯q𝒯d)
ft,d αριθμός εμφανίσεων του όρου t στο έγγραφο d
ft,q αριθμός εμφανίσεων του όρου t στο ερώτημα q
fd αριθμός εμφανίσεων όλων των όρων στο έγγραφο d (ft,d)
nft,d κανονικοποιημένη συχνότητα εμφάνισης του όρου t στο έγγραφο d
idft αντίστροφη συχνότητα εγγράφων για τον όρο t
nt πλήθος εγγράφων που περιέχουν τον όρο t
nidft κανονικοποιημένη αντίστροφη συχνότητα εγγράφων για τον όρο t
wt,d σημαντικότητα (βάρος) του όρου t στο έγγραφο d της συλλογής
wt,q σημαντικότητα (βάρος) του όρου t στο έγγραφο ερωτήματος q
dj το διάνυσμα που αντιστοιχεί στο έγγραφο dj
Lj, Lq μήκος εγγράφου συλλογής και ερωτήματος
|dj| μέτρο του διανύσματος dj
θ γωνία που σχηματίζεται μεταξύ δύο διανυσμάτων
cos(θ) το συνημίτονο της γωνίας θ
djdk εσωτερικό γινόμενο διανυσμάτων dj και dk
Πίνακας 4.2: Σύμβολα και περιγραφές.

4.2.1 Υπολογισμός Σημαντικότητας Όρων

Έστω t ένας όρος και d ένα έγγραφο της συλλογής. Η συχνότητα (frequency) εμφάνισης του όρου t στο d συμβολίζεται με ft,d και προσδιορίζει τον αριθμό των εμφανίσεων του όρου στο συγκεκριμένο έγγραφο. Για παράδειγμα, με βάση τη συλλογή των εγγράφων που χρησιμοποιούμε, η συχνότητα εμφάνισης του όρου Χάλλεϋ στο έγγραφο d2 είναι 2, καθώς έχουμε δύο εμφανίσεις του όρου στο έγγραφο.

Η συχνότητα εμφάνισης του όρου στο έγγραφο μπορεί να χρησιμοποιηθεί για να δηλώσει τη σημαντικότητα (βάρος) του όρου για το έγγραφο. Επομένως, μία πρώτη προσέγγιση για τον προσδιορισμό του βάρους wt,d είναι να χρησιμοποιήσουμε τον τύπο:

wt,d=ft,d (4.2)

Αν χρησιμοποιήσουμε τον παραπάνω τύπο για τον υπολογισμό του βάρους wt,d, τότε όροι που εμφανίζονται σε μεγάλα έγγραφα ενδεχομένως να έχουν και μεγαλύτερο βάρος, διότι αυξάνεται η πιθανότητα ύπαρξής τους στο έγγραφο. Για το λόγο αυτό, και για να μη γίνεται διάκριση μεταξύ μικρών και μεγάλων εγγράφων, χρησιμοποιείται η κανονικοποιημένη συχνότητα εμφάνισης (normalized frequency) που συμβολίζεται με nft,d η οποία ορίζεται ως εξής:

nft,d=ft,dmaxx{fx,d} (4.3)

Το πλήθος των εμφανίσεων ενός όρου σε ένα έγγραφο δηλώνει τη σημαντικότητα του όρου για το έγγραφο αυτό. Ωστόσο, θα πρέπει να παρατηρήσουμε ότι όροι που εμφανίζονται σε πολλά έγγραφα έχουν μικρή διακριτική ικανότητα. Αυτό σημαίνει, ότι αν και οι όροι αυτοί μπορεί να εμφανίζονται πολλές φορές σε κάποια έγγραφα, το γεγονός ότι εμφανίζονται σε πολλά από αυτά μειώνει τη σημαντικότητά τους. Για παράδειγμα, σε μία συλλογή εγγράφων που περιλαμβάνει άρθρα από την επιστημονική περιοχή της ανάκτησης πληροφορίας, είναι λογικό κάποιο έγγραφο να περιέχει πολλές φορές τον όρο ανάκτηση. Όμως, είναι επίσης λογικό ο όρος ανάκτηση να εμφανίζεται στα περισσότερα έγγραφα της συλλογής. Επομένως, τελικά το βάρος του όρου θα πρέπει να είναι μικρό, καθώς δεν αποτελεί αντιπροσωπευτική λέξη για κανένα έγγραφο της συλλογής. Η παρατήρηση αυτή οδήγησε τους ερευνητές στη χρήση ενός νέου παράγοντα στον υπολογισμό των βαρών wt,d. Ο νέος παράγοντας καλείται αντίστροφη συχνότητα εγγράφων (inverse document frequency) και συμβολίζεται με idft. Αν συμβολίσουμε με N το πλήθος των εγγράφων της συλλογής και με nt το πλήθος των εγγράφων που περιέχουν τον όρο t, τότε ο παράγοντας αυτός υπολογίζεται για κάθε όρο ξεχωριστά ως εξής:

idft=ln(Nnt) (4.4)

Χρησιμοποιώντας την κανονικοποιημένη συχνότητα εμφάνισης και την αντίστροφη συχνότητα εγγράφων, προκύπτει ένας νέος τρόπος υπολογισμού των βαρών wt,d που είναι:

wt,d=nft,didft=ft,dmaxx{fx,d}ln(Nnt) (4.5)

Παρατηρήστε ότι ο παράγοντας idft δεν είναι κανονικοποιημένος. Η κανονικοποίηση του παράγοντα αυτού μπορεί να πραγματοποιηθεί διαιρώντας με το λογάριθμο του πλήθους των εγγράφων, σύμφωνα με τον Turtle [73]. Με τον τρόπο αυτό προκύπτει η κανονικοποιημένη αντίστροφη συχνότητα εγγράφων (normalized inverse document frequency) η οποία υπολογίζεται ως εξής:

nidft=idftln(N)=ln(N/nt)ln(N) (4.6)

Χρησιμοποιώντας τους ορισμούς για τους παράγοντες nft,d και nidft προκύπτει ο ακόλουθος τρόπος υπολογισμού των βαρών:

wt,d=nft,dnidft=ft,dmaxx{fx,d}ln(N/nt)ln(N) (4.7)

Στη βιβλιογραφία έχουν προταθεί διάφορες παραλλαγές του τρόπου προσδιορισμού των βαρών wt,d χρησιμοποιώντας ως βάση το σχήμα tf-idf. Για παράδειγμα, οι Salton και Buckley [55] προτείνουν τον ακόλουθο τύπο για τον υπολογισμό των βαρών σε περιπτώσεις όπου η συλλογή εγγράφων αποτελείται από συμβατικά έγγραφα ή από περιλήψεις:

[wt,d=ft,dln(Nnt)x𝒯d(fx,dln(Nnx))2] (4.8)

Ένα έγγραφο ερωτήματος q μπορεί να θεωρηθεί και αυτό ως ένα τυπικό έγγραφο και επομένως για τον προσδιορισμό των βαρών wt,q μπορεί να χρησιμοποιηθεί ένας από τους τύπους που αναφέρθηκαν προηγουμένως (π.χ. ο τύπος 4.8). Ωστόσο, η μελέτη των Salton και Buckley [55] έδειξε ότι είναι καλύτερα να χρησιμοποιηθεί ο ακόλουθος τύπος ο οποίος δίνει καλύτερα αποτελέσματα ως προς την ακρίβεια για πολλές γνωστές συλλογές εγγράφων:

[wt,q=(0.5ft,qmaxx{fx,q}+0.5)ln(Nnt)] (4.9)

Οι Zobel και Moffat [80] έχουν μελετήσει την αποτελεσματικότητα πολλών διαφορετικών σχημάτων tf-idf χρησιμοποιώντας συλλογές εγγράφων από το TREC. Η διαφοροποίηση μεταξύ των σχημάτων αυτών οφείλεται στον τρόπο ορισμού της σχετικής συχνότητας εμφάνισης και της αντίστροφης συχνότητας εγγράφων. Από τη μελέτη αυτή προέκυψε το συμπέρασμα ότι δεν υπάρχει κάποιος συνδυασμός που να έχει τα καλύτερα αποτελέσματα για όλα τα ερωτήματα και όλες τις συλλογές εγγράφων. Μερικές από τις εναλλακτικές μεθόδους που παρουσιάζονται στην εργασία [80] θα μελετηθούν παρακάτω, αφού πρώτα εξετάσουμε τον τρόπο υπολογισμού της ομοιότητας μεταξύ εγγράφων.

4.2.2 Υπολογισμός Ομοιότητας Εγγράφων

Λαμβάνοντας υπόψη την προηγούμενη περιγραφή, το ερώτημα που προκύπτει είναι το εξής: με ποιον τρόπο θα ποσοτικοποιήσουμε την ομοιότητα μεταξύ ενός ερωτήματος q και ενός κειμένου d; Θυμίζουμε ότι στην περίπτωση του απλού Boolean μοντέλου η μετρική της ομοιότητας Svector(q,d) μπορεί να λάβει μόνο τις τιμές 0 και 1, ενώ στην περίπτωση του εκτεταμένου Boolean μοντέλου, η ομοιότητα εκφράζεται με μία τιμή στο διάστημα [0,1]. Στην περίπτωση του διανυσματικού μοντέλου, η ομοιότητα ερωτήματος-κειμένου είναι πάλι μία τιμή από το διάστημα [0,1], η οποία όμως υπολογίζεται με εντελώς διαφορετικό τρόπο από αυτόν που χρησιμοποιείται στο εκτεταμένο Boolean μοντέλο. Σημειώνεται ότι ο τρόπος υπολογισμού της ομοιότητας στο Διανυσματικό μοντέλο είναι ανεξάρτητος του τρόπου προσδιορισμού των βαρών.

Από την προηγούμενη συζήτηση προκύπτει ότι ένα έγγραφο μπορεί να θεωρηθεί ως ένα διάνυσμα σε έναν πολυδιάστατο χώρο. Για παράδειγμα, η κάθε στήλη του Πίνακα 4.1 αντιστοιχεί σε ένα έγγραφο της συλλογής. Επομένως, το κάθε έγγραφο μπορεί να θεωρηθεί ως διάνυσμα στο χώρο των 6 διαστάσεων. Ο αριθμός των διαστάσεων καθορίζεται από το πλήθος των όρων που χρησιμοποιούνται για την περιγραφή των εγγράφων. Αν συμβολίσουμε με dj το διάνυσμα του εγγράφου dj, τότε:

dj=(wt1,dj,wt2,dj,,wtM,dj) (4.10)

όπου M είναι ο συνολικός αριθμός των όρων που χρησιμοποιείται για την αναπαράσταση των εγγράφων.

Ακολουθώντας την ίδια τακτική, μπορούμε να εκφράσουμε το διάνυσμα ενός εγγράφου ερωτήματος q το οποίο εκφράζει την ανάγκη πληροφορίας κάποιου χρήστη. Το βάρος του όρου t στο έγγραφο ερωτήματος q συμβολίζεται με wt,q. Η βασική διαφορά του εγγράφου ερωτήματος από ένα έγγραφο της συλλογής είναι ότι το πρώτο είναι συνήθως πολύ μικρότερο από το δεύτερο.

Από τη στιγμή που έχουμε στη διάθεσή μας τις διανυσματικές αναπαραστάσεις των εγγράφων της συλλογής και του εγγράφου του ερωτήματος το εύλογο ερώτημα που προκύπτει είναι πως μπορεί να προσδιοριστεί ο βαθμός ομοιότητας μεταξύ ενός ερωτήματος και ενός εγγράφου της συλλογής. Μία απλή και προφανής μέθοδος υπολογισμου της ομοιότητας είναι με τη χρήση της Ευκλείδειας απόστασης μεταξύ των αντίστοιχων διανυσματικών αναπαραστάσεων. Αν συμβολίσουμε με q και d το διάνυσμα του εγγράφου του ερωτήματος q και του εγγράφου d της συλλογής, τότε ορίζουμε ως De(q,d) την Ευκλείδεια απόστασή τους:

[De(q,d)=i=1M|wti,q-wti,d|2] (4.11)

Όσο αυξάνει ή τιμή De(q,d) τόσο θεωρούμε ότι μειώνεται η ομοιότητα μεταξύ q και d. Με μια πρώτη ματιά, φαίνεται ότι αυτό το μέτρο ανομοιότητας καλύπτει τις ανάγκες μας. Ωστόσο, υπάρχει ένα σοβαρό πρόβλημα που αξίζει να σχολιαστεί. Συνήθως, το έγγραφο του ερωτήματος είναι αρκετά μικρότερο σε σχέση με τα έγγραφα της συλλογής. Αυτό σημαίνει ότι οι περισσότερες συνιστώσες του διανύσματος q θα είναι μηδενικές. Επίσης, όσο μεγαλύτερο είναι ένα έγγραφο, τόσο αυξάνει ο αριθμός των μη-μηδενικών συνιστωσών. Αυτό σημαίνει ότι στην ουσία τιμωρούνται τα μεγαλύτερα έγγραφα της συλλογής τα οποία ακόμη και αν σχετίζονται με το ερώτημα, λόγω της Ευκλείδειας απόστασης, η απόσταση τους από το ερώτημα θα είναι μεγάλη.

Μία άλλη προσέγγιση για τον υπολογισμό της ομοιότητας μεταξύ q και d είναι να χρησιμοποιηθεί το εσωτερικό γινόμενο (inner product) των διανυσμάτων, το οποίο συμβολίζεται με q d. Αν συμβολίσουμε με Sinner(q,d) τη συνάρτηση που επιστρέφει την ομοιότητα, τότε έχουμε:

[Sinner(q,d)=qd=i=1Mwti,qwti,d] (4.12)

Όσο πιο όμοια είναι τα διανύσματα q και d τόσο η συνάρτηση Sinner(q,d) λαμβάνει μεγαλύτερες τιμές. Το αντίστροφο συμβαίνει όταν τα διανύσματα είναι ανόμοια. Η εφαρμογή του εσωτερικού γινομένου για τον υπολογισμό της ομοιότητας έχει το μειονέκτημα ότι τιμωρούνται τα μικρότερα έγγραφα, σε αντίθεση με την Ευκλείδεια απόσταση η οποία τιμωρεί τα μεγαλύτερα. Για να ξεπεραστεί αυτό το πρόβλημα, προτάθηκε η χρήση μίας συνάρτησης ομοιότητας που βασίζεται στο συνημίτονο της γωνίας που σχηματίσουν τα δύο διανύσματα στο χώρο. Ας εξετάσουμε τον τρόπο κατασκευής της συνάρτησης αυτής. Θα χρειαστούμε τον ορισμό του μέτρου ενός διανύσματος. Το μέτρο του διανύσματος d, συμβολίζεται με |d| και δίνεται από τον ακόλουθο τύπο με άμεση εφαρμογή του Πυθαγόρειου θεωρήματος:

|d|=i=1Mwti,d2 (4.13)

Είναι γνωστό ότι το εσωτερικό γινόμενο δύο διανυσμάτων ισούται με το γινόμενο των μέτρων τους επί το συνημίτονο της μεταξύ τους γωνίας. Χρησιμοποιώντας την ιδιότητα αυτή για τα διανύσματα q και d έχουμε:

qd=|q||d|cos(θ) (4.14)
(α) δύο διαστάσεις (β) τρεις διαστάσεις
Σχήμα 4.2: Γωνία μεταξύ διανυσμάτων σε δύο και τρεις διαστάσεις.

Η επίλυση της παραπάνω εξίσωσης ως προς cos(θ) δίνει έναν τρόπο υπολογισμού του συνημιτόνου της γωνίας που σχηματίζεται μεταξύ των διανυσμάτων. Με τον τρόπο αυτό έχουμε έναν εναλλακτικό τρόπο υπολογισμού της ομοιότητας. Όταν μικραίνει η γωνία θ, μεγαλώνει η ποσότητα cos(θ) και αντιστρόφως. Όταν τα δύο διανύσματα ταυτίζονται, τότε έχουμε θ = 0 μοίρες επομένως cos(θ) = 1. Από την άλλη πλευρά, όταν τα διανύσματα είναι κάθετα μεταξύ τους, τότε θ = 90 μοίρες, επομένως cos(θ) = 0. Σημειώνεται ότι η γωνία μεταξύ των διανυσμάτων δεν μπορεί να ξεπερνά τις 90 μοίρες εφόσον οι συντεταγμένες είναι θετικοί πραγματικοί αριθμοί και επομένως εστιάζουμε στο άνω δεξί τεταρτημόριο του συστήματος συντεταγμένων. Αν συμβολίσουμε με Scosine τη συνάρτηση ομοιότητας συνημιτόνου, τότε έχουμε:

[Scosine(q,d)=cos(θ)=qd|q||d|=i=1Mwti,qwti,di=1Mwti,q2i=1Mwti,d2] (4.15)

Στο Σχήμα 4.2 παρουσιάζεται ένα απλό παράδειγμα προσδιορισμού της γωνίας μεταξύ δύο διανυσμάτων για το χώρο των δύο και των τριών διαστάσεων. Στην πραγματικότητα η διαστασιμότητα του χώρου είναι πολύ μεγαλύτερη και καθορίζεται από το πλήθος των όρων που χρησιμοποιούνται για την αναπαράσταση των εγγράφων.

Η εφαρμογή του τύπου του συνημιτόνου είναι ανεξάρτητη από τον τρόπο υπολογισμού των βαρών wt,d. Ο τύπος εφαρμόζεται τόσο στην περίπτωση δυαδικών βαρών όσο και στην περίπτωση που τα βάρη είναι πραγματικοί αριθμοί.

4.3 Εναλλακτικές Μέθοδοι

Στις προηγούμενες παραγράφους μελετήσαμε τη βασική μεθοδολογία που ακολουθείται από το Διανυσματικό μοντέλο ανάκτησης, που περιλαμβάνει δύο άξονες: (α) τον προσδιορισμό της σημαντικότητας των όρων στα έγγραφα και (β) τον υπολογισμό του βαθμού ομοιότητας μεταξύ εγγράφων. Και για τους δύο άξονες έχουν προταθεί διάφορες εναλλακτικές λύσεις, μερικές από τις οποίες εξετάζονται στη συνέχεια.

Υπενθυμίζεται ότι στη γενική περίπτωση, οι ποσότητες wt,d (το βάρος του όρου t στο έγγραφο d) και wt,q (το βάρος του όρου t στο έγγραφο ερωτήματος q) υπολογίζονται με βάση το σχήμα tf-idf:

wt,d=tft,didftκαιwt,q=tft,qidft (4.16)

Χρησιμοποιώντας διαφορετικούς τρόπους υπολογισμού των ποσοτήτων tft,d και idft προκύπτει ένα πλήθος διαφορετικών εκφράσεων για τις ποσότητες wt,d και wt,q. Στους Πίνακες 4.3 και 4.4 δίνονται μερικές από τις εκφράσεις υπολογισμού των ποσοστήτων tf και idf αντίστοιχα που έχουν μελετηθεί στη βιβλιογραφία. Επίσης, ο Πίνακας 4.5 παρουσιάζει διαφορετικούς τρόπους υπολογισμού του μήκους ενός εγγράφου, ενώ στον Πίνακα 4.6 δίδονται οι βασικότερες μετρικές υπολογισμού της ομοιότητας μεταξύ ενός εγγράφου της συλλογής και ενός εγγράφου ερωτήματος. Τέλος, στον Πίνακα 4.7 δίνονται οι δύο εναλλακτικές λύσεις που έχουν προταθεί για τον υπολογισμό των βαρών wt,q και wt,d. Είναι προφανές, ότι υπάρχουν πολλοί διαφορετικοί συνδυασμοί που προκύπτουν επιλέγοντας διαφορετικούς σχηματισμούς για την κάθε ποσότητα. Έτσι, ανάλογα με την έκφραση που θέλουμε να χρησιμοποιήσουμε, επιλέγεται η αντίστοιχη γραμμή από τους πίνακες. Η αποτελεσματικότητα μίας πληθώρας συνδυασμών έχει μελετηθεί πειραματικά στην εργασία [80]. Ένα από τα σημαντικά αποτελέσματα της πειραματικής αυτής μελέτης είναι ότι καμία μέθοδος δεν παρουσιάζει την καλύτερη αποτελεσματικότητα σε όλες τις περιπτώσεις.

περιγραφή tft,d
δυαδικός σχηματισμός 1 ή 0
συνήθης σχηματισμός ft,d
λογαριθμικός σχηματισμός 1+ln(ft,d)
κανονικοποιημένος σχηματισμός ft,dmaxx{fx,d}
εναλλακτικός κανονικοποιημένος σχηματισμός
Το C είναι μία σταθερά η οποία αν λάβει τιμές C+(1-C)ft,dmaxx{fx,d}
μεταξύ 0.3 και 0.5 έχει τα καλύτερα αποτελέσματα
Πίνακας 4.3: Εναλλακτικές εκφράσεις υπολογισμού της ποσότητας tft,d.
περιγραφή idft
δυαδικός σχηματισμός 1
1ος λογαριθμικός σχηματισμός ln(Nnt)
2ος λογαριθμικός σχηματισμός ln(1+Nnt)
3ος λογαριθμικός σχηματισμός ln(N/nt)ln(N)
υπερβολικός σχηματισμός 1nt
1ος κανονικοποιημένος σχηματισμός ln(1+maxx{nx}nt)
2ος κανονικοποιημένος σχηματισμός ln(N-ntnt)
Πίνακας 4.4: Εναλλακτικές εκφράσεις υπολογισμού της ποσότητας idft.
περιγραφή Ld
μοναδιαίος σχηματισμός 1
διανυσματικός σχηματισμός x𝒯dwx,d2
1ος προσεγγιστικός σχηματισμός |𝒯d|
2ος προσεγγιστικός σχηματισμός |𝒯d|
3ος προσεγγιστικός σχηματισμός log2(|𝒯d|)
4ος προσεγγιστικός σχηματισμός fd
5ος προσεγγιστικός σχηματισμός fd
Πίνακας 4.5: Εναλλακτικές εκφράσεις υπολογισμού του μήκους Ld (Lq) ενός εγγράφου d (ερωτήματος q).
περιγραφή Svector(q,d)
εσωτερικό γινόμενο t𝒯q,d(wt,qwt,d)
μέθοδος συνημιτόνου 1LqLdt𝒯q,d(wt,qwt,d)
απλή πιθανοτική μετρική t𝒯q,d(C+idft)
σύνθετη πιθανοτική μετρική t𝒯q,d(C+idft)tft,d
εναλλακτικό εσωτερικό γινόμενο t𝒯q,dwt,dLd
μέθοδος Dice 2Lq2+Ld2t𝒯q,d(wt,qwt,d)
μέθοδος Jaccard t𝒯q,d(wt,qwt,d)Lq2+Ld2-t𝒯q,d(wt,qwt,d)
μέθοδος επικάλυψης t𝒯q,d(wt,qwt,d)min(Lq2,Ld2)
Πίνακας 4.6: Εναλλακτικές εκφράσεις υπολογισμού ομοιότητας Svector(q,d).
περιγραφή wt,d
σχηματισμός tf tft,d
σχηματισμός tf-idf tft,didft
Πίνακας 4.7: Εναλλακτικές εκφράσεις υπολογισμού βαρών wt,d (και wt,q).

Στη συνέχεια δίνεται ένα συγκεκριμένο παράδειγμα προσδιορισμού των ποσοτήτων. Έστω ότι θέλουμε να εκφράσουμε την ομοιότητα μεταξύ ενός ερωτήματος q και ενός εγγράφου της συλλογής d χρησιμοποιώντας τη μέθοδο του συνημιτόνου. Αυτό σημαίνει ότι πρέπει να επιλεγεί η δεύτερη γραμμή του Πίνακα 4.6. Για τη χρήση του 2ου λογαριθμικού σχηματισμού για τον υπολογισμό της ποσότητας idft πρέπει να επιλεγεί η τρίτη γραμμή του Πίνακα 4.4. Η χρήση του σχηματισμού tf για τον υπολογισμό της ποσότητας wt,d προϋποθέτει την επιλογή της πρώτης γραμμής του Πίνακα 4.7, ενώ η χρήση του λογαριθμικού σχηματισμού για την ποσότητα tft,d προϋποθέτει την επιλογή της τρίτης γραμμής του Πίνακα 4.3. Για τη χρήση του διανυσματικού σχηματισμού για τον υπολογισμό της ποσότητας Ld πρέπει να επιλέξουμε τη δεύτερη γραμμή του Πίνακα 4.5. Παρατηρούμε ότι έως τώρα έχουμε προσδιορίσει πλήρως τις ποσότητες που σχετίζονται με το έγγραφο d της συλλογής. Συνεχίζουμε με την επιλογή του τρόπου προσδιορισμού των ποσοτήτων που αφορούν στο ερώτημα q. Επιλέγουμε το σχηματισμό tf-idf για την ποσότητα wt,q (δεύτερη γραμμή του Πίνακα 4.7), επιλέγουμε το λογαριθμικό σχηματισμό για την ποσότητα tft,q (τρίτη γραμμή του Πίνακα 4.3) και τέλος επιλέγουμε το μοναδιαίο σχηματισμό για την ποσότητα Lq (πρώτη γραμμή του Πίνακα 4.5). Με βάση τις προηγούμενες επιλογές, παρατηρούμε ότι έχουν προσδιοριστεί όλες οι ποσότητες. Το μοντέλο που σχηματίζεται συνοψίζεται στον Πίνακα 4.8.

περιγραφή έκφραση
συνάρτηση ομοιότητας Svector(q,d)=1LqLdt𝒯q,d(wt,qwt,d)
υπολογισμός idft idft = ln(1+Nnt)
υπολογισμός wt,d wt,d=tft,d
υπολογισμός tft,d tft,d=1+ln(ft,d)
υπολογισμός Ld Ld=x𝒯dwx,d2
υπολογισμός wt,q wt,q=tft,qidft
υπολογισμός tft,q tft,q=1+ln(ft,q)
υπολογισμός Lq Lq=1
Πίνακας 4.8: Παράδειγμα προσδιορισμού συγκεκριμένου μοντέλου.
Παράδειγμα 4.1

Ο τρόπος υπολογισμού των παραμέτρων του μοντέλου θα γίνει περισσότερο κατανοητός με ένα παράδειγμα. Έστω ότι ένας χρήστης ενδιαφέρεται για την εύρεση πληροφοριών σχετικά με τον κομήτη του Χάλλεϋ. Αν συμβολίσουμε με q την αναπαράσταση της πληροφοριακής ανάγκης του χρήστη, τότε έχουμε q = {κομήτης, Χάλλεϋ}. Είναι προφανές ότι το ερώτημα αποτελείται από δύο όρους, t1 = κομήτης και t2 = Χάλλεϋ. Στόχος μας είναι να υπολογίσουμε το βαθμό ομοιότητας μεταξύ του ερωτήματος q και των εγγράφων της συλλογής του Σχήματος 4.1. Προφανώς, δε θα ασχοληθούμε καθόλου με τα έγγραφα που δεν περιέχουν κανέναν από τους δύο όρους του ερωτήματος. Αυτό σημαίνει ότι θα πρέπει να υπολογίσουμε όλες τις τιμές για τις ποσότητες που εμφανίζονται στον Πίνακα 4.8 για τα έγγραφα που περιέχουν έναν ή και τους δύο όρους του ερωτήματος. Τα έγγραφα που τελικά θα βαθμολογηθούν είναι τα d1, d2 και d3. Αρχικά θα υπολογίσουμε τις τιμές idft1 και idft2. Εφόσον ο όρος κομήτης εμφανίζεται σε τρία έγγραφα και ο όρος Χάλλεϋ εμφανίζεται σε δύο έχουμε nt1 = 3 και nt2 = 2. Επομένως, προκύπτουν οι ακόλουθες τιμές: idft1 = 1.203 και idft2 = 1.504.

Στη συνέχεια, για κάθε όρο και κάθε έγγραφο υπολογίζονται οι τιμές tft,d. Με απλές μαθηματικές πράξεις παίρνουμε: tft1,d1 = 1, tft1,d2 = 1, tft1,d3 = 1, tft2,d1 = 1, tft2,d2 = 1.693. Ομοίως υπολογίζουμε και τους παράγοντες tf για το ερώτημα q και έχουμε: tft1,q = 1 και tft2,q = 1. Εφόσον έχουν προσδιοριστεί οι τιμές tf και idf μπορούμε πλέον να προσδιορίσουμε τις τιμές των παραμέτρων wt,d και wt,q για τους όρους t1 και t2: wt1,d1 = 1, wt1,d2 = 1, wt1,d3 = 1, wt2,d1 = 1, wt2,d2 = 1.693, wt1,q = 1.203 και wt2,q = 1.504. Πριν τον υπολογισμό της συνάρτησης ομοιότητας απομένει ο προσδιορισμός των τιμών Ld και Lq. Με βάση τον Πίνακα 4.8 και τις προηγούμενες τιμές έχουμε: Ld1 = 11 = 3.316, Ld2 = 3.296, Ld3 = 2.23 και Lq = 1.

Τέλος, εφαρμόζουμε τη συνάρτηση ομοιότητας (πρώτη γραμμή του Πίνακα 4.8) και λαμβάνουμε το βαθμό ομοιότητας των εγγράφων d1, d2 και d3 ως προς το ερώτημα q. Για παράδειγμα, ο υπολογισμός της ποσότητας Svector(q,d1) γίνεται ως εξής:

Svector(q,d1)=wt1,d1wt1,q+wt2,d1wt2,qLd1=0.816 (4.17)
Svector(q,d2)=wt1,d2wt1,q+wt2,d2wt2,qLd2=1.131 (4.18)
Svector(q,d3)=wt1,d3wt1,qLd3=0.539 (4.19)

Από τις παραπάνω βαθμολογίες είναι προφανές ότι το πιο σχετικό έγγραφο της συλλογής, ως προς το ερώτημα q = {κομήτης, Χάλλεϋ}, είναι το έγγραφο d2 με βαθμολογία 1.131. Το δέυτερο σχετικότερο έγγραφο είναι το d1 με βαθμολογία 0.816 και ακολουθεί το d3 με βαθμολογία 0.539. Παρατηρήστε ότι η βαθμολογία του d2 είναι μεγαλύτερη της μονάδας! Αυτό οφείλεται στο γεγονός ότι δε διαιρέσαμε με το μέτρο του διανύσματος του ερωτήματος (ποσότητα Lq), αφού δε θα αλλάξει η σχετική σειρά των εγγράφων στην τελική κατάταξη.

4.4 Πλεονεκτήματα και Μειονεκτήματα

Το βασικό πλεονέκτημα του Διανυσματικού μοντέλου ανάκτησης είναι η δυνατότητά του να βαθμολογεί τα έγγραφα με βάση την ομοιότητά τους ως προς κάποιο ερώτημα. Όσο περισσότερο σχετικά είναι δύο έγγραφα τόσο μικρότερη θα είναι η γωνία των αντίστοιχων διανυσμάτων τους και τόσο μεγαλύτερη θα είναι η τιμή του συνημιτόνου της μεταξύ τους γωνίας. Χρησιμοποιώντας διαφορετικούς ορισμούς για τις ποσότητες wt,d (το βάρος του όρου t στο έγγραφο d) μπορούμε να έχουμε ένα σύνολο διαφορετικών μοντέλων.

Το δεύτερο σημαντικό πλεονέκτημα του μοντέλου είναι ο σχετικά απλός τρόπος υλοποίησής του, κάθώς στηρίζεται σε απλές μαθηματικές πράξεις. Βέβαια, σε περίπτωση που τα έγγραφα έχουν μεγάλο μήκος και ο αριθμός των όρων είναι μεγάλος (π.χ., μερικές χιλιάδες) τότε ενδεχομένως ο προσδιορισμός της ομοιότητας μεταξύ δύο εγγράφων να απαιτεί σημαντικό χρόνο. Ωστόσο, για τις τυπικές περιπτώσεις όπου το έγγραφο του ερωτήματος αποτελείται από μερικούς όρους, οι υπολογισμοί της ομοιότητας με βάση τον τύπο του συνημιτόνου πραγματοποιούνται γρήγορα.

Το τρίτο σημαντικό πλεονέκτημα του Διανυσματικού μοντέλου είναι η υποστήριξη μερικής ταύτισης. Ένα έγγραφο που περιέχει ένα υποσύνολο των όρων του ερωτήματος δε θα λάβει μηδενικό βαθμό. Αυτό είναι πολύ σημαντικό λαμβάνοντας υπόψη ότι μπορεί να μην υπάρχει κανένα έγγραφο που να περιέχει όλους τους όρους του ερωτήματος.

Ένα από τα μειονεκτήματα του Διανυσματικού μοντέλου είναι η υπόθεση ότι οι όροι των εγγράφων είναι ανεξάρτητοι. Αυτό οδηγεί στη θεώρηση ότι έχουμε ένα ορθοκανονικό σύστημα αξόνων βάσει του οποίου ορίζονται τα διανύσματα των εγγράφων και των ερωτημάτων. Αυτή η υπόθεση δεν είναι απολύτως σωστή καθώς υπάρχουν όροι που δεν είναι ανεξάρτητοι και επομένως η εμφάνιση του ενός εξαρτάται από την εμφάνιση των άλλων. Δύο βασικές αιτίες που βλάπτουν την ανεξαρτησία των όρων είναι η πολυσημία και η συνωνυμία. Στην περίπτωση της πολυσημίας, ένας όρος μπορεί να έχει διαφορετικό νόημα ανάλογα με το είδος και το περιεχόμενο του εγγράφου ενώ στην περίπτωση της συνωνυμίας δύο όροι που γράφονται εντελώς διαφορετικά, μπορεί να έχουν το ίδιο ακριβώς νόημα (συνώνυμοι όροι). Ωστόσο, υιοθετώντας την ανεξαρτησία των όρων απλοποιείται η διαδικασία του προσδιορισμού της ομοιότητας.

Τέλος αξίζει να σημειωθεί ότι ο τρόπος ανάθεσης των βαρών στους όρους αν και διαισθητικά φαίνεται να έχει νόημα, δε στηρίζεται σε κάποιο μαθηματικό φορμαλισμό και θα μπορούσε να χαρακτηριστεί ακόμη και αυθαίρετος. Η επιλογή συγκεκριμένων τιμών για τα βάρη έχει επιβεβαιωθεί με πειραματικές μελέτες ότι έχει καλά αποτελέσματα αλλά δεν μπορεί να τεκμηριωθεί με μαθηματική ανάλυση.

4.5 Σύνοψη και Περαιτέρω Μελέτη

Το Διανυσματικό μοντέλο ανάκτησης προτάθηκε επίσημα από τον Salton το 1975 [58] και αποτελεί το πιο διαδεδομένο μοντέλο ανάκτησης. Ενώ το Boolean μοντέλο στηρίζεται στη Θεωρία Συνόλων, το Διανυσματικό μοντέλο βασίζεται κυρίως στη Γραμμική Άλγεβρα. Ο υπολογισμός της ομοιότητας μεταξύ δύο εγγράφων ή μεταξύ ενός εγγράφου και ενός ερωτήματος πραγματοποιείται με τη χρήση του συνημιτόνου της γωνίας που σχηματίζεται μεταξύ των αντίστοιχων διανυσμάτων στο χώρο των M διαστάσεων, όπου M είναι το πλήθος των μοναδικών όρων που περιέχονται στα έγγραφα και χρησιμοποιούνται για την αναπαράσταση των εγγράφων.

Το Διανυσματικό μοντέλο καλύπτεται επαρκώς σε όλα τα βιβλία του χώρου. Ο ενδιαφερόμενος μπορεί να ανατρέξει στα αντίστοιχα κεφάλαια των βιβλίων [3, 41, 77]. Επίσης, προτείνουμε τη μελέτη της εργασίας [58] που αποτελεί την πρόταση του Διανυσματικού μοντέλου, και των εργασιών [55, 80] στις οποίες παρουσιάζονται διάφορες εκδοχές του μοντέλου. Η εργασία [80] αποτελεί επέκταση της [55], όπου παρουσιάζονται διαφορετικές εκδοχές του Διανυσματικού μοντέλου, ανάλογα με τις επιλογές. Μεγάλο ενδιαφέρον παρουσιάζει επίσης η εργασία [38] στην οποία περιλαμβάνεται μία μελέτη σχετικά με απλοποιήσεις που μπορούν να εφαρμοστούν στο Διανυσματικό μοντέλο με στόχο την ταχύτερη επεξεργασία των ερωτημάτων, αλλά χωρίς να βλάπτεται σημαντικά η αποτελεσματικότητα.

Επίσης, κρίνεται πολύ σημαντική η ενασχόληση με το θρυλικό σύστημα SMART, το οποίο μπορεί ο αναγνώστης να προμηθευτεί από τη διέυθυνση [66]. Στη διεύθυνση αυτή υπάρχουν επίσης και διάφορες συλλογές εγγράφων (μεταξύ των οποίων οι CACM, ISI, MED και CRAN) που μπορούν να χρησιμοποιηθούν σε συνδυασμό με το σύστημα SMART.

4.6 Ασκήσεις

  • 4.1

    Ποιές είναι οι σημαντικότερες διαφορές μεταξύ του Διανυσματικού και του Λογικού μοντέλου;

  • 4.2

    Να περιγράψετε τη διαδικασία υπολογισμού των βαρών στο Διανυσματικό μοντέλο.

  • 4.3

    Ποιά συνάρτηση χρησιμοποιείται για τον προσδιορισμό της ομοιότητας μεταξύ ενός ερωτήματος q και ενός εγγράφου d;

  • 4.4

    Για ποιό λόγο η χρήση της Ευκλείδειας απόστασης δεν είναι καλή πρακτική για τον προσδιορισμό της ομοιότητας;

  • 4.5

    Ποιά είναι τα βασικά μειονεκτήματα του Διανυσματικού μοντέλου;

  • 4.6

    Ο αριθμός των διαστάσεων καθορίζεται από το πλήθος των μοναδικών όρων της συλλογής που είναι συνήθως αρκετά μεγάλος. Να συζητήσετε για τα προβλήματα που ενδεχομένως δημιουργούνται από το μεγάλο αριθμό διαστάσεων.

  • 4.7

    Να κατασκευάσετε ένα πρόγραμμα που να διαβάζει τη συλλογή εγγράφων CRAN και για κάθε ερώτημα q της συλλογής να υπολογίζει το βαθμό ομοιότητας μεταξύ του q και κάθε εγγράφου d χρησιμοποιώντας μία από τις δυνατές εκφράσεις του Διανυσματικού μοντέλου.

  • 4.8

    Να κατασκευάσετε πρόγραμμα που να διαβάζει τη συλλογή εγγράφων MED και στη συνέχεια να υπολογίζει για κάθε ερώτημα q της συλλογής το βαθμό ομοιότητας με κάθε έγγραφο d. Στη συνέχεια, να υπολογίσετε το πλήθος των σχετικών εγγράφων εάν θεωρήσουμε ότι ενδιαφερόμαστε για τα top-20 έγγραφα της συλλογής. Δοκιμάστε την αποτελεσματικότητα για διαφορετικές εκφράσεις του Διανυσματικού μοντέλου.

  • 4.9

    Με βάση τη συλλογή εγγράφων του Σχήματος 4.1 και θεωρώντας ότι τα βάρη wt,d και wt,q υπολογίζονται με τη βοήθεια των σχέσεων 4.8 και 4.9 ενώ η ομοιότητα δύο εγγράφων προσδιορίζεται από τη σχέση 4.15, να προσδιορίσετε τον πίνακα ομοιότητας της συλλογής. Ο πίνακας αυτός είναι ένας συμμετρικός πίνακας N×N όπου N ο αριθμός των εγγράφων. Το κάθε κελί του πίνακα στη γραμμή i και τη στήλη j περιέχει μία πραγματική τιμή που δηλώνει το βαθμό ομοιότητας μεταξύ των εγγράφων di και dj. Σχολιάστε το αποτέλεσμα.

  • 4.10

    Να δώσετε ένα παράδειγμα με το οποίο να φαίνεται ότι αν δε ληφθούν μέτρα, κάποια μεγάλα έγγραφα μπορεί να λάβουν μεγαλύτερο βαθμό από μικρότερα χωρίς να περιέχουν κατ΄ανάγκη και περισσότερους όρους του ερωτήματος.