Εισαγωγή στην ανάκτηση και εξόρυξη μουσικής πληροφορίας

ΚΕΦΑΛΑΙΟ 1 Προκαταρκτικές έννοιες μουσικής

1.1 Εισαγωγή

Η Έρευνα Μουσικής Πληροφορίας (ΕΜΠ), ή στην Αγγλική Music Information Research (MIR), είναι το ερευνητικό πεδίο που στοχεύει στην ανάπτυξη μεθόδων και τεχνικών για όσο αφορά την ανάκτηση και εξόρυξη γνώσης από τη μουσική πληροφορία. Καθώς αυτοί οι δύο στόχοι είναι ευρύτατοι, η ΕΜΠ είναι ένα πεδίο ιδιαίτερα δια-επιστημονικό και αντλεί συνεισφορές από μια πληθώρα πεδίων όπως η μουσικολογία, η ψυχολογία, η επεξεργασία σήματος, η ανάκτηση πληροφορίας, η μηχανική μάθηση, η διάδραση ανθρώπου-μηχανής κ.α.

Παρότι η ΕΜΠ ξεκίνησε στα τέλη της δεκαετίας 1960 [5], το πεδίο άρχισε να προσελκύει την προσοχή των ερευνητών και των συσχετισμένων βιομηχανιών σχεδόν από το έτος 2000 όταν πλέον οι εξελίξεις της συμπίεσης ακουστικών αρχείων, της αποθήκευσης δεδομένων, της διαμεταγωγής των δικτύων και του διαδικτύου, της "πανταχού παρούσας" επεξεργαστικής ισχύος και της υιοθέτησης των Τεχνολογιών Πληροφορικής και Επικοινωνίας (ΤΠΕ) βρέθηκαν στο κατάλληλο επίπεδο.

Στις μέρες μας (2015) όλες αυτές οι παράμετροι βρίσκονται σε επίπεδα όπου:

  • οι αλγόριθμοι συμπίεσης ακουστικών αρχείων επιτυγχάνουν οκτώ φορές μείωση όγκου δεδομένων διατηρώντας ποιότητα ήχου παραπλήσια ενός CD (βλ. Σχήμα 1.1),

  • το κόστος της τοπικής αποθήκευσης ανέρχεται σε περίπου 0.08 ευρώ ανά Gibibyte ενώ με κόστος περίπου 60 δολάρια Η.Π.Α. (USD) για μια ετήσια εγγραφή σε μια από τις πολλές υπηρεσίες συγχρονισμού αρχείων στο σύννεφο (cloud file-synchronisation services) είναι δυνατή η σχεδόν απεριόριστη αποθήκευση δεδομένων,

  • η διαμεταγωγή της οικιακής πρόσβασης στο διαδίκτυο είναι ευρώς στα πλαίσια των τεχνολογιών ADSL/VDSL ενώ η αντίστοιχη στις φορητές πλατφόρμες είναι εξίσου ιδιαίτερα αυξημένη με τη χρήση των τεχνολογιών 3G / 4G,

  • τα φορητά συστήματα, όπως τα smartphones & tablets, διαθέτουν επεξεργαστή, αποθηκευτικό χώρο, ενεργειακά αποθέματα και ρυθμό υιοθέτησης που κάνει τις συσκευές αυτές πραγματικά "πανταχού παρούσες",

  • το λογισμικό συγγραφής και επεξεργασίας μουσικής μπορεί να υποστηρίξει την επαγγελματικού επιπέδου (συν-)συγγραφή και επικοινωνία μουσικού περιεχόμενου στη Συνήθη Μουσική Σημειογραφία (παρτιτούρα)

Σχήμα 1.1: Σύγκριση όγκου δεδομένων που δημιουργούν διάφοροι τύποι συμπίεσης σε ποιότητα παρεμφερή ενός CD, για τρία λεπτά μουσικού αρχείου.

Επιπλέον, από το έτος 2000, μια πληθώρα ακαδημαϊκών περιοδικών, συνεδρίων και διαγωνισμών έχουν εμφανιστεί προωθώντας την έρευνα για θεωρίες, μεθόδους και εφαρμογής του πεδίου της ΕΜΠ. Μερικά μόνο από τα γνωστότερα είναι το συνέδριο International Society for Music Information Retrieval11http://www.ismir.net/ και ο διαγωνισμός Music Information Retrieval Evaluation eXchange (MIREX)22http://www.music-ir.org/mirex/wiki/MIREX_HOME.

Οι προαναφερθείσες εξελίξεις οδήγησαν στην υιοθέτηση ενός νέου μοντέλου διάθεσης της μουσικής, αυτό της ψηφιοποιημένης μουσικής (είτε ως μεμονωμένα αρχεία είτε ως ροή πληροφορίας) εν αντιθέσει με τα φυσικά μέσα (λ.χ. δίσκους βινυλίου, CD, κ.λ.π.). Η ετήσια αναφορά33http://www.ifpi.org/news/IFPI-publishes-Recording-Industry-in-Numbers-2015 της Διεθνούς Ομοσπονδίας Φωνογραφικής Βιομηχανίας (IFPI) υπολόγισε πως "τα έσοδα από τα ψηφιακά κανάλια αυξήθηκαν κατά 6,9% το 2014 και αντιπροσωπεύουν πλέον το 46% των συνολικών εμπορικών εσόδων της βιομηχανίας, στο ίδιο επίπεδο με τις φυσικές πωλήσεις για πρώτη φορά" καθώς επίσης και πως "τα παγκόσμια έσοδα από ροές που βασίζονται σε συνδρομή ή διαφημίσεις αντιπροσωπεύουν σήμερα το 32% των ψηφιακών εσόδων, έναντι 14% για το 2011". Ακολούθως, δεν είναι διόλου παράδοξο να υπάρχουν υπηρεσίες όπως οι iTunes, Spotify και Google Play Music, αναφέροντας μόνο μερικούς από τους εμπλεκόμενους παίκτες της εν λόγω αγοράς, που παρέχουν ψηφιακά 43 εκατομμύρια44http://www.apple.com/itunes/music/, 30 εκατομμύρια55https://press.spotify.com/us/information/ και 30 εκατομμύρια66http://time.com/3722188/google-play-music-uploads/ tracks, αντιστοιχα. Το νέο μοντέλο διάθεσης διευκόλυνε, εκτός της προαναφερθείσας αύξησης χρήσης και εσόδων, την πειρατεία μουσικού περιεχόμενου. Η ευκολία τέλειας αντιγραφής που είναι εγγενής στο ψηφιακό περιεχόμενο, εν αντιθέσει με τις δυσκολίες που παρουσιάζονται στην αντιγραφή ενός δίσκου βινυλίου λόγου χάρη, αλλά και η δυνατότητα διάθεσης σε παγκόσμιο επίπεδο μέσω του διαδικτύου του αντιγραμμένου περιεχόμενου έδωσαν μια άνευ προηγουμένου ώθηση στην παραβίαση πνευματικής ιδιοκτησίας των μουσικών περιεχομένων. Ακολούθως, τα αποτελέσματα της ΕΜΠ επηρεάζουν ένα πολύ μεγάλο και ποικίλων χαρακτηριστικών εύρος χρηστών που κυμαίνεται από τους απλούς ακροατές στους επαγγελματίες της μουσικής βιομηχανίας και τους εξειδικευμένους με μουσικές σπουδές με πολλούς τρόπους.

Η ψηφιοποίηση της μουσικής και η εξέλιξη των τεχνολογιών συμπίεσής της έδωσαν την δυνατότητα σε δεδομένα πολύ μεγάλου όγκου, όπως τα ακουστικά μουσικά δεδομένα, να είναι προσβάσιμα στο ευρύ κοινό. Παράλληλα, η μείωση του κόστους των αποθηκευτικών μέσων και η αύξηση του χώρου αποθήκευσης που προσφέρουν οδήγησαν στη δημιουργία προσωπικών αλλά και εμπορικών μουσικών βιβλιοθηκών.

Ο παγκόσμιος ιστός (WWW) χρησιμοποιείται, πλέον, για εμπορικούς, ψυχαγωγικούς αλλά και εκπαιδευτικούς λόγους και τείνει να γίνει το πρωτεύον μέσο διάδοσης πληροφορίας. Ένας από τους βασικούς τύπους δεδομένων που διακινούνται μέσω του παγκόσμιου ιστού είναι και η ψηφιοποιημένη μουσική. Παρότι όχι πάντοτε νομότυπη, η διακίνηση μουσικής μέσω του παγκόσμιου ιστού γνώρισε μεγάλη ανάπτυξη τα τελευταία χρόνια. Πρόσφατα, οι νέες ευκαιρίες που προέκυψαν από την ευκολία διακίνησης των ψηφιακών μουσικών δεδομένων, έγιναν ορατές και με νέα συστήματα προστασίας των πνευματικών δικαιωμάτων οδήγησαν στην ανάπτυξη εμπορικών συστημάτων όπως τα iTunes (www.apple.com/itunes), iMusic (www.imusic.com) και Napster (www.napster.com) για τη διάθεση της μουσικής στους καταναλωτές, επηρεάζοντας σημαντικά το τρέχον πρότυπο διακίνησης μουσικής.

Ωστόσο, τα πρώτα εργαλεία που παρουσιάστηκαν για να καλύψουν την ανάγκη έρευνας στα δεδομένα αυτά, μετέφεραν επιτυχημένες μεθόδους από παρόμοιους κλάδους ανάκτησης πληροφορίας (κείμενο, εικόνα, video), μη εξετάζοντας τα ιδιαίτερα χαρακτηριστικά των μουσικών δεδομένων. Στα συστήματα αυτά, χρησιμοποιήθηκαν κατά κόρον τα παραδοσιακά μεταδεδομένα των μουσικών δεδομένων, όπως τίτλος, συνθέτης, εκτελεστής, γένος και ημερομηνία, παρότι παρέχουν ελάχιστη περιγραφή όσο αφορά το περιεχόμενο του ίδιου του μουσικού αντικειμένου.

Καθώς οι προαναφερθείσες πληροφορίες δεν αποτελούν το μουσικό δεδομένο αλλά δευτερεύοντα περιγραφικά χαρακτηριστικά77Οι συγγραφείς του [9] χαρακτηρίζουν τα μεταδεδομένα ως "μη εγγενή στοιχεία" του μουσικού δεδομένου., η Ανάκτηση Μουσικής Πληροφορίας Βάσει Περιεχομένου (ΑΜΠΒΠ) γνώρισε σημαντική ανάπτυξη τα τελευταία χρόνια. Λόγου χάριν, η ανάκτηση μουσικής πληροφορίας σιγο-τραγουδώντας είναι η πιο φυσική και αυθόρμητη ΑΜΠΒΠ, ενώ η ανάκτηση μπορεί να γίνει και με ένα μουσικό κομμάτι σε αρχείο ή ακόμα και με τη χρήση ενός οργάνου για την εισαγωγή του επερωτήματος. Γενικότερα, η δράση ΑΜΠΒΠ απαιτεί ένα μουσικό κομμάτι ώστε να συγκρίνει το περιεχόμενο του με το περιεχόμενο των μουσικών δεδομένων που υπάρχουν ήδη στη βάση δεδομένων.

Ακολούθως, η Ανάκτηση Μουσικής Πληροφορίας (ΑΜΠ) μπορεί να χωριστεί σε δυο μεγάλες κατηγορίες ανάλογα με το εάν βασίζεται στα μεταδεδομένα ή το περιεχόμενο των εξεταζόμενων μουσικών δεδομένων. Το Σχήμα 1.2 παρουσιάζει τις κατηγορίες και υποκατηγορίες στις οποίες χωρίζεται η ΑΜΠ. Η ΑΜΠΒΠ χωρίζεται περαιτέρω ανάλογα με τον τύπο των δεδομένων (βλ. Ενότητα 1.3) που εξετάζονται.

Σχήμα 1.2: Χάρτης ανάκτησης μουσικής πληροφορίας.

Παρότι η εξόρυξη και ανάκτηση μουσικής πληροφορίας έχει ξεκινήσει εδώ και σχεδόν 40 χρόνια [5] ως ερευνητικό πεδίο, βρίσκεται ακόμα σε πολύ πρώιμο στάδιο. Ωστόσο, η σύγχρονη έρευνα προσανατολίζεται κυρίως σε δύο μεγάλες περιοχές του εν λόγω θέματος ανάλογα με την θεώρηση του χρήστη αλλά και τον τύπο των δεδομένων που θα εξεταστούν (βλ. Πίνακα 1.1), παρότι μεταξύ των δύο κριτηρίων υπάρχει μια συνήθης συσχέτιση.

Συμβολική Ακουστική
Μέθοδοι επεξεργασίας Συμβολοσειρών Σήματος
Απευθύνεται σε Χρήστες με μουσική παιδεία Ευρύ κοινό
Μορφή επερωτήματος Όλα τα επίπεδα Σιγό-τραγούδισμα
Μεταδεδομένα
Τμήματα κομματιών
Διεπαφή Σημασιολογικά πλούσια Απλοϊκή
Πίνακας 1.1: Σύγχρονη έρευνα στην ΑΜΠ.

Η πρώτη περιοχή εστιάζει σε συμβολικά μουσικά δεδομένα, χρησιμοποιεί κυρίως μεθόδους επεξεργασίας συμβολοσειρών και απευθύνεται πρωτίστως σε χρήστες με μουσικολογική παιδεία. Η αναγκαιότητα που παρουσιάζεται στην περιοχή αυτή, συνοψίζεται στην εξόρυξη πολύτιμων πληροφοριών από τα μουσικά δεδομένα αυτά, τα οποία υφίστανται σε υψηλά δομημένη μορφή. Η πληροφορίες αυτές μπορούν να αποδειχθούν ιδιαίτερα χρήσιμες για διαδικασίες όπως η κατηγοριοποίηση και ο εντοπισμός προτύπων στα δεδομένα αυτά. Το πρότυπο χρήστη με μουσική παιδεία απαιτεί σημασιολογικά πλούσιες μεθόδους καθορισμού του επερωτήματος και ανάλογες διεπαφές.

Η δεύτερη περιοχή εστιάζει γύρω από τα ακουστικά μουσικά δεδομένα και την επιθυμία των χρηστών να εντοπίζουν όμοια μουσικά δεδομένα, σε σχέση με ένα επερώτημα, από πολύ μεγάλες βάσεις. Η περιοχή αυτή υποστηρίζεται επίσης από τη βιομηχανία μουσικής που στη νέα αντιμετώπιση της για τη διάθεση της μουσικής, προωθεί τον Παγκόσμιο Ιστό, αλλά και από την ευκολία ψηφιοποίησης και αποθήκευσης των μουσικών δεδομένων ακόμα και σε ιδιόκτητες ογκώδεις βάσεις. Ακολούθως, απαιτούνται νέες μέθοδοι ανεύρεσης της επιθυμητής μουσικής, μιας και οι παραδοσιακές εξυπηρετούσαν το μοντέλο με τα δισκοπωλεία ή της μουσικής βιβλιοθήκης σε ράφια, αντίστοιχα. Ωστόσο, η περιοχή αυτή προσπαθώντας να προσεγγίσει το ευρύ κοινό, υποθέτει τους χρήστες χωρίς μουσικολογικές γνώσεις και αντιστοίχως χρησιμοποιεί για επερωτήματα τραγούδισμα σε μικρόφωνο, μεταδεδομένα ή τμήματα μουσικών αρχείων.

1.2 Μουσική πολυπλοκότητα

Ένας πολύ σημαντικός παράγοντας για την περιγραφή αλλά και την κατηγοριοποίηση της μουσικής είναι το πλήθος και ο τύπος των ταυτόχρονων γεγονότων που προκύπτουν ανά μονάδα χρόνου. Σε μουσικολογικούς όρους τα γεγονότα αυτά ονομάζονται υφή (texture) της μουσικής. Σε αύξουσα σειρά πολυπλοκότητας αυτά είναι:

  1. 1.

    Μονοφωνία

  2. 2.

    Ομοφωνία

  3. 3.

    Πολυφωνία με διακριτές φωνές

  4. 4.

    Πολυφωνία χωρίς διακριτές φωνές

1.2.1 Ορισμοί πολυπλοκότητας

Όπως παρουσιάζεται στο Σχήμα 1.3a, η μονοφωνική μουσική έχει μόνο μια νότα να ηχεί σε οποιαδήποτε χρονική στιγμή. Συνεπώς, καμία νότα δεν επιτρέπεται να ηχήσει, πριν η τρέχουσα ηχούσα πάψει. Στην ομοφωνική μουσική, πολλαπλές ηχούσες νότες επιτρέπονται, ωστόσο, όλες οι νότες που ξεκινούν να ηχούν μαζί, οφείλουν να σταματούν και ταυτόχρονα, και όσες σταματούν μαζί οφείλουν να έχουν ξεκινήσει ταυτόχρονα. Το Σχήμα 1.3b δείχνει ένα μεταβαλλόμενου πλήθους σύνολο νοτών να ξεκινούν ταυτόχρονα, ενώ καμία νότα ενός συνόλου δεν επικαλύπτει τις νότες του επόμενου συνόλου (σπανίως μερική επικάλυψη επιτρέπεται).

Σχήμα 1.3: Παραδείγματα (a) μονοφωνικής, (b) ομοφωνικής και (c) πολυφωνικής με διακριτές φωνές, ακολουθούμενη από την απεικόνιση τύπου piano-roll η οποία δείχνει ευκρινώς την αλληλοεπικάλυψη των νοτών στην πολυφωνία.

Η πολυφωνία χαλαρώνει τον περιορισμό της ομοφωνικής μουσικής, επιτρέποντας σε σύνολα νοτών να αλληλεπικαλύπτονται. Μια νότα μπορεί να ξεκινήσει πριν ή και ταυτόχρονα με μια άλλη και να τελειώσει πριν, την ίδια στιγμή ή και μετά από την δεύτερη νότα. Επιπλέον, δεν υπάρχει περιορισμός στον αριθμό ή τύπο των επικαλύψεων που μπορούν να προκύψουν. Εντούτοις, η πολυφωνική μουσική χωρίζεται ανάλογα με την ύπαρξη ή μη διακριτών φωνών. Στην πολυφωνία με διακριτές φωνές (βλ. Σχήμα 1.3c), η μουσική πηγή χωρίζεται σε ένα πλήθος διακριτών φωνών, η κάθε μια από τις οποίες είναι μονοφωνική ή ομοφωνική. Οι φωνές μπορούν να χρησιμοποιούν το ίδιο όργανο (λ.χ., ένα κλειδοκύμβαλο) ή και διαφορετικά (λ.χ., μια φωνή για κιθάρα και η δεύτερη για το μεταλλόφωνο).

Στην πολυφωνία χωρίς διακριτές φωνές, παρότι οι αλληλεπικαλυπτόμενες φωνές παραμένουν μονοφωνικές, δεν υπάρχει σαφής διαχωρισμός τους. Ακολούθως, δεν είναι ευδιάκριτη η αντιστοίχιση νοτών και φωνών.

1.2.2 Μετατροπή μεταξύ επιπέδων πολυπλοκότητας

Η μετατροπή μεταξύ των επιπέδων πολυπλοκότητας πολύ σπάνια εμφανίζεται στη σχετική βιβλιογραφία. Ειδικότερα, η μετατροπή από χαμηλή πολυπλοκότητα (μονοφωνία) σε υψηλότερη (πολυφωνία) δεν θεωρείται ως διαδικασία ανάκτησης πληροφορίας [184]. Ωστόσο, περιορισμένη έρευνα υφίσταται στον χώρο αυτό [11].

Αντίθετα η μετατροπή προς μειωμένη μουσική πολυπλοκότητα αποτελεί ένα ενδιαφέρον πεδίο έρευνας. Διευθύνσεις της έρευνας αυτής είναι η ανάκτηση της πληροφορίας φωνών σε πολυφωνικά κομμάτια χωρίς διακριτές φωνές αλλά και η εξαγωγή μελωδίας (μετατροπή από πολυφωνία ή ομοφωνία σε μονοφωνία). Επιπλέον, οι μετατροπές αυτές μπορούν να θεωρηθούν ως μέθοδοι εξαγωγής χαρακτηριστικών.

1.3 Αναπαράσταση της μουσικής

Η μουσική πληροφορία μπορεί να αναπαρασταθεί με δυο μεθόδους: τη συμβολική αναπαράσταση (σε αρχεία τύπου MIDI, Humdrum, αλλά και τυπική σημειογραφία δυτικού τύπου) και την ακουστική αναπαράσταση (σε αρχεία τύπου wav, mp3, aac, κλπ.). Η ειδοποιός διαφορά τους βρίσκεται στο ότι η οικογένεια των συμβολικών αναπαραστάσεων (εκτός των περιπτώσεων μεταφοράς ακουστικών πηγών σε συμβολική καταγραφή) περιέχει στα αντικείμενα της πληροφορία του τι θα πρέπει ένας μουσικός εκτελεστής να παίξει, ενώ οι ακουστικές αναπαραστάσεις αποτελούνται από μια συγκεκριμένη καταγεγραμμένη εκτέλεση ενός μουσικού κομματιού. Τα μουσικά κομμάτια σε συμβολική μορφή έχουν την έννοια της πρόθεσης του συνθέτη προς τον εκτελεστή, ενώ τα ακουστικά κομμάτια έχουν την έννοια ενός στιγμιότυπου ή μιας έκφανσης της κατανόησης και της εκτέλεσης του οργανοπαίκτη αλλά και των συνθηκών καταγραφής τους. Με άλλα λόγια, ο όρος μουσική συμπεριλαμβάνει τόσο τις οδηγίες του τι πρέπει να εκτελεστεί όσο και τους ήχους που προκύπτουν.

1.3.1 Το εύρος των αναπαραστάσεων

Παρότι η ακουστική αναπαράσταση μεταφέρει καταφανώς, καθώς είναι ακουστή, την πρόθεση του συνθέτη με πλήρη έκφραση, η δομή στη μορφή αυτή δεν είναι ρητά δηλωμένη. Οι ρυθμικές μορφές, οι δομικές φράσεις αλλά και άλλα δομικά στοιχεία της μουσικής που θα μπορούσαν να χρησιμοποιηθούν για ΑΜΠΒΠ δεν είναι έκδηλα και απαιτούν εντοπισμό. Η έλλειψη δομής είναι τέτοιας κλίμακας όπου ακόμα και το τονικό ύψος αλλά και η χρονική διάρκεια των φθογγόσημων (νότες) απουσιάζουν. Το Σχήμα 1.4a δείχνει ένα παράδειγμα της κυματομορφής ενός ψηφιοποιημένου καταγεγραμμένου μουσικού κομματιού.

(a) (b) (c)
Σχήμα 1.4: Σχηματικές αναπαραστάσεις της μουσικής: (a) ακουστική, (b) συμβολική τύπου MIDI και (c) συμβολική τύπου δυτικής σημειογραφίας.

Αντιδιαμετρικά βρίσκεται η τυπική σημειογραφία του δυτικού τύπου μουσικής, με συνηθέστερη απόδοση της το κείμενο με τα μέρη μουσικής συνθέσεως γραμμένα σε πεντάγραμμο (παρτιτούρα) [184]. Στην αναπαράσταση αυτή, όλοι οι συμβολισμοί που περιλαμβάνονται στην δυτικού τύπου μουσική είναι ρητά δηλωμένοι και δομημένοι, ενώ με τη χρήση εξειδικευμένου λογισμικού τα χαρακτηριστικά αυτά μπορούν να κωδικοποιηθούν σε αρχεία τύπου CMN (Common Music Notation). Στο Σχήμα 1.4c παρουσιάζεται ένα δείγμα παρτιτούρας. Στο σημείο αυτό πρέπει να αναφερθεί ότι η μη-δυτικού τύπου μουσική παρουσιάζει σημαντικές διαφορές από την δυτικού τύπου μουσική, και στο παρόν δεν εξετάζεται, ενώ εφεξής με τον όρο μουσική αναφερόμαστε στην δυτικού τύπου μουσική.

Ωστόσο, η συμβολική αναπαράσταση μπορεί να χωριστεί επίσης σε επιμέρους τμήματα ανάλογα με το βαθμό δόμησης που παρουσιάζει, με κύρια υποκατηγορία την αναπαράσταση μέσω χρονο-σημασμένων γεγονότων (μουσικά αρχεία τύπου MIDI). Τα αρχεία αυτά περιέχουν περιγραφείς επιπέδου γεγονότων οι οποίοι δηλώνουν τους χρόνους (σε χιλιοστά του δευτερολέπτου) ήχησης και διάρκειες των νοτών που εμφανίζονται σε ένα κομμάτι. Τα αρχεία MIDI περιέχουν περισσότερη δόμηση από τα ακουστικά καθώς το ακριβές τονικό ύψος και η διάρκεια των νοτών είναι ρητά δηλωμένα. Αντίθετα, περιέχουν λιγότερη πληροφορία από τη δυτικού τύπου σημειογραφία καθώς η διαφορά ενός ημιτονίου με την ύφεση του επομένου δεν είναι δυνατό να διαχωριστεί (τα εναρμόνια διαστήματα δεν μπορούν να διαχωριστούν). Στην αναπαράσταση αυτή έχουν τον ίδιο χαρακτηρισμό, ενώ παρόμοια, δεν είναι δυνατό να διαχωριστούν μια νότα με διάρκεια ενός δευτέρου και δυο δεμένες νότες (tied quarter notes) διάρκειας ενός τετάρτου. Καθώς η αναπαράσταση αυτή συνδέθηκε με το piano-roll του περασμένου αιώνα στο Σχήμα 1.4b παρουσιάζεται με τη μορφή αυτή.

Οι αναπαραστάσεις μέσω χρονο-σημασμένων γεγονότων (MIDI) χωρίζονται επίσης σε δυο κατηγορίες ανάλογα με το εάν βασίζονται σε μια δεδομένη εκτέλεση ή σε μια παρτιτούρα, ενώ η διαφορά αυτή υποστηρίζεται από την προέλευση του αρχείου MIDI. Οι συνηθέστερες πηγές είναι από μια παρτιτούρα ή η μετατροπή από μια εκτέλεση (μέσω ενός οργάνου που υποστηρίζει έξοδο MIDI ή από τη αναγνώριση νοτών από ακουστικό σήμα). Η διαφορά μεταξύ των δύο μεθόδων έγκειται στο ότι το MIDI από μια παρτιτούρα έχει διάρκεια νοτών ακέραια πολλαπλάσια, ενώ στην περίπτωση MIDI από εκτέλεση οι νότες διαρκούν μη ακριβή πολλαπλάσια, δυσχεραίνοντας την αναγνώριση τους. Πρόκειται δηλαδή για διαφορά κβαντισμένων και μη κβαντισμένων αρχείων MIDI.

Στον Πίνακα 1.2 παρουσιάζεται η συγκριτική απεικόνιση των αναπαραστάσεων που ως τώρα εξετάστηκαν. Επιπλέον, δίνεται και ο βαθμός δυσκολίας μετατροπής από μορφή σε μορφή (όπως σχολιάζεται αναλυτικότερα στην Ενότητα 1.3.2) αλλά και ο απαιτούμενος σχετικός αποθηκευτικός χώρος για κάθε μια. Επιπλέον, στον Πίνακα 1.3 παρουσιάζεται η αναλογία κειμένου και μουσικής όσο αφορά την δόμη κάθε αναπαράστασης. Στην Ενότητα 1.5.1, θα δοθεί εκτενέστερη σύγκριση της ανάκτησης πληροφορίας κειμένου και μουσικής.

Πίνακας 1.2: Σύγκριση των αναπαραστάσεων της μουσικής.
Πίνακας 1.3: Σύγκριση κειμένου και μουσικής.

1.3.2 Μετατροπές αναπαραστάσεων

Η μετατροπή μεταξύ αναπαραστάσεων μονοφωνικής μουσικής αποτελεί ένα εύκολα αντιμετωπιζόμενο πρόβλημα. Αντίθετα, η μετατροπή μεταξύ αναπαραστάσεων πολυφωνικής μουσικής μπορεί να κυμανθεί από πολύ απλό σε άλυτο πρόβλημα, ιδιαίτερα χωρίς περιοριστικές υποθέσεις [145], ανάλογα με την διεύθυνση μετατροπής. Τα αρχεία τύπου CMN μπορούν πολύ εύκολα να μετατραπούν σε MIDI αντικαθιστώντας το τονικό ύψος και την διάρκεια των νοτών με το διακριτό αναγνωριστικό του τονικού ύψους και την χρονική διάρκεια της νότας σε χιλιοστά του δευτερολέπτου. Όμοια εύκολη είναι και η μετατροπή MIDI σε ακουστική μουσική88Ο όρος "ακουστική μουσική" πηγάζει από τον Αγγλικό "acoustic music", ενώ δόκιμες εναλλακτικές του είναι επίσης και οι όροι "αρχεία ήχου" και "ακουστικά αρχεία". Μουσικά όργανα που υποστηρίζουν τα αρχεία MIDI ή ένας Η/Υ μπορούν να ηχήσουν τη νότα βάσει του διακριτικού της για το δεδομένο χρονικό της διάστημα και να δημιουργήσουν μια μουσική εκτέλεση. Παρότι στις εκτελέσεις αυτές απουσιάζει η εκφραστική ικανότητα και το συναίσθημα του ανθρώπινου εκτελεστή, παραμένουν πιστές στην αρχική παρτιτούρα. Ωστόσο, η μετατροπή στην αντίθετη κατεύθυνση, δηλαδή από ακουστική μουσική σε MIDI ή από MIDI σε CMN, αποτελεί ένα ιδιαίτερα δύσκολο πρόβλημα. Η αναγνώριση ακουστικής μουσικής, δηλαδή η μετατροπή ενός εκτελεσμένου μουσικού κομματιού σε αναπαράσταση χρονο-σημασμένων γεγονότων, παραμένει, ακόμα και στις μέρες μας, ένα άλυτο πρόβλημα. Η μετατροπή MIDI σε CMN είναι σημαντικά ευκολότερα αντιμετωπίσιμη, ωστόσο όχι χωρίς δυσκολία [3]. Όπως ήδη αναφέρθηκε, λόγω έλλειψης δομής στα αρχεία MIDI δεν είναι δυνατή η αναγνώριση εναρμόνιων νοτών διάρκειας ενός δευτέρου και δύο δεμένων νοτών ενός τετάρτου. Τέλος, η μετατροπή ακουστικής μουσικής σε CMN περιλαμβάνει τη δημιουργία ή εντοπισμό ρητής δομής παρά το γεγονός ότι αυτή δεν περιέχεται στην πηγή, εισάγοντας αβεβαιότητα για την ακρίβεια της προτεινόμενης δομής.

1.4 Εξόρυξη πληροφορίας

Εξόρυξη δεδομένων (data mining) ονομάζεται η διαδικασία εξαγωγής γνώσης από μεγάλους όγκους δεδομένων. Στην ανάπτυξη της εξόρυξης δεδομένων κινητήριο χαρακτήρα είχε η πρόοδος στους τομείς της αυτόματης συλλογής δεδομένων (λ.χ., ακουστικά μουσικά δεδομένα, καταχώρηση επισκεπτών σε ιστοχώρους, αρχεία ηλεκτρονικών αγορών κ.α.), αλλά και, όπως στην ανάκτηση πληροφορίας, της ανάπτυξης μεγάλων βάσεων και της δημιουργίας αποθηκών δεδομένων (data warehouses) με τη συγκέντρωση πληροφορίας από πολλές και ετερογενείς συλλογές. ʼμεση συνέπεια της ύπαρξης των συλλογών αυτών, είναι η αδύνατη ανάλυση των μεγάλων όγκων δεδομένων που έχουν συλλεχθεί χωρίς την ανάπτυξη (ημι)-αυτόματων και αποδοτικών τεχνικών, όπως αυτές που περιλαμβάνει η εξόρυξη δεδομένων.

Από τα προαναφερθέντα προκύπτει ο ορισμός της Εξόρυξης Δεδομένων: "Η εξαγωγή ενδιαφέρουσας, μη προφανούς, νέας και χρήσιμης πληροφορίας από μεγάλες βάσεις δεδομένων"[8].

1.4.1 Εξόρυξη μουσικής πληροφορίας

Η μουσική ανάλυση είναι σημαντικό τμήμα της έρευνας για τη μουσική γνώση. Ο στόχος της ανάλυσης των μουσικών δεδομένων είναι ο προσδιορισμός του στοιχειώδους σημείου επαφής της ανθρώπινης κατανόησης και των μουσικών ήχων (μουσική αντιληπτικότητα) [1]. Η μουσική ανάλυση είναι η διαδικασία με την οποία ασχολούνται οι μουσικολόγοι και η οποία εφαρμόζεται σε ένα μουσικό κομμάτι, σε ένα τμήμα του ή ακόμα και σε μια συλλογή κομματιών. Το ερευνητικό πεδίο αυτό περικλείει το πεδίο της εξόρυξης μουσικής πληροφορίας (εφεξής μουσική εξόρυξη), το οποίο ασχολείται με την θεωρία και τις μεθόδους ανεύρεσης γνώσης από μουσικά κομμάτια και μπορεί να θεωρηθεί ως μια συλλογή (ημι-) αυτόματων μεθόδων ανάλυσης μουσικών δεδομένων.

Ακολουθώντας τη μεθοδολογία μουσικής εξόρυξης, οι αναλυτές μουσικής εξάγουν99Οι συγγραφείς της εργασίας [101] παρουσιάζουν την ενδιαφέρουσα διαφοροποίηση μεταξύ της ανεύρεσης ενός προτύπου και της εξαγωγής του. Η ανεύρεση αναφέρεται στον εντοπισμό της τοπικής κανονικότητας (local regularities) στα δεδομένα. Η εξαγωγή, αναφέρεται επίσης σε εντοπισμό του ίδιου τύπου, αλλά ασχολείται επιπλέον και με τη ρητή διαθεσιμότητα των προτύπων σε κάποια γλώσσα, κατά το τέλος της διαδικασίας εξόρυξης. επαναλαμβανόμενες δομές αλλά και την οργάνωση τους στα μουσικά κομμάτια, προσπαθώντας να κατανοήσουν το ύφος και την τεχνική των συνθετών [101]. Ωστόσο, το μέγεθος και οι ιδιαιτερότητες των μουσικών δεδομένων μπορούν να αποβούν απαγορευτικοί παράγοντες για την προαναφερθείσα διαδικασία. Παρόμοιες δυσκολίες, λ.χ., τις ογκώδεις βάσεις δεδομένων και το μεγάλο αριθμό διαστάσεων των δεδομένων, αντιμετωπίζουν οι αναλυτές δεδομένων όταν προσπαθούν να εντοπίσουν πρότυπα από βάσεις δεδομένων, δηλαδή ακριβώς τις αιτίες που οδήγησαν στην εξέλιξη της εξόρυξης-ανεύρεσης πληροφορίας από βάσεις δεδομένων (knowledge discovery from databases - KDD). Εντούτοις, στην αναλογία μεταξύ της μουσικής εξόρυξης και της εξόρυξης σε βάσεις δεδομένων, η μορφή των μουσικών δεδομένων απαιτεί την ανάπτυξη ριζικά διαφορετικών μεθόδων. Στην συνέχεια της ενότητας αυτής, συνοψίζονται οι δυσκολίες και προκλήσεις που παρουσιάζει η μουσική εξόρυξη.

Ένα κύριο σημείο στο οποίο η μουσική εξόρυξη διαφέρει από παρεμφερείς περιοχές (λ.χ., εξόρυξη από βάσεις δεδομένων ή εξόρυξη από τον παγκόσμιο ιστό) είναι η εφαρμογή αλλά και οι ιδιαιτερότητες της μουσικής. Τα πρότυπα που εντοπίστηκαν από σχεσιακές ή άλλων τύπων βάσεις, προτείνουν συνήθως μια δράση (actionable). Παραδείγματος χάριν, κανόνες συσχέτισης από δεδομένα καλαθιών αγορών μπορούν να αποτελέσουν ένδειξη για την πιθανή βελτίωση των πωλήσεων, ενώ τα πρότυπα πρόσβασης των χρηστών που εξάγονται από αρχεία καταγραφής ιστοσελίδων μπορούν να βοηθήσουν στην αναδιοργάνωση του ιστοχώρου. Η προτεινόμενη δράση είναι λοιπόν συσχετισμένη με μιας μορφής "κέρδους" και προέρχεται από την αντίστοιχο εμπορικό πεδίο που εμπλέκεται στον τομέα. Ακολούθως προκύπτει το ερώτημα: "Ποια η χρησιμότητα των εξαγόμενων προτύπων από μουσικά δεδομένα;". Για την απάντηση στο ερώτημα αυτό, οφείλουμε να εξετάσουμε την τρέχουσα κατάσταση του εμπλεκόμενου εμπορίου, της "μουσικής βιομηχανίας". Η επιρροή της μουσικής στους ανθρώπους αντικατοπτρίζεται στα μουσικά αγαθά και υπηρεσίες που προσφέρονται στις μέρες μας. Τα ετήσια κέρδη της βιομηχανίας μουσικής υπολογίζονται σε αρκετά δισεκατομμύρια δολάρια [7]. Στα πλαίσια αυτά, το μουσικό περιεχόμενο αποτελεί πηγή οικονομικής δραστηριότητας. Το γεγονός αυτό εντείνεται από την ευκολία που προσφέρει ο παγκόσμιος ιστός στη διάθεση του μουσικού περιεχομένου, με κατεξοχήν παράδειγμα την υπηρεσία Napster. Κατά συνέπεια, είναι ιδιαιτέρου ενδιαφέροντος η αναγκαιότητα έρευνας βάσει περιεχομένου σε μουσικές συλλογές. Το αντίστοιχο ερευνητικό πεδίο, όπως ήδη αναφέρθηκε στην Ενότητα 1.1 ονομάζεται ανάκτηση μουσικής πληροφορίας βάσει περιεχομένου.

Ως εκ τούτου, είναι αναμενόμενο, η μουσική εξόρυξη να αποτελεί σημαντικό παράγοντα του σχεδιασμού αποδοτικών συστημάτων ΑΜΠΒΠ. Στην πραγματικότητα, η ΑΜΠΒΠ επηρέασε ιδιαιτέρως τη διεύθυνση έρευνας της μουσικής εξόρυξης, ορίζοντας τους στόχους προς επίτευξη. Η συνεισφορά της μουσικής εξόρυξης στην ΑΜΠΒΠ γίνεται καλύτερα κατανοητή λαμβάνοντας υπόψη ότι τα εξαγόμενα πρότυπα περιγράφουν και αναπαριστούν το μουσικό περιεχόμενο σε διάφορα επίπεδα αφαίρεσης (λ.χ., δημιουργώντας ταξινομίες). Η περιγραφή του μουσικού περιεχομένου με τις αναπαραστάσεις αυτές βοηθούν τους χρήστες στην διατύπωση επερωτημάτων με περιγραφείς περιεχομένου (λογικά ή συναισθηματικά), οι οποίοι δραστικά βελτιώνουν την αποδοτικότητα της ανάκτησης σε συστήματα ΑΜΠΒΠ [7], σε σχέση με την απλοϊκή χρήση περιγραφέων κειμένου όπως ο τίτλος ή το όνομα του συνθέτη (μεταδεδομένα). Επιπλέον, ο χρόνος έρευνας μειώνεται, εφόσον τα εξαγόμενα πρότυπα αποτελούν μια περισσότερο συμπιεσμένη μορφή του μουσικού περιεχομένου. Τα πλεονεκτήματα από τις δυο προαναφερθείσες κατευθύνσεις είναι εμφανή σε μια πληθώρα εμπορικών εφαρμογών, από τις μουσικές βιβλιοθήκες έως το προσανατολισμένο στο χρήστη ηλεκτρονικό εμπόριο μουσικής [101].

1.4.2 Προκλήσεις εξόρυξης μουσικής

Οι Byrd και Crawford [66] παρουσιάζουν ένα πλήθος αιτιολογιών για τις οποίες είναι δύσκολη η διαχείριση μουσικών δεδομένων. Μερικοί από τους λόγους αυτούς επηρεάζουν επίσης και την μουσική εξόρυξη. Η κυριότερη δυσκολία πηγάζει από το γεγονός ότι ο διαχωρισμός του μουσικού κομματιού σε νοηματικές ενότητες, όπως οι φράσεις και τα μοτίβα δεν είναι εύκολα πραγματοποιήσιμος (όπως θα παρουσιαστεί και στην Ενότητα 1.5.1). Για την εξαγωγή προτύπων είναι αναμενόμενο να απαιτείται η αναπαράσταση των μουσικών δεδομένων σε τέτοιες ενότητες, όπως και η εξόρυξη κειμένου χρησιμοποιεί τις λέξεις ως νοηματικές ενότητες για την ανεύρεση προτύπων. Παρότι ο βαθμός δυσκολίας αυξάνει για την ακουστική μουσική, ο προσδιορισμός των βασικών ενοτήτων δεν είναι ούτε στη συμβολική αναπαράσταση εύκολος. Το πρόβλημα εντείνεται περαιτέρω από την ύπαρξη αλληλοεπικάλυψης μεταξύ των μουσικών ενοτήτων, λόγω της πολυφωνίας.

Η πολυφωνία, όπως ήδη παρουσιάστηκε στην Ενότητα 1.2, είναι πηγή περισσότερων δυσκολιών. Χάριν απλότητας, οι αρχικές έρευνες στον τομέα της μουσικής εξόρυξης ασχολήθηκαν με συμβολική μονοφωνική μουσική. Ωστόσο, η πολυφωνία είναι χαρακτηριστικό όλων σχεδόν των πραγματικών μουσικών κομματιών. Η δυσκολία που εισάγει έγκειται στο ότι απαιτείται να διαχωριστούν ταυτόχρονες χωριστές φωνές, ώστε να αναγνωριστούν, όμοια όπως ξεχωρίζουν οι διάφορες παράλληλες ομιλίες καλεσμένων σε μια συγκέντρωση. Το πρόβλημα αυτό θεωρείται πολύ δύσκολο να επιλυθεί και επηρεάζει ιδιαίτερα την ποιότητα της ανάλυσης [66], καθώς οι μουσικές φράσεις μπορεί να ακουστούν μόνο σε λίγες περιπτώσεις ενώ να ενυπάρχουν, λ.χ., αναμεμειγμένες σε επαναλαμβανόμενες συγχορδίες, περισσότερες φορές.

Η επανάληψη εμφανίσεων σηματοδοτεί ένα πρότυπο σε σχεδόν όλα τα πεδία εξόρυξης (βάσεων δεδομένων, ιστοσελίδων, κειμένου). Ωστόσο, σε όλα τα πεδία αυτά, τα πρότυπα επαναλαμβάνονται ακριβώς όμοια. Στην μουσική εξόρυξη, η προσήλωση σε ακριβείς επαναλήψεις δεν επαρκεί, καθώς παραλλαγές και καλλωπισμοί αποτελούν συνήθεις πρακτικές στα μουσικά δεδομένα [101]. Κατά συνέπεια, οι αλγόριθμοι ανεύρεσης μουσικών προτύπων οφείλουν να συμπεριλάβουν και την ιδιαιτερότητα αυτή.

Η ποιότητα των δεδομένων, είναι ένας παράγοντας που εξετάζεται από όλα τα πεδία εξόρυξης. Οι μέθοδοι καθαρισμού των δεδομένων χρησιμοποιούνται για την αποφυγή ανακάλυψης προτύπων που δεν υφίστανται. Δεν είναι καθόλου παράξενο το γεγονός ότι τα μουσικά δεδομένα είναι επιρρεπή σε "λάθη", καθώς δεν υπάρχει έλεγχος ποιότητας της κοινά διαθέσιμης μουσικής [66]. Ωστόσο, τα μουσικά δεδομένα παρουσιάζουν μια επιπλέον πηγή λαθών, η οποία είναι το αποτέλεσμα των διαφορών όσο αφορά τα χαρακτηριστικά της εκάστοτε εκτέλεσης. Τα χαρακτηριστικά αυτά, όπως το κλειδί, ο ρυθμός, οι αυτοσχεδιασμοί ή και το ύφος, προκαλούν διαφορετικά στιγμιότυπα πανομοιότυπων μουσικών παρτιτούρων. Ακολούθως οι παράγοντες αυτοί πρέπει επίσης να εξεταστούν κατά την έρευνα για πρότυπα.

Τα προαναφερθέντα ζητήματα, αφορούν την αποδοτικότητα της διαδικασίας μουσικής εξόρυξης. Μια ακόμα σημαντική πλευρά της διαδικασίας αυτής είναι και οι επιδόσεις της. Οι μουσικές βάσεις δεδομένων τείνουν να είναι μεγάλες σε μέγεθος, εξαιτίας του μεγάλου αριθμού κομματιών που περιλαμβάνουν αλλά και του μεγάλου όγκου των κομματιών. Συνεπώς, η πρόκληση που παρουσιάζεται, είναι η ανάπτυξη κλιμακούμενων αλγορίθμων για τη μουσική εξόρυξη. Πολλές από της ήδη υπαρκτές μεθόδους επηρεάστηκαν από μεθοδολογίες soft-computing (λ.χ., νευρωνικά δίκτυα, γενετικοί αλγόριθμοι, SVM), οι οποίες δεν παρουσιάζουν καλή κλιμάκωση. Επιπλέον, οι αλγόριθμοι ανεύρεσης επαναλαμβανόμενων προτύπων περιορίζονται σε δεδομένα που βρίσκονται στην κύρια μνήμη. Ακολούθως, μια ακόμα πρόκληση είναι η ανάπτυξη αλγορίθμων για δεδομένα που βρίσκονται σε δευτερεύουσα μνήμη (δίσκοι).

Τέλος, πρέπει να αναφερθεί ότι, παρότι η χρήση γενικότερων γνώσεων στη διαδικασία εξόρυξης θεωρείται σημαντική, παραμένει ασαφής. Στη μουσική εξόρυξη, η μουσικολογικές γνώσεις θεωρούνται εκ των ούκ άνευ. Απαιτείται, λοιπόν, η συστηματική ανάπτυξη μεθόδων για την ενσωμάτωση της γνώσης αυτής στη διαδικασία της μουσικής εξόρυξης, εργασία που μοιάζει δύσκολη στην υλοποίηση της.

1.5 Ανάκτηση πληροφορίας

Το πρόβλημα της ανάκτησης πληροφορίας ορίζεται ως εξής: Στο χρήστη ενός συστήματος παρουσιάζεται η ανάγκη απόκτησης κάποιας πληροφορίας. Ο ίδιος χρήστης έχει πρόσβαση σε μια συλλογή από πληροφορίες ή δεδομένα, εκ των οποίων η επιθυμητή πληροφορία μπορεί να εκμαιευτεί. Ο στόχος ενός συστήματος ανάκτησης πληροφορίας είναι το ταίριασμα της πληροφοριακής ανάγκης και των πληροφοριών που υπάρχουν στη δεδομένη συλλογή αλλά και η εξαγωγή των πληροφοριών που είναι σχετικές με την ανάγκη του χρήστη. Πέρα από την προσπάθεια ικανοποίησης της ανάγκης του χρήστη, μέθοδοι μέτρησης της ικανοποίησης της ανάγκης αυτής είναι επίσης επιθυμητοί.

Η πληροφοριακή ανάγκη στο προκείμενο αναφέρεται στη μουσική, ενώ τα δεδομένα στην αντίστοιχη συλλογή από όπου θα εξαχθούν είναι επίσης μουσικά. Παραδοσιακά, η ανάκτηση πληροφορίας προσανατολίστηκε στην ανάκτηση κειμένου, ενώ όπως προαναφέρθηκε στην Ενότητα 1.3.1 υπάρχουν σαφείς διαφορές μεταξύ των δεδομένων μουσικής και κειμένου.

1.5.1 Ανάκτηση πληροφορίας κειμένου

Ο στόχος εδώ είναι η χρήση του περιεχομένου των μουσικών δεδομένων στον κόσμο της ανάκτησης πληροφορίας. Στην ανάκτηση πληροφορίας κειμένου, μια συνήθης αντιμετώπιση θεωρεί ότι ένα κείμενο είναι σχετικό με ένα επερώτημα, εάν το τελευταίο αναφέρεται σε παραπλήσιο θέμα με το κείμενο. Για τα κείμενα στα οποία τα συστήματα ανάκτησης πληροφορίας κειμένου λειτουργούν γίνεται συνήθως η υπόθεση ότι διαπραγματεύονται αντικειμενικά φαινόμενα. Καθώς πολλά συστήματα ανάκτησης πληροφορίας κειμένου αναπτύσσονται χρησιμοποιώντας άρθρα εφημερίδων, εταιρικές και κρατικές αναφορές ή ακόμα και ιστοσελίδες, η υπόθεση αυτή είναι συνήθως σωστή, εφόσον οι όροι που χρησιμοποιούνται στα κείμενα αυτά είναι υψηλού σημασιολογικού περιεχομένου.

Η θεώρηση αυτή εξελίσσεται σε όφελος των συστημάτων ανάκτησης πληροφορίας κειμένου, ενώ, δυστυχώς, δεν μπορεί να εφαρμοστεί στα μουσικά δεδομένα. Οι νότες της μουσικής δεν φέρουν σημασιολογικό περιεχόμενο. Οι ακροατές ενός κομματιού δεν ακούνε ένα κομμάτι που περιλαμβάνει την νότα Ντο και άμεσα κάνουν την συσχέτιση ότι το κομμάτι αυτό διαπραγματεύεται την νότα Ντο. Αντίθετα, οι αναγνώστες ενός κειμένου που περιλαμβάνει την λέξη "καρδιά" διαβάζοντας την λέξη αυτή αντιλαμβάνονται ότι το κείμενο αυτό συσχετίζεται με την καρδιά ή τουλάχιστο περιγράφει κάτι σχετικό με την καρδιά. Τα μουσικά κομμάτια που περιλαμβάνουν την νότα DO δεν συσχετίζονται άμεσα με την νότα αυτή και ακολούθως είναι άστοχη η σύγκριση μουσικών νοτών και λέξεων κειμένου. Οι νότες έχουν περισσότερα κοινά με τα γράμματα από ότι με της πλήρεις λέξεις, παρότι παραμένει ακόμα και σήμερα μη πλήρως διασαφηνισμένη η εξαγωγή μουσικών "λέξεων" από ένα μουσικό κομμάτι.

Εκτός του προβλήματος του σημασιολογικού περιεχόμενου, υφίσταται και το πρόβλημα του μεγέθους του λεξιλογίου, καθώς τα ευμεγέθη λεξιλόγια προσφέρουν υψηλότερη διακριτική ικανότητα από ότι τα μικρότερα. Τα λεξιλόγια των κειμένων είναι συνήθως μεγάλα και παρότι μεταβάλλονται από γλώσσα σε γλώσσα ξεκινούν από 40,000 ή και περισσότερα λήμματα. Αντίθετα τα μουσικολογικό λεξιλόγια1010Τα μουσικά λεξικά είναι "σχετικά" καθώς δεν μπορεί να υπάρξει γενικό μουσικό λεξικό. είναι κατά πολύ μικρότερο, με 128 διαθέσιμες διακριτές νότες (στην αναπαράσταση τύπου MIDI), μεταξύ των οποίων οι μισές περίπου δεν χρησιμοποιούνται σε κανένα μουσικό έργο. Κατά αντιστοιχία, σε χαμηλό επίπεδο δομής, τα κείμενα έχουν επίσης πολύ μικρό λεξιλόγιο: 26 γράμματα για την Αγγλική γλώσσα και 24 και επιπλέον τα σημεία στίξης για την Ελληνική γλώσσα. Ωστόσο, για τα κείμενα υφίστανται αυτοματοποιημένες μέθοδοι ώστε η έρευνα να προωθηθεί από τους χαρακτήρες στις λέξεις, επιτρέποντας στα συστήματα ανάκτησης πληροφορίας να μην λειτουργούν σε επίπεδο χαρακτήρων. Με τη χρήση απλών κανονικών εκφράσεων, δεδομένα κειμένου μετατρέπονται εύκολα από χαρακτήρες σε λέξεις που περιέχουν σημασιολογικό περιεχόμενο. Συνοπτικά, τα δεδομένα κειμένου χαρακτηρίζονται από τα εξής τρία ακόλουθα χαρακτηριστικά: (i) Ένα ευμέγεθες λεξιλόγιο (ii) χαρακτηριστικών εύκολα εξαγώγιμων που (iii) φέρουν σημασιολογικό περιεχόμενο.

Ουσιαστικά, τα δεδομένα κειμένου παρουσιάζουν υψηλή συσχέτιση μεταξύ σύνταξης και σημασιολογίας. Παρότι, το προτέρημα αυτό δεν επιλύει τις δυσκολίες της ανάκτησης πληροφορίας κειμένου, κάνει όμως την όλη διαδικασία σαφώς ευκολότερη από ότι στην περίπτωση που οι εννοιολογικές μονάδες αυτές λείπουν. Στην μουσική, όπου λείπουν και το διαθέσιμο λεξιλόγιο είναι περιορισμένο και δεν φέρει σημασιολογικό περιεχόμενο, η διαδικασία εξαγωγής ενότητες περιεχομένου είναι πολύ ασαφής [184].

Ωστόσο, παρά τις προαναφερθείσες δυσκολίες σε σχέση με το κείμενο, το αίτημα των χρηστών για ανάκτηση πληροφορίας στη μουσική παραμένει και απαιτεί ικανοποίηση, ενώ, εμφανώς, η χρήση ήδη υπαρκτών μεθόδων για κείμενο δεν θα είναι αποδοτική. Παρότι η ανάκτηση μουσικής πληροφορίας είναι πεδίο στενά συνδεδεμένο με την ανάκτηση πληροφορίας κειμένου, η διαφορά τους έγκειται στο επιπλέον επίπεδο δυσκολίας που εισάγει η έλλειψη σημασιολογικού περιεχομένου.

1.5.2 Ανάκτηση πληροφορίας άλλων μορφών δεδομένων

Η μουσική δεν είναι η μόνη μορφή πληροφορίας η οποία αντιμετωπίζει το πρόβλημα μη εμφανούς και εύκολης εξαγωγής σημασιολογικά σημαντικών όρων. Τα βασικά δεδομένα που αποτελούν τις εικόνες, τα εικονοστοιχεία (pixels), έχουν ένα πολυπληθές λεξιλόγιο εκατομμυρίων διαφορετικών χρωμάτων τα οποία δεν φέρουν σημασιολογικά σημαντικό περιεχόμενο. Το ίδιο ισχύει και για την κινούμενη εικόνα με ήχο (video), το οποίο είναι μια ακολουθία χαρτών pixel στο χρόνο. Επίσης, το ακουστικό σήμα, τόσο το μουσικό όσο και το μη μουσικό, αντιμετωπίζουν το ίδιο πρόβλημα.

Ένας ακόμα τομέας που υποφέρει από το ίδιο πρόβλημα της έλλειψης διαθέσιμου σημασιολογικά σημαντικού περιεχόμενου είναι τα βιολογικά δεδομένα. Η τρέχουσα έρευνα εξορύσσει και ανακτά ακολουθίες γενετικού υλικού (DNA). Παρόμοια με τη μουσική, το DNA έχει ένα υπερβολικά μικρό λεξιλόγιο: C, G, A και T (οι νουκλεοβάσεις Cytosine, Guanine, Adenine και Thymine). Το λεξιλόγιο αυτό μεμονωμένο φέρει ελάχιστη σημασιολογική πληροφορία για την συνολική ακολουθία DNA.

Είναι ιδιαίτερου ενδιαφέροντος ότι μερική από την ορολογία που χρησιμοποιείται για την περιγραφή της μουσικής βρίσκει εφαρμογή και στην περιγραφή των ακολουθιών DNA. Ένα χαρακτηριστικό παράδειγμα είναι η χρήση του όρου "μοτίβο"1111Το μοτίβο είναι ένα σύντομο επαναλαμβανόμενο μελωδικό ή ρυθμικό σχήμα που είναι εύκολα αναγνωρίσιμο (ένα μουσικό θέμα μπορεί να περιλαμβάνει αρκετά μοτίβα). DNA. "Στην γενετική, ένα ακολουθιακό μοτίβο είναι μια ακολουθία πρότυπο αποτελούμενη από νουκλεοτίδια ή αμινο-οξέα, η οποία εμφανίζεται σε διάφορα σημεία και είναι, ή υποτίθεται ότι έχει, βιολογική σημασία." [4]. Σημαντικά τμήματα ενός μουσικού κομματιού τείνουν να επαναλαμβάνονται σε ένα κομμάτι ή σε διάφορα μέρη της μουσικής σύνθεσης.