Ξέρετε ότι το 15% των ημερήσιων αναζητήσεων στη Google αφορά εντελώς καινούρια πράγματα; Είναι πράγματι πολύ εντυπωσιακό το πόσο τεράστια είναι η ανθρώπινη περιέργεια!
Αυτό από την πλευρά της Google απαιτεί δουλειά, δηλαδή προετοιμασία, ώστε να προκύψουν τα σωστά αποτελέσματα ακόμα και σε αναζητήσεις που δεν έχουν ξαναγίνει ποτέ. Αντιλαμβανόμαστε ότι αυτό κάνει τη δουλειά της Google ιδιαιτέρως δύσκολη, δεδομένου ότι συχνά οι χρήστες κάνουν αναζητήσεις για τις οποίες δεν έχουν την παραμικρή ιδέα.
Ο πυρήνας της αναζήτησης έχει να κάνει με την ανίχνευση της έκφρασης, του γλωσσικού κομματιού δηλαδή. Οι ειδικοί της Google πρέπει να καταλάβουν τι είναι αυτό που ψάχνει ο εκάστοτε χρήστης και να ξετρυπώσουν τις κατάλληλες πληροφορίες ανεξαρτήτως του πως έχουν γραφεί ή έχουν συνδυαστεί οι λέξεις στην αναζήτηση. Υπάρχουν φορές που ο αλγόριθμος αποτυγχάνει να επιστρέψει τα αναμενόμενα αποτελέσματα, παρά τις συνεχείς του βελτιώσεις. Υπάρχει μία κατηγορία αναζητήσεων κατά την οποία οι χρήστες γράφουν ολόκληρες φράσεις ή αλληλουχίες λέξεων-κλειδιών, νομίζοντας ότι θα βοηθήσουν τη μηχανή να καταλάβει καλύτερα αλλά στην πραγματικότητα δεν κατανοεί τίποτα, κι αυτό διότι δεν ακολουθείται ο συνήθης τρόπος με τον οποίο κάνουμε μία ερώτηση.
Η βοήθεια που έχει προσφέρει στον τομέα της αναζήτησης, η ανάπτυξη του machine learning είναι ανυπολόγιστη. Τα τελευταία χρόνια έχουν γίνει τα μεγαλύτερα άλματα στην ιστορία της αναζήτησης.
BERT – Ο Αλγόριθμος Που Βλέπει Πίσω Από Τα Keywords
Σας λέει κάτι το ακρωνύμιο BERT;
Προέρχεται από το Bidirectional Encoder Representations from Transformers και ακούγεται σχεδόν φοβιστικό αλλά πρόκειται για ένα σύστημα με το οποίο μπορεί κανείς να εκπαιδεύσει το δικό του, προσωπικό σύστημα ερωτήσεων-απαντήσεων.
Πώς γίνεται αυτό;
Χάρη σε μια τεχνική βασισμένη σε νευρωνικά δίκτυα για φυσική επεξεργασία γλώσσας η οποία παρουσιάστηκε πριν λίγους μήνες.
Έτσι, η επεξεργασία των λέξεων γίνεται με τις λέξεις ως έννοιες που διαμορφώνονται με βάση τις άλλες λέξεις γύρω τους (συγκεκριμένα θα μπορούσαμε να το πούμε με βάση τη γλωσσολογία) και όχι ως μεμονωμένες λέξεις. Το νέο μοντέλο αντιλαμβάνεται το σκοπό που κρύβεται πίσω από κάθε αναζήτηση. Για εμάς, τους ανθρώπους δηλαδή, που έχουμε συγκεκριμένο τρόπο σκέψης, αυτό φαίνεται κάτι πολύ εύκολο. Δεν είναι όμως αυτονόητα εύκολο για μία μηχανή και δεν απαίτησε μόνο αλλαγές σε λειτουργικό επίπεδο αλλά και σε επίπεδο μηχανής, σε hardware δηλαδή.
Πως Δουλεύει ο BERT
Παρά τις τεχνικές λεπτομέρειες που κρύβονται στην όλη διαδικασία, η ουσία είναι ότι εφαρμόζοντας το μοντέλο BERT τόσο στην κατάταξη όσο και στα featured snippets της Αναζήτησης, η Google βοηθάει το χρήστη να βρει χρήσιμες πληροφορίες. Σύμφωνα με τις στατιστικές, στην Αμερική, υπάρχει βελτίωση 10%, δηλαδή 1 στις 10 αναζητήσεις δίνουν καλύτερα αποτελέσματα. Προφανώς αυτό αφορά τα αγγλικά αλλά προοδευτικά θα συμβαίνει σε ολοένα και περισσότερες γλώσσες.
Ειδικότερα για μεγαλύτερες σε μέγεθος αναζητήσεις ή για αναζητήσεις που μοιάζουν με διάλογο, στις οποίες η χρήση των προθέσεων παίζει ρόλο, το λογισμικό θα είναι σε θέση να καταλάβει τι θέλει να μάθει ο χρήστης. Με λίγα λόγια, ο χρήστης θα ψάχνει με πιο φυσικό τρόπο.
Πριν το λανσάρισμα αυτών των βελτιώσεων έγιναν πολλές, πάρα πολλές, δοκιμές. Ας δούμε ένα παράδειγμα, στα αγγλικά φυσικά για να αντιληφθούμε τη διαφορά. Η ερώτηση του παραδείγματος αφορά το αν είναι απαραίτητη ή βίζα για ένα ταξίδι από τη Βραζιλία στις ΗΠΑ το 2019:
“2019 brazil traveler to usa need a visa”
Η λέξη που προσδιορίζει το νόημα της ερώτησης στο εν λόγω παράδειγμα είναι η λέξη «to». Αφορά έναν Βραζιλιάνο που θέλει να πάει προς την Αμερική και όχι το ανάποδο. Χωρίς το νέο μοντέλο, η μηχανή δεν θα καταλάβαινε αυτή τη διαφορά. Χάρη στο BERT η λεπτή αυτή διαφορά της μίας λέξης, είναι αντιληπτή και η μηχανή επιστρέφει τα σωστά αποτελέσματα.
Ας δούμε ακόμα ένα παράδειγμα. Αυτή τη φορά η ερώτηση είναι: «αν οι αισθητικοί κάνουν δουλειά με ορθοστασία». Η μετάφραση είναι ελεύθερη καθώς το παράδειγμα (θα το δούμε παρακάτω) είναι στα αγγλικά.
Εδώ η λέξη που καθορίζει το εξαγόμενο αποτέλεσμα είναι το «stand».
Και εδώ ο BERT αντιλαμβάνεται ότι δεν πρόκειται για μια ερώτηση που αφορά τη δουλειά της αισθητικού αλλά για μία ερώτηση που αφορά τη φύση της δουλειάς της αισθητικού (ορθοστασία).
Παρακάτω θα δούμε μερικά ακόμα παραδείγματα όπου το «πριν και μετά» φαίνεται ξεκάθαρα.
Εδώ, το νέο μοντέλο καταλαβαίνει ότι η ερώτηση αφορά το αν τρίτος άνθρωπος μπορεί να αγοράσει φάρμακα για λογαριασμό άλλου.
Εδώ, ότι η ερώτηση για το παρκάρισμα δεν αφορά την ανηφόρα αλλά το κράσπεδο.
Τέλος, στο παραπάνω παράδειγμα η λέξη που παίζει καθοριστικό ρόλο είναι το «adults».
Πέρα Από Την Αγγλική Γλώσσα;
Τα αγγλικά άνοιξαν το δρόμο. Πλέον, το μοντέλο BERT θα μπορεί σταδιακά να βοηθήσει και τους χρήστες άλλων γλωσσών. Από τη στιγμή που έγινε η αρχή, η μεταφορά των ευρημάτων και στις υπόλοιπες γλώσσες θα είναι πιο εύκολη. Σε ότι αφορά τα featured snippets, το μοντέλο BERT θα χρησιμοποιηθεί για να τα βελτιώσει στις 200 περίπου χώρες όπου παρέχεται η υπηρεσία. Ήδη τα αποτελέσματα της βελτίωσης των snippets σε γλώσσες όπως η κορεατική, η πορτογαλική και η ινδική είναι θεαματικά.
Η Αναζήτηση Παραμένει Ένα Δύσκολο Πρόβλημα
Στόχος της Google είναι να οδηγήσει σε πιο φυσιολογικές (βάσει της ροής του λόγου ή της σκέψης) αναζητήσεις ασχέτως του σε ποια γλώσσα γίνονται. Ακόμα και με τη χρήση του BERT η Google δυσκολεύεται να καταλάβει και να απαντήσει τα πάντα.
Η κατανόηση της γλώσσας, διαδικασία που για τους ανθρώπους μοιάζει (και είναι εν πολλοίς) τετριμμένη, για την Google αποτελεί μια διαρκή πρόκληση και χρήζει διαρκούς βελτίωσης.