Καλύτερο μοντέλο NLP ποτέ; Το BERT του Google ορίζει νέα πρότυπα σε 11 εργασίες γλώσσας

Το νέο χαρτί Google AI BERT: Η προ-κατάρτιση των Deep bidirectional Transformers για Γλωσσική Κατανόηση κερδίζει βραβεία από όλη την κοινότητα μάθησης μηχανών. Οι ερευνητές της Google παρουσιάζουν ένα βαθύ αμφίδρομο μοντέλο μετασχηματιστών που επαναπροσδιορίζει την κατάσταση της τεχνολογίας για 11 καθήκοντα επεξεργασίας φυσικής γλώσσας, ξεπερνώντας ακόμη και τις ανθρώπινες επιδόσεις στην απαιτητική περιοχή της απάντησης ερωτήσεων. Μερικά από τα σημαντικότερα σημεία από το χαρτί:

  • Οι ερευνητές του NLP εκμεταλλεύονται τη σημερινή μεγάλη ποσότητα των διαθέσιμων γλωσσικών δεδομένων και τις τεχνικές μάθησης μεταφοράς ώρας για την ανάπτυξη νέων προσεγγίσεων προ-κατάρτισης. Αρχικά εκπαιδεύουν μια αρχιτεκτονική μοντέλου σε έναν στόχο μοντελοποίησης γλωσσών και στη συνέχεια ρυθμίζουν την τελειοποίηση για μια επίβλεψη επόμενου έργου. Ο ερευνητής του Aylien Sebastian Ruder προτείνει στο blog του ότι τα προ-εκπαιδευμένα μοντέλα μπορεί να έχουν "την ίδια ευρεία εμβέλεια στην NLP, όπως τα προπλασμένα μοντέλα ImageNet είχαν στο όραμα του υπολογιστή".
  • Η αρχιτεκτονική του μοντέλου BERT είναι ένας αμφίδρομος κωδικοποιητής μετασχηματιστών. Η χρήση ενός μετασχηματιστή δεν αποτελεί έκπληξη - πρόκειται για μια πρόσφατη τάση που οφείλεται στην αποτελεσματικότητα της εκπαίδευσης των μετασχηματιστών και στην ανώτερη απόδοση στην απόκτηση εξαρτήσεων σε μεγάλες αποστάσεις σε σύγκριση με μια επαναλαμβανόμενη αρχιτεκτονική νευρωνικών δικτύων. Ο αμφίδρομος κωδικοποιητής εν τω μεταξύ είναι ένα χαρακτηριστικό γνώρισμα που διαφοροποιεί το BERT από το OpenAI GPT (μετασχηματιστής από αριστερά προς τα δεξιά) και το ELMo (μια αλληλουχία ανεξάρτητα εκπαιδευμένο LSTM από αριστερά προς δεξιά και δεξιά προς τα αριστερά).
  • Το BERT είναι ένα τεράστιο μοντέλο, με 24 μπλοκ Transformer, 1024 κρυμμένες μονάδες σε κάθε στρώμα και 340M παραμέτρους.
  • Το μοντέλο είναι προ-εκπαιδευμένο σε 40 εποχές σε ένα corpus των 3,3 δισεκατομμυρίων λέξεων, συμπεριλαμβανομένων των βιβλίων BooksCorpus (800 εκατομμύρια λέξεις) και της αγγλικής Wikipedia (2,5 δισεκατομμύρια λέξεις).
  • Το μοντέλο εκτελείται σε 16 τετράγωνα TPU για εκπαίδευση.
  • Στη διαδικασία προετοιμασίας, οι ερευνητές υιοθέτησαν μια προσέγγιση που περιλάμβανε τυχαία κάλυψη ενός ποσοστού των μαρκών εισόδου (15%) για την κατάρτιση μιας βαθιάς αμφίδρομης αναπαράστασης. Αναφέρονται σε αυτήν τη μέθοδο ως μοντέλο μάσκας γλώσσας (MLM).
  • Ένα προ-εκπαιδευμένο γλωσσικό μοντέλο δεν μπορεί να κατανοήσει τις σχέσεις μεταξύ των προτάσεων, οι οποίες είναι ζωτικής σημασίας για τα γλωσσικά καθήκοντα, όπως η απάντηση σε ερωτήσεις και η συσχέτιση των φυσικών γλωσσών. Συνεπώς, οι ερευνητές προετοίμασαν μια εργασία διεύρυνσης της επόμενης πρόβλεψης που μπορεί να δημιουργηθεί ασήμαντα από οποιοδήποτε μονόγλωσσο σώμα.
  • Το ακριβές μοντέλο για διαφορετικά σύνολα δεδομένων βελτιώνει το δείκτη GLUE στο 80,4% (απόλυτη βελτίωση 7,6%), την ακρίβεια MultiNLI στο 86,7% (5,6% απόλυτη βελτίωση), το ερώτημα SQuAD v1.1 που απαντά στις δοκιμές F1 έως 93,2 , και ούτω καθεξής σε ένα σύνολο 11 γλωσσικών εργασιών.

Ο πρώτος συγγραφέας του εγγράφου είναι ο Jacob Devlin, ένας κορυφαίος ερευνητής της Google με πρωταρχικό ερευνητικό ενδιαφέρον για την ανάπτυξη μοντέλων βαθιάς μάθησης για καθημερινές εργασίες σε φυσική γλώσσα. Προηγουμένως, η μετάβαση από τη μετάφραση της Microsoft Translate από τη μετάφραση με βάση τη φράση στη μετάφραση των νευρικών μηχανών (NMT) ως Επιστημονικού Ερευνητή της Microsoft Research από το 2014 έως το 2017.

Το Google Brain Research Scientist Thang Luong με ενθουσιασμό tweeted "μια νέα εποχή του NLP μόλις ξεκίνησε πριν από λίγες ημέρες: μεγάλα μοντέλα προ-κατάρτισης (Transformer 24 στρώματα, 1024 dim, 16 κεφαλές) + μαζικός υπολογισμός είναι το μόνο που χρειάζεστε."

Ο Baoxun Wang, επικεφαλής επιστήμονας της εκκίνησης του κινεζικού AI Tricorn, εξήρε επίσης το χαρτί της Google ως «ορόσημο» στην ομιλία του στο συνέδριο τεχνητής νοημοσύνης Βιομηχανικής Συμμαχίας αυτής της εβδομάδας στο Suzhou της Κίνας. Το χαρτί εκμεταλλεύεται τεράστια ποσά δεδομένων και υπολογίζει και επεξεργάζεται καλά μηχανικά έργα, αντιπροσωπεύοντας αυτό που ο Wang ονομάζει "παράδοση της βίαιης αισθητικής της Google".

Το προ-εκπαιδευμένο μοντέλο και κωδικός θα κυκλοφορήσει τις επόμενες δύο εβδομάδες. Το χαρτί βρίσκεται σε arXiv.

Εκσυγχρονίζω:

Η Google έχει ανοίξει τον κώδικα και τα δεδομένα του χαρτιού στο Github.

Δημοσιογράφος: Τόνι Πενγκ | Συντάκτης: Michael Sarazen

Ακολουθήστε μας στο Twitter @Synced_Global για τα καθημερινά νέα της AI

Ξέρουμε ότι δεν θέλετε να χάσετε καμία ιστορία. Εγγραφείτε στο δημοφιλές Synced Global AI Weekly για να λαμβάνετε εβδομαδιαίες ενημερώσεις AI.