Το καλύτερο και των δύο κόσμων: Γραμμικά δέντρα

Το γραμμικό δέντρο μοντέλου (LMT) είναι ένα από τα αγαπημένα μου μοντέλα ML - και για καλούς λόγους. Τα γραμμικά μοντέλα δένδρων συνδυάζουν γραμμικά μοντέλα και δέντρα αποφάσεων για να δημιουργήσουν ένα υβριδικό μοντέλο που παράγει καλύτερες προβλέψεις και οδηγεί σε καλύτερη γνώση από ό, τι το μοντέλο και μόνο. Ένα γραμμικό δέντρο μοντέλου είναι απλά ένα δέντρο απόφασης με γραμμικά μοντέλα στους κόμβους του. Αυτό μπορεί να θεωρηθεί ως ένα τετραγωνικό γραμμικό μοντέλο με κόμβους που αποκτήθηκαν μέσω ενός αλγόριθμου δέντρων αποφάσεων. Τα LMTs μπορούν να χρησιμοποιηθούν για προβλήματα παλινδρόμησης (π.χ. με μοντέλα γραμμικής παλινδρόμησης αντί για μέσο πληθυσμού) ή προβλήματα ταξινόμησης (π.χ. με λογική παλινδρόμηση αντί για πληθυσμιακούς τρόπους).

Πάνω είναι ένας ευρετικός πίνακας μοντέλων μηχανικής μάθησης κατά μήκος των αξόνων ακρίβειας και ερμηνείας. Το άνω-δεξιό τεταρτημόριο είναι το καλύτερο, με υψηλή απόδοση και υψηλή ερμηνεία. Αυτό το γράφημα δείχνει ότι οι LMT είναι τόσο εξαιρετικά ερμηνεύσιμες και εξαιρετικά αποδοτικές.

Τα συνηθισμένα εργαλεία μου είναι η Python, η scikit-learn και τα pandas. Ωστόσο, το scikit-learn δεν περιλαμβάνει εφαρμογή του LMT και δεν βρήκα μια έκδοση ανοιχτού κώδικα, οπότε το έθεσα μόνη μου για τη χρήση μας στη Convoy. Η εφαρμογή συνδέεται στο κάτω μέρος αυτής της θέσης. Στο υπόλοιπο της θέσης θα συγκρίνουμε το LMT με άλλα μοντέλα που αναφέρθηκαν παραπάνω στο γράφημα πλαισίου.

LMT εναντίον άλλων

Παρακάτω θα παρουσιάσουμε LMTs με το αρχείο δεδομένων ανοιχτού κώδικα auto-mpg. Το σύνολο δεδομένων auto-mpg αφορά την κατανάλωση καυσίμου 398 οχημάτων από τη δεκαετία του 1970 και τις αρχές της δεκαετίας του 1980. Θα προβλέψουμε την κατανάλωση καυσίμου (mpg) βάσει του βάρους του οχήματος, του έτους μοντέλου, της ιπποδύναμης, της επιτάχυνσης, της μετατόπισης του κινητήρα και του αριθμού των κυλίνδρων. Το σημειωματάριο jupyter που συνδέεται στο κάτω μέρος αυτής της ανάρτησης περιέχει την πλήρη εξερεύνηση αυτών των δεδομένων και το κτίριο μοντέλων. Τα αποτελέσματα θα συνοψιστούν εδώ.

Ο παραπάνω πίνακας δείχνει την απόδοση τεσσάρων διαφορετικών αλγορίθμων στο έργο της πρόβλεψης της mpg σε αυτό το σύνολο δεδομένων. Δεν αποτελεί έκπληξη το γεγονός ότι τα Gradient Boosting Trees (GBT) αποδίδουν καλύτερα, καθώς αυτός ο αλγόριθμος παράγει συχνά την καλύτερη προβλεπτική απόδοση. Ωστόσο, το LMT εκτελεί σχεδόν το ίδιο καλά, και όπως θα δούμε παρακάτω, έχει και άλλα οφέλη. Η γραμμική παλινδρόμηση και ένα ενιαίο δέντρο αποφάσεων δεν έχουν κακή απόδοση σε σύγκριση με τα άλλα δύο μοντέλα.

LMT έναντι GBT

Η GBT έκανε σπουδαία δουλειά στην πρόβλεψη με MSE. Το επόμενο ερώτημα είναι τι οδηγεί το χιλιόμετρο αερίου των αυτοκινήτων; Περνάμε σε αυτό με ποικίλη σημασία στο μοντέλο GBT και παίρνουμε τα εξής:

Το χαρακτηριστικό γνώρισμα μεταβλητής σημασίας του GBT μας λέει ότι το βάρος είναι το πιο σημαντικό χαρακτηριστικό, ακολουθούμενο από ιπποδύναμη, επιτάχυνση, μετατόπιση και μοντέλο_χρονο, τα οποία είναι όμοια. Δυστυχώς, η GBT δεν μας λέει τίποτα για το αριθμητικό μέγεθος ή τα σημάδια του αντίκτυπου τους, ούτε για τη σχέση αυτών των χαρακτηριστικών.

Το LMT παράγει μόνο 2 χωρίσματα, για σύνολο 3 κόμβων φύλλων. Διασπάται πρώτα σε ιπποδύναμη = 78, και για ιπποδύναμη> = 78 χωρίζει σε ιπποδύναμη = 97. Θα ονομάσουμε τους τρεις υποπληθυσμούς χαμηλή ισχύ, μέση ισχύ και υψηλή ισχύ.

Η επιθεώρηση των βαρών από το γραμμικό δέντρο μοντέλου μας δίνει μια πολύ διαφορετική κατανόηση του τι επηρεάζει την απόδοση καυσίμου από ό, τι πήραμε από τα άλλα μοντέλα. Ενώ υπάρχουν κάποιες κοινότητες μεταξύ των διαφόρων υποπληθυσμών που έχει εντοπίσει ο LMT μας, βλέπουμε επίσης μερικές σημαντικές διαφορές.

Είναι σημαντικό να σημειωθεί ότι τα χαρακτηριστικά συμπεριφέρονται διαφορετικά σε εύρος και διανομή μεταξύ των ομάδων χαμηλής, μεσαίας και υψηλής ισχύος. Ανατρέξτε στο παρακάτω γραφικό και, στη συνέχεια, συγκρίνετε τις κατανομές τους σε σχέση με τις σημαντικές ιδιότητες ανά ομάδα παραπάνω. Ο άξονας x για κάθε στήλη είναι σταθερός ώστε να είναι εύκολο να συγκριθούν οι διαφορετικές κατανομές.

Για όλα τα οχήματα, το βάρος έχει μεγάλο αρνητικό αντίκτυπο, το οποίο έχει νόημα, διότι η οικονομία καυσίμου θα πρέπει να επιδεινωθεί με τη μεγαλύτερη μάζα που πρέπει να μετακινήσει το όχημα. Το έτος μοντέλου έχει μεγάλο θετικό αντίκτυπο για όλα τα οχήματα. πιθανώς η τεχνολογία κινητήρα βελτιώθηκε σημαντικά κατά την περίοδο αυτή. Αυτά είναι παρόμοια με αυτά που βλέπουμε στο μονό γραμμικό μοντέλο. Ωστόσο, το μέγεθος αυτών των επιπτώσεων μεταβάλλεται στους υποπληθυσμούς που έχει προσδιορίσει ο LMT μας και το μέγεθος και η ισχύς του κινητήρα έχουν διαφορετικά μεγέθη επιδράσεων σε διαφορετικούς υποπληθυσμούς.

Για οχήματα χαμηλής κατανάλωσης, το έτος μοντέλου έχει τεράστιο θετικό αντίκτυπο και βλέπουμε ότι σε αυτόν τον πληθυσμό η οικονομία καυσίμου είναι πολύ ευαίσθητη στον εκτοπισμό του κινητήρα.

Στην κατηγορία μεσαίας ισχύος, το βάρος έχει και πάλι τεράστιο αρνητικό αντίκτυπο, αλλά η οικονομία καυσίμου αυξάνεται μόνο μετρίως με το έτος μοντέλου.

Για τα οχήματα με υψηλή ισχύ, το βάρος έχει πολύ μικρότερο αντίκτυπο, και το ίδιο μπορεί να ειπωθεί για το έτος μοντέλου. Το μέγεθος του κινητήρα και τα χαρακτηριστικά ισχύος είναι πιο συναφείς σε αυτόν τον πληθυσμό σε σύγκριση με το βάρος και το έτος του μοντέλου. Σε αυτόν τον πληθυσμό τα μεγέθη του κινητήρα είναι πολύ πιο μεταβλητά από ό, τι στους άλλους πληθυσμούς, οπότε το μέγεθος του κινητήρα καταλήγει να έχει μεγαλύτερο αντίκτυπο στην πρόβλεψη από ό, τι ακόμη και αυτό που μας λένε οι συντελεστές.

Σύνοψη των ωφελειών LMT

Για τα τελευταία μου λόγια σχετικά με τα γραμμικά μοντέλα δέντρων, ακολουθεί μια σύνοψη των πλεονεκτημάτων τους:

  • Τα LMT είναι δυνατά ερμηνεύσιμα. Λάβετε γνώση σχετικά με τις γραμμικές και μη γραμμικές σχέσεις στα δεδομένα σας. Αυτό μπορεί να οδηγήσει σε άλλες υποθέσεις μοντελοποίησης ή ιδέες προϊόντων.
  • Τα LMT εντοπίζουν υποπληθυσμούς με διαφορετική συμπεριφορά.
  • Τα LMT μπορούν εύκολα να αναγνωρίσουν και να χρησιμοποιήσουν γραμμικές σχέσεις. Τα μοντέλα που βασίζονται σε δέντρα (συμπεριλαμβανομένων των τυχαίων δασών και των δέντρων αύξησης της κλίσης) καταβάλλουν μεγάλη προσπάθεια για να μάθουν μια γραμμή επειδή ταιριάζουν σε ένα τετραγωνικό σταθερό μοντέλο προβλέποντας τον μέσο όρο όλων των παρατηρήσεων σε κάθε κόμβο φύλλων. Επομένως απαιτούν πολλές διαχωρισμούς για την προσέγγιση μιας γραμμικής σχέσης. Μερικά παραδείγματα κοινών γραμμικών σχέσεων περιλαμβάνουν: οι πελάτες που ξοδεύουν αυτό το μήνα είναι πιθανώς μια συνάρτηση των δαπανών τους τον περασμένο μήνα, οι πωλήσεις αυτού του μήνα πιθανώς συνάρτηση των πωλήσεων τον περασμένο μήνα, κοστίζουν μια συνάρτηση μεγέθους, στο φορτηγό, $ / μίλι.
  • Η υπερφόρτωση (υψηλή διακύμανση) μπορεί να αποφευχθεί χρησιμοποιώντας τη διασταυρούμενη επικύρωση για τη βελτιστοποίηση του ελάχιστου μεγέθους κόμβου και του μέγιστου βάθους των δέντρων.
  • Τα LMTs μπορούν να λειτουργήσουν καλά με μια μέτρια ποσότητα δεδομένων (σε σύγκριση με πολλά μη γραμμικά μοντέλα)
  • Τα LMT συχνά παράγουν απλά μοντέλα που είναι εύκολο να εφαρμοστούν σε ένα σύστημα παραγωγής, ακόμα και αν το σύστημα αυτό δεν είναι γραμμένο στην ίδια γλώσσα που χρησιμοποιείτε για τη μοντελοποίηση