Να γίνει μηχανικός μηχανής μάθησης Βήμα 4: Πρακτική, Πρακτική, Πρακτική

Η καλύτερη μέθοδος για να επιταχύνετε τις βασικές δεξιότητες εκμάθησης μηχανών γρήγορα είναι να εξασκηθείτε στην οικοδόμηση των δεξιοτήτων σας με μικρά εύκολα κατανοητά σύνολα δεδομένων. Αυτή η τεχνική σάς βοηθά να δημιουργήσετε τις διαδικασίες σας χρησιμοποιώντας ενδιαφέροντα δεδομένα πραγματικού κόσμου που είναι αρκετά μικρά για να τα δούμε σε excel ή WEKA. Σε αυτό το άρθρο, θα μάθετε μια βάση δεδομένων υψηλής ποιότητας με πολλά σύνολα δεδομένων και μερικές συμβουλές που θα σας βοηθήσουν να εστιάσετε το χρόνο σας σε ό, τι έχει σημασία για εσάς!

Γιατί να εξασκηθείτε με σύνολα δεδομένων;

Μετά από online σεμινάρια θα σας κρατήσουν παγιδευμένοι σε μια εξαρτημένη νοοτροπία που θα περιορίσει την ανάπτυξή σας επειδή δεν μαθαίνετε ΠΩΣ να λύσετε οποιοδήποτε πρόβλημα. Η εκμάθησή σας πώς να εφαρμόσετε μια συγκεκριμένη λύση σε ένα συγκεκριμένο είδος προβλήματος. Είναι το ισοδύναμο της υπερθέρμανσης, το οποίο όλοι γνωρίζουμε, οδηγεί σε κακή απόδοση στον πραγματικό κόσμο. Εάν ενδιαφέρεστε να γίνετε μηχανικός μηχανικός μάθησης, πρέπει να βεβαιωθείτε ότι μπορείτε να γενικεύσετε σε πραγματικά δεδομένα. Προκάλεσε τον εαυτό σου κάθε μέρα και αντιμετώπισε προβλήματα χρησιμοποιώντας μια καθορισμένη διαδικασία. Η άσκηση των δεξιοτήτων σας με τη χρήση συνόλων δεδομένων είναι ο καλύτερος τρόπος για να γίνει αυτό.

Πού μπορώ να βρω δεδομένα;

Ευτυχώς για όλους, υπάρχει ένα φανταστικό αποθετήριο των προβλημάτων μηχανικής μάθησης που μπορείτε να έχετε δωρεάν πρόσβαση.

UCI Machine Learning Repository

Το Κέντρο Εκμάθησης Μηχανών και Ευφυών Συστημάτων στο Πανεπιστήμιο της Καλιφόρνιας, η Irvine δημιούργησε το αποθετήριο μάθησης της μηχανής UCI. Για 30 χρόνια υπήρξε το μέρος για τους μηχανικούς της μάθησης και τους μαθητές μηχανικής μάθησης που χρειάζονται σύνολα δεδομένων για να εξασκηθούν. Μπορείτε να κάνετε λήψη όλων των διαθέσιμων συνόλων δεδομένων στην ιστοσελίδα τους. Περιγράφουν επίσης όλες τις λεπτομέρειες σχετικά με αυτό, συμπεριλαμβανομένων τυχόν δημοσιεύσεων που το χρησιμοποίησαν, πράγμα που είναι πραγματικά χρήσιμο όταν θέλετε να μάθετε ερευνητές που επιτέθηκαν στο πρόβλημα. Τα σύνολα δεδομένων μπορούν να ληφθούν με μερικούς διαφορετικούς τρόπους (CSV / TXT).

Υπάρχουν μόνο δύο μειονεκτήματα των συνόλων δεδομένων UCI.

  1. Το άλλο μειονέκτημα είναι ότι είναι μικρά, έτσι ώστε να μην έχετε μεγάλη εμπειρία σε έργα μεγάλης κλίμακας, αλλά αυτό δεν θα έπρεπε να έχει σημασία γιατί εσείς είστε νέοι σε αυτό! Ξεκινήστε μικρό!
  2. Το πιο σημαντικό μειονέκτημα είναι ότι αυτά τα σύνολα δεδομένων καθαρίζονται και προεπεξεργάζονται. Ο καθαρισμός και η προεπεξεργασία είναι βασικά μέρη της διαδικασίας εκμάθησης μηχανών που θα αντιμετωπίσετε στην καριέρα σας. Μην ξοδεύετε χρόνο ασκώντας αυτή την ικανότητα θα σας βλάψει αργότερα κάτω από το δρόμο.

Εφαρμογή με στοχοθετημένο τρόπο

Πώς πηγαίνετε για την εξάσκηση με στοχοθετημένο τρόπο όταν υπάρχουν τόσα πολλά σύνολα δεδομένων; Ένας επίδοξος μηχανικός μηχανικής μάθησης θα έκανε καλύτερα για να καταλάβει τι είναι οι στόχοι τους και να πάρει ένα σύνολο δεδομένων που θα τους έφερνε καλύτερα σε αυτόν τον στόχο. Έχω αναπτύξει κάποιες ερωτήσεις που μπορείτε να ζητήσετε από τον εαυτό σας να βοηθήσει να περιορίσετε τον αριθμό των συνόλων δεδομένων.

  • Τι είδους πρόβλημα θέλεις να λύσεις;
  • Υποβάθμιση, ταξινόμηση, παλινδρόμηση, ομαδοποίηση;
  • Ποιο μέγεθος είναι το σύνολο δεδομένων; Δεκάδες σημεία δεδομένων ή εκατομμύρια
  • Πόσα χαρακτηριστικά διαθέτει το σύνολο δεδομένων;
  • Τι είδους λειτουργίες;
  • Από ποιο τομέα ανήκει αυτό το σύνολο δεδομένων;

Καθορίστε ποιο τύπο συνόλων δεδομένων θέλετε να εστιάσετε ώστε να ταιριάζει με τους ευρύτερους στόχους σας. Μόλις το έχετε, μπορείτε να φιλτράρετε τον τεράστιο αριθμό συνόλων δεδομένων που είναι διαθέσιμα στην πλατφόρμα.

Παράδειγμα προβλημάτων

Μην ανησυχείτε αν δεν είστε σίγουροι τι ακριβώς προσπαθείτε να μάθετε. Είναι πολύ καλύτερα να μην κολλήσει προσπαθώντας να βρει το τέλειο σχέδιο μελέτης. Έχω κάνει μια λίστα με ορισμένα σύνολα δεδομένων που μπορεί να σας φανούν ενδιαφέροντα. Υπάρχουν μερικά είδη προβλημάτων εδώ, ώστε να τους δώσουμε όλοι μια βολή.

Regression: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Ομαδοποίηση: https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

Ταξινόμηση: http://archive.ics.uci.edu/ml/datasets/Wine

Ταξινόμηση Υγείας: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

Αλλά..

Δεν νομίζω ότι έχω τις δεξιότητες για αυτό ή νομίζω ότι κάτι με εμποδίζει να ξεκινήσω!
Είναι εντάξει για να αμφιβάλει τον εαυτό σας από καιρό σε καιρό, αλλά δεν μπορείτε να αφήσετε να σας σταματήσουν από τους στόχους σας να γίνετε μηχανικός μηχανικός μάθησης. Ώρα να προσαρμόσετε τη νοοτροπία σας.

Δεν ξέρω πώς να προγραμματίζω!
Αυτό είναι ωραία επειδή το άρθρο μου "Να γίνει μηχανικός μάθησης μηχανών | Βήμα 3: επιλέξτε ένα εργαλείο που πηγαίνει πάνω από ένα εργαλείο που δεν χρειάζεται να χρησιμοποιήσετε δεξιότητες προγραμματισμού και αυτό σας επιτρέπει να εφαρμόσετε πολλούς αλγόριθμους Machine Learning.

Πού θα ξεκινούσα ακόμη και όταν πρόκειται για την επίλυση των προβλημάτων;
Μια διαδικασία που σας επιτρέπει να εξετάσετε οποιοδήποτε πρόβλημα είναι εξαιρετικά σημαντική και πιστεύω ότι η εκμάθηση αυτής της διαδικασίας είναι καλύτερη από την εκμάθηση για το πώς λειτουργεί η αναπαραγωγή. Ανατρέξτε στο άρθρο μου, στο οποίο περιγράφω λεπτομερώς την επιλογή μιας διαδικασίας Σύνδεσμος για την επιλογή μιας διαδικασίας

Δεν νομίζω ότι θα μπορούσα να το κάνω μόνος;
Η εκμάθηση της μάθησης από τον εαυτό σας δεν είναι ο καλύτερος τρόπος για να μάθετε. Η συμμετοχή σε μια ομάδα ομοϊδεάτων ατόμων θα κάνει θαύματα για την ικανότητά σας να μάθετε. Δείτε αυτό το άρθρο για να μάθετε περισσότερα.

Πάρε μακριά

Εάν είστε σοβαροί για την αυτοδιδασκαλία, σκεφτείτε να κάνετε μια μέτρια λίστα των συνόλων δεδομένων που θέλετε να διερευνήσετε περαιτέρω. Ακολουθήστε το στοχευόμενο σχέδιο πρακτικής για να δημιουργήσετε ένα πολύτιμο θεμέλιο για καταδύσεις σε πιο περίπλοκα και συναρπαστικά προβλήματα μηχανικής μάθησης.

Ευχαριστώ για την ανάγνωση :) Αν σας άρεσε, χτυπήστε εκείνο το κουμπί κτυπήστε κάτω και ακολουθήστε μου! Αυτό θα σήμαινε πολλά για μένα και θα με ενθάρρυνε να γράψω περισσότερες ιστορίες όπως αυτό

Ας συνδεθούμε επίσης στο Twitter, στο LinkedIn ή στο ηλεκτρονικό ταχυδρομείο