Δωρεάν ανοικτά σύνολα δεδομένων για μηχανική μάθηση και επιστήμη δεδομένων Προς AI

Τα καλύτερα δημόσια σύνολα δεδομένων για την εκμάθηση μηχανών και την επιστήμη των δεδομένων

Ποια είναι τα καλύτερα σύνολα δεδομένων για την εκμάθηση μηχανών; Αφού ξύψουμε τις ώρες του web μετά από ώρες, δημιουργήσαμε ένα μεγάλο φύλλο εξαπατήσεως για υψηλής ποιότητας και ποικίλα σύνολα δεδομένων μάθησης μηχανών.

ΣΥΓΓΡΑΦΕΙΣ:

Stacy Στάνφορντ, Μηχανοκίνητα Μνημόνια

Roberto Iriondo, τμήμα Machine Learning, Πανεπιστήμιο Carnegie Mellon.

ΔΗΜΟΣΙΕΥΣΕ:

2 Οκτωβρίου 2018

ΤΕΛΕΥΤΑΙΑ ΕΝΗΜΕΡΩΣΗ:

15 Μαΐου 2019

Μερικά πράγματα που πρέπει να θυμάστε κατά την αναζήτηση για σύνολα δεδομένων υψηλής ποιότητας:

1.- Ένα σύνολο δεδομένων υψηλής ποιότητας δεν πρέπει να είναι ακατάστατο, επειδή δεν θέλετε να περάσετε πολύ χρόνο καθαρισμού των δεδομένων.

2.- Ένα σύνολο δεδομένων υψηλής ποιότητας δεν πρέπει να έχει πάρα πολλές σειρές ή στήλες, επομένως είναι εύκολο να εργαστείτε.

3.- Ο καθαριστής των δεδομένων, τόσο καλύτερα ο καθαρισμός ενός μεγάλου συνόλου δεδομένων μπορεί να είναι απίστευτα χρονοβόρο.

4.- Ο τελικός στόχος σας πρέπει να έχει μια ερώτηση / απόφαση για απάντηση, η οποία με τη σειρά του μπορεί να απαντηθεί με δεδομένα.

Στοιχεία λήψης δεδομένων

Αναζήτηση στο Google Dataset: Παρόμοια με τη λειτουργία του Google Scholar, η αναζήτηση δεδομένων Dataset σας επιτρέπει να βρείτε σύνολα δεδομένων οπουδήποτε φιλοξενούνται, είτε πρόκειται για έναν ιστότοπο εκδότη, για μια ψηφιακή βιβλιοθήκη είτε για μια προσωπική ιστοσελίδα του δημιουργού.

Kaggle: Ένας ιστοχώρος επιστημών δεδομένων που περιέχει μια ποικιλία εξωτερικών συνεισφορών σε ενδιαφέροντα σύνολα δεδομένων. Μπορείτε να βρείτε όλα τα είδη των εξειδικευμένων συνόλων δεδομένων στον κύριο κατάλογο, από τις βαθμολογίες ramen μέχρι τα δεδομένα μπάσκετ έως και τις άδειες κατοικίδιων ζώων Seattle.

UCI Machine Learning Repository: Μια από τις παλαιότερες πηγές δεδομένων στο διαδίκτυο και μια μεγάλη πρώτη στάση όταν ψάχνετε για ενδιαφέροντα σύνολα δεδομένων. Παρόλο που τα σύνολα δεδομένων συνεισφέρονται από τον χρήστη και συνεπώς έχουν διαφορετικά επίπεδα καθαριότητας, η μεγάλη πλειοψηφία είναι καθαρή. Μπορείτε να κατεβάσετε δεδομένα απευθείας από το αποθετήριο UCI Machine Learning, χωρίς εγγραφή.

VisualData: Ανακαλύψτε τα σύνολα δεδομένων οράματος υπολογιστών ανά κατηγορία, επιτρέπει αναζητήσεις με δυνατότητα αναζήτησης.

Εύρεση δεδομένων Βιβλιοθήκες CMU: Ανακαλύψτε υψηλής ποιότητας σύνολα δεδομένων χάρη στη συλλογή του Huajin Wang, CMU.

Γενικά σύνολα δεδομένων

Δημόσια σύνολα δεδομένων κυβέρνησης

Data.gov: Αυτός ο ιστότοπος καθιστά δυνατή την λήψη δεδομένων από πολλές κυβερνητικές υπηρεσίες των ΗΠΑ. Τα δεδομένα μπορούν να κυμαίνονται από τους κρατικούς προϋπολογισμούς έως τα αποτελέσματα των σχολικών επιδόσεων. Προσοχή όμως: πολλά από τα δεδομένα απαιτούν πρόσθετη έρευνα.

Τρόφιμα Atlas Περιβάλλον: Περιέχει στοιχεία για το πώς οι τοπικές επιλογές τροφίμων επηρεάζουν τη διατροφή στις ΗΠΑ.

Τα οικονομικά του σχολικού συστήματος: Μια έρευνα για τα οικονομικά των σχολικών συστημάτων στις ΗΠΑ.

Δεδομένα χρόνιων νόσων: Στοιχεία για τους δείκτες χρόνιων ασθενειών σε περιοχές των ΗΠΑ.

Το Εθνικό Κέντρο Στατιστικής Εκπαίδευσης των ΗΠΑ: Στοιχεία σχετικά με τα εκπαιδευτικά ιδρύματα και τα δημογραφικά στοιχεία της εκπαίδευσης από τις ΗΠΑ και σε όλο τον κόσμο.

Η υπηρεσία δεδομένων Ηνωμένου Βασιλείου: Η μεγαλύτερη συλλογή κοινωνικών, οικονομικών και πληθυσμιακών δεδομένων του Ηνωμένου Βασιλείου.

Δεδομένα ΗΠΑ: Μια ολοκληρωμένη απεικόνιση των δημόσιων δεδομένων των ΗΠΑ.

Συγκρότημα δεδομένων στέγασης

Σύνολο δεδομένων στέγασης της Βοστώνης: Περιέχει πληροφορίες που συλλέχθηκαν από την Υπηρεσία Απογραφής της Σοβιετικής Ένωσης σχετικά με τη στέγαση στην περιοχή της Μασαχουσέτης της Βοστώνης. Ελήφθη από το αρχείο StatLib και έχει χρησιμοποιηθεί εκτενώς σε όλη τη βιβλιογραφία για να συγκρίνει αλγόριθμους.

Γεωγραφικά σύνολα δεδομένων

Google-Landmarks-v2: Ένα βελτιωμένο σύνολο δεδομένων για αναγνώριση και ανάκτηση ορόσημων. Αυτό το σύνολο δεδομένων περιέχει εικόνες 5M + των 200k + ορόσημα από όλο τον κόσμο, που προέρχονται από την κοινότητα Wiki Commons.

Οικονομικά και οικονομικά δεδομένα

Quandl: Μια καλή πηγή οικονομικών και χρηματοοικονομικών δεδομένων - χρήσιμη για τη δημιουργία μοντέλων για την πρόβλεψη των οικονομικών δεικτών ή των τιμών των μετοχών.

Ανοικτά δεδομένα της Παγκόσμιας Τράπεζας: Δεδομένα που καλύπτουν δημογραφικά στοιχεία πληθυσμού, έναν τεράστιο αριθμό οικονομικών δεικτών ανάπτυξης από όλο τον κόσμο.

Στοιχεία του ΔΝΤ: Το Διεθνές Νομισματικό Ταμείο δημοσιεύει στοιχεία για τα διεθνή οικονομικά, τα χρέη, τα συναλλαγματικά αποθέματα, τις τιμές των βασικών εμπορευμάτων και τις επενδύσεις.

Στοιχεία αγοράς των Financial Times: ενημερωμένες πληροφορίες για τις χρηματοπιστωτικές αγορές από όλο τον κόσμο, συμπεριλαμβανομένων των δεικτών των τιμών των μετοχών, των βασικών προϊόντων και των συναλλαγματικών ισοτιμιών.

Google Trends: Εξετάστε και αναλύστε δεδομένα σχετικά με τη δραστηριότητα αναζήτησης στο διαδίκτυο και τις ιστορίες ειδήσεων σε όλο τον κόσμο.

Αμερικανική Οικονομική Ένωση (AEA): Μια καλή πηγή για την εξεύρεση μακροοικονομικών δεδομένων των ΗΠΑ.

Συγκριτικά σύνολα δεδομένων μάθησης μηχανών:

Σύνολα δεδομένων απεικόνισης

xView: Το xView είναι ένα από τα μεγαλύτερα δημόσια διαθέσιμα σύνολα δεδομένων των γενικών εικόνων. Περιέχει εικόνες από σύνθετες σκηνές σε όλο τον κόσμο, σχολιασμένες χρησιμοποιώντας κουτιά οριοθέτησης.

Ετικέτα: Ένα μεγάλο σύνολο δεδομένων σχολιασμένων εικόνων.

ImageNet: Το σύνολο δεδομένων de-facto για νέους αλγόριθμους, οργανωμένο σύμφωνα με την ιεραρχία του WordNet, όπου εκατοντάδες και χιλιάδες εικόνες απεικονίζουν κάθε κόμβο της ιεραρχίας.

LSUN: Κατανόηση της σκηνής με πολλές βοηθητικές εργασίες (εκτίμηση χώρου δωματίου, πρόβλεψη αξιοπιστίας κ.λπ.)

MS COCO: Γενική κατανόηση εικόνας και λεζάντα.

COIL100: 100 διαφορετικά αντικείμενα που απεικονίζονται σε κάθε γωνία σε 360 περιστροφή.

Visual Genome: Πολύ λεπτομερή βάση οπτικής γνώσης με τίτλο ~ 100K εικόνες.

Οι Open Images της Google: Μια συλλογή 9 εκατομμυρίων διευθύνσεων URL σε εικόνες "που έχουν σχολιαστεί με ετικέτες που καλύπτουν πάνω από 6.000 κατηγορίες" στο Creative Commons.

Ετικέτες Faces in the Wild: 13.000 ετικέτες εικόνες ανθρώπινων προσώπων, για χρήση στην ανάπτυξη εφαρμογών που περιλαμβάνουν αναγνώριση προσώπου.

Σειρά δεδομένων Stanford Dogs: Περιέχει 20.580 εικόνες και 120 διαφορετικές κατηγορίες φυλών σκύλων.

Εσωτερική αναγνώριση σκηνής: Ένα πολύ συγκεκριμένο σύνολο δεδομένων και πολύ χρήσιμο, καθώς τα περισσότερα μοντέλα αναγνώρισης σκηνών είναι καλύτερα «έξω». Περιέχει 67 κατηγορίες εσωτερικών χώρων και 15620 εικόνες.

Ανάλυση συναισθημάτων

Πολλαπλή ομάδα δεδομένων συναισθηματικής ανάλυσης: Ένα ελαφρώς παλαιότερο σύνολο δεδομένων που περιέχει κριτικές προϊόντων από την Amazon.

Εξετάσεις IMDB: Ένα παλαιότερο, σχετικά μικρό σύνολο δεδομένων για την ταξινόμηση δυαδικών συναισθημάτων χαρακτηρίζει 25.000 κριτικές ταινιών.

Stanford Sentiment Treebank: Βασικό σύνολο συναισθημάτων με συναισθήματα συναίσθημα.

Sentiment140: Ένα δημοφιλές σύνολο δεδομένων, το οποίο χρησιμοποιεί 160.000 tweets με emoticons προ-αφαιρεθεί.

Twitter Airline Sentiment: Τα στοιχεία Twitter σχετικά με τις αμερικανικές αεροπορικές εταιρείες από τον Φεβρουάριο του 2015, ταξινομημένα ως θετικά, αρνητικά και ουδέτερα tweets

Σύνολα δεδομένων επεξεργασίας φυσικής γλώσσας

Τομέας δεδομένων HotspotQA: Ερώτηση που απαντά σε σύνολο δεδομένων που περιλαμβάνει φυσικά ερωτήματα πολλαπλών λόγων, με ισχυρή εποπτεία για την υποστήριξη γεγονότων για την παροχή πιο εύληπτων συστημάτων απάντησης ερωτήσεων.

Ενότητα δεδομένων Enron: Στοιχεία ηλεκτρονικού ταχυδρομείου από τα ανώτερα στελέχη της Enron, οργανωμένα σε φακέλους.

Amazon Κριτικές: Περιέχει περίπου 35 εκατομμύρια σχόλια από Amazon που εκτείνεται σε 18 χρόνια. Τα δεδομένα περιλαμβάνουν πληροφορίες σχετικά με το προϊόν και το χρήστη, τις αξιολογήσεις και την αναλυτική περιγραφή.

Google Books Ngrams: Μια συλλογή λέξεων από τα βιβλία Google.

Blogger Corpus: Μια συλλογή από 681.288 δημοσιεύσεις blog που συγκεντρώθηκαν από το blogger.com. Κάθε ιστολόγιο περιέχει τουλάχιστον 200 εμφανίσεις κοινώς χρησιμοποιούμενων αγγλικών λέξεων.

Wikipedia Links: Το πλήρες κείμενο της Wikipedia. Το σύνολο δεδομένων περιέχει σχεδόν 1,9 δισεκατομμύρια λέξεις από περισσότερα από 4 εκατομμύρια άρθρα. Μπορείτε να αναζητήσετε με λέξη, φράση ή μέρος μιας ίδιας της παραγράφου.

Gutenberg Κατάλογος eBooks: Μια σχολιασμένη λίστα ebooks από το Project Gutenberg.

Hansard κείμενα κομμάτια του καναδικού κοινοβουλίου: 1,3 εκατομμύρια ζεύγη κειμένων από τα αρχεία του 36ου καναδικού κοινοβουλίου.

Θάνατος: Αρχείο με περισσότερες από 200.000 ερωτήσεις από το κουίζ.

Διακοσμημένες ντομάτες Κριτικές: Αρχείο πάνω από 480.000 σχόλια κριτικών (φρέσκα ή σάπια).

Συλλογή SMS Spam στα Αγγλικά: Ένα σύνολο δεδομένων που αποτελείται από 5.574 αγγλικά SMS μηνύματα spam

Κριτικές Yelp: Ένα ανοιχτό σύνολο δεδομένων που κυκλοφόρησε το Yelp, περιέχει περισσότερα από 5 εκατομμύρια σχόλια.

Το Spambase της UCI: Ένα μεγάλο σύνολο δεδομένων spam, χρήσιμο για φιλτράρισμα ανεπιθύμητων μηνυμάτων.

Αρχεία δεδομένων αυτοδικής οδήγησης (αυτόνομης οδήγησης)

Berkeley DeepDrive BDD100k: Επί του παρόντος, το μεγαλύτερο σύνολο δεδομένων για τον αυτόματο οδηγό AI. Περιέχει πάνω από 100.000 βίντεο με εμπειρία οδήγησης άνω των 1.100 ωρών σε διαφορετικές ώρες της ημέρας και τις καιρικές συνθήκες. Οι σχολιασμένες εικόνες προέρχονται από περιοχές της Νέας Υόρκης και του Σαν Φρανσίσκο.

Baidu Apolloscapes: Μεγάλο σύνολο δεδομένων που ορίζει 26 διαφορετικά σημασιολογικά αντικείμενα όπως αυτοκίνητα, ποδήλατα, πεζοί, κτίρια, φώτα του δρόμου κλπ.

Comma.ai: Περισσότερες από 7 ώρες οδήγησης αυτοκινητόδρομου. Λεπτομέρειες περιλαμβάνουν την ταχύτητα του αυτοκινήτου, την επιτάχυνση, τη γωνία διεύθυνσης και τις συντεταγμένες GPS.

Το Ρομποτικό Αυτοκίνητο της Οξφόρδης: Πάνω από 100 επαναλήψεις της ίδιας διαδρομής μέσω της Οξφόρδης, Ηνωμένο Βασίλειο, κατακτήθηκαν για μια περίοδο ενός έτους. Το σύνολο δεδομένων συλλαμβάνει διάφορους συνδυασμούς καιρικών συνθηκών, κυκλοφορίας και πεζών, καθώς και μακροπρόθεσμες αλλαγές όπως οι κατασκευές και οι οδοποιίες.

Cityscape Dataset: Ένα μεγάλο σύνολο δεδομένων που καταγράφει σκηνές αστικών δρόμων σε 50 διαφορετικές πόλεις.

Το σύνολο δεδομένων CSSAD: Αυτό το σύνολο δεδομένων είναι χρήσιμο για την αντίληψη και την πλοήγηση των αυτόνομων οχημάτων. Το σύνολο δεδομένων στρεβλώνει σε μεγάλο βαθμό στους δρόμους που βρίσκονται στον ανεπτυγμένο κόσμο.

KUL Βελτιστοποίηση του σημείου κυκλοφορίας του Βελγίου: Περισσότερες από 10000 επισημάνσεις κυκλοφορίας από χιλιάδες διακριτικά σήματα κυκλοφορίας στην περιοχή της Φλάνδρας στο Βέλγιο.

Εργαστήριο MIT AGE: Ένα δείγμα από τις 1000+ ώρες πολλαπλών αισθητήρων οδηγώντας σύνολα δεδομένων που συλλέγονται στο AgeLab.

LISA: Εργαστήριο ευφυών και ασφαλών αυτοκινήτων, σύνολα δεδομένων UC San Diego: Αυτό το σύνολο δεδομένων περιλαμβάνει σήματα κυκλοφορίας, ανίχνευση οχημάτων, φωτεινούς σηματοδότες και μοτίβα τροχιάς.

Μικρό σύνολο δεδομένων ελαφριάς κυκλοφορίας Bosch: Σύνολο δεδομένων για μικρά φανάρια για βαθιά εκμάθηση.

Αναγνώριση φώτων κυκλοφορίας LaRa: Ένα άλλο σύνολο δεδομένων για φωτεινούς σηματοδότες. Αυτό έχει ληφθεί στο Παρίσι.

Σύνολα δεδομένων WPI: σύνολα δεδομένων για φωτεινούς σηματοδότες, ανίχνευση πεζών και λωρίδων.

Κλινικά σύνολα δεδομένων

MIMIC-ΙΙΙ: Ανοιχτά διαθέσιμο σύνολο δεδομένων που αναπτύχθηκε από το Εργαστήριο MIT για Υπολογιστική Φυσιολογία, το οποίο περιλαμβάνει αποϋποκατεστημένα δεδομένα υγείας που σχετίζονται με ~ 40.000 ασθενείς με κρίσιμη περίθαλψη. Περιλαμβάνει δημογραφικά στοιχεία, ζωτικά σήματα, εργαστηριακές εξετάσεις, φάρμακα και πολλά άλλα.

Σημείωση:

Αν γνωρίζετε άλλα δημόσια σύνολα δεδομένων υψηλής ποιότητας, τα οποία συστήνετε στους ανθρώπους για έρευνα και εφαρμογή της μηχανικής μάθησης, της βαθιάς μάθησης, της επιστήμης των δεδομένων κλπ. Παρακαλούμε να τους προτείνετε μαζί με τους λόγους, γιατί πρέπει να συμπεριληφθούν στα σχόλια παρακάτω ή με ηλεκτρονικό ταχυδρομείο στο Stacy απευθείας στο sstanford@mlmemoirs.xyz.

Αν ο λόγος είναι ισχυρός, θα τα αναλύσουμε και θα τα συμπεριλάβουμε σε αυτόν τον κατάλογο. Επίσης, ενημερώστε μας για την εμπειρία σας με τη χρήση οποιουδήποτε από αυτά τα σύνολα δεδομένων στην ενότητα σχολίων.

Ευχάριστη εκμάθηση μηχανών!

Ευχαριστίες:

Οι συγγραφείς θα ήθελαν να ευχαριστήσουν τα μέλη της κοινότητας AI για την τεράστια υποστήριξη και την εποικοδομητική κριτική κατά την προετοιμασία αυτού του άρθρου.

ΑΠΟΠΟΙΗΣΗ: Οι απόψεις που εκφράζονται σε αυτό το άρθρο είναι αυτές του συγγραφέα και δεν αντιπροσωπεύουν τις απόψεις του Πανεπιστημίου Carnegie Mellon, της Machine Learning Memoirs Inc. ούτε άλλων εταιρειών (άμεσα ή έμμεσα) που σχετίζονται με τον / τους συγγραφέα / ες. Αυτά τα γραπτά δεν προορίζονται να είναι τελικά προϊόντα, αλλά μάλλον μια αντανάκλαση της τρέχουσας σκέψης, ενώ είναι καταλύτης για συζήτηση και βελτίωση.

Προτεινόμενες ιστορίες:

Πηγές:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Θεσμική έρευνα και ανάλυση Κοινά σύνολα δεδομένων https://www.cmu.edu/ira/CDS/index.html

[11] Δεδομένα και προτάσεις έργου Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Δεδομένα | Αποθηκευτικό μηχάνημα μάθησης MIT | διαδίκτυο

[13] Δεδομένα | Εργαστήριο του MIT Lincoln | https://www.ll.mit.edu/r-d/datasets

[14] Συλλογή Dataset μεγάλου δικτύου του Στάνφορντ Πανεπιστήμιο του Στάνφορντ | https://snap.stanford.edu/data/

[15] Κοινό σύνολο δεδομένων του Στάνφορντ Πανεπιστήμιο του Στάνφορντ | https://snap.stanford.edu/data/

[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[17] Εξερεύνηση δεδομένων Επιστήμη των δεδομένων στο Μπέρκλεϊ https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

Παραπομπή:

Για την κατανομή σε ακαδημαϊκά πλαίσια, παρακαλούμε παραθέστε αυτό το έργο ως

Stanford, et al., "Τα καλύτερα δημόσια σύνολα δεδομένων για την εκμάθηση μηχανών και την επιστήμη των δεδομένων", Towards AI, 2018

Παραπομπή BibTex:

@misc {stanford_2018,
  title = {Τα καλύτερα δημόσια σύνολα δεδομένων για την εκμάθηση μηχανών και την επιστήμη των δεδομένων},
  url = {https://towardsai.net/datasets},
  Σημείωση = {https://towardsai.net/datasets},
  περιοδικό = {Μεσαίο},
  εκδότης = {Προς AI},
  συγγραφέας = {Stanford, Stacy και Iriondo, Roberto},
  έτος = {2018},
  μήνα = {Οκτ}
}}