Πώς ένα Bubble Plot αποκαλύπτει τις καλύτερες πόλεις για να ζήσουν στις ΗΠΑ

Σε αυτό το άρθρο, θα σας δείξω μερικά συναρπαστικά γεγονότα για τις αμερικανικές πόλεις, την αξία των φυσαλίδων για να αποφασίσετε ποια πόλη θα ζήσετε και πώς θα δημιουργήσετε αυτά τα οικόπεδα.

Σκέφτεστε να επενδύσετε σε ακίνητα το 2018; Μετακομίζοντας σε μια νέα πόλη; Όταν εξετάζετε αυτές τις αποφάσεις, πρέπει να σταθμίσετε σε διάφορους παράγοντες όπως το ποσοστό ανεργίας, η τιμή κατοικίας, το μέγεθος της πόλης, η ασφάλεια και ούτω καθεξής. Ακόμη και με όλα αυτά τα δεδομένα και τέσσερα αντίστοιχα γραμμικά γράμματα, θα είστε ακόμα ανίδεοι στο τραπέζι. Θα προσπαθήσετε να βρείτε τους καλύτερους υποψηφίους, αλλά αυτοί οι παράγοντες λένε διαφορετικές ιστορίες ... Ακούγεται σαν ένα πολύπλοκο πρόβλημα.

Υπάρχει λοιπόν ένας τρόπος με τον οποίο μπορούμε να απεικονίσουμε όλους αυτούς τους παράγοντες σε ένα γράφημα και να τις συγκρίνουμε ΟΛΟΥΣ; Ναι, μπορούμε να χρησιμοποιήσουμε ένα οικόπεδο φυσαλίδων!

Τι είναι μια φούσκα οικόπεδο;

Μια γραφική παράσταση φυσαλίδων είναι ένας τύπος γραφήματος που εμφανίζει περισσότερες από δύο διαστάσεις δεδομένων (σε σύγκριση με τα παραδοσιακά γραφήματα διασκορπισμού). Εκτός από την τοποθέτηση μιας κουκκίδας σε ένα επίπεδο X-Y, χρησιμοποιεί το μέγεθος, το χρώμα ή το σχήμα του σημείου για να εμφανίσει περισσότερες διαστάσεις.

Χρησιμοποιούμε ποσοστό ανεργίας ως άξονα Χ, μέση τιμή κατοικίας ως άξονα Υ και πληθυσμό των πόλεων ως το μέγεθος των κουκκίδων. Αυτό κάνει μια καλή τρίτη διάσταση. Το χρώμα αποδίδεται τυχαία σε κάθε πόλη.

Η καλύτερη πόλη στις ΗΠΑ για να ζήσουν είναι ... (περιμένετε)

Νικητής: Νάσβιλ!

Άλλες συστάσεις: Austin, Omaha, Milwaukee, Ντάλας, Μινεάπολις, Ντένβερ και Αουρόρα.

Έχουν χαμηλή ανεργία (και συνεπώς υπάρχουν μεγαλύτερες πιθανότητες να βρουν δουλειά) και χαμηλή τιμή κατοικίας, επειδή βρίσκονται στην κάτω αριστερή πλευρά του οικοπέδου. Τι σημαίνει αυτό?

Αυτό σημαίνει ότι μπορείτε να κάνετε τις επιλογές σας με βάση αυτό το οικόπεδο.

Για παράδειγμα, εάν θεωρήσετε ότι το ποσοστό ανεργίας είναι σημαντικότερο και δεν σας ενοχλούν οι υψηλότερες τιμές κατοικιών, τότε οι Χονολουλού, Όκλαντ, Βοστώνη και Σαν Ντιέγκο είναι ισχυροί υποψήφιοι

Τι γίνεται με την προσθήκη της ασφάλειας ως άλλου παράγοντα;

Σίγουρος. Ας προσθέσουμε την ασφάλεια ως έναν τέταρτο παράγοντα (οι άλλοι τρεις παράγοντες εξακολουθούν να είναι η τιμή κατοικίας, το ποσοστό ανεργίας και ο πληθυσμός). Αντί να αναθέσουμε τυχαία ένα χρώμα για μια πόλη, χρησιμοποιούμε την κλίμακα χρώματος για εγκληματικότητα (ποσοστό εγκληματικότητας ανά 100.000 άτομα). Ο κόκκινος σημαίνει περισσότερο έγκλημα και το μπλε σημαίνει λιγότερο.

Μήπως το αποτέλεσμα αλλάζει;

Το έκανε! Εάν η ασφάλεια είναι πολύ σημαντική για εσάς, τότε το Milwaukee μπορεί να μην είναι τόσο μεγάλη επιλογή μεταξύ των προηγούμενων συστάσεων (αν και βρίσκεται στην κάτω αριστερή πλευρά του γραφήματος).

Τώρα βλέπετε τη δύναμη ενός συνόλου φυσαλίδων: την ικανότητα να επιδεικνύετε πολλαπλούς παράγοντες σε ένα οικόπεδο 2-D. Εάν διαθέτετε μόνο γραφήματα για αυτούς τους παράγοντες, είναι δύσκολο να προσδιορίσετε τις πόλεις με έναν ιδανικό συνδυασμό παραγόντων. Το διάγραμμα φυσαλίδων δημιούργησε βασικά μια "λειτουργία οπτικού αντικειμένου" για να βελτιστοποιήσετε ένα πρόβλημα πολλαπλών μεταβλητών λήψης αποφάσεων.

Πώς επηρεάζεται η διαχρονική μεταβολή του ποσοστού ανεργίας και της τιμής κατοικίας;

Μπορούμε να δημιουργήσουμε ένα διαδραστικό διάγραμμα κίνησης για να προσθέσουμε χρόνο ως διάσταση (2013 έως 2017) για να δούμε πώς αλλάζουν οι παράγοντες για αυτές τις πόλεις με την πάροδο του χρόνου.

Για να αποφύγουμε πάρα πολύ οπτικές πληροφορίες, δεν χρησιμοποίησα τα δεδομένα του εγκλήματος και χρησιμοποίησα τα διαφορετικά χρώματα για να εκπροσωπήσω μερικές επιλεγμένες πόλεις.

Τα καλά νέα είναι ότι το ποσοστό ανεργίας για όλες σχεδόν τις πόλεις μειώθηκε σημαντικά (κινείται από τα δεξιά προς τα αριστερά). Αλλά τα κακά νέα είναι ότι οι τιμές κατοικιών ανεβαίνουν αρκετά γρήγορα (ειδικά για το Σαν Φρανσίσκο, το Σαν Χοσέ, το Los Angles, τη Νέα Υόρκη και το Σιάτλ).

Θέλετε να δημιουργήσετε οι ίδιοι τους χάρτες; Εδώ είναι ο κωδικός μου για τις διαδρομές φυσαλίδων και το διάγραμμα κίνησης στο R. Καλή διασκέδαση παίζοντας με τα οικόπεδα :)

###############
# Bubble Plot #
###############
βιβλιοθήκη (data.table)
βιβλιοθήκη (ggplot2)
βιβλιοθήκη (ggrepel)
bubble_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/bubble_plot_merged_city_data.csv", sep = ",")
bubble_plot <- ggplot (bubble_data,
               aes (x = Ποσοστό ανεργίας, y = Αρχική τιμή / 1000)) +
geom_point (aes (μέγεθος = Πληθυσμός, πλήρωση = Total_Crime), σχήμα = 21) +
# Δημιουργία 'Bubble' αναθέτοντας μέγεθος μια μεταβλητή #
scale_fill_continuous (χαμηλή = "# 33FFFF", υψηλή = "# FF6699") +
scale_size_area (max_size = 20) +
# Επιλέξτε κλίμακα χρώματος φούσκας και μέγιστο μέγεθος φυσαλίδων #
geom_text_repel (
          aes (ετικέτα = πόλη), nudge_x = 0, nudge_y = 0,75, μέγεθος = 6) +
# Χρησιμοποιήστε το geom_text_repel για να απωθήσετε τις ετικέτες μακριά το ένα από το άλλο #
theme_bw () +
# Χρησιμοποιήστε το λευκό φόντο αντί για το προεπιλεγμένο γκρι #
ggtitle ("Καλύτερες πόλεις στις ΗΠΑ για να ζουν σε") + εργαστήρια (x = "Ποσοστό ανεργίας%", y = "Αρχική τιμή"
       μέγεθος = "Πληθυσμός", συμπληρώστε = "Κριτήριο") + θέμα (plot.title = element_text (μέγεθος = 25, hjust = 0.5)
        axis.title = element_text (μέγεθος = 20, πρόσωπο = "έντονο"),
        axis.text = element_text (μέγεθος = 15)) +
# Τίτλος στυλ και άξονας #
scale_y_continuous (όνομα = "Αρχική τιμή", διαλείμματα = seq (0, 1500, από = 250),
                      ετικέτες = c ("0", "250K", "500K", "750K", "1000k", "1250k"
# Κάντε τον άξονα y ευανάγνωστο αντικαθιστώντας τον επιστημονικό αριθμό με το "K" #
εκτύπωση (bubble_plot)
################
# Διάγραμμα κίνησης #
################
βιβλιοθήκη (data.table)
βιβλιοθήκη (googleVis)
motion_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/motion_chart_merged_city_data.csv", sep = ",")
motion_chart <- gvisMotionChart (motion_data,
idvar = "Πόλη",
timevar = "Έτος",
xvar = "Ποσοστό ανεργίας",
yvar = "Αρχική τιμή",
sizevar = "Πληθυσμός")
οικόπεδο (motion_chart)
# R ανοίγει αυτόματα μια καρτέλα στο πρόγραμμα περιήγησης για εσάς
# Η συσκευή αναπαραγωγής flash πρέπει να είναι ενεργοποιημένη στο πρόγραμμα περιήγησης
Κάντε κλικ στο εικονίδιο
########
# Δεδομένα #
########
"" ""
Τα σύνολα δεδομένων που χρησιμοποίησα είναι από το Zillow (μέση στέγαση), το πρόγραμμα UCR του FBI, το census.gov (πληθυσμός), το Γραφείο Εργασίας (ανεργία).
Κάναμε κάποιους λόγους καθαρισμού και σύνδεσης για τη μορφή που χρειάζομαι σε αυτό το άρθρο και μπορείτε να κάνετε κλικ στους παρακάτω συνδέσμους για να κάνετε λήψη.
"" ""
bubble_plot_merged_city_data.csv, motion_chart_merged_city_data.csv

Ακολουθήστε με και με δώστε μερικά χτυπήματα, αν βρήκατε αυτό το χρήσιμο!

Μπορείτε επίσης να διαβάσετε τα προηγούμενα άρθρα μου σχετικά με την επιστήμη των δεδομένων, την ακίνητη περιουσία και τη λήψη αποφάσεων: