Ποιος είναι ο συντελεστής προσδιορισμού;
Ο συντελεστής προσδιορισμού είναι ένα μέτρο που χρησιμοποιείται στη στατιστική ανάλυση που αξιολογεί πόσο καλά ένα μοντέλο εξηγεί και προβλέπει μελλοντικά αποτελέσματα. Είναι ενδεικτικό του επιπέδου επεξηγηματικής μεταβλητότητας στο σύνολο δεδομένων. Ο συντελεστής προσδιορισμού, επίσης κοινώς γνωστός ως "R-τετράγωνο", χρησιμοποιείται ως κατευθυντήρια γραμμή για τη μέτρηση της ακρίβειας του μοντέλου.
Ένας τρόπος ερμηνείας αυτού του αριθμού είναι να πούμε ότι οι μεταβλητές που περιλαμβάνονται σε ένα δεδομένο μοντέλο εξηγούν περίπου το x% της παρατηρούμενης μεταβολής. Έτσι, αν το R2 = 0.50, τότε περίπου το ήμισυ της παρατηρούμενης παραλλαγής μπορεί να εξηγηθεί από το μοντέλο.
R-Squared
Βασικές τακτικές
- Ο συντελεστής προσδιορισμού είναι μια σύνθετη ιδέα επικεντρωμένη στη στατιστική ανάλυση ενός μελλοντικού μοντέλου δεδομένων. Ο συντελεστής προσδιορισμού χρησιμοποιείται για να εξηγήσει πόση μεταβλητότητα ενός παράγοντα μπορεί να προκληθεί από τη σχέση του με έναν άλλο παράγοντα.
Κατανόηση του Συντελεστή Προσδιορισμού
Ο συντελεστής προσδιορισμού χρησιμοποιείται για να εξηγήσει πόση μεταβλητότητα ενός παράγοντα μπορεί να προκληθεί από τη σχέση του με έναν άλλο παράγοντα. Βασίζεται σε μεγάλο βαθμό στην ανάλυση τάσεων και αντιπροσωπεύεται ως τιμή μεταξύ 0 και 1.
Όσο πιο κοντά η τιμή είναι 1, τόσο καλύτερη είναι η εφαρμογή ή η σχέση μεταξύ των δύο παραγόντων. Ο συντελεστής προσδιορισμού είναι το τετράγωνο του συντελεστή συσχέτισης, γνωστού και ως "R", το οποίο του επιτρέπει να εμφανίζει τον βαθμό γραμμικής συσχέτισης μεταξύ δύο μεταβλητών.
Αυτή η συσχέτιση είναι γνωστή ως η "καλοσύνη της τοποθέτησης". Μια τιμή 1, 0 δηλώνει την τέλεια εφαρμογή και είναι επομένως ένα πολύ αξιόπιστο μοντέλο για μελλοντικές προβλέψεις, υποδεικνύοντας ότι το μοντέλο εξηγεί όλες τις παραλλαγές που παρατηρήθηκαν. Μια τιμή 0, από την άλλη πλευρά, δείχνει ότι το μοντέλο αποτυγχάνει να μοντελοποιήσει με ακρίβεια τα δεδομένα καθόλου. Για ένα μοντέλο με πολλές μεταβλητές, όπως ένα μοντέλο πολλαπλής παλινδρόμησης, το ρυθμισμένο R 2 είναι ένας καλύτερος συντελεστής προσδιορισμού. Στα οικονομικά, μια τιμή R 2 πάνω από 0, 60 θεωρείται ότι αξίζει τον κόπο.
Πλεονεκτήματα της ανάλυσης του συντελεστή προσδιορισμού
Ο συντελεστής προσδιορισμού είναι το τετράγωνο της συσχέτισης μεταξύ των προβλεπόμενων βαθμολογιών σε ένα σύνολο δεδομένων σε σχέση με το πραγματικό σύνολο βαθμολογιών. Μπορεί επίσης να εκφραστεί ως το τετράγωνο της συσχέτισης μεταξύ των βαθμολογιών Χ και Υ, με το Χ να είναι η ανεξάρτητη μεταβλητή και το Υ να είναι η εξαρτημένη μεταβλητή.
Ανεξάρτητα από την παράσταση, ένα R-τετράγωνο ίσο με 0 σημαίνει ότι η εξαρτημένη μεταβλητή δεν μπορεί να προβλεφθεί χρησιμοποιώντας την ανεξάρτητη μεταβλητή. Αντιστρόφως, αν είναι ίσο με 1, αυτό σημαίνει ότι η εξαρτώμενη από μια μεταβλητή προβλέπεται πάντα από την ανεξάρτητη μεταβλητή.
Ένας συντελεστής προσδιορισμού που εμπίπτει σε αυτό το εύρος μετρά την έκταση που η εξαρτημένη μεταβλητή προβλέπεται από την ανεξάρτητη μεταβλητή. Ένα R-τετράγωνο του 0, 20, για παράδειγμα, σημαίνει ότι το 20% της εξαρτώμενης μεταβλητής προβλέπεται από την ανεξάρτητη μεταβλητή.
Η καλοσύνη της τοποθέτησης ή ο βαθμός γραμμικής συσχέτισης μετρά την απόσταση μεταξύ μίας προσαρμοσμένης γραμμής σε ένα γράφημα και όλων των σημείων δεδομένων που είναι διάσπαρτα γύρω από το γράφημα. Το σφιχτό σύνολο δεδομένων θα έχει μια γραμμή παλινδρόμησης που είναι πολύ κοντά στα σημεία και έχει ένα υψηλό επίπεδο προσαρμογής, πράγμα που σημαίνει ότι η απόσταση μεταξύ της γραμμής και των δεδομένων είναι πολύ μικρή. Μια καλή εφαρμογή έχει ένα R-τετράγωνο που είναι κοντά στο 1.
Ωστόσο, το R-τετράγωνο δεν είναι σε θέση να καθορίσει εάν τα σημεία δεδομένων ή οι προβλέψεις είναι προκατειλημμένες. Επίσης, δεν ενημερώνει τον αναλυτή ή τον χρήστη εάν ο συντελεστής προσδιορισμού είναι καλός ή όχι. Ένα χαμηλό R-τετράγωνο δεν είναι κακό, για παράδειγμα, και εναπόκειται στο άτομο να πάρει μια απόφαση με βάση τον αριθμό τετραγώνου R.
Ο συντελεστής προσδιορισμού δεν πρέπει να ερμηνεύεται άγρια. Για παράδειγμα, αν το R-τετράγωνο ενός μοντέλου αναφέρεται στο 75%, η διακύμανση των σφαλμάτων του είναι κατά 75% μικρότερη από τη διακύμανση της εξαρτώμενης μεταβλητής και η τυπική απόκλιση των σφαλμάτων του είναι 50% μικρότερη από την τυπική απόκλιση των εξαρτημένων μεταβλητός. Η τυπική απόκλιση των σφαλμάτων του μοντέλου είναι περίπου το ένα τρίτο του μεγέθους της τυπικής απόκλισης των σφαλμάτων που θα λάβατε με ένα σταθερό μόνο μοντέλο.
Τέλος, ακόμη και αν η τιμή R-τετράγωνο είναι μεγάλη, μπορεί να μην υπάρχει στατιστική σημασία των επεξηγηματικών μεταβλητών σε ένα μοντέλο, ή το πραγματικό μέγεθος αυτών των μεταβλητών μπορεί να είναι πολύ μικρό σε πρακτικό επίπεδο.
