Τι είναι η στατιστική Chi-Square;
Ένα τετράγωνο ( χ 2) η στατιστική είναι μια δοκιμή που μετρά τον τρόπο σύγκρισης των προσδοκιών με τα πραγματικά παρατηρούμενα δεδομένα (ή τα αποτελέσματα των μοντέλων). Τα δεδομένα που χρησιμοποιούνται για τον υπολογισμό μιας chi-square στατιστικής πρέπει να είναι τυχαία, ωμή, αμοιβαία αποκλειστική, να προέρχεται από ανεξάρτητες μεταβλητές και να προέρχεται από ένα αρκετά μεγάλο δείγμα. Για παράδειγμα, τα αποτελέσματα της τοποθέτησης ενός νομίσματος 100 φορές πληρούν αυτά τα κριτήρια.
Οι δοκιμασίες Chi-square χρησιμοποιούνται συχνά σε δοκιμές υποθέσεων.
Η φόρμουλα για την Chi-Square είναι
(ε) E = αναμενόμενη τιμή \ begin {ευθυγραμμισμένη} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^) 2} {E_i} \ & \ textbf {where:} \ & c = \ text {βαθμοί ελευθερίας} \ & O = \ text {παρατηρούμενες τιμές} } όπου: c = βαθμοί ελευθερίαςO = παρατηρούμενες τιμές E = αναμενόμενη (ες) τιμή (ες)
Τι σας λέει μια τετραγωνική στατιστική;
Υπάρχουν δύο βασικά είδη chi-square τεστ: η δοκιμή της ανεξαρτησίας, η οποία θέτει ένα ζήτημα σχέσης, όπως: "Υπάρχει σχέση μεταξύ φύλου και SAT; και τη δοκιμασία καλής συμπεριφοράς, η οποία ζητάει κάτι σαν "Αν ένα νόμισμα πεταχτεί 100 φορές, θα βγει 50 φορές και 50 φορές πίσω;"
Για αυτές τις δοκιμές, χρησιμοποιούνται βαθμοί ελευθερίας για να προσδιοριστεί εάν μια συγκεκριμένη μηδενική υπόθεση μπορεί να απορριφθεί με βάση τον συνολικό αριθμό μεταβλητών και δειγμάτων στο πλαίσιο του πειράματος.
Για παράδειγμα, όταν εξετάζουμε τους μαθητές και την επιλογή μαθημάτων, ένα μέγεθος δείγματος 30 ή 40 φοιτητών πιθανότατα δεν είναι αρκετά μεγάλο για να δημιουργήσει σημαντικά δεδομένα. Η απόκτηση των ίδιων ή παρόμοιων αποτελεσμάτων από μια μελέτη που χρησιμοποιεί μέγεθος δείγματος 400 ή 500 φοιτητών είναι πιο έγκυρη.
Σε ένα άλλο παράδειγμα, σκεφτείτε να πετάξετε ένα νόμισμα 100 φορές. Το αναμενόμενο αποτέλεσμα της τοποθέτησης ενός δίκαιου νομίσματος 100 φορές είναι ότι τα κεφάλια θα φτάσουν 50 φορές και οι ουρές θα φτάσουν 50 φορές. Το πραγματικό αποτέλεσμα μπορεί να είναι ότι τα κεφάλια εμφανίζονται 45 φορές και οι ουρές έρχονται 55 φορές. Η στατιστική chi-square δείχνει τυχόν αποκλίσεις μεταξύ των αναμενόμενων αποτελεσμάτων και των πραγματικών αποτελεσμάτων.
Παράδειγμα δοκιμής Chi-Squared
Φανταστείτε ότι μια τυχαία δημοσκόπηση έγινε σε 2.000 διαφορετικούς ψηφοφόρους, τόσο άνδρες όσο και γυναίκες. Οι άνθρωποι που απάντησαν ταξινομήθηκαν ανάλογα με το φύλο τους και αν ήταν δημοκράτες, δημοκράτες ή ανεξάρτητοι. Φανταστείτε ένα πλέγμα με τις στήλες ονομαζόμενες δημοκρατικές, δημοκρατικές και ανεξάρτητες, και δύο σειρές με την ονομασία αρσενικό και θηλυκό. Υποθέστε ότι τα δεδομένα από τους 2.000 ερωτηθέντες έχουν ως εξής:
Το πρώτο βήμα για τον υπολογισμό του τετραγωνισμένου στατιστικού στοιχείου chi είναι η εύρεση των αναμενόμενων συχνοτήτων. Αυτά υπολογίζονται για κάθε "κελί" στο πλέγμα. Δεδομένου ότι υπάρχουν δύο κατηγορίες φύλου και τρεις κατηγορίες πολιτικής άποψης, υπάρχουν έξι συνολικές αναμενόμενες συχνότητες. Ο τύπος για την αναμενόμενη συχνότητα είναι:
Ε (r, c) = n (r) x c (r) nwhere: r = γραμμή in questionc = } {text} {} {} {} {} {} {} {} \ \ end {ευθυγραμμισμένο} E (r, c) = nn (r) × c (r) όπου: r = γραμμή in questionc =
Σε αυτό το παράδειγμα, οι αναμενόμενες συχνότητες είναι:
- Ε (1, 1) = (900 χ 800) / 2, 000 = 360Ε (1, 2) = (900 χ 800) / 2000 = 360Ε (1, 3) = (200 χ 800) / 2000 = 80Ε) = (900 χ 1200) / 2.000 = 540Ε (2, 2) = (900 χ 1200) / 2.000 = 540Ε (2, 3) = (200 χ 1200) / 2.000 =
Στη συνέχεια, αυτές είναι οι τιμές που χρησιμοποιούνται για τον υπολογισμό του τετραγωνικού σχήματος chi χρησιμοποιώντας τον ακόλουθο τύπο:
(R, c) όπου: O (r, c) = παρατηρούμενα δεδομένα για τη δεδομένη σειρά και στήλη \ begin {aligned} & \ text {Chi-squared} {E (r, c)} \ & \ textbf {where:} \ & O (r, c) = \ text { ΣΕ (r, c) 2 όπου: O (r, c) = παρατηρούμενα δεδομένα για τη δεδομένη σειρά και στήλη
Σε αυτό το παράδειγμα, η έκφραση για κάθε παρατηρούμενη τιμή είναι:
- Ο (1, 1) = (400-360) 2/360 = 4, 44O (1, 2) = (300-360) 2/360 = 10O (1, 3) = (2, 1) = (500-540) 2/540 = 2, 96Ο (2, 2) = (600-540) 2/540 = 6, 67O (2, 3) = (100-120) 2/120 =
Η στατιστική chi-squared τότε ισούται με το άθροισμα αυτών των τιμών, ή 32.41. Μπορούμε λοιπόν να δούμε ένα στατιστικό πίνακα chi-square που βλέπουμε, με βάση τους βαθμούς ελευθερίας στο set-up μας, εάν το αποτέλεσμα είναι στατιστικά σημαντικό ή όχι.
