Γιατί η OLS φαίνεται «μεροληπτική» σε απλά δεδομένα;
Σε απλά δισδιάστατα νέφη σημείων, η ευθεία
ελαχίστων τετραγώνων (OLS)
συχνά φαίνεται «εκτός κέντρου» ή αφύσικα κεκλιμένη
σε σχέση με το νέφος των δεδομένων.
Αυτό όμως δεν σημαίνει ότι η OLS είναι στατιστικά μεροληπμένη. Το φαινόμενο προκύπτει από το γεγονός ότι η OLS απαντά σε διαφορετικό ερώτημα από αυτό που υποβάλλει η οπτική μας διαίσθηση.
Η OLS ελαχιστοποιεί τα
κατακόρυφα τετραγωνικά σφάλματα
και εκτιμά τον
υπό όρους μέσο όρο
\(E[Y \mid X=x]\),
θεωρώντας το \(x\) ελεγχόμενη μεταβλητή.
Αντίθετα, η ευθεία που «περιμένει το μάτι μας» είναι πιο κοντά στον κύριο άξονα του νέφους, όπως αυτός προκύπτει από PCA ή ολική παλινδρόμηση ελαχίστων τετραγώνων.
Σε αυτή την περίπτωση, οι αποστάσεις
ελαχιστοποιούνται
ορθογώνια
και οι μεταβλητές \(x\) και \(y\)
αντιμετωπίζονται συμμετρικά.
Η φαινομενική «μεροληψία» της OLS είναι επομένως γεωμετρική και εννοιολογική, όχι στατιστική. Η OLS δεν κάνει λάθος — απλώς απαντά σε διαφορετικό ερώτημα.
Πηγή συζήτησης: r/math – Reddit

Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου