Γιατί η OLS φαίνεται «μεροληπτική» σε απλά δεδομένα;
Σε απλά δισδιάστατα νέφη σημείων, η ευθεία
ελαχίστων τετραγώνων (OLS)
συχνά φαίνεται «εκτός κέντρου» ή αφύσικα κεκλιμένη
σε σχέση με το νέφος των δεδομένων.
Η ευθεία OLS φαίνεται οπτικά «λανθασμένη» σε σχέση με το νέφος σημείων.
Αυτό όμως δεν σημαίνει ότι η OLS είναι στατιστικά μεροληπμένη.
Το φαινόμενο προκύπτει από το γεγονός ότι
η OLS απαντά σε διαφορετικό ερώτημα
από αυτό που υποβάλλει η οπτική μας διαίσθηση.
Η OLS ελαχιστοποιεί τα
κατακόρυφα τετραγωνικά σφάλματα
και εκτιμά τον
υπό όρους μέσο όρο
\(E[Y \mid X=x]\),
θεωρώντας το \(x\) ελεγχόμενη μεταβλητή.
Η OLS ελαχιστοποιεί τις κατακόρυφες αποστάσεις (vertical residuals).
Αντίθετα, η ευθεία που «περιμένει το μάτι μας»
είναι πιο κοντά στον
κύριο άξονα του νέφους,
όπως αυτός προκύπτει από
PCA ή
ολική παλινδρόμηση ελαχίστων τετραγώνων.
Σε αυτή την περίπτωση, οι αποστάσεις
ελαχιστοποιούνται
ορθογώνια
και οι μεταβλητές \(x\) και \(y\)
αντιμετωπίζονται συμμετρικά.
Ο κύριος άξονας (PCA) ελαχιστοποιεί τις ορθογώνιες αποστάσεις.
Η φαινομενική «μεροληψία» της OLS
είναι επομένως
γεωμετρική και εννοιολογική,
όχι στατιστική.
Η OLS δεν κάνει λάθος —
απλώς απαντά σε διαφορετικό ερώτημα.
Why Does Least Squares Appear Biased in Simple Data?
In simple two-dimensional scatter plots,
the
ordinary least squares (OLS)
line often appears off-center or tilted
relative to the data cloud.
The OLS line appears visually misaligned with the data cloud.
This does not mean that OLS is statistically biased.
The mismatch arises because OLS answers
a different question
than the one suggested by visual intuition.
OLS minimizes
vertical squared errors
and estimates the
conditional mean
\(E[Y \mid X=x]\).
OLS minimizes vertical distances from the data points.
By contrast, the line we expect visually
is closer to the
principal axis
of the data cloud,
as given by PCA or total least squares.
PCA minimizes orthogonal distances and treats variables symmetrically.
The apparent bias is therefore
geometric, not statistical.
OLS simply solves a different optimization problem.
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου