Περίληψη: | Η ανάλυση πολυμεταβλητών δεδομένων καθίσταται ιδιαίτερα δύσκολη όταν το
πλήθος των μεταβλητών, p (διάσταση των δεδομένων), είναι μεγάλο. Επίσης
δυσκολία υπάρχει στην ανάλυση, όταν οι μεταβλητές είναι υψηλά συσχετισμένες
μεταξύ τους.
Η ανάλυση κύριων συνιστωσών είναι πολυμεταβλητή στατιστική τεχνική που
ασχολείται με την δομή διασπορών – συνδιασπορών, μέσω μερικών γραμμικών
συνδυασμών των αρχικών μεταβλητών. Γενικότερα τα αντικείμενα της είναι (1) η
μείωση των δεδομένων και (2) η ανάλυση (ερμηνεία) τους.
Παρόλο που απαιτούνται p μεταβλητές για να ερμηνευτεί η συνολική
μεταβλητότητα του συστήματος, συχνά, η περισσότερη από αυτή τη μεταβλητότητα
μπορεί να ερμηνευτεί από ένα μικρό αριθμό k κύριων συνιστωσών. Αν πράγματι
συμβεί αυτό, τότε, υπάρχει (σχεδόν) τόση πληροφορία στις k συνιστώσες, όση
υπάρχει στις p αρχικές μεταβλητές. Οι k κύριες συνιστώσες μπορούν τότε να
αντικαταστήσουν τις αρχικές p μεταβλητές, και το αρχικό σύνολο δεδομένων που
αποτελείται από n μετρήσεις των p μεταβλητών, μειώνεται σε ένα σύνολο δεδομένων
που αποτελείται από n μετρήσεις των k μεταβλητών. Οι k κύριες συνιστώσες είναι
γραμμικός συνδυασμός των p αρχικών μεταβλητών, και μάλιστα είναι ασυσχέτιστες
μεταξύ τους. Έτσι, οδηγούμαστε από ένα σύνολο p συσχετισμένων μεταβλητών, σ’
ένα μικρότερο σύνολο k ασυσχέτιστων μεταβλητών.
Η μείωση αυτή των δεδομένων είναι πολύ σημαντικό γεγονός, διότι αντί να
αναλύουμε δεδομένα στο R
p
, αναλύουμε δεδομένα στο R
k
. Σε ορισμένες περιπτώσεις
το k, η νέα διάσταση, είναι 2 ή 3 και τότε έχουμε μια οπτική ιδέα, μια εικόνα των
δεδομένων.
Κλείνοντας την εισαγωγή, θα πρέπει να αναφέρουμε ότι η τεχνική κύριων
συνιστωσών δεν επιτυγχάνει πάντοτε την μείωση της διάστασης, π.χ., αυτό συμβαίνει
όταν οι αρχικές μεταβλητές είναι ασυσχέτιστες. Τότε θα πρέπει να αναζητηθούν
άλλες μέθοδοι μείωσης της διάστασης.
|