Ma trận tương quan thường được báo cáo kèm kiểm định tương quan Pearson (p-value hoặc số *). Tuy nhiên, hiểu chưa đúng về hệ số tương quan có thể dẫn đến những lựa chọn sai lầm trong quá trình phân tích, ví dụ như loại một biến giải thích khỏi phương trình hồi quy.
Dưới đây là ví dụ minh họa khi Y và X có tương quan dương (có ý nghĩa thống kê), nhưng khi được kiểm soát biến Z, tương quan (trong điều kiện Z) của Y và X trở thành âm (có ý nghĩa thống kê).
Các kịch bản tương tự khác cũng hoàn toàn có thể xảy ra, ví dụ: tương quan trực tiếp Y và X không có ý nghĩa, sau kiểm soát các biến độc lập cần thiết Z1, Z2, ... (thường gọi là các biến kiểm soát), tương quan Y và X có ý nghĩa thống kê!Đây là hậu quả điển hình của bỏ sót biến quan trọng gây nên lượng chệch (do thiếu biến) cho hệ số ước lượng của X (hệ số chặn cũng bị ước lượng chệch). Biến X lúc này được gọi là biến nội sinh.
Tóm lại, việc tính và kiểm định tương quan giữa Y và các biến độc lập (X) cung cấp cái nhìn ban đầu về tiềm năng giải thích cho Y của các biến độc lập X, nhưng đó không phải và không nên dùng làm thông tin đưa ra quyết định nên thêm/không thêm biến X vào mô hình. Và thông tin giá trị nhất của ma trận tương quan đó là cung cấp đánh giá sơ bộ về mức độ của hiện tượng đa cộng tuyến giữa các biến độc lập.
Bổ sung
Trong dữ liệu minh họa, X và Z có tương quan rất cao biểu thị một mức độ đa cộng tuyến (rất cao) trong mô hình hồi quy Y theo X và Z. Tuy nhiên, nhà nghiên cứu nắm vững lý thuyết về đa cộng tuyến sẽ rất yên tâm tin tưởng kết quả hồi quy Y~X+Z. Video chi tiết về đa cộng tuyến có liên kết ở dưới bình luận.
Nhận xét
Đăng nhận xét