8 Bước khám phá dữ liệu từ Zuur et al., 2010

Khám phá dữ liệu là một bước quan trọng để hiểu dữ liệu và đảm bảo việc lựa chọn đúng phương pháp phân tích. Trong bài báo A protocol for data exploration to avoid common statistical problems, Alain Zuur, một nhà nghiên cứu có nhiều công trình về phân tích dữ liệu trong sinh thái học, đã tổng hợp 8 bước khám phá dữ liệu (Hình 1). Bài báo cũng có file R với các function có thể được dùng để làm theo các bước giới thiệu trong bài báo.

8 bước khám phá dữ liệu (Hình 1 trong Zuur et al., 2010)

Hình 1: 8 bước khám phá dữ liệu (Hình 1 trong Zuur et al., 2010)

  1. Outliers Y & X: Outliers là những quan sát có giá trị lớn hoặc nhỏ bất thường so với các quan sát khác. Outliers có thể được xác định bằng boxplot kết hợp với Cleveland dotplot (Hình 2).
Ví dụ về việc xác định outlier sử dụng boxplot và Cleveland dotplot. Nếu chỉ dùng boxplot thì có 7 điểm được cân nhắc là outlier (hình a) nhưng khi kết hợp với Cleveland thì có vẻ không có điểm nào quá khác biệt (hình b) (Hình 2 trong Zuur et al., 2010)

Hình 2: Ví dụ về việc xác định outlier sử dụng boxplot và Cleveland dotplot. Nếu chỉ dùng boxplot thì có 7 điểm được cân nhắc là outlier (hình a) nhưng khi kết hợp với Cleveland thì có vẻ không có điểm nào quá khác biệt (hình b) (Hình 2 trong Zuur et al., 2010)

  1. Homogeneity Y: Homogeneity Y là một giả định quan trọng của các phân tích thông dụng như ANOVA, linear regression (hồi quy tuyến tính). Homogeneity có thể được kiểm tra bằng boxplot của giá trị quan sát (Hình 3), hoặc so sánh residual (phần dư - sự khác biệt giữa giá trị dự đoán và giá trị quan sát) với giá trị dự đoán. Nếu sự biến thiên (variation) của residual là đồng nhất giữa các giá trị dự đoán thì giả định Homogeneity không bị vi phạm.
Ví dụ về việc kiểm tra Homogeneity Y bằng boxplot của giá trị quan sát. Sự biến thiên của Intake rate giữa các tháng có vẻ đồng nhất, nhưng có vẻ thấp hơn một chút trong mùa đông ở con cái so với con đực. Tuy nhiên sự khác biệt là không quá đáng kể (Hình 4 trong Zuur et al., 2010)

Hình 3: Ví dụ về việc kiểm tra Homogeneity Y bằng boxplot của giá trị quan sát. Sự biến thiên của Intake rate giữa các tháng có vẻ đồng nhất, nhưng có vẻ thấp hơn một chút trong mùa đông ở con cái so với con đực. Tuy nhiên sự khác biệt là không quá đáng kể (Hình 4 trong Zuur et al., 2010)

  1. Normality Y: Tương tự như Homogeneity Y, Normality Y là một giả định quan trọng của ANOVA, linear regression. Normality có thể được kiểm tra bằng histogram của giá trị quan sát (Hình 4) hoặc của QQ plot của residual. Trong trường hợp Y không có phân bố chuẩn, Y có thể được biến đổi, ví dụ như lấy log.
Ví dụ về việc kiểm tra Normality Y bằng histogram của giá trị quan sát. Histogram tổng thể trông có vẻ không tuân theo Normality. Tuy nhiên sự khác biệt là do phân bố giữa các tháng khác nhau. Vì thế, trong trường hợp này không nên biến đổi dữ liệu vì có thể giảm khả năng xác định ảnh hưởng của tháng (Hình 5 trong Zuur et al., 2010)

Hình 4: Ví dụ về việc kiểm tra Normality Y bằng histogram của giá trị quan sát. Histogram tổng thể trông có vẻ không tuân theo Normality. Tuy nhiên sự khác biệt là do phân bố giữa các tháng khác nhau. Vì thế, trong trường hợp này không nên biến đổi dữ liệu vì có thể giảm khả năng xác định ảnh hưởng của tháng (Hình 5 trong Zuur et al., 2010)

  1. Zero trouble Y: Trong một số trường hợp, dữ liệu thu thập có thể gồm rất nhiều giá trị 0, ví dụ như dữ liệu sự xuất hiện của loài. Việc này có thể kiểm tra bằng histogram (Hình 5). Trong trường hợp có nhiều giá trị 0, phương pháp zero inflated GLMs nên được cân nhắc.
Ví dụ về việc kiểm tra Zero trouble Y bằng histogram (Hình 7 trong Zuur et al., 2010)

Hình 5: Ví dụ về việc kiểm tra Zero trouble Y bằng histogram (Hình 7 trong Zuur et al., 2010)

  1. Collinearity X: Collinearity là sự tương quan giữa các biến X, ví dụ như giữa chiều dài và cân nặng (một cá thể dài thường có cân nặng lớn) hoặc giữa độ sâu và nhiệt độ đáy biển (càng xuống sâu thì nhiệt độ càng thấp). Collinearity có thể gây nhiễu khi phân tích. Collinearity có thể được kiểm tra bằng cách tính variance inflation factor (VIF) và loại bỏ dần các biến có giá trị VIF cao đến khi tất cả các biến có VIF dưới một ngưỡng nhất định. Bài báo đề xuất ngưỡng VIF là 3.

  2. Relationship Y & X: Mối quan hệ giữa Y và X (tuyến tính hoặc không tuyến tính) có thể được kiểm tra bằng scatterplot (Hình 6). Lưu ý là nếu scatterplot không thể hiện mối quan hệ rõ ràng không đồng nghĩa với việc không có mối quan hệ giữa biến Y và X, chỉ là không đủ rõ ràng để có thể quan sát từ scatterplot.

Ví dụ về việc kiểm tra Relationship Y & X bằng scatterplot (Hình 9 trong Zuur et al., 2010)

Hình 6: Ví dụ về việc kiểm tra Relationship Y & X bằng scatterplot (Hình 9 trong Zuur et al., 2010)

  1. Interactions: Tương tự như việc kiểm tra mối quan hệ giữa Y và X. Sự tương tác (mối quan hệ giữa Y và X khác nhau giữa các nhóm của X) cũng có thể được kiểm tra sử dụng scatterplot (Hình 7).
Ví dụ về việc kiểm tra Interactions bằng scatterplot. Mối quan hệ giữa cân nặng và chiều dài cánh có thể khác nhau giữa các tháng và giới (Hình 11 trong Zuur et al., 2010)

Hình 7: Ví dụ về việc kiểm tra Interactions bằng scatterplot. Mối quan hệ giữa cân nặng và chiều dài cánh có thể khác nhau giữa các tháng và giới (Hình 11 trong Zuur et al., 2010)

  1. Independence Y: Tương tự như homogeneity và normality Y, independence Y cũng là một giả định quan trọng. Ví dụ như các quan sát trong cùng một năm hoặc từ cùng một quần thể/khu vực có thể không độc lập với nhau. Tính độc lập theo thời gian và không gian có thể được kiểm tra, lần lượt, bằng auto-correlation function (ACF) (Hình 8) và variogram. Trong trường hợp các quan sát không độc lập, mixed-effects models có thể được sử dụng (xem bài viết Mô hình hỗn hợp (Mixed-effects model) 1).
Ví dụ về việc kiểm tra Independence Y bằng AFC. Với loài C. fuscicollis, Independence Y bị vi phạm do quan sát tại năm t sẽ phụ thuộc vào quan sát ở năm t-1 và năm t-2 (ACF cao hơn đường gạch ngang ở lag 1 và 2). Với loài L. dominicanus, các quan sát dữa các năm độc lập với nhau (ACF không cao hơn đường gạch ngang). (Hình 12 trong Zuur et al., 2010)

Hình 8: Ví dụ về việc kiểm tra Independence Y bằng AFC. Với loài C. fuscicollis, Independence Y bị vi phạm do quan sát tại năm t sẽ phụ thuộc vào quan sát ở năm t-1 và năm t-2 (ACF cao hơn đường gạch ngang ở lag 1 và 2). Với loài L. dominicanus, các quan sát dữa các năm độc lập với nhau (ACF không cao hơn đường gạch ngang). (Hình 12 trong Zuur et al., 2010)

References