Khám phá dữ liệu là một bước quan trọng để hiểu dữ liệu và đảm bảo việc lựa chọn đúng phương pháp phân tích. Trong bài báo A protocol for data exploration to avoid common statistical problems, Alain Zuur, một nhà nghiên cứu có nhiều công trình về phân tích dữ liệu trong sinh thái học, đã tổng hợp 8 bước khám phá dữ liệu (Hình 1). Bài báo cũng có file R với các function có thể được dùng để làm theo các bước giới thiệu trong bài báo.
Hình 1: 8 bước khám phá dữ liệu (Hình 1 trong Zuur et al., 2010)
Hình 2: Ví dụ về việc xác định outlier sử dụng boxplot và Cleveland dotplot. Nếu chỉ dùng boxplot thì có 7 điểm được cân nhắc là outlier (hình a) nhưng khi kết hợp với Cleveland thì có vẻ không có điểm nào quá khác biệt (hình b) (Hình 2 trong Zuur et al., 2010)
Hình 3: Ví dụ về việc kiểm tra Homogeneity Y bằng boxplot của giá trị quan sát. Sự biến thiên của Intake rate giữa các tháng có vẻ đồng nhất, nhưng có vẻ thấp hơn một chút trong mùa đông ở con cái so với con đực. Tuy nhiên sự khác biệt là không quá đáng kể (Hình 4 trong Zuur et al., 2010)
Hình 4: Ví dụ về việc kiểm tra Normality Y bằng histogram của giá trị quan sát. Histogram tổng thể trông có vẻ không tuân theo Normality. Tuy nhiên sự khác biệt là do phân bố giữa các tháng khác nhau. Vì thế, trong trường hợp này không nên biến đổi dữ liệu vì có thể giảm khả năng xác định ảnh hưởng của tháng (Hình 5 trong Zuur et al., 2010)
Hình 5: Ví dụ về việc kiểm tra Zero trouble Y bằng histogram (Hình 7 trong Zuur et al., 2010)
Collinearity X: Collinearity là sự tương quan giữa các biến X, ví dụ như giữa chiều dài và cân nặng (một cá thể dài thường có cân nặng lớn) hoặc giữa độ sâu và nhiệt độ đáy biển (càng xuống sâu thì nhiệt độ càng thấp). Collinearity có thể gây nhiễu khi phân tích. Collinearity có thể được kiểm tra bằng cách tính variance inflation factor (VIF) và loại bỏ dần các biến có giá trị VIF cao đến khi tất cả các biến có VIF dưới một ngưỡng nhất định. Bài báo đề xuất ngưỡng VIF là 3.
Relationship Y & X: Mối quan hệ giữa Y và X (tuyến tính hoặc không tuyến tính) có thể được kiểm tra bằng scatterplot (Hình 6). Lưu ý là nếu scatterplot không thể hiện mối quan hệ rõ ràng không đồng nghĩa với việc không có mối quan hệ giữa biến Y và X, chỉ là không đủ rõ ràng để có thể quan sát từ scatterplot.
Hình 6: Ví dụ về việc kiểm tra Relationship Y & X bằng scatterplot (Hình 9 trong Zuur et al., 2010)
Hình 7: Ví dụ về việc kiểm tra Interactions bằng scatterplot. Mối quan hệ giữa cân nặng và chiều dài cánh có thể khác nhau giữa các tháng và giới (Hình 11 trong Zuur et al., 2010)
Hình 8: Ví dụ về việc kiểm tra Independence Y bằng AFC. Với loài C. fuscicollis, Independence Y bị vi phạm do quan sát tại năm t sẽ phụ thuộc vào quan sát ở năm t-1 và năm t-2 (ACF cao hơn đường gạch ngang ở lag 1 và 2). Với loài L. dominicanus, các quan sát dữa các năm độc lập với nhau (ACF không cao hơn đường gạch ngang). (Hình 12 trong Zuur et al., 2010)