Ứng dụng phương pháp khoa học dữ liệu để dự báo tuổi phát triển của sâm và phân tích các yếu tố ảnh hưởng
Main Article Content
Tóm tắt
Tuổi phát triển của sâm (Cultivation ages of ginseng – CAG) là yếu tố quan trọng ảnh hưởng đến chất lượng và giá thành của sâm. Những tiến bộ gần đây trong khoa học dữ liệu đã tạo ra những lợi ích to lớn cho đa dạng các ứng dụng thực tế. Trong lĩnh vực khoa học dữ liệu, học máy đóng một vai trò quan trọng để khám phá thông tin chi tiết từ dữ liệu. Nghiên cứu này dựa trên cơ sở dữ liệu thực nghiêm thu thập được nhằm xây dựng và đánh giá hiệu suất của 3 mô hình máy học: Tăng cường độ dốc cực cao - Extreme Gradient Boosting (XGB), Tăng cường độ dốc nhẹ - Light Gradient Boosting (LGB) và Tăng cường độ dốc - Gradient Boosting (GB) trong việc dự đoán CAG. Các mô hình được phát triển dựa trên 106 mẫu dữ liệu với chín tham số đầu vào và một tham số đầu ra. Kỹ thuật xác thực chéo K-lần được sử dụng để nâng cao khả năng tổng quát hóa và hiệu suất dự đoán của mô hình. Quan trọng hơn, trong nghiên cứu này XGB mô hình được tối ưu hóa để chọn siêu tham số. Dự báo hiệu suất của tối ưu XGB mô hình được so sánh với 2 mô hình LGB và GB. Kết quả cho thấy XGB là mô hình tốt nhất với hiệu suất dự đoán rất cao (R2=0,964; RMSE=0,148 năm, MAE=0,107 năm). Ngoài ra, kỹ thuật tầm quan trọng của tính năng (Feature importance) được thực hiện để đánh giá ảnh hưởng của các biến đầu vào đối với CAG dự đoán.