Machine learning cho người hoàn toàn mới bắt đầu – Thiết lập dữ liệu của bạn

6. Thiết lập dữ liệu của bạn

Sau khi dọn dẹp tập dữ liệu của mình, công việc kế tiếp là phân chia dữ liệu thành hai phân đoạn để huấn luyện (training) và thử nghiệm (testing), còn được gọi là phân chia kiểm định (split validation). Tỉ lệ của hai phần phân chia thường là 70/30 hoặc 80/20. Điều này có nghĩa là giả sử các biến (variable) của bạn được biểu thị theo chiều ngang và các thực thể (instance) theo chiều dọc (như được hiển thị trong Hình 12), rằng dữ liệu huấn luyện của bạn sẽ chiến 70% tới 80% số dòng trong tập dữ liệu, và 20% tới 30% số dòng còn lại là giành cho dữ liệu thử nghiệm của mình.

Hình 12: Phân vùng 70/30 dữ liệu huấn luyện và dữ liệu thử nghiệm
Tiếp tục đọc