Machine learning cho người hoàn toàn mới bắt đầu – Hồi quy tuyến tính

7. Hồi quy tuyến tính – Linear regression

Như là “Hello World” trong các thuật toán học có giám sát (supervised learning), phân tích hồi quy (regression analysis) là một kỹ thuật đơn giản để dự đoán một biến chưa biết bằng cách sử dụng những kết quả mà bạn đã biết. Kỹ thuật hồi quy đầu tiên mà chúng ta sẽ xem xét là hồi quy tuyến tính, cái mà sẽ tạo ra một đường thẳng để mô tả các mối quan hệ tuyến tính. Chúng ta sẽ bắt đầu bằng việc xem xét các thành phần cơ bản của hồi quy tuyến tính cơ bản với một biến độc lập trước khi bàn về hồi quy đa biến (multiple liner regression) với nhiều biến độc lập. Bằng cách sử dụng loạt phim truyền hình sitcom Seinfeld như là dữ liệu của chúng ta, hãy bắt đầu bằng cách vẽ đồ thị cho hai biến sau, với số season như là tọa độ x và số người xem trên mỗi season (tính bằng triệu) như là tọa độ y.

Season (X)Số người xem (y)
119.22
218.07
317.67
420.52
529.59
631.27
733.19
832.24
938.11
Bảng 11: tập dữ liệu Seinfeld
Hình 14: tập dữ liệu Seinfeld được vẽ trên một biểu đồ phân tán.
Tiếp tục đọc