Trong trang này:
- Giới thiệu
- Nhắc lại hai mô hình tuyến tính
- Một ví dụ nhỏ
- Mô hình hồi quy Logistic
- Hàm sigmoid
- Hàm mất mát và phương pháp tối ưu
- Xây dựng hàm mất mát
- Tối ưu hàm mất mát
- Công thức cập nhật cho hồi quy Logistic sigmoid
- Ví dụ với Python
- Ví dụ với dữ liệu 1 chiều
- Các hàm cần thiết cho hồi quy Logistic sigmoid
- Ví dụ với dữ liệu 2 chiều
- Một vài tính chất của Hồi quy Logistic
- Hồi quy Logistic thực ra được sử dụng nhiều trong các bài toán phân loại
- Đường phân chia (boundary) tạo bởi Hồi quy Logistic có dạng tuyến tính
- Thảo luận
- Tài liệu tham khảo
Contents
READ MORE:
Giới thiệu
Nhắc lại hai mô hình tuyến tính
Hai mô hình tuyến tính đã biết là Hồi quy tuyến tính (Linear Regression) và Giải thuật Học tập Perceptron (PLA). Cả hai mô hình đều có dạng chung: y = f(w^T x), trong đó f() được gọi là hàm kích hoạt (activation function), và x được hiểu là dữ liệu mở rộng với x_0 = 1 được thêm vào để thuận tiện cho việc tính toán. Với Hồi quy tuyến tính thì f(s) = s, với PLA thì f(s) = sign(s). Trong Hồi quy tuyến tính, tích vô hướng (w^T x) được sử dụng để dự đoán đầu ra y, loại này phù hợp nếu cần dự đoán một giá trị thực của đầu ra không bị chặn trên và dưới. Trong PLA, đầu ra chỉ nhận một trong hai giá trị 1 hoặc -1, phù hợp với các bài toán phân loại nhị phân.
Bạn đang xem: Bài 10: Logistic Regression
Trong bài viết này, chúng ta sẽ giới thiệu mô hình thứ ba với một hàm kích hoạt khác, được sử dụng cho các bài toán linh hoạt hơn. Trong dạng này, đầu ra có thể được biểu diễn dưới dạng xác suất (probability). Ví dụ: xác suất thi đỗ nếu biết thời gian ôn tập, xác suất ngày mai có mưa dựa trên thông tin trong ngày hôm nay,… Mô hình mới này được gọi là Hồi quy Logistic. Mô hình này giống với Hồi quy tuyến tính với khía cạnh đầu ra là số thực, và giống với PLA với đầu ra bị chặn (trong đoạn [0, 1]). Mặc dù trong tên có chứa từ “hồi quy”, Hồi quy Logistic thường được sử dụng nhiều hơn cho các bài toán phân loại.
Một ví dụ nhỏ
Xin được sử dụng một ví dụ trên Wikipedia:
Xem thêm : 40 câu đố hay ngắn gọn có đáp án “nhanh như chớp”
“Một nhóm 20 sinh viên dành thời gian từ 0 đến 6 giờ cho việc ôn tập. Thời gian ôn tập này ảnh hưởng đến xác suất sinh viên vượt qua kỳ thi như thế nào?”
Kết quả thu được như sau:
Hours | Pass |
---|---|
0 | 0 |
2.75 | 1 |
.75 | 0 |
3 | 0 |
1 | 0 |
3.25 | 1 |
1.25 | 0 |
3.5 | 0 |
1.5 | 0 |
4 | 1 |
1.75 | 0 |
4.25 | 1 |
1.75 | 1 |
4.5 | 1 |
2 | 0 |
4.75 | 1 |
2.25 | 1 |
5 | 1 |
2.5 | 0 |
5.5 | 1 |
Mặc dù có một chút không công bằng khi học 3.5 giờ thì trượt, còn học 1.75 giờ thì lại đỗ, nhìn chung, học càng nhiều thì khả năng đỗ càng cao. PLA không thể áp dụng được cho bài toán này vì không thể nói một người học bao nhiêu giờ thì 100% trượt hay đỗ, và thực tế là dữ liệu này cũng không linearly separable (điều kiện để PLA có thể hoạt động được). Chú ý rằng các điểm màu đỏ và xanh được vẽ ở hai tung độ khác nhau để tiện cho việc minh họa. Các điểm này được vẽ dùng cả dữ liệu đầu vào (x) và đầu ra (y). Khi ta nói linearly separable là khi ta chỉ dùng dữ liệu đầu vào (x).
Chúng ta biểu diễn các điểm này trên đồ thị để thấy rõ hơn.
Nhận thấy rằng cả Hồi quy tuyến tính và PLA đều không phù hợp với bài toán này, chúng ta cần một mô hình linh hoạt hơn.
Mô hình Hồi quy Logistic
Xem thêm : Giải mã nghĩa Associate trong các ngành nghề
Đầu ra dự đoán của:
- Hồi quy tuyến tính: f(x) = w^T * x
- PLA: f(x) = sign(w^T * x)
- Hồi quy Logistic: f(x) = theta(w^T * x)
Trong đó theta được gọi là hàm Logistic. Một số hàm kích hoạt cho mô hình tuyến tính được cho trong hình dưới đây:
Ở phần sau, tôi sẽ lý giải việc người ta đã tìm ra hàm số đặc biệt này như thế nào.
Hàm sigmoid
Trong số các hàm số có 3 tính chất nói trên, hàm sigmoid: f(s) = 1 / (1 + e^(-s)) được sử dụng nhiều nhất, vì nó bị chặn trong khoảng (0, 1). Thêm nữa: lim(s->-infinity) f(s) = 0 và lim(s->+infinity) f(s) = 1. Đặc biệt hơn nữa, f'(s) = f(s)(1 – f(s)) Công thức đạo hàm đơn giản thế này giúp hàm số này được sử dụng rộng rãi. Ngoài ra, hàm tanh cũng hay được sử dụng: tanh(s) = (e^s – e^(-s))/(e^s + e^(-s)) Hàm số này nhận giá trị trong khoảng (-1, 1) nhưng có thể dễ dàng đưa về khoảng (0, 1).
Nguồn: https://ispacedanang.edu.vn
Danh mục: Học tập