⏱ 2 giờ 54 phút 📚 29 bài 🎧 Phiên bản âm thanh

Học tăng cường: Từ Q-Learning đến Deep Policy Gradients

Xây dựng nền tảng vững chắc về học tăng cường bằng cách triển khai các thuật toán Q-learning cổ điển, Deep Q-Networks và policy gradient sử dụng các thư viện Python hiện đại.

💬 Giảng viên AI
Hỏi về bất kỳ bài học nào và nhận câu trả lời rõ ràng ngay lập tức, mọi lúc.
🕐 Bắt đầu bất cứ lúc nào
Không lịch trình hay hạn chót — học theo nhịp của bạn, bất cứ khi nào.
🌐 Bằng tiếng Việt
Bài học, bài tập và chứng chỉ — tất cả hoàn toàn bằng ngôn ngữ của bạn.

Về khóa học này

Học tăng cường là động lực thúc đẩy AI ra quyết định hiện đại, từ các tác nhân chơi game đến các hệ thống tự hành. Hiểu cách các tác nhân học hỏi thông qua thử và sai là rất quan trọng đối với bất kỳ ai tham gia vào lĩnh vực trí tuệ nhân tạo tiên tiến. Khóa học dựa trên văn bản này sẽ hướng dẫn bạn từ những kiến thức cơ bản tuyệt đối về các khung ra quyết định đến việc triển khai các thuật toán học tăng cường sâu mạnh mẽ. Bạn sẽ học cách mô hình hóa môi trường, xác định phần thưởng và huấn luyện các tác nhân có thể thích nghi và tối ưu hóa hành vi của chúng theo thời gian.

Những gì bạn sẽ học:
- Hiểu các nền tảng toán học cốt lõi của Markov Decision Processes và cấu trúc phần thưởng
- Triển khai các thuật toán Q-learning dạng bảng cổ điển để giải quyết các bài toán quyết định trong môi trường lưới
- Chuyển sang học tăng cường sâu bằng cách xây dựng Deep Q-Networks với mạng nơ-ron
- Áp dụng các phương pháp policy gradient bao gồm REINFORCE và hiểu kiến trúc actor-critic
- Cấu hình các môi trường tiêu chuẩn hóa bằng cách sử dụng API Gymnasium hiện đại để huấn luyện tác nhân
- Khám phá các ứng dụng đương đại của học tăng cường, bao gồm các khái niệm đằng sau RLHF

Chúng ta bắt đầu với các thuật ngữ thiết yếu, vòng lặp trạng thái-hành động-phần thưởng và lập trình động. Từ đó, bạn sẽ tiến bộ thông qua các giải thích bằng văn bản từng bước và triển khai mã của cả phương pháp học sâu dựa trên giá trị và dựa trên chính sách. Khóa học này được thiết kế cho người mới bắt đầu trong học máy muốn chuyên sâu về học tăng cường. Kiến thức cơ bản về Python và các khái niệm mạng nơ-ron được khuyến nghị, nhưng không yêu cầu kinh nghiệm học tăng cường trước đó. Hãy bắt đầu đọc ngay hôm nay để nắm vững các thuật toán cung cấp sức mạnh cho AI thích ứng hiện đại.

Bạn sẽ nhận được

📜 Chứng chỉ hoàn thành
Thêm vào hồ sơ LinkedIn
💬 Gia sư AI cá nhân
Bí ở một bài học? Hỏi gia sư tích hợp của bạn bất cứ điều gì, bất cứ lúc nào.
🎧 Bao gồm phiên bản âm thanh
Học mọi lúc mọi nơi — không cần màn hình
♾️ Truy cập trọn đời
Quay lại bất cứ lúc nào, không hết hạn
📱 Điện thoại hoặc máy tính
Hoạt động mọi nơi, mọi thiết bị
💸 Hoàn tiền 14 ngày
Không cần lý do
⚡ Ngắn gọn, đi vào trọng tâm
2 giờ 54 phút nội dung thực hành

Đánh giá

Chưa có đánh giá — hãy là người đầu tiên chia sẻ.

Học viên cũng học

⚡ Tốt nhất để bắt đầu 🎓 Có chứng chỉ

Câu hỏi thường gặp

Tôi cần gì để học khóa này? +

Chỉ cần điện thoại hoặc máy tính có kết nối internet. Không cần cài đặt hay thiết bị đặc biệt.

Tôi thanh toán bằng cách nào? +

Bằng thẻ qua Stripe. Chúng tôi không lưu thông tin thẻ — Stripe xử lý an toàn.

Tôi có thể được hoàn tiền không? +

Có — hoàn tiền đầy đủ trong 14 ngày, không cần lý do.

Tôi sẽ có quyền truy cập trong bao lâu? +

Mãi mãi. Sau khi mua, khóa học là của bạn để xem lại bất cứ lúc nào.

Tôi có nhận được chứng chỉ không? +

Có. Sau khi hoàn thành, bạn sẽ nhận được chứng chỉ và có thể thêm vào hồ sơ LinkedIn.

Dành cho người học trong

Công nghệ Thiết kế Tài chính Marketing Y tế Giáo dục Khách sạn-Dịch vụ Sản xuất

⭐ Học viên chọn 🎓 Có chứng chỉ

$89.99

✓ Của bạn mãi mãi — không hết hạn.

Mua ngay →

hoặc

Nhận với giá $0 cùng gói hội viên

10 khóa học mỗi tháng · $149/tháng trong 3 tháng đầu · Hủy bất cứ lúc nào

✓ Chứng chỉ hoàn thành
✓ Bao gồm phiên bản âm thanh
✓ Truy cập trọn đời
✓ Hoàn tiền trong 14 ngày
✓ Điện thoại hoặc máy tính

Thanh toán an toàn qua Stripe

Học tăng cường: Từ Q-Learning đến Deep Policy Gradients

Về khóa học này

Bạn sẽ nhận được

Đánh giá

Viết đánh giá

Học viên cũng học

Học tăng cường sâu trong Python: Một giới thiệu hiện đại

Căn chỉnh LLM: Học tăng cường từ phản hồi của con người (RLHF)

Học tăng cường cho lập trình viên: Tự viết mã tác nhân AI của riêng bạn

Giới thiệu về Học tăng cường: Nền tảng và Thuật toán

Câu hỏi thường gặp