Há»c bÆ¡i Kỹ thuáºt bÆ¡i sải cÆ¡ bản
Cải thiện phương pháp học sâu đã đi tiên phong cho Pông, Kẻ xâm lược không gian và các trò chơi Atari khác, Kevin Chen, sinh viên khoa học máy tính của Đại học Stanford, đã tạo ra một thuật toán mà giỏi khá tốt ở trò chơi phụ năm 2014 cổ điển Flappy Bird. Chen đã tận dụng một khái niệm được gọi là Hồi q-learning, trong đó một đặc vụ nhằm cải thiện điểm thưởng của mình với mỗi lần chơi, để hoàn thiện một trò chơi gần như không thể và gây nghiện.
Chen đã tạo ra một hệ thống trong đó thuật toán của anh ta được tối ưu hóa để tìm kiếm ba phần thưởng: phần thưởng tích cực nhỏ cho mỗi khung hình mà nó tồn tại, phần thưởng lớn khi đi qua một đường ống và phần thưởng lớn không kém (nhưng tiêu cực) cho việc chết. Do đó, có động lực, cái gọi là mạng sâu-q có thể vượt qua con người, theo báo cáo của Chen, tác giả: Chúng tôi đã có thể chơi thành công trò chơi Flappy Bird bằng cách học trực tiếp từ các pixel và điểm số, đạt được kết quả siêu phàm.
Bài báo gốc Atari, xuất bản năm 2015 trong Thiên nhiên, đến từ công ty DeepMind thuộc sở hữu của Google (hiện nổi tiếng với việc làm chủ trò chơi cờ cổ của Trung Quốc Go). Thành tựu DeepMind là một bước đột phá ở chỗ nó lấy hình ảnh - hoặc pixel, ít nhất là - thông tin, và, với đầu vào tối thiểu, có thể tối đa hóa phần thưởng. Một hệ thống khen thưởng như vậy đã được ví như phản ứng dopaminergic não, chỉ đơn giản hóa.
Nó không phải là lần đầu tiên thuật toán chinh phục được con chim vỗ: Một lớp trước đó của sinh viên khoa học máy tính của Đại học Stanford đã tạo ra một chương trình, khi được đào tạo qua đêm, điểm số của nó được cải thiện từ 0 ống dẫn đến 1.600.