'Học tập củng cố' sâu sắc đang dạy cho robot những kỹ năng mới nhanh hơn bao giờ hết

$config[ads_kvadrat] not found
Anonim

Rô bốt đang học cách hoàn thành các nhiệm vụ trong thế giới ảo tăng tốc, phát triển các kỹ năng trong vài giờ có thể mất vài tháng. Học mô phỏng tăng cường sâu (hoặc Deep RL) có nghĩa là một kỹ năng thường sẽ mất 55 ngày cho một A.I. để học trong thế giới thực chỉ mất một ngày trong lớp học siêu tốc.

Ngay bây giờ, ông Ra Ra Hadsell, một nhà khoa học nghiên cứu về Google DeepMind, đã nói về cuộc cách mạng Re-Work Deep Learning tại Luân Đôn hôm thứ Năm. Chúng tôi có thể học các kỹ năng ở cấp độ con người.

Nghe có vẻ phản trực giác, vì chắc chắn toàn bộ quan điểm của robot là các lập trình viên có thể dạy họ làm việc, phải không? Tuy nhiên, khi thiết kế một cỗ máy hoạt động trong thế giới thực, robot cần rất nhiều dữ liệu để hiểu cách thực hiện một nhiệm vụ trong một tình huống lạ lẫm. A.I. có thể sử dụng dữ liệu này để học hỏi một kỹ năng dựa trên tất cả các trường hợp xuất hiện trước đó.

Học tập củng cố sâu thu thập dữ liệu theo cách tương tự như cách con người học: robot sẽ hoàn thành nhiệm vụ nhiều lần, như bắt bóng và ghi lại dữ liệu để tạo ra một bức tranh về cách bắt bóng tốt nhất trong tình huống mới. Khi DeepMind sử dụng mô hình vào năm 2013 để dạy robot cách làm chủ các trò chơi Atari, chỉ cần ngồi xuống trước màn hình và nói với nó mục tiêu cuối cùng, cộng đồng khoa học yêu thích nó.

Vấn đề là, điều này mất mãi mãi. Bạn cần ném bóng liên tục vào robot, hoặc trong trường hợp Atari, để robot một mình trong phòng ngủ một lúc. Chạy mô phỏng MuJoCo, kết hợp với mạng lưới thần kinh tiến bộ, các huấn luyện viên có thể chạy một chương trình bắt chước robot, chuyển các hành vi đã học sang robot và ánh xạ các chuyển động ảo vào thế giới thực.

Chúng tôi có thể chạy những mô phỏng đó cả ngày lẫn đêm

Các kết quả nói cho mình. Con robot này, người đã có bằng tốt nghiệp trong việc bắt, giờ đây có thể theo dõi những quả bóng ảo như thể chúng là thật, mồi cho ngày trọng đại khi nó yêu cầu bắt một quả bóng thật:

$config[ads_kvadrat] not found