Làm thế nào DeepMind phát triển một A.I. Đó có thể là con người vượt trội

$config[ads_kvadrat] not found

Satisfying Video l Kinetic Sand Nail Polish Foot Cutting ASMR #7 Rainbow ToyTocToc

Satisfying Video l Kinetic Sand Nail Polish Foot Cutting ASMR #7 Rainbow ToyTocToc

Mục lục:

Anonim

Máy tính đã đá những con người mỏng manh của chúng ta vào cờ vua trong một vài thập kỷ nay. Lần đầu tiên điều này xảy ra là vào năm 1996, khi IBM Dòng Deep Blue có thể hạ gục nhà vô địch thế giới Gary Kasperov. Nhưng một nghiên cứu mới từ Bảng chữ cái A.I. trang phục DeepMind làm sáng tỏ mức độ giới hạn trong phạm vi mà chiến thắng sớm thực sự là như thế nào.

Đối với một, Kasperov bị trả về ngay, chiến thắng ba trận và hòa hai lần trong sáu trận playoff, mỗi lần một Tin tưc hăng ngay bài báo cáo.

Nhưng đáng chú ý hơn nhiều, như nhà nghiên cứu DeepMind Julian Schrittwieser nói Nghịch đảo, các ứng dụng như Deep Blue cũng được lập trình thủ công. Điều này có nghĩa là con người đã phải dạy A.I. tất cả mọi thứ nó cần để biết về cách xử lý mọi tình huống có thể tưởng tượng được. Nói cách khác, nó chỉ có thể tốt như những người lập trình. Và trong khi Deep Blue rõ ràng có thể chơi cờ vua khá giỏi; cung cấp cho nó một trò chơi khác, tương tự, như Go và itdid đã không biết gì.

Alpha Zero hoàn toàn khác biệt. Trong một nghiên cứu mới được công bố ngày hôm nay trên tạp chí Khoa học, các tác giả tiết lộ làm thế nào họ có thể không chỉ dạy Alpha Zero cách đánh bại con người trong cờ vua, mà là cách dạy Alpha Zero cách tự dạy để làm chủ nhiều trò chơi.

Cách dạy A.I. Dạy bản thân

Alpha Zero được phát triển bằng cách sử dụng một kỹ thuật gọi là học tăng cường sâu. Về cơ bản, điều này liên quan đến việc giảng dạy A.I. một cái gì đó rất đơn giản, như các quy tắc cơ bản của cờ vua, và sau đó lặp đi lặp lại những điều đơn giản đó cho đến khi nó học được những điều phức tạp hơn, thú vị hơn như chiến lược và kỹ thuật.

Theo truyền thống, con người có thể hiểu biết về trò chơi và cố gắng viết mã theo quy tắc, ông Schrittwieser, người đã làm việc với Alpha Zero trong gần bốn năm. Cách tiếp cận của chúng tôi là chúng tôi khởi tạo ngẫu nhiên, và sau đó cho phép nó chơi trò chơi với chính nó, và từ chính những trò chơi đó, nó có thể tìm hiểu chiến lược nào hoạt động.

Tất cả Alpha Zero nhận được là các quy tắc cơ bản và từ đó nó học cách chiến thắng bằng cách tự chơi. Theo những phát hiện mới, Alpha Zero chỉ mất chín giờ để thành thạo cờ vua, 12 giờ để thành thạo Shogi và khoảng 13 ngày để thành thạo môn cờ vây. Bởi vì nó tự chơi, nó về cơ bản là tự học. Nó đã thực hiện mincemeat của tất cả các thuật toán hướng dẫn con người vô địch thế giới, đánh bại nhà vô địch thế giới năm 2017 trong Shogi 91 phần trăm thời gian.

Đây có thể độc lập khám phá những kiến ​​thức thú vị về trò chơi, theo ông Schrittwieser. Phần mềm dẫn đến các chương trình chơi giống người hơn.

Mặc dù phong cách của nó rất giống con người và sáng tạo, tuy nhiên, nó cũng có khả năng tối ưu, đủ để Alpha Zero có thể thống trị trong hầu hết mọi trò chơi mà nó có quyền truy cập vào tất cả các thông tin có sẵn. Trên thực tế, Alpha Zero rất tinh vi, chúng ta có thể cần phải chuyển sang một loại trò chơi hoàn toàn khác để tiếp tục vượt qua ranh giới về cách A.I. giải quyết vấn đề.

Tại sao Alpa Zero lại tốt đến vậy

A.I. các nhà nghiên cứu thích sử dụng các trò chơi này làm cơ sở thử nghiệm cho các dạng thuật toán ngày càng tinh vi hơn vì một vài lý do. Họ rất lịch lãm và mọi người đã chơi chúng hàng trăm năm, có nghĩa là bạn đã có rất nhiều thách thức tiềm năng để kiểm tra thuật toán của bạn. Nhưng họ cũng phức tạp và phức tạp, điều đó có nghĩa là họ có thể đóng vai trò là bước đệm cho A.I. có thể giải quyết các vấn đề trong thế giới thực. Schrittwieser cho biết lĩnh vực nghiên cứu tiếp theo đang tạo ra một thuật toán như Alpha Zero, vẫn có thể đưa ra quyết định tối ưu với thông tin không hoàn hảo.

Trong tất cả các trò chơi này, bạn biết tất cả những gì mà xảy ra, anh ấy nói. Trong thế giới thực, bạn chỉ có thể biết một phần thông tin. Bạn có thể biết thẻ của riêng mình, nhưng bạn không biết đối thủ của mình, bạn có một phần thông tin.

Vẫn còn một vài trò chơi có khả năng đưa ra các thuật toán như Alpha Zero, loại thử thách này - Schrittwieser đã đề cập Stratego, trong đó người chơi che giấu các bước di chuyển của mình với nhau - và Starcraft, một lĩnh vực khác được các nhà nghiên cứu tập trung vào trò chơi DeepMind.

Chúng tôi muốn làm cho những vấn đề mà chúng tôi giải quyết ngày càng phức tạp hơn, anh ấy nói. Tuy nhiên, nó luôn luôn có một chiều.

Đồng thời, thế hệ tiếp theo của những người giải quyết vấn đề máy tính Deep Mind đã cho thấy tiềm năng để chuyển từ thế giới trò chơi sang thế giới thực. Đầu tuần này, nó đã công bố một thuật toán khác gọi là AlphaFold, có khả năng ngoại suy một chuỗi protein thành một dự đoán chính xác về cấu trúc 3D của nó.Đây là một vấn đề khiến các nhà khoa học hoang mang trong nhiều thập kỷ và có thể giúp mở ra cơ hội chữa khỏi các bệnh từ Alzheimer cho đến bệnh xơ nang.

$config[ads_kvadrat] not found