Thuật toán mới của MIT có thể dự đoán các tương tác của con người trước khi họ bối rối

The Bone Marrow Aspiration

Việc chúng ta không thể đọc được những người khác đã dẫn đến một số nụ hôn thất bại cao và thất bại. Ngay cả sau một đời trải nghiệm, các tương tác của con người rất khó dự đoán. Nhưng các nhà nghiên cứu tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo của MIT nghĩ rằng họ có thể giúp đỡ: Với thuật toán học sâu mới có thể dự đoán khi nào hai người sẽ ôm, hôn, bắt tay hoặc cao năm, họ đã tiến một bước lớn tới tương lai may mắn không có những khoảnh khắc khó xử

Họ đã hy vọng thuật toán mới của họ - được đào tạo trên 600 giờ video và chương trình truyền hình trên YouTube như Văn phòng, Tẩy tế bào chết, Thuyết Vụ nổ lớn và Những bà nội trợ tuyệt vọng - có thể được sử dụng để lập trình các robot ít rắc rối về mặt xã hội và phát triển các tai nghe kiểu Google Glass để đề xuất các hành động cho chúng tôi trước khi chúng tôi thậm chí có cơ hội bỏ lỡ. Trong tương lai họ tưởng tượng ra, bạn sẽ không bao giờ làm hỏng cơ hội lên sóng năm với đồng nghiệp của mình.

Nhận ra rằng robot học cách giao tiếp xã hội giống như cách chúng ta làm là chìa khóa thành công của thuật toán. Con người của Martin tự động học cách dự đoán các hành động thông qua kinh nghiệm, đó là điều khiến chúng tôi quan tâm đến việc cố gắng thấm nhuần các máy tính có cùng một ý nghĩa thông thường, ông nói CSAIL Ph.D. sinh viên Carl Vondrick, tác giả đầu tiên trên một bài báo liên quan được trình bày trong tuần này tại Hội nghị quốc tế về tầm nhìn máy tính và nhận dạng mẫu. Chúng tôi muốn chứng minh rằng chỉ bằng cách xem một lượng lớn video, máy tính có thể có đủ kiến thức để liên tục đưa ra dự đoán về môi trường xung quanh.

Vondrick và nhóm của ông đã dạy thuật toán, nhiều mạng nơ-ron thần kinh, để phân tích lượng dữ liệu khổng lồ trong trường hợp này, hàng giờ Jim và Pam tựa cao, và những nụ hôn lén lút của Mike và Susan, một mình. Có tính đến các yếu tố như cánh tay dang rộng, bàn tay giơ lên hoặc ánh mắt kéo dài, mỗi mạng lưới thần kinh đã đoán được điều gì sẽ xảy ra trong giây tiếp theo và sự đồng thuận chung của các mạng được đưa ra như là dự đoán cuối cùng học.

Thuật toán đã làm đúng hơn 43 phần trăm thời gian. Mặc dù điều đó có vẻ không đủ cao để đảm bảo rằng các tương tác hàng ngày của chúng ta sẽ bớt kỳ lạ hơn, nhưng nó cải thiện lớn về các thuật toán hiện có, với độ chính xác chỉ 36 phần trăm.

Bên cạnh đó, con người chỉ có thể dự đoán hành động 71% thời gian. Chúng tôi cần tất cả sự giúp đỡ chúng ta có thể có được.

Trong phần thứ hai của nghiên cứu, thuật toán được dạy để dự đoán đối tượng nào - mặt hàng chủ lực của sitcom trong nước như điều khiển từ xa, bát đĩa và thùng rác - sẽ xuất hiện trong cảnh năm giây sau đó. Ví dụ, nếu một cánh cửa lò vi sóng được mở ra, thì có khả năng tương đối cao một cốc sẽ xuất hiện tiếp theo.

Thuật toán của họ chưa đủ chính xác cho Google Glass, nhưng với đồng tác giả Antonio Torralba, Ph.D. - được tài trợ bởi một giải thưởng nghiên cứu khoa của Google và Vondrick làm việc với Google Ph.D. học bổng - chúng ta có thể đặt cược nó đến đó. Các phiên bản tương lai của thuật toán, Vondrick dự đoán, có thể được sử dụng để lập trình robot tương tác với con người hoặc thậm chí dạy camera an ninh để đăng ký khi một người ngã hoặc bị thương.

Vondrick nói một video giống như một ‘Chọn cuốn sách Phiêu lưu của riêng bạn, nơi bạn có thể thấy tất cả các con đường tiềm năng, Vondrick nói. Tương lai vốn dĩ mơ hồ, vì vậy, nó rất thú vị khi thử thách bản thân để phát triển một hệ thống sử dụng các đại diện này để dự đoán tất cả các khả năng.

$config[ads_kvadrat] not found