Рон,милый Рон.
Tìm kiếm hình ảnh dễ dàng hơn bao giờ hết. Nhưng nếu bạn đang cố gắng tìm một hình ảnh của một cái gì đó tại một địa điểm không hoàn toàn rõ ràng (không phải là kim tự tháp Ai Cập hay điêu khắc ngón tay cái khổng lồ ở Paris), thì khó hơn bạn nghĩ - ngay cả với thông tin định vị địa lý dựa trên những gì trong hình ảnh.
Kỹ sư của Google tên là Tobias Weyand và một cặp đồng nghiệp của anh ta. Theo một bài báo mới trên tạp chí arXiv (phát âm là lưu trữ trên mạng), bộ ba đã xây dựng một cỗ máy học sâu có khả năng xác định vị trí của hầu hết mọi bức ảnh chỉ dựa trên phân tích các pixel của nó.
Để có được một cỗ máy thực hiện thành công một nhiệm vụ như thế này, bạn muốn cung cấp cho nó khả năng thông tin trực quan dựa trên các manh mối trực quan. Bạn muốn nó nghĩ, nói cách khác, giống như một con người.
Weyand bắt đầu phát triển một mạng lưới thần kinh nhân tạo - một hệ thống máy móc được thiết kế để mô phỏng các con đường thần kinh của não, cho phép nó học hỏi, xử lý và nhớ lại thông tin như con người có thể. Hệ thống mới này, PlaNet, rõ ràng có khả năng vượt trội hơn con người trong việc xác định vị trí của hình ảnh bất kể cài đặt nào - dù là trong nhà hay ngoài trời, và có bất kỳ loại tín hiệu hình ảnh độc đáo hoặc không đặc trưng nào.
PlaNet lo lắng như thế nào? Weyand và nhóm của ông đã chia một bản đồ thế giới thành một mạng lưới đặt hơn 26.000 hình dạng giống như hình vuông trên các khu vực khác nhau, tùy thuộc vào số lượng hình ảnh được chụp ở những nơi đó. Những nơi dày đặc nơi có rất nhiều hình ảnh được chụp vừa vặn trong một hình vuông nhỏ hơn, trong khi những vùng xa hơn, xa hơn có thể cắt thành những hình vuông lớn hơn.
Sau đó, nhóm nghiên cứu đã tạo ra một cơ sở dữ liệu lớn về hình ảnh đã được định vị địa lý - gần 126 triệu bức ảnh khác nhau. Khoảng 91 triệu đã được sử dụng làm bộ dữ liệu để dạy PlaNet cách tìm ra hình ảnh nào có thể được đặt trong lưới nào trên bản đồ thế giới.
Sau đó, mạng lưới thần kinh được giao nhiệm vụ định vị địa lý cho 34 triệu hình ảnh khác từ cơ sở dữ liệu. Cuối cùng, PlaNet đã được thiết lập dựa trên tập dữ liệu gồm 2,3 triệu hình ảnh được gắn thẻ địa lý từ Flickr.
Kết quả? PlaNet có thể xác định quốc gia xuất xứ cho 28,4 phần trăm ảnh và lục địa cho 48 phần trăm. Hơn nữa, hệ thống có thể xác định vị trí cấp đường phố cho 3,6% hình ảnh Flickr và vị trí cấp thành phố là 10,1%.
Và PlaNet giỏi hơn điều này so với hầu hết loài người - thậm chí là những người chơi toàn cầu lớn nhất. Weyand đã tranh thủ 10 cá nhân đi du lịch tốt để cạnh tranh với PlaNet trong một trò chơi ghi nhãn vị trí của các hình ảnh được tìm thấy trên Google Street View.
Tổng cộng, PlaNet đã thắng 28 trong số 50 vòng với lỗi nội địa hóa trung bình là 1131,7 km, trong khi lỗi nội địa hóa của con người là 2320,75 km, các nhà nghiên cứu đã viết. Thử nghiệm quy mô nhỏ này cho thấy PlaNet đạt hiệu suất siêu phàm với nhiệm vụ định vị địa lý các cảnh trong Chế độ xem phố.
Điều này là thật? Có phải một kỹ sư của Google đã thực sự phát triển một siêu nhân siêu phàm hệ thống?
Khi nói đến hình ảnh định vị địa lý, có lẽ. Và điều đó không quá ngạc nhiên - quan điểm của A.I. Về cơ bản, bắt chước bộ não của con người bằng mọi cách, nhưng để vượt qua giới hạn của con người theo một số cách cụ thể để hoàn thành các nhiệm vụ khó khăn hơn nhiều. Vì vậy, theo nghĩa đó, những gì các nhà nghiên cứu viết là đúng.
Tuy nhiên, đó là một sự kéo dài để gọi PlaNet là một mạng nơ-ron thần tốc. Một hình thức lý tưởng của loại công nghệ đó sẽ có khả năng học hỏi nhiều hơn là định vị hình ảnh. A.I. hệ thống có khả năng viết similes và chơi Siêu Mario, nhưng đây chỉ là một công cụ nhỏ so với hệ thống lý tưởng của chủ sở hữu, có thể tự động theo dõi và duy trì sức sống, quản lý cơ sở hạ tầng giao thông hoặc năng lượng, v.v.