Facebook vừa mở mã nguồn AI phân vùng đối tượng trong các bức ảnh cho lập trình viên toàn thế giới

    Ngocmiz,  

    Các công cụ phân vùng ảnh như DeepMask, SharpMask và MultiPathNet hiện đã được tung lên GitHub dưới dạng giấy phép mã nguồn mở.

    Ngoài việc bắt đầu kế hoạch kiếm tiền từ WhatsApp , Facebook hôm nay cũng thông báo sẽ mở mã nguồn công nghệ trí tuệ nhân tạo (AI) giúp phân vùng đối tượng trong các bức ảnh. Các công cụ như DeepMask , SharpMask và MultiPathNet hiện đã được tung lên GitHub dưới dạng giấy phép mã nguồn mở.

    Đây không phải lần đầu tiên Facebook công khai về những chương trình này. Chúng thực chất đã được mô tả trong nhiều bài nghiên cứu học thuật (chẳng hạn như ở đây ). Hiện nay, phòng nghiên cứu AI của Facebook vẫn đang tiếp tục công cuộc chia sẻ các công nghệ mà họ nghiên cứu cho những ai mong muốn học hỏi và xây dựng các ứng dụng trên nền tảng của chúng.

    Công nghệ phân vùng ảnh hiện nay đã đi xa hơn những công nghệ nhận diện đối tượng người, sự vật trong các bức ảnh và thậm chí cả công nghệ định vị nơi chụp chúng. Phân vùng ảnh cho phép tìm kiếm chính xác các pixel chỉ đối tượng trên ảnh. Để làm được điều này, Facebook đã sử dụng deep learning vào huấn luyện các mạng thần kinh nhân tạo qua một lượng lớn dữ liệu để chúng nhìn nhận ra được từ các dữ liệu mới đưa vào.

    Trong nội bộ Facebook, công cụ này cũng được áp dụng rất nhiều. Trong bài viết trên blog của mình, Piotr Dollár, nhà khoa học thuộc nhóm phát triển AI của Facebook có viết: “DeepMask tạo ra các lớp “mặt nạ” hiển thị đối tượng, SharpMask sàng lọc lại các lớp này, cuối cùng MultiPathNet sẽ xác định các đối tượng được các lớp mask trên tạo ra.”

    Đây không phải những công cụ AI đầu tiên Facebook mở mã nguồn. Trước đó, vào tháng 6 năm nay, hãng đã cho ra mắt Torchnet.

    Các công ty công nghệ lớn như Apple, Baidu, Google, Microsoft,… cũng đang tích cực sử dụng deep learning vào huấn luyện các hệ thống AI. Những công ty này đều có bộ phận/phân viện nghiên cứu AI riêng để tham gia vào những cuộc thi về phân vùng ảnh. Các nghiên cứu tại phân viện AI của các hãng công nghệ sẽ cung cấp các đột phá mới cho sản phẩm hiện thời của họ,

    Facebook cũng đã có một số ý tưởng về việc nâng cao trải nghiệm ứng dụng bằng những công cụ này. Trong bài viết trên blog, Piotr Dollár có viết:

    “Bằng cách cho máy tính nhận dạng đối tượng trong các bức ảnh, việc tìm kiếm các bức ảnh không cần dùng tag sẽ dễ dàng hơn rất nhiều. Những người khiếm thị cũng có thể thấy được những gì có mặt trong ảnh bạn bè họ chia sẻ bởi hệ thống nay đã có thể nói cho họ biết hết từng thứ, cho dù caption ảnh có không liên quan đi chăng nữa.

    Thêm vào đó, bằng việc phát triển công nghệ phân vùng ảnh, mục tiêu của chúng tôi là cho phép người dùng có được trải nghiệm đắm chìm và tuyệt hảo hơn mỗi khi họ trượt xem các bức ảnh: hệ thống sẽ tự động mô tả những gì họ đang xem.

    Cuối cùng, thách thức lớn nhất của chúng tôi sắp tới chính là việc áp dụng những công nghệ này vào video, trong đó các đối tượng liên tục chuyển động, tương tác và thay đổi. Chúng tôi đã đạt được những bước tiến nhất định với công nghệ thị giác máy tính, cho phép chúng hiểu và phân loại được những thứ chúng xem theo thời gian thực, chẳng hạn như mèo hay đồ ăn. Phân loại theo thời gian thực cũng cho phép hệ thống lướt qua các live video quan trọng liên quan đến nhau trên Facebook, áp dụng các kỹ thuật xác định và nhận diện đối tượng hiệu quả hơn để thực hiện tường thuật trực tiếp ngay khi người dùng đang xem những video này.”

    Tham khảo Venture Beat

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ