Tất tật mọi thứ về AI trong Google I/O 2024: Tìm kiếm bằng video, dựng video bằng văn bản, chống cuộc gọi lừa đảo, ....
Google mang đến vô số các nâng cấp nhỏ về công nghệ AI tạo sinh của mình, hứa hẹn sẽ thay đổi toàn bộ cách người dùng tương tác với AI trong tương lai.
- Google công bố AI tạo video đáp trả Sora của OpenAI
- MediaTek ra mắt chip AI cho smartphone tầm trung
- OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng
- Không muốn trả tiền cho ChatGPT, đây sẽ là chatbot AI hàng đầu cho bạn: Có cả loạt tiện ích đáng tiền, giúp người dùng tăng thu nhập mà lại miễn phí
- TikTok bắt đầu gắn nhãn nội dung AI
Sự kiện Google I/O vừa kết thúc - và nó đầy ắp những thông báo về AI. Như được dự đoán, sự kiện tập trung rất nhiều vào các mô hình Gemini AI của Google, cùng với cách chúng được tích hợp vào các ứng dụng như Workspace và Chrome.
Nếu bạn không theo dõi sự kiện trực tiếp, dưới đây là tất cả thông tin cập nhật mới nhất về sự kiện lần này của Google.
Google Lens giờ đây cho phép bạn tìm kiếm bằng cách quay video
Hiện tại Google Lens đã có thể tìm kiếm dựa trên hình ảnh, nhưng giờ đây Google đi xa hơn một bước với khả năng tìm kiếm bằng video. Điều đó có nghĩa là bạn có thể quay video về thứ gì đó bạn muốn tìm kiếm, đặt câu hỏi trong video, và AI của Google sẽ cố gắng lấy câu trả lời liên quan từ web.
Gemini sẽ trả lời câu hỏi về thư viện ảnh của bạn
Google đang triển khai một tính năng mới vào mùa hè này có thể là lợi ích lớn cho bất cứ ai có hàng năm, thậm chí hơn một thập kỷ ảnh cần lọc. "Ask Photos" cho phép Gemini xem xét thư viện Google Photos của bạn để trả lời câu hỏi, và tính năng này không chỉ lấy ảnh chó mèo. CEO Sundar Pichai đã thể hiện bằng cách hỏi Gemini biển số xe của ông ta là gì. Câu trả lời là biển số, theo sau là một bức ảnh để ông ta có thể chắc chắn đó là đúng.
Mô hình Gemini cao cấp nhất của Google trở nên mạnh hơn, nhanh hơn
Google đã giới thiệu một mô hình AI mới vào dòng sản phẩm của mình: Gemini 1.5 Flash. Mô hình đa phương thức mới mạnh mẽ như Gemini 1.5 Pro, nhưng được tối ưu hóa cho "các tác vụ nhanh, tần suất cao, độ trễ thấp." Điều đó khiến nó tốt hơn trong việc tạo phản hồi nhanh. Google cũng đã thực hiện một số thay đổi đối với Gemini 1.5 mà theo công ty, sẽ cải thiện khả năng dịch thuật, suy luận và lập trình của nó. Ngoài ra, Google cho biết họ đã tăng gấp đôi khung ngữ cảnh (lượng thông tin nó có thể tiếp nhận) của Gemini 1.5 Pro từ 1 triệu lên 2 triệu token.
Có thể thấy Gemini 1.5 Flash đang tương đương với GPT-4o mới được OpenAI giới thiệu hôm qua khi có khả năng tiếp nhận thông tin đầu vào đa phương thức. Tuy nhiên cần chờ một thời gian nữa mới biết chính xác sự khác biệt về năng lực giữa 2 mô hình này.
Gemini hỗ trợ người dùng trong các ứng dụng công việc
Google đang triển khai mô hình ngôn ngữ phổ biến nhất của mình, Gemini 1.5 Pro, vào sidebar trong Docs, Sheets, Slides, Drive và Gmail. Khi ra mắt với người đăng ký trả phí vào tháng tới, nó sẽ trở thành một trợ lý đa năng hơn trong các ứng dụng công việc, có thể lấy thông tin từ bất kỳ đâu, kể cả nội dung trong Drive của bạn.
Nó cũng có thể làm việc cho bạn, như viết email kết hợp thông tin từ tài liệu bạn đang xem hoặc nhắc bạn sau đó để trả lời email bạn đang xem qua. Một số người dùng thử nghiệm sớm đã có quyền truy cập vào các tính năng này, nhưng Google cho biết sẽ triển khai cho tất cả người đăng ký Gemini trả phí vào tháng tới.
Dự án Astra là tương lai AI Star Trek của Google
Dự án Astra của Google với khả năng tìm hiểu thông tin qua camera
Dự án Astra của Google là một trợ lý AI đa phương thức mà công ty hy vọng sẽ trở thành trợ lý ảo đa năng giúp bạn làm mọi việc, có thể xem và hiểu những gì nó nhìn thấy thông qua camera thiết bị của bạn, ghi nhớ vị trí đồ vật của bạn, và làm việc thay bạn. Nó đang cung cấp động lực cho nhiều demo ấn tượng nhất từ I/O năm nay, và mục tiêu của công ty đối với nó là trở thành một đại lý AI thực sự không chỉ có thể nói chuyện với bạn mà còn có thể làm việc thay bạn.
Veo – câu trả lời của Google với Sora của OpenAI
Câu trả lời của Google cho Sora của OpenAI là một mô hình AI tạo nội dung mới giúp tạo ra video 1080p dựa trên các gợi ý bằng văn bản, hình ảnh và video. Video có thể được sản xuất theo nhiều kiểu khác nhau, như quay phim trên không hoặc quay chậm, và có thể được điều chỉnh với thêm nhiều gợi ý khác. Công ty đã cung cấp Veo cho một số nhà sáng tạo để sử dụng trên YouTube, nhưng cũng đang quảng bá nó cho Hollywood để sử dụng trong phim ảnh.
Gems mang đến khả năng tạo chatbot tùy chỉnh cho Gemini
Google đang triển khai một công cụ tạo chatbot tùy chỉnh có tên Gems. Giống như các GPT tùy chỉnh của OpenAI, Gems cho phép người dùng đưa ra hướng dẫn cho Gemini để tùy chỉnh cách nó sẽ phản hồi và những gì nó chuyên về. Nếu bạn muốn nó là huấn luyện viên chạy bộ tích cực và kiên quyết với những động lực và kế hoạch chạy bộ hàng ngày - đúng là cơn ác mộng tồi tệ nhất của tôi - thì bạn sẽ có thể làm điều đó sớm thôi (nếu bạn là người đăng ký Gemini Advanced).
Gemini trở thành đối tác trò chuyện tốt hơn
Tính năng Gemini Live mới nhằm làm cho cuộc trò chuyện thoại với Gemini trở nên tự nhiên hơn. Giọng nói của chatbot sẽ được cập nhật với thêm cá tính, và người dùng có thể ngắt lời nó giữa câu hoặc yêu cầu nó xem qua camera điện thoại thông minh và cung cấp thông tin về những gì nó nhìn thấy trong thời gian thực. Gemini cũng đang được tích hợp mới cho phép nó cập nhật hoặc lấy thông tin từ Google Calendar, Tasks và Keep, sử dụng các tính năng đa phương thức để làm điều đó (như thêm chi tiết từ tờ rơi vào lịch cá nhân của bạn).
Circle to Search giờ có thể giải được các bài toán học
Nếu bạn đang sử dụng điện thoại hoặc máy tính bảng Android, bây giờ bạn có thể vẽ vòng tròn quanh một bài toán trên màn hình và nhận được trợ giúp giải quyết nó. AI của Google sẽ không giải bài toán thay bạn - vì vậy nó sẽ không giúp học sinh gian lận trong bài tập về nhà - nhưng nó sẽ chia nhỏ bài toán thành các bước để bạn dễ hoàn thành hơn.
Google Search được nâng cấp bằng AI
Google sẽ triển khai "AI Overviews" - trước đây được gọi là "Search Generative Experience" (Trải nghiệm Tạo sinh Tìm kiếm), một cụm từ khó nhớ - cho mọi người ở Mỹ trong tuần này. Bây giờ, một mô hình Gemini "chuyên biệt" sẽ thiết kế và điền vào các trang kết quả với câu trả lời được tóm tắt từ web (tương tự như những gì bạn thấy trong các công cụ tìm kiếm AI như Perplexity hoặc Arc Search).
Android dùng AI để phát hiện cuộc gọi lừa đảo
Tận dụng khả năng AI Gemini Nano trên thiết bị, Google cho biết điện thoại Android sẽ có thể giúp bạn tránh các cuộc gọi lừa đảo bằng cách theo dõi các dấu hiệu đáng ngờ, như các kiểu đàm thoại phổ biến của kẻ lừa đảo, và sau đó hiển thị cảnh báo thời gian thực như hình trên. Công ty hứa sẽ cung cấp thêm chi tiết về tính năng này vào cuối năm nay.
Các thiết bị Android sắp có AI thông minh hơn
Google cho biết Gemini sớm có thể cho phép người dùng đặt câu hỏi về video trên màn hình, và nó sẽ trả lời dựa trên phụ đề tự động. Đối với người dùng Gemini Advanced bản trả phí, nó cũng có thể đọc PDF và cung cấp thông tin. Những cập nhật đa phương thức đó và nhiều hơn nữa cho Gemini trên Android sẽ ra mắt trong vài tháng tới.
Trình duyệt Chrome sẽ được bổ sung một trợ lý AI
Google thông báo rằng họ đang thêm Gemini Nano, phiên bản rút gọn của mô hình Gemini, vào Chrome trên máy tính để bàn. Trợ lý tích hợp này sẽ sử dụng AI trên thiết bị để giúp bạn tạo văn bản cho bài đăng trên mạng xã hội, đánh giá sản phẩm và nhiều nội dung khác từ ngay trong Google Chrome.
Google nâng cấp tính năng đánh dấu nước AI SynthID
Google cho biết họ đang mở rộng khả năng của SynthID - công ty nói rằng họ sẽ nhúng đánh dấu nước vào nội dung được tạo bằng trình tạo video mới Veo và nó hiện cũng có thể phát hiện video do AI tạo ra.
NỔI BẬT TRANG CHỦ
Google: Giải được bài toán 10 triệu tỷ tỷ năm chỉ trong 5 phút, chip lượng tử mới là bằng chứng về đa vũ trụ
Điều đáng ngạc nhiên hơn cả là nhiều người trên cộng đồng mạng thế giới lại đang đồng tình với kết luận của Google.
Gần 2025 rồi mà vẫn dùng USB để lưu công việc thì quả là lỗi thời