Sora của OpenAI vừa chính thức ra mắt, Google đã tung đòn đáp trả đẳng cấp: Độ phân giải lên tới 4K, thời lượng lên tới 2 phút
Với việc tăng cường độ phân giải công cụ của mình lên 4K, Google đang hướng tới một đối tượng người dùng khác hẳn Sora của OpenAI.
- "Trên tay" Sora suốt một tuần, đây là điều YouTuber MKBHD thán phục nhất về công cụ AI của OpenAI
- OpenAI chính thức phát hành Sora, công cụ AI tạo video khiến cả Hollywood phải chấn động
- OpenAI tạm dừng quyền truy cập vào công cụ tạo video Sora
- Trải nghiệm AI trên iOS 18.2: Nhiều tính năng thú vị, tích hợp cả ChatGPT dùng cực tiện
- Nhà mạng Anh tạo ra cụ bà AI để lừa lại kẻ lừa đảo, người dân hưởng ứng nhiệt liệt
Không lâu sau khi OpenAI chính thức mở cửa Sora, công cụ AI tạo video, tới rộng rãi công chúng, Google DeepMind, bộ phận AI của tập đoàn Alphabet cũng công bố đòn đáp trả của mình, công cụ AI Veo 2 phiên bản mới, với nhiều ưu điểm vượt trội so với phiên bản đầu tiên cũng như với chính đối thủ Sora của OpenAI.
Công cụ mới này có khả năng tạo ra các video với độ phân giải lên tới 4K, trong khi phiên bản Veo đầu tiên chỉ hỗ trợ tối đa 1080p. Google tuyên bố đã cải tiến vật lý của các cảnh quay do Veo 2 tạo ra, cũng như nâng cao "khả năng điều khiển camera" (không có camera thực sự tham gia, nhưng người dùng có thể ra lệnh cho mô hình tạo ra các góc quay và cảnh quay cụ thể, từ cận cảnh đến quét ngang).
DeepMind cũng giới thiệu phiên bản cập nhật của mô hình chuyển văn bản thành hình ảnh Imagen 3, mặc dù các thay đổi như "hình ảnh cân bằng hơn về mặt tổng hợp" và cải thiện khả năng tuân thủ các phong cách nghệ thuật, rõ ràng là chưa đủ lớn để xứng đáng có một số phiên bản hoàn toàn mới. Imagen 3 lần đầu ra mắt vào tháng 8.
Bước nhảy vọt lên độ phân giải 4K của Veo 2 cho thấy DeepMind đang vượt trội so với các công cụ AI đối thủ trong lĩnh vực tạo video. OpenAI cuối cùng cũng phát hành công cụ tạo video Sora vào tuần trước, sau khi ra mắt vào tháng 2, nhưng đầu ra của Sora (cụ thể là phiên bản Sora Turbo hiện đã có sẵn cho người dùng ChatGPT Plus và Pro) vẫn bị giới hạn ở độ phân giải tối đa 1080p. Runway, có lẽ là công cụ tạo video AI phổ biến nhất hiện nay, chỉ có thể xuất video ở độ phân giải thấp hơn 720p.
"Video độ phân giải thấp rất tuyệt vời cho thiết bị di động, nhưng các nhà sáng tạo muốn thấy tác phẩm của họ tỏa sáng trên màn hình lớn," Google cho biết trong bài thuyết trình về Veo 2. Các clip 4K của Veo 2 mặc định bị giới hạn trong 8 giây, nhưng có thể kéo dài tới 2 phút hoặc hơn, theo phát ngôn viên của Google. Các đoạn clip 1080p của Sora bị giới hạn ở 20 giây.
DeepMind tuyên bố rằng, khi so sánh Veo 2 với Sora Turbo, 59% người đánh giá đã ưu tiên dịch vụ của Google, với 27% lựa chọn Sora Turbo. Họ cũng tuyên bố chiến thắng tương tự trước Minimax và Movie Gen của Meta, với tỷ lệ ưu tiên Veo 2 chỉ giảm nhẹ xuống dưới 50% khi đối thủ là Kling v1.5, một dịch vụ từ công ty công nghệ Kuaishou của Trung Quốc.
Khi nói đến "sự tuân thủ lệnh" - tức là làm điều nó được yêu cầu - Veo 2 cũng được ưa chuộng với tỷ lệ tương tự, theo DeepMind. Họ cũng tuyên bố đã đạt được những bước tiến đáng kể trong việc chống lại các chi tiết "ảo giác", như ngón tay thừa, và trong việc thể hiện "sự hiểu biết tốt hơn về vật lý thế giới thực cũng như các nét tinh tế của chuyển động và biểu cảm của con người".
Vấn đề vật lý là một trong những điều tiếp tục làm khó các công cụ tạo video. Ví dụ, Sora gặp khó khăn trong việc tạo ra các đoạn phim hợp lý về vận động viên thể dục dụng cụ và các chuyển động phức tạp của họ. Vẫn chưa rõ Veo 2 sẽ chứng tỏ tốt hơn bao nhiêu ở khía cạnh này.
Một số chuyên gia, như giáo sư Đại học Stanford và đồng sáng lập World Labs Fei-Fei Li, lập luận rằng các vấn đề như vật lý và sự tồn tại vĩnh viễn của vật thể chỉ có thể thực sự được giải quyết với các mô hình thế giới có "trí tuệ không gian" để hiểu và tạo ra môi trường 3D.
Google cũng giới thiệu mô hình thế giới Genie 2 của riêng mình vào đầu tháng này, nhưng tập trung vào việc tạo ra các môi trường có thể được sử dụng để đào tạo và đánh giá các "tác nhân" AI hoạt động trong môi trường ảo.
Đầu ra của các công cụ tạo hình ảnh và video càng hợp lý, thì nguy cơ chúng bị sử dụng cho các mục đích xấu càng cao. DeepMind áp dụng các hình mờ SynthID không nhìn thấy được vào các clip Veo 2, điều này sẽ khiến việc sử dụng chúng cho mục đích tuyên truyền chính trị khó khăn hơn, nếu mọi người kiểm tra video để tìm các dấu hiệu nguồn gốc AI.
Điều tương tự có thể không đúng với các ứng dụng gian lận thông thường hơn, nơi nạn nhân ít có khả năng kiểm tra tệp để tìm hình mờ vô hình. Trái ngược với điều này, OpenAI Sora nhúng một hoạt ảnh có thể nhìn thấy ở góc dưới bên phải của video. Sora cũng sử dụng giao thức hình mờ nguồn mở C2PA, một hệ thống thay thế cho SynthID (mặc dù Google cũng tham gia sáng kiến C2PA vào tháng 2).
Veo 2 hiện đang cung cấp năng lượng cho công cụ tạo VideoFX của Google Labs (có giới hạn độ phân giải 720p), trong khi phiên bản Imagen 3 đã sửa đổi hiện có thể được sử dụng trong công cụ ImageFX. VideoFX hiện chỉ đang ra mắt ở Hoa Kỳ, nhưng ImageFX có sẵn ở hơn 100 quốc gia.
Google DeepMind chưa tiết lộ dữ liệu nào được sử dụng để đào tạo Veo 2 hoặc phiên bản mới của Imagen 3, mặc dù trước đây họ đã gợi ý rằng các video YouTube (cả hai công ty đều thuộc Alphabet) bao gồm một phần dữ liệu đào tạo cho Veo ban đầu.
Nhiều nghệ sĩ, nhiếp ảnh gia, nhà sáng tạo và nhà làm phim lo ngại rằng các tác phẩm có bản quyền của họ đã được sử dụng để đào tạo các hệ thống như vậy mà không có sự đồng ý của họ. OpenAI từ chối tiết lộ dữ liệu nào được sử dụng để đào tạo Sora, nhưng tờ New York Times, dẫn nguồn quen thuộc với việc đào tạo của Sora, đã đưa tin rằng công ty đã sử dụng video từ dịch vụ YouTube của Google để đào tạo mô hình AI. 404 Media trước đây đã báo cáo rằng Runway dường như cũng đã sử dụng video YouTube để đào tạo Gen 3 Alpha.
NỔI BẬT TRANG CHỦ
CEO Intel tiết lộ PC chạy chip Qualcomm "điêu đứng" với tỷ lệ hoàn hàng tăng vọt – Sự thật phía sau là gì?
Nhưng theo Intel, Arm vẫn sẽ chiếm được phần lớn thị trường.
Bộ sạc năng lượng mặt trời gắn lên nóc xe điện, hứa hẹn hòa vốn sau 2 năm, giá 75 triệu