OpenAI ra mắt công cụ tạo ảnh mới, tốc độ nhanh gấp 4 lần, làm được điều mà các công cụ AI khác chưa làm được

Nguyễn Hải, Đời sống pháp luật 

Sau khi CEO Sam Altman phát đi Báo động đỏ cho toàn công ty, OpenAI đã liên tục phát hành các sản phẩm mới để đối đầu với sự trỗi dậy từ đối thủ Google Gemini 3 Pro.

OpenAI vừa chính thức tung ra ChatGPT Images phiên bản mới được hỗ trợ bởi mô hình tạo ảnh GPT Image 1.5, mang đến tốc độ xử lý nhanh gấp 4 lần so với phiên bản tiền nhiệm và đặc biệt có khả năng chỉnh sửa hình ảnh theo cách mà hầu hết các công cụ AI khác trên thị trường vẫn chưa làm được. Sản phẩm mới bắt đầu triển khai từ thứ Ba ngày 16/12 cho toàn bộ người dùng ChatGPT cũng như thông qua API cho các nhà phát triển.

Điểm nổi bật lớn nhất của GPT Image 1.5 nằm ở khả năng tạo ảnh với tốc độ nhanh hơn đáng kể. Người dùng giờ đây có thể render hình ảnh nhanh gấp 4 lần, đồng thời tiếp tục tạo các ảnh mới trong khi những ảnh khác vẫn đang được xử lý. Điều này cho phép họ khám phá nhiều ý tưởng hơn mà không cần chờ đợi, biến ChatGPT thành một studio sáng tạo di động thực sự hiệu quả.


Tuy nhiên, bước đột phá công nghệ thực sự không nằm ở tốc độ mà ở khả năng chỉnh sửa hình ảnh một cách nhất quán. GPT Image 1.5 có thể thực hiện các chỉnh sửa chính xác theo yêu cầu trong khi vẫn giữ nguyên những yếu tố quan trọng như nét mặt người, ánh sáng, bố cục và tông màu qua nhiều lần chỉnh sửa khác nhau. Khi người dùng yêu cầu thay đổi một chi tiết cụ thể, mô hình chỉ điều chỉnh đúng phần đó mà không làm thay đổi toàn bộ hình ảnh.

Đây chính là điểm yếu lớn nhất mà hầu hết các công cụ tạo ảnh bằng AI hiện nay đều mắc phải. Theo OpenAI, khi được yêu cầu một thay đổi cụ thể như "điều chỉnh biểu cảm khuôn mặt" hay "làm ánh sáng lạnh hơn", các mô hình thường diễn giải lại toàn bộ hình ảnh, dẫn đến sự thiếu nhất quán nghiêm trọng. Người dùng có thể nhận được một bức ảnh hoàn toàn khác so với ý định ban đầu chỉ vì một chỉnh sửa nhỏ. GPT Image 1.5 giải quyết được vấn đề này, biến việc lặp lại và tinh chỉnh ý tưởng trở nên khả thi thực sự.

Mô hình mới xuất sắc trong nhiều loại chỉnh sửa khác nhau bao gồm thêm, bớt, kết hợp, pha trộn và chuyển đổi các yếu tố trong ảnh. Người dùng có thể thực hiện các chỉnh sửa ảnh hữu ích, thử nghiệm trang phục hoặc kiểu tóc một cách tin cậy hơn, cũng như áp dụng các bộ lọc phong cách và biến đổi sáng tạo trong khi vẫn giữ nguyên bản chất của hình ảnh gốc. Khả năng biến đổi sáng tạo của GPT Image 1.5 thể hiện rõ qua việc thay đổi và thêm các yếu tố như text, layout để hiện thực hóa ý tưởng, đồng thời vẫn duy trì những chi tiết quan trọng ban đầu.

ChatGPT Image 1.5 có thể chỉnh sửa từng thành phần trong hình ảnh mà không làm thay đổi các yếu tố còn lại

OpenAI cũng cải thiện đáng kể khả năng tuân theo hướng dẫn của mô hình. GPT Image 1.5 thực hiện các chỉ thị đáng tin cậy hơn nhiều so với phiên bản đầu tiên, cho phép không chỉ chỉnh sửa chính xác mà còn tạo ra các bố cục phức tạp hơn với mối quan hệ giữa các yếu tố được giữ nguyên như mong muốn. Mô hình cũng tiến bộ trong việc render text, xử lý được text dày đặc và nhỏ hơn, từ các bài báo chi tiết đến infographics phức tạp.

Về trải nghiệm người dùng, ChatGPT Images giờ có điểm truy cập riêng trong thanh sidebar, hoạt động giống như một studio sáng tạo chuyên nghiệp. Giao diện mới bao gồm hàng chục bộ lọc và gợi ý có sẵn, được cập nhật thường xuyên để phản ánh xu hướng mới nổi, giúp người dùng dễ dàng bắt đầu sáng tạo mà không cần viết prompt phức tạp. Đặc biệt, tính năng tải lên ngoại hình một lần cho phép người dùng tái sử dụng hình ảnh của mình qua nhiều lần sáng tạo khác nhau mà không cần lục lại thư viện ảnh.

Người dùng có thể dễ dàng truy cập mô hình GPT Image 1.5 từ thanh công cụ sidebar của ChatGPT

Đối với các nhà phát triển sử dụng API, GPT Image 1.5 mang đến lợi ích kinh tế đáng kể với chi phí đầu vào và đầu ra cho hình ảnh rẻ hơn 20% so với GPT Image 1. Điều này cho phép các doanh nghiệp tạo và lặp lại nhiều ảnh hơn với cùng ngân sách. Mô hình đặc biệt phù hợp cho công việc marketing và thương hiệu như tạo graphics hay logo, cũng như các đội ngũ thương mại điện tử muốn tạo catalog ảnh sản phẩm đầy đủ với nhiều biến thể, bối cảnh và góc độ khác nhau từ một ảnh nguồn duy nhất.

Hila Gat, Trưởng bộ phận Nghiên cứu AI và Khoa học Dữ liệu tại Wix, đánh giá GPT Image 1.5 tạo ra hình ảnh độ trung thực cao với khả năng tuân theo prompt mạnh mẽ, giữ nguyên bố cục, ánh sáng và chi tiết tinh vi. Bà nhận định kết quả sạch sẽ, chân thực và đáng tin cậy, hỗ trợ quy trình từ ý tưởng đến sản xuất nhanh hơn trên các nền tảng như Wix, và tính nhất quán cũng như chất lượng của mô hình đủ sức cạnh tranh để trở thành một trong những mô hình tạo ảnh hàng đầu hiện nay.

OpenAI thừa nhận rằng mặc dù GPT Image 1.5 cho thấy cải thiện rõ ràng qua nhiều trường hợp thử nghiệm, kết quả vẫn chưa hoàn hảo và còn nhiều chỗ để cải thiện trong các phiên bản tương lai. Công ty khẳng định họ vẫn đang ở giai đoạn đầu của những gì công nghệ tạo ảnh có thể thực hiện, và bản cập nhật hôm nay là bước tiến đáng kể với nhiều tính năng hơn nữa sắp ra mắt, từ khả năng chỉnh sửa tinh vi hơn đến đầu ra phong phú và chi tiết hơn trên nhiều ngôn ngữ.

Tin cùng chuyên mục
Xem theo ngày