Được Louis Meisel định nghĩa lần đầu vào năm 1969, photorealism là một trường phái tranh trong đó, các họa sĩ cố gắng vẽ ra những tác phẩm có độ chi tiết gấp từ vài chục tới vài trăm lần so với tranh truyền thống.
Tất nhiên, đạt được tới độ chân thực đó không phải điều dễ dàng mà ai cũng làm được. Một họa sĩ siêu thực phải dành trung bình từ 200 đến 300 giờ làm việc trên mỗi tác phẩm. Có những bức vẽ photorealism chỉ được hoàn thiện sau gần 800 tiếng đồng hồ.
Công nghệ trong kỷ nguyên số, trái với suy nghĩ, không thực sự rút ngắn khoảng thời gian tạo ra một tác phẩm siêu thực. Bù lại, nó sẽ giúp các họa sĩ vẽ được những bức tranh ngày càng chi tiết và giống với thực tại hơn.
Chẳng hạn khi được tạo trực tiếp trên môi trường kỹ thuật số, bằng các phần mềm chuyên dụng như Zbrush, Maya hoặc Arnold, các tác phẩm photorealism ngày nay đã trở nên chân thực đến nỗi không thể phân biệt được chúng với ảnh chụp.
Hãy nhìn vào bức vẽ này của Ian Spriggs, một nghệ sĩ đồ họa 3D người Canada làm ví dụ. Trong đó, anh đã thể hiện chân dung cố họa sĩ nổi tiếng người Hàn Quốc Kim Jung Gi bằng bộ công cụ Maya, Mudox và V-Ray. Thêm một chút chỉnh sửa với Photoshop và đây là kết quả:
20,7 triệu người đã xem bức ảnh trên Twitter, 22.000 lượt Retweet và gần 3.000 bình luận. Báo chí trên khắp thế giới đã nói về nó. Họ dẫn lời các chuyên gia công nghệ cho rằng một kỷ nguyên mới đã bắt đầu, trong đó, các tác phẩm do AI tạo ra sẽ khiến chúng ta phải hoài nghi về mọi thứ mà chúng ta nhìn thấy.
"Tôi nghĩ tấm ảnh giáo hoàng mặc áo Balenciaga có thể là trường hợp đầu tiên mà AI tạo ra được tin giả và phát tán nó trên quy mô lớn", Ryan Broderick, cựu nhà báo công nghệ người Mỹ từng làm việc cho tờ BuzzFeed cho biết.
Đó là bằng chứng cho thấy thực tại của chúng ta có thể dễ dàng bị làm giả, can thiệp và thao túng đến mức nào, dưới sự trợ giúp của các công cụ AI.
Nhưng sửa chữa dáng đi của ngựa chỉ là một ví dụ cho việc máy ảnh đã cách mạng hóa cách mà loài người dùng để ghi lại thực tại.
Kể từ những bức vẽ hang động cho tới tận thế kỷ 18, phương tiện duy nhất giúp chúng ta "chụp" lại một khoảnh khắc xảy ra trong thực tế là bàn tay - các họa sĩ phải trực tiếp vẽ lại chúng. Và bởi một khoảnh khắc thường trôi qua rất nhanh trên võng mạc, thực tại mà chúng ta vẽ ra phải dựa phần lớn vào trí nhớ và trí tưởng tượng của mình.
Một bức ký họa càng giống thật thì càng cần được vẽ chi tiết, tỉ mỉ và dựa trên những quan sát công tâm. Điều đó có nghĩa là nhanh và giống thật không đi liền với nhau. Và bởi bộ não tham gia vào toàn bộ quá trình, dù thế nào thì tính khách quan cũng không thể được đảm bảo trong tranh vẽ.
Đây là lý do tại sao sau tới bốn vạn năm cải tiến, từ những nét vẽ hình que của người thượng cổ đến những bức tranh thể hiện đúng tỷ lệ giải phẫu người thật của Leonardo da Vinci, hội họa chưa bao giờ đánh lừa được thị giác con người. Não bộ chúng ta cũng không hoàn toàn tin rằng những gì các họa sĩ thể hiện đã từng là một khoảnh khắc có thật.
Nghiên cứu trên tạp chí Frontiers in Psychology cho biết kể từ khi máy ảnh ra đời, một con đường thần kinh mới bắt đầu xuất hiện trong não bộ chúng ta. Đó là kh con người ý thức được ảnh chụp là do các thiết bị kỹ thuật tạo ra, họ bắt đầu tin vào chúng như tin vào thực tại khách quan - thứ mà tranh vẽ không thể làm được.
Sự tiến hóa của camera và các kỹ thuật chụp ảnh tiếp tục củng cố hiệu ứng đó. Khi máy ảnh tạo ra các bức ảnh đi từ đen trắng đến có màu sắc, từ độ phân giải thấp đến độ phân giải cao, ảnh chụp bắt đầu phản xạ lên võng mạc con người những hình ảnh khớp với thực tại mà chúng ta nhìn thấy.
Những tấm ảnh sau đó đã kích thích được các tuyến đường thần kinh và phản ứng tâm lý học trong não bộ, giống với những gì một thực tại có thể kích hoạt.
Ví dụ, các thí nghiệm trên tình nguyện viên cho thấy xem ảnh của một người trên màn hình cũng có thể khiến họ hành xử như thể người đó đang có mặt. Não bộ bạn sẽ tiết ra oxytocin khi xem ảnh chụp người mình yêu. Nồng độ cortisol (hormone căng thẳng) sẽ giảm xuống nếu bạn ngắm nhìn một bức ảnh thiên nhiên, có rừng cây, bầu trời hoặc bãi biển...
Máy ảnh được phát minh như thế nào và cách nó giúp loài người "đóng băng" thực tại để lưu trữ.
Với sự phát minh ra camera và ảnh chụp, không còn gì phải nghi ngờ, lần đầu tiên con người đã có được một thực tại thay thế trước mắt mình. Họ có thể đồng bộ ảnh chụp với những gì đã xảy ra. Ảnh chụp trở thành bằng chứng cho một thực tại như nó từng là, cho ai đó đã từng có mặt, cho hành động mà họ đã làm – chỉ cần tấm ảnh đó là thật.
Đó cũng là một thực tế được phản ánh, loài người không phải lúc nào cũng hứng thú với sự thật. Đối với chúng ta, sự thật là thứ gì đó trần trụi, nhàm chán và thiếu trừu tượng. Vì vậy, tính khách quan trong ảnh chụp có thể là một yếu tố quan trọng, nhưng nó cũng là cái gai trong mắt nhiều người.
Một số có lẽ không muốn máy ảnh tiết lộ vòng eo thực của họ, những nếp nhăn hoặc thậm chí là việc họ đang có mặt cùng ai đó. Thế là những nhiếp ảnh gia bắt đầu tìm cách can thiệp vào thực tại họ ghi nhận – ngay từ những kỹ thuật trong phòng tối với phim âm bản.
Năm 1846, nghĩa là chỉ 20 năm sau khi nhiếp ảnh ra đời, người ta đã biết cách tẩm mực lên phim âm bản để xóa một ai đó khỏi tấm hình. Kỹ thuật phơi sáng kép làm điều ngược lại, thêm một người có từ tấm phim trước lên tấm phim được chụp sau đó.
Dưới sự can thiệp của dao cạo, bút vẽ và mực Ấn, thật khó tin là trong thế kỷ 19, các nhiếp ảnh gia đã có thể giúp mọi người xóa mụn, bóp lại vòng eo, thậm chí biến một tấm ảnh nhắm mắt thành ảnh mở mắt.
Sang đến thế kỷ 20, các kỹ thuật chỉnh sửa ảnh đã tinh vi đến độ người ta phải nghĩ rằng: Liệu Photoshop đã được phát minh ra từ năm 1900:
Câu trả lời chính xác là tới tận năm 1987, Photoshop được phát triển bởi anh em nhà Thomas và John Knoll, sau đó họ bán phần mềm này cho Adobe vào năm 1990. Về cơ bản, Photoshop là một công cụ cho phép can thiệp vào ảnh raster – dạng đồ họa hai chiều hiển thị bằng một ma trận pixel vuông.
Với khả năng thay đổi từng điểm ảnh, Photoshop cung cấp tiềm năng vô hạn trong việc chỉnh sửa hình ảnh kỹ thuật số. Thomas và Knoll chỉ cần viết ra các công cụ giúp điều đó trở nên dễ dàng và trực quan hơn với người dùng.
Nhưng nếu bạn để ý, họ đã vay mượn cả tên gọi và icon của các công cụ này từ nghệ thuật chỉnh sửa ảnh trong phòng tối của các nhiếp ảnh gia thế kỷ 19. Bằng chứng là Photoshop cũng có súng Brush, các lớp Layer xếp chồng lên như phim âm bản, và các công cụ như Dodging, Burning…
Tóm lại, các nhiếp ảnh gia trước đây có thể làm gì với phim âm bản thì Photoshop có thể làm điều tương tự với ảnh kỹ thuật số. Môi trường ảo chỉ khiến chúng trở nên dễ dàng, trực quan hóa hơn và có thể "Ctr U".
Mô hình tổng hợp hình ảnh là những mô hình dựa trên học máy, nó lấy một mô tả bằng ngôn ngữ tự nhiên làm đầu vào để tạo ra một hình ảnh khớp với mô tả đó. Có thể kể đến một số mô hình ISM nổi đình nổi đám trong thời gian gần đây, như DALL E 2, Stable Diffusion hay Midjourney.
Về cơ bản, các chương trình này cho phép người dùng phổ thông nhập vào một "promt" (hay lời nhắc), sau đó sẽ trả về một hình ảnh có nội dung giống với lời nhắc đó.
Có thể tưởng tượng, ISM hoạt động như một họa sĩ vẽ tranh cát. Mỗi hạt cát đại diện cho một cụm pixel tạo ra ảnh. Trong quá trình liên tục xóa đi và vẽ lại những tấm ảnh để tập luyện, ISM đã học được mối tương quan giữa từng cụm pixel với nhau.
Càng được đào tạo với càng nhiều dữ liệu, ISM càng hiểu cách các pixel được sắp xếp, những bức ảnh mà chúng tạo ra sau đó càng sắc nét và sát nghĩa.
Được giới thiệu lần đầu vào năm 2015, các mô hình ISM đã mất 7 năm phát triển để đạt được tới độ hoàn thiện và ổn định. Lần lượt các mô hình như DALL E, Stable Diffusion và Midjourney được giới thiệu vào năm 2022 đã gây bất ngờ khi chúng có thể tạo ra các tấm ảnh có độ chân thực tiệm cận so với ảnh chụp.
Điều đó có nghĩa là giống với ảnh chụp, chúng đã có khả năng phản chiếu thực tại lên võng mạc của bạn, giống với cách mà Photoshop, ảnh được chỉnh sửa trên âm bản hay thậm chí tranh siêu thực photorealism đã làm. Có điều, thực tại mà một mô hình ISM vẽ ra hoàn toàn là thực tại giả.
Nhưng điểm khác biệt nhất là gì? Với sự trợ giúp của AI, Big Data và thuật toán học máy, ISM đã thực sự trao quyền cho người dùng phổ thông. Bất cứ ai - chỉ cần biết chữ - cũng có thể tạo ra các hình ảnh mô phỏng ảnh chụp mà không cần có bất kỳ kỹ năng đồ họa hay mỹ thuật nào.
Với một vài dòng mô tả và dưới 1 phút chờ đợi, bạn bây giờ cũng có thể tạo ra một bức ảnh đánh lừa hàng triệu người, như cách mà Pablo Xavier đã làm với bức ảnh giáo hoàng Pope mặc chiếc áo phồng Balenciaga.
Trở lại với bức ảnh giáo hoàng Balenciaga, nếu bạn thực sự để ý kỹ, vẫn có một vài dấu hiệu tiết lộ đây là một bức ảnh giả.
Hãy nhìn cây thánh giá trước ngực ông ấy, nó được treo chỉ với một bên của sợi dây chuyền. Trên tay phải giáo hoàng có vẻ như là một cốc cà phê, nhưng cách mà các ngón tay của ông ấy cầm nó trông rất phi tự nhiên. Mí mắt của giáo hoàng và chiếc kính mà ông đeo cũng tan chảy vào nhau.
Vậy để thấy Midjourney vẫn chưa được huấn luyện đủ sâu để tạo ra những thực tại giả hoàn hảo.
Về cơ bản, công cụ này biết Giáo hoàng trông như thế nào và chiếc áo phồng của Balenciaga mặc lên trông ra sao. Nó sau đó có thể ghép hai thứ vào nhau bằng một cơ chế được ví như trò "đuổi hình bắt chữ". Nhưng trí tuệ nhân tạo này không (hoặc ít nhất là chưa) nắm bắt được các định luật vật lý.
Midjourney không có khái niệm về lực hấp dẫn chống lại một chiếc thánh giá lơ lửng trong không khí. Nó cũng chưa phân biệt được kính mắt và bóng của chiếc kính đó không phải là một vật thể. Và bàn tay, phần giải phẫu phức tạp nhất trên cơ thể người từng làm khó các họa sĩ, thì bây giờ tiếp tục là nơi mà AI có xác suất tái tạo thất bại cao nhất.
Hãy nhìn vào những thương hiệu thời trang giả mạo xuất hiện trong bức ảnh dưới đây để thấy một điểm trớ trêu nữa. Mặc dù được ra lệnh bằng ngôn ngữ tự nhiên, Midjourney đang tạo ra những dòng văn bản vô nghĩa trong kết quả.
Vì vậy, bằng cách để ý kỹ vào tập hợp những lỗi ở vùng ngoại vi này, ít nhất là cho đến hiện tại, bạn vẫn còn có thể phát hiện ra ảnh deepfake bằng mắt thường:
Mặc dù vậy, các chuyên gia trong lĩnh vực cho biết sớm thôi, AI sẽ khắc phục được tất cả những lỗi cơ bản ấy. Và sau đó, con người sẽ rơi vào một thung lũng kỳ lạ, ở đó, ranh giới giữa những thực tại ảo do AI tạo ra và ảnh chụp thực tế bị xóa nhòa.
"Các công cụ sẽ trở nên tốt hơn, chúng sẽ rẻ hơn và sẽ có một ngày bạn không thể tin vào bất cứ điều gì bạn thấy trên internet", Wasim Khaled, giám đốc điều hành của Blackbird.AI, một công ty cung cấp dịch vụ phát hiện và chống lại tin giả nói.
Hany Farid, một chuyên gia xử lý hình ảnh từ Đại học Dartmouth ở New Hampshire, Hoa Kỳ, có những lập luận ủng hộ điều đó. Ông nói bản thân não bộ chúng ta đã có một điểm mù lớn khi phân biệt ảnh thật và ảnh giả. Và chúng ta thể hiện rất tệ ở cả hai hướng, tìm ra bức ảnh thật trong số ảnh giả và tìm ra bức ảnh giả so với ảnh thật.
Hãy thử làm bài trắc nghiệm sau đây:
"Trong khi não bộ và vỏ não thị giác làm rất tốt nhiều thứ, chẳng hạn như nhận dạng khuôn mặt, thì nó thực sự rất tệ trong việc phân tích ánh sáng và phản xạ", Farid nói. Đó là lý do tại sao nhiều người có thể trả lời đúng hai câu hỏi đầu tiên nhưng sẽ phải suy nghĩ rất lâu trước hai tấm ảnh cuối cùng vì chúng không hề có khuôn mặt.
Thế nhưng, các công ty phát triển trí tuệ nhân tạo cũng biết điểm yếu của mình. Họ đang tập trung vào các bộ dữ liệu chứa khuôn mặt để đào tạo thuật toán của mình sản sinh ra các khuôn mặt ngày càng hoàn chỉnh hơn.
Cho nên, dù Midjourney ở thời điểm này vẫn bỏ qua một số định luật vật lý, ánh sáng và sự đổ bóng phi lý của vật thể - nhưng riêng phần tái tạo mặt người trong ảnh chân dung, nó đã có thể đánh bại ngay cả các chương trình nhận dạng khuôn mặt mà Bellingcat sử dụng để xác minh danh tính.
Điều này không chỉ khiến Khaled mà cả các chuyên gia khác lo ngại, công nghệ này có thể đẩy nhanh sự xói mòn niềm tin vào truyền thông, chính phủ và cả xã hội.
Nếu hình ảnh từng là cách chúng ta ghi lại thực tại của mình một cách chân thực nhất, thì khi bất cứ hình ảnh nào cũng có thể được tạo ra và bị thao túng: Làm sao chúng ta có thể tin vào bất cứ điều gì chúng ta nhìn thấy nữa?
Để đối phó với những thực tại đang bị làm giả, các cơ quan báo chí đang tích cực thể hiện vai trò giám sát của họ trong việc gắn thẻ các hình ảnh deepfake do các mô hình ISM tạo ra. Một số nhà sản xuất nội dung cũng chủ động làm vậy khi họ tạo ra các sản phẩm này, cảnh báo trước với độc giả rằng thứ mà họ đang xem là giả.
Twitter, trong một nỗ lực tránh lan truyền bức ảnh về Giáo hoàng Pope như một tin giả, đã sử dụng tính năng ghi chú cộng đồng của mình để gắn thẻ nó với nội dung: "Đây là một tấm ảnh giả được tạo ra bởi AI Midjourney và từng được đăng trên Reddit".
Mạng xã hội này cũng không quên khảo sát người dùng để biết chú thích của họ có hữu ích không? Sau khi bấm vào nút "Đánh giá", ba lựa chọn sẽ xuất hiện: "Có", "Một phần" hoặc "Không".
Bằng trực giác, có lẽ nhiều người sẽ nghĩ rằng các cảnh báo này là đủ để chúng ta vượt qua thời đại deepfake. Nếu bạn không phát hiện ra một tấm ảnh là giả thì báo chí, cộng đồng, các chuyên gia hay thậm chí một phần mềm sẽ giúp bạn làm điều đó. Một khi đã biết một tấm ảnh là giả, bạn sẽ không bị thuyết phục bởi nó.
Thật không may, não bộ chúng ta không làm việc như vậy.
Kimberly Wade, một nhà nghiên cứu trí nhớ tại Đại học Warwick, cho biết các cảnh báo ảnh giả sẽ không đem lại tác dụng đáng kể, nhất là trong dài hạn.
Trong các thử nghiệm trên tình nguyện viên, Wade nhận thấy một trong những điều đầu tiên phai mờ khỏi trí nhớ của chúng ta chính nguồn của thông tin. Giống như cách bạn kể đi kể lại một câu chuyện cười cho nhiều người, nhưng không biết chính xác mình đã nghe nó từ ai, não bộ cũng dễ dàng quên nguồn gốc của một bức ảnh giả mà nó từng nhìn thấy.
"Vậy nên khi chúng ta đối mặt với những hình ảnh bị chỉnh sửa, ngay cả khi chúng ta biết trước chúng là giả, theo thời gian, chúng ta sẽ vẫn nhớ hình ảnh đó nhưng có thể không nhớ được rằng nó đã bị chỉnh sửa", Wade nói.
Sự gián đoạn nhận thức này thậm chí còn rõ ràng hơn khi tính đến khoảng cách thế hệ. Đó là lý do tại sao chúng ta thấy những tấm ảnh từng được chỉnh sửa từ thế kỷ 20, vẫn có thể quay lại trong thế kỷ 21 và thuyết phục thêm một thế hệ nữa tin vào chúng.
Bây giờ, hãy nghĩ về cách mà những bức ảnh giả được tạo ra bởi AI trong thế kỷ 21 cũng làm điều tương tự. Chúng có thể quay trở lại trong thế kỷ 22 và thuyết phục thế hệ tương lai tin rằng:
Neil Amstrong chưa từng đặt chân lên Mặt Trăng. Giáo hoàng thực sự đã mặc một chiếc áo khoác phồng của Balenciaga vào năm 2023. Cùng năm đó, cựu tổng thống Mỹ Donald Trump đã bị bắt.
Tổng hợp