"Chỉ mất 2 tuần và 552 USD, tôi đã có thể tự làm ra được một video deepfake"

Nguyễn Đàng,

Giá thành rẻ, công nghệ sẵn nhưng con mắt cư dân mạng cũng tinh tường lắm.

Chuyên gia deepfake cảnh báo sẽ có những video deepfake "chân thực hoàn hảo" trong 6 tháng nữa
Facebook phát động cuộc thi phát hiện video deepfake với tổng tiền thưởng lên tới 10 triệu USD
Thanh niên dùng 'deepfake' để sửa CGI bộ phim Vua sư tử mới, kết quả rất mĩ mãn
Kênh YouTube chuyên về deepfake này hoàn toàn có thể làm rung chuyển cả Hollywood và ngành điện ảnh
Deepfake - thứ vũ khí nguy hiểm bậc nhất sinh ra trong thời đại số
Công nghệ deepfake của Samsung thật đến đáng sợ: Xem tu sĩ Rasputin hát bài Halo của Beyoncé là hiểu!

Dựa theo bài viết được đăng tải trên Arstechnica của phóng viên công nghệ, thạc sĩ khoa học máy tính Timothy B. Lee.

Deepfake là loại công nghệ sử dụng mạng thần kinh nhân tạo đa lớp để giả dạng khuôn mặt ai đó trong một video. Người ta dễ dàng sử dụng công nghện ày cho mục đích xấu và nó đang càng ngày càng trở nên thông dụng. Nhiều bài viết đã lên tiếng cảnh tỉnh cộng đồng về sự ảnh hưởng của deepfake có thể gây ra cho xã hội.

Nhưng đây không phải là một bài như thế. Thay vào đó, chúng ta sẽ đi sâu hơn vào cốt lõi của loại công nghệ này: Phần mềm deepfake hoạt động như thế nào? Có khó sử dụng? Và quan trọng nhất là khả năng giả dạng của nó tốt đến mức nào?

Tôi đã nghĩ cách tốt nhất để trả lời những câu hỏi này là tự khám phá thế giới deepfake. Tôi đã dành thời gian vài ngày để mò mẫm phần mềm deepfake cùng với ngân sách 1.000 USD để thuê server điện toán đám mây để nghiên cứu. Vài tuần trôi qua và đây là thành quả: tôi thay mặt của Mark Zuckerberg trong video chất vấn trước Quốc hội Mỹ bằng mặt của Phó Chỉ huy Data (do Brent Spiner thủ vai) trong phim Star Trek: The Next Generation. Tôi bỏ ra tổng cộng 552 USD cho sản phẩm này.

Đoạn video trên không hoàn hảo, nhiều chi tiết của Data bị mất và toàn bộ khuôn mặt trông vẫn rất giả. Tuy nhiên, điều bất ngờ ở đây là tôi, một tên gà mờ, lại có thể dễ dàng tạo ra một đoạn video giả dạng khuôn mặt người khác trong một khoảng thời gian ngắn với chi phí tương đối thấp. Ta có lý do để tin rằng trong tương lai, loại công nghệ này sẽ còn trở nên tốt hơn, nhanh hơn và rẻ hơn nhiều.

Trong bài viết này, tôi sẽ đưa bạn vào chuyến hành trình mò mẫm deepfake mà tôi đã đi, giải thích các bước cần thiết tạo ra một đoạn video giả dạng khuôn mặt. Trong đó, bao gồm cả phương thức hoạt động của loại công nghệ này và những giới hạn của nó.

Deepfake cần máy tính mạnh và cơ sở dữ liệu lớn

Cái tên Deepfake bắt nguồn từ mạng thần kinh nhân tạo đa lớp (deep neural networks). Trong thập kỷ vừa qua, các nhà khoa học ngành công nghệ thông tin đã khám phá ra mạng thần kinh nhân tạo sẽ trở nên mạnh hơn với mỗi lớp thần kinh được thêm vào. Và để có thể tạo ra một mạng thần kinh nhân tạo đa lớp, ta sẽ cần một cơ sở dữ liệu rất lớn và một chiếc máy tính mạnh mẽ.

Vì thế, để có thể làm ra đoạn video trên, tôi đã phải thuê một hệ thống máy ảo sử dụng bốn con card đồ họa đắt tiền. Nhưng ngay cả như vậy, máy tính của tôi vẫn mất đến một tuần để có thể huấn luyện xong máy với lượng dữ liệu lớn.

Ngoài ra, tôi cũng cần phải gom rất nhiều hình ảnh khuôn mặt của Mark Zuckerberg và Data. Đoạn clip trên chỉ dài 38 giây, nhưng để làm ra nó cần một lượng video có mặt của cả hai rất nhiều. Mục đích là để cho máy tính luyện tập. Tôi đã tải mười bốn video từ phim Star Trek: The Next Generation có mặt Data và chín video có Mark Zuckerberg. Video của Zuckerberg bao gồm các bài phát biểu và một số đoạn phỏng vấn, có cả một đoạn clip anh ta nướng thịt trong sân sau nhà mình.

Tôi bỏ tất cả video này vào iMovie và cắt đi những đoạn không có mặt cả hai. Tôi cũng cắt ngắn đi những video dài. Phần mềm deepfake không chỉ cần nhiều hình ảnh mà nó còn cần nhiều hình ảnh khác nhau. Nó cần phải thấy khuôn mặt từ nhiều góc, mang nhiều loại biểu cảm và ở trong các điều kiện ánh sáng khác biệt.

Một đoạn video phát biểu dài một tiếng của Mark Zuckerberg có khi chỉ mang giá trị tương đương với thời lượng năm phút cũng của đoạn video đó, bởi lẽ trong suốt 60 phút, cảnh quay đều có góc giống nhau, chung điều kiện ánh sáng và biểu cảm. Thế nên hàng tiếng video đã bị cắt xuống thành chín phút đối với Data và bảy phút đối với Mark Zuckerberg.

Faceswap: Phần mềm deepfake lo hết tất cả

Đã đến lúc sử dụng phần mềm deepfake. Ban đầu tôi đã sử dụng một chương trình có tên là DeepFaceLab và tạo ra được một video khá thô. Nhưng khi tôi đăng nó lên subreddit tên là SFWdeepfakes, rất nhiều người khuyên tôi nên dùng Faceswap. Họ nói rằng chương trình đó có nhiều tính năng hơn, khả năng ghi lại dữ liệu tốt hơn và hỗ trợ trực tuyến rất được. Thế nên tôi nghe theo họ và đổi sang dùng Faceswap.

Faceswap chạy được trên hệ điều hành Linux, Windows và Mac. Nó bao gồm tất cả các công cụ cần thiết cho quá trình tạo ra một video thay mặt, bắt đầu bằng việc nhập video muốn thay và kết thúc với việc xuất ra một video đã hoàn thành. Cách sử dụng phần mềm hơi khó hiểu một chút, nhưng thật may là nó đi kèm một bài hướng dẫn sử dụng rất chi tiết, giải thích cặn kẽ về từng bước của toàn bộ quá trình. Bài hướng dẫn được viết bởi chính nhà lập trình đã tạo nên Faceswap, Matt Tora, người đã hỗ trợ tôi rất nhiều khi cả hai cùng trò chuyện trên kênh Discord của Deepfake.

Phần mềm Faceswap yêu cầu một card màn hình mạnh, tôi biết ngay từ đầu là cái máy Mac-Book Pro đã sáu năm tuổi sẽ không đủ sức. Nên tôi đã thuê một cái máy Linux ảo của một nhà cung cấp điện toán đám mây hàng đầu. Ban đầu tôi sử dụng máy có card là Nvidia K80 với bộ nhớ 12 GB. Sau vài ngày, tôi nâng cấp lên mẫu có hai card và rồi lại nâng thành bốn card. Cái máy cuối cùng có bốn card Nvidia T4 Tensor Core với bộ nhớ 16 GB (nó còn có đến 48 vCPUs và bộ nhớ Ram lên đến 192 GB, nhưng lại không sử dụng đến nhiều vì mạng thần kinh chỉ chú trọng công suất card màn hình).

Qua hai tuần, số tiền thuê lên đến 552 USD. Matt Tora nói với tôi rằng card màn hình phù hợp nhất hiện tại cho deepfake là Nvidia GTX 1070 và 1080 với bộ nhớ ít nhất 8 GB. Tôi hoàn toàn có thể mua một cái card cỡ đó với vài trăm đô. Tuy nhiên, một cái card 1080 sẽ không có tốc độ nhanh bằng bốn cái card mà tôi sử dụng. Nhưng kết quả mà cả hai mang lại sẽ giống nhau.

Quá trình sử dụng Faceswap bao gồm ba bước:

- Phân tách ảnh: chia video ra thành từng khung hình một, xác định khuôn mặt ở từng khung và cắt chúng ra.

- Luyện tập: Dùng những hình ảnh đã lấy để luyện ra một mạng thần kinh đa lớp - mục đích cuối cùng là để thay thế hình ảnh khuôn mặt của một người và thay thế nó với hình ảnh khuôn mặt của một người khác có cùng tư thế, biểu cảm và phản xạ ánh sáng.

- Chuyển đổi: Sử dụng mạng đã luyện ra từ bước trên và đặt vào clip, tạo ra một video deepfake. Sau khi đã luyện thành công mạng thần kinh, nó có thể được sử dụng trên bất kì video nào có mặt hai đối tượng đã dùng.

Thời lượng của ba bước này rất khác nhau và nó cũng đòi hỏi ở người sử dụng và máy tính khác nhau. Phần mềm trích xuất thông tin từ video chỉ chạy trong vài phút, nhưng phải cần đến vài tiếng để "máy tính chạy cơm" kiểm tra kết quả. Phần mềm ghi nhận tất cả các khuôn mặt trong các khung hình, dù đó có phải là khuôn mặt của đối tượng muốn thay hay không. Để đạt được kết quả ưng ý, người dùng phải xem lần lượt các hình ảnh đã cắt và xóa đi những khuôn mặt không phải của đối tượng hay những hình ảnh nào đó mà máy tính nhận lầm là mặt.

Ngược lại, quá trình luyện tập rất dễ dàng để thiết lập và không cần người dùng giám sát nhiều. Tuy nhiên, nó cần rất nhiều ngày, thậm chí vài tuần để máy tính cho ra được kết quả tốt. Tôi bắt đầu luyện mẫu cuối của mình từ ngày 7 tháng 12 cho đến ngày 13 tháng 12. Nếu tôi cho nó chạy thêm một tuần nữa thì chất lượng video deepfake của tôi hoàn toàn có thể tốt hơn. Và đó là tôi đang dùng cái máy ảo mạnh khủng bố có bốn con card đồ họa cao cấp. Nếu bạn sử dụng một chiếc máy cá nhân với card đồ họa yếu hơn, để luyện ra một mẫu tốt có thể tốn đến nhiều tuần.

Bước cuối cùng là chuyển đổi, nó không tốn nhiều thời gian và đòi hỏi rất ít ở người dùng lẫn máy tính. Một khi bạn đã có một mạng phù hợp, xuất ra một video giả dạng khuôn mặt có thể tốn chưa đầy một phút.

Chương trình deepfake hoạt động như thế nào?

Trước khi đi vào quá trình mò mẫm Faceswap của tôi, để tôi giải thích với bạn về phương thức hoạt động của loại công nghệ này trước.

Cốt lõi của Faceswap, cũng như các phần mềm deepfake khác, là một bộ biên mã tự động. Bộ biên mã chính là mạng thần kinh đã luyện, mục đích của nó là nén hình ảnh nhập vào và xuất ra một hình ảnh tương tự. Mặc dù nghe thì không có gì hữu ích, nhưng đây chính là yếu tố quan trọng để tạo ra một video thay mặt.

Chỉ mất 2 tuần và 552 USD, tôi đã có thể tự làm ra được một video deepfake - Ảnh 5.

Bộ biên mã tự động có kết cấu như hai cái phễu với đầu hẹp được gắn lại với nhau. Một bên chứa bộ mã hóa và có vai trò lấy hình ảnh và ép chúng xuống thành các biến - với phần mềm Faceswap tôi dùng, nó cho ra 1024 giá trị sổ thực dấu phẩy động 32-bit. Bên còn lại của bộ biên mã chứa bộ giải mã. Nó có vai trò lấy các biến đã nén, được gọi là "không gian ẩn", và kéo giãn nó ra sao cho giống với hình ảnh ban đầu.

Bằng cách hạn chế lượng dữ liệu bộ mã hóa trao cho bộ giải mã, phần mềm bắt cả hai bên phải phát triển ra một bộ biến chứa các chi tiết của khuôn mặt người. Bạn có thể tưởng tượng bộ mã hóa như một thuật toán nén không hoàn chỉnh - nó cố gắng ghi lại thật nhiều thông tin của khuôn mặt vào một không gian lưu trữ có hạn. Không gian ẩn này phải ghi lại các chi tiết như hướng mà đối tượng đối mặt, mắt mở hay nhắm, hay là đối tượng đang nhăn mặt hay mỉm cười.

Nhưng trọng yếu nhất, bộ mã hóa cần ghi lại thần sắc thay đổi theo thời gian của một người. Nó không cần phải ghi lại những chi tiết cố định như màu mắt hay dáng mũi. Nếu tất cả các tấm hình của Mark Zuckerberg đều có màu mắt là xanh, thì bộ giải mã sẽ tự động xuất ra màu mắt là xanh, mà không cần bộ mã hóa ghi nó vào không gian ẩn vốn chẳng có nhiều dung lượng. Đây chính là một yếu tố quan trọng trong quá trình tạo ra video deepfake.

Mọi thuật toán dùng để luyện mạng thần kinh cần nhiều biện pháp để đánh giá tình trạng, nhờ đó mới có thể cải thiện hiệu năng. Trong nhiều tình huống, người ta sử dụng một biện pháp gọi là luyện tập có giám sát, người dùng sẽ cung cấp các đáp án chuẩn cho từng mảng dữ liệu trong bộ luyện tập. Nhưng bộ biên mã tự động thì khác, bởi vì nó chỉ cố gắng tái tạo lại dữ liệu đã nhập vào, nên phần mềm luyện tập có thể tự động đánh giá hiệu suất hiện tại. Nói theo thuật ngữ, biện pháp này được gọi là luyện tập không giám sát.

Giống như mọi mạng thần kinh khác, bộ biên mã của Faceswap sử dụng thuật toán truy ngược để luyện tập. Thuật toán này đưa một hình ảnh cụ thể cho mạng và tìm xem pixel nào của đầu ra không trùng với đầu vào. Sau đó nó sẽ tính toán xem dây thần kinh nào ở lớp cuối tạo ra nhiều lỗi nhất và sẽ chỉnh sửa nó sao cho kết quả xuất ra sẽ được cải thiện.

Hệ thống sẽ truy ngược lại lỗi về lớp liền kế trước, để chỉnh lại các dây thần kinh một lần nữa. Quá trình sẽ tiếp tục lặp đi lặp lại, cho đến khi mọi giá trị của mạng thần kinh, cả ở đầu ra và đầu vào, đã được điều chỉnh. Sau khi đã hoàn thành với một tấm hình, thuật toán luyện tập sẽ đưa cho mạng thần kinh tấm hình khác và quá trình như trên lại bắt đầu. Để bộ biên mã có thể hoạt động tốt, quá trình truy ngược có thể lặp đi lặp lại đến trăm ngàn lần.

Chỉ mất 2 tuần và 552 USD, tôi đã có thể tự làm ra được một video deepfake - Ảnh 6.

Phần mềm deepfake hoạt động bằng cách luyện tập song song hai bộ biên mã, một cho mặt gốc và một cho mặt ghép. Mỗi bộ chỉ phân tích bức hình của một người và được luyện để có thể tái tạo ra hình ảnh tương tự với hình ảnh đã nhập vào.

Tuy nhiên, điều đáng chú ý ở đây là cả hai mạng thần kinh đều dùng chung một bộ mã hóa. Chỉ có bộ giải mã, gồm các dây thần kinh nằm ở bên phải, là riêng biệt và mỗi bộ có mục tiêu tái tạo hai khuôn mặt khác nhau. Còn các dây thần kinh nằm ở bên trái, vì cùng chia sẻ các giá trị nên sẽ chịu ảnh hưởng từ cả hai quá trình. Khi mạng phân tích mặt Zuckerberg, nó cũng sẽ tạo nên thay đổi ở mạng phân tích mặt Data. Mỗi lần mạng phân tích Data phân tích mặt Data, mạng Zuckerberg sẽ thừa hưởng những thay đổi đã được thực hiện để hoàn thiện hóa sản phẩm đầu ra.

Kết quả, hai bộ biên mã cùng sở hữu bộ giải mã có khả năng đọc dữ liệu của cả hai khuôn mặt, của Zuckerberg và của Data. Mục tiêu ở đây là để bộ giải mã dùng chung biện pháp để ghi nhận thông tin về các khía cạnh như góc khuôn mặt và vị trí chân mày, dù đó là ảnh của Zuckerberg hay Data. Điều đó có nghĩa là sau khi đã nén ảnh thành biến, ta có thể dùng một trong hai bộ giải mã để phát triển sản phẩm cuối cùng.

Chỉ mất 2 tuần và 552 USD, tôi đã có thể tự làm ra được một video deepfake - Ảnh 7.

Sau khi đã luyện ra được hai bộ biên mã như trên, bước tiếp theo khá đơn giản: bạn chỉ cần đổi bộ giải mã. Bạn mã hóa một tấm hình của Mark Zuckerberg nhưng lại dùng bộ giải mã của Data để làm mặt giả. Kết quả, ta có được một tấm hình của Data nhưng lại sở hữu biểu cảm khuôn mặt của Mark Zuckerberg.

Nên nhớ là khoảng không gian ẩn chỉ ghi nhận thông tin của thần sắc, gồm biểu cảm, hướng mặt và vị trí chân mày, còn các chi tiết của khuôn mặt như màu mắt hay dáng mũi thì được tái tạo ở bộ giải mã. Điều này có nghĩa nếu ta mã hóa khuôn mặt của Mark Zuckerberg và phân tích nó bằng bộ giải mã của Data, ta có được một khuôn mặt sở hữu các chi tiết cố định của Data (như hình dáng khuôn mặt) nhưng lại có thần sắc của Mark Zuckerberg.

Nếu ta áp dụng kỹ thuật này cho các khung hình của video có mặt Mark Zuckerberg, ta sẽ có được một video hoàn toàn mới với mặt của Data nhưng lại thực hiện các hành động của Zuckerberg - như mỉm cười, nháy mắt hay quay đầu.

Đáng chú ý hơn, đây là một tình huống đối xứng. Khi ta luyện ra được một mạng mã hóa mặt của Zuckerberg và giải mã thành mặt của Data, ta đồng thời có thể mã hóa mặt của Data và biến nó thành mặt của Zuckerberg. Khi sử dụng Faceswap, trong quá trình chuyển đổi cuối cùng, có một ô là "swap model" (đổi mẫu) mà ta có thể đánh dấu để phần mềm đổi bộ giải mã. Như thế, thay vì thay mặt Data vào mặt Zuckerberg, ta có thể làm ngược lại. Kết quả là video dưới đây:

Người máy có tên Data đang mang khuôn mặt Zuckerberg, và thổ lộ về việc máy móc cũng biết nhớ.

Dữ liệu để luyện mạng neural

Trong thực tế, để tạo ra được kết quả ưng ý bằng phần mềm deepfake không hề dễ.

Như đã đề cập, tôi đã thu thập bảy phút có mặt Data và chín phút có mặt Mark Zuckerberg. Sau đó tôi dùng công cụ giải nén của Faceswap để chia video ra và lấy phần ảnh có mặt của hai người. Đoạn video có tốc độ khung hình khoảng 30 khung một giây, nhưng tôi chỉ lấy 1trong tập hợp 6 hình - tài liệu tham khảo của Faceswap khuyên tôi nên làm như vậy. Lý do là vì sự khác nhau của các tấm ảnh quan trọng hơn là số lượng ảnh, và nếu tôi lấy hết mọi khung hình, tôi chỉ được một đống ảnh giống nhau.

Công cụ giải nén của Faceswap tạo ra rất nhiều nhầm lẫn. Đôi khi nó còn nhận diện các khuôn mặt xuất hiện đằng sau anh Zuckerberg. Thế là tôi phải dành hàng tiếng đồng hóa xóa đi những tấm ảnh nào không phải của hai đối tượng trên. Kết thúc quá trình, tôi có được 2.598 tấm ảnh của Data và 2.224 tấm ảnh của Mark Zuckerberg. Đến lúc này, tôi đã có thể huấn luyện hệ thống deepfake của mình.

Hiện tại, Faceswap có sẵn mười thuật toán hỗ trợ các cỡ ảnh khác nhau và yêu cầu sức mạnh máy tính khác nhau. Đối với máy yếu, có một thuật toán "nhẹ cân" sử dụng cho các tấm ảnh có cạnh dài 64 pixel và nó có thể được chạy trên các máy tính dùng card chỉ 2GB VRAM. Còn có nhiều thuật toán khác thích hợp cho ảnh có cạnh 128, 256 hay thậm chí 512 pixel - đương nhiên các thuật toán này yêu cầu lượng bộ nhớ nhiều hơn và tốn thời gian hơn nhiều.

Ban đầu tôi sử dụng một thuật toán gọi là DFL-SAE, có nguồn gốc từ phần mềm DeepFaceLab. Tuy nhiên, tài liệu tham khảo của Faceswap khuyến cáo rằng thuật toán này có một lỗi gọi là "chảy máu nhân dạng", có nghĩa là chi tiết của khuôn mặt này có thể bị lẫn vào khuôn mặt kia. Thế là sau một ngày, tôi đổi sang thuật toán khác gọi là Villain, tương thích với các tấm ảnh 128 pixel. Trong tài liệu tả rằng thuật toán này "yêu cầu cao ở bộ nhớ VRAM" và "một lựa chọn tốt nếu bạn muốn mạng có độ phân giải cao mà không cần phải chỉnh sửa lại thiết lập".

Thế là tôi cứ thế đợi. Quá trình luyện tập vẫn chạy sau sáu ngày dài nhưng hạn chót mà cấp trên cho đã đến. Vào thời điểm đó, mạng của tôi đã giả dạng được khuôn mặt khá tốt. Quá trình tuy đã chậm đi, nhưng chắc chắn là nếu tôi để nó chạy tiếp một tuần nữa thì kết quả giả dạng sẽ tốt hơn nhiều.

Phần mềm Faceswap được thiết kế rất tốt trong việc sử dụng máy tính trong thời gian dài. Nếu bạn luyện mạng bằng giao diện đồ họa người dùng, giao diện sẽ thường xuyên cập nhật một bản xem thử của khuôn mặt được thay. Còn nếu bạn thích luyện bằng câu lệnh, cũng được luôn. Giao diện của Faceswap hỗ trợ tạo ra những câu lệnh bạn cần để luyện mạng thần kinh với các cài đặt có sẵn.

Công nghệ đeepfake giả dạng khuôn mặt tốt đến thế nào?

Trong quá trình luyện tập, Faceswap liên tục hiển thị một chỉ số gọi là độ mất chi tiết. Những con số này chỉ ra khả năng tái tạo hình ảnh khuôn mặt của Zuckerberg và Data. Chỉ số này vẫn đang giảm khi tôi dừng quá trình vào hạn chót. Tuy nhiên, có vẻ như chỉ số giảm đi chậm hơn nhiều so với ban đầu.

Đương nhiên, điều quan trọng ở đây, là khả năng chuyển đổi mặt Zuckerberg thành mặt Data của bộ giải mã Data. Chúng ta không biết được những tấm hình thay mặt nên trông như thế nào nên không thể đánh giá chúng được. Chúng ta chỉ có thể nhìn vào thành quả đạt được và quyết định xem nó trông có thật hay không.

Đoạn video trên cho thấy mức độ giả dạng khuôn mặt ở bốn thời điểm khác nhau. Vào ngày 10 và 12 tháng 12, đoạn video cho thấy khuôn mặt được luyện bởi thuật toán Villain. Ngày sáu là một bản thử được luyện bởi thuật toán khác. Còn ở góc dưới bên phải chính là thành quả cuối cùng. Quá trình luyện tập càng dài thì chi tiết trên khuôn mặt càng trở nên rõ ràng và giống thật hơn.

Vào ngày 9 tháng 12, sau ba ngày luyện tập, tôi đăng một đoạn video deepfake lên kênh Ars Technica Slack. Đoạn clip khá tương tự với kết quả vào ngày mười trong video trên. Và bậc thầy đồ họa của Arstechnica, Aurich Lawson đã nhận xét rất tiêu cực.

"Nhìn chung nó rất là tệ", anh ta viết, miêu tả nó là "không thuyết phục. Tôi chưa bao giờ thấy một video deepfake nào mà trông nó không giả cả."

Tôi nghĩ phần nào đó anh ta đã nói đúng. Tôi đã rất bất ngờ khi thấy Faceswap có thể thay mặt Zuckerberg bằng mặt của Data nhanh đến mức nào. Nhưng nếu bạn nhìn kĩ, các dấu hiệu chứng tỏ rằng đoạn video đã bị chỉnh sửa tồn tại rất rõ ràng.

Ở một số khung hình, khuôn mặt Data không khớp lắm với đầu của Zuckerberg. Lâu lâu chúng ta có thể thấy chân mày của Zuckerberg lộ ra phía dưới mặt của Data. Ở một số chỗ khác, viền của mặt Data che đi một phần tai của Zuckerberg. Những vấn đề này hoàn toàn có thể được sửa nếu người dùng dành thời gian điều chỉnh lại video: một ai đó phải xem từng khung hình một và sửa lại khuôn mặt sao cho khớp.

datazucksplit2

Tuy nhiên, có một vấn đề quan trọng hơn là các thuật toán deepfake không giỏi lắm trong việc tạo ra các chi tiết khuôn mặt ở mức độ tốt. Bạn có thể thấy điều này rất rõ nếu nhìn vào đoạn video ban đầu và sau khi thay mặt. Faceswap tạo ra cấu trúc khuôn mặt của Data rất chuẩn. Nhưng dù sau một tuần luyện tập, khuôn mặt trông vẫn rất mờ và những chi tiết thiết yếu đều không có. Ví dụ, phần mềm deepfake hình như gặp vấn đề trong việc tái tạo răng người sao cho nhất quán. Vừa thấy được hàm răng nhưng chỉ vài khung hình sau, khoang miệng sẽ đen thui và không còn cái răng nào.

Một nguyên nhân lớn gây nên tình trạng này là việc thay mặt trở nên rất khó ở độ phân giải cao. Bộ biên mã tự động tái tạo được một bức hình 64x64 pixel khá tốt. Nhưng nếu tái tạo chi tiết ở độ phân giải 128x128, còn chưa nói đến 256 pixel hay cao hơn, là một thử thách rất lớn. Đây có lẽ là lý do các video deepfake ấn tượng nhất thường có góc quay rộng chứ không phải cận cảnh khuôn mặt ai đó.

Nhưng bạn không cần phải lo rằng đây là giới hạn của công nghệ giả dạng khuôn mặt. Trong tương lai, rất có thể các nhà nghiên cứu sẽ phát triển được những kỹ thuật để vượt qua giới hạn này.

Các phần mềm deepfake thường được mô tả một cách sai lầm rằng nó dựa trên Mạng Chống đối Tạo sinh (Generative Adversarial Networks - GAN), một loại mạng thần kinh giúp cho các phần mềm "tưởng tượng" ra con người, đồ vật, hoặc cảnh vật không tồn tại. Deepfake thật ra dựa trên bộ biên mã tự động, không phải mạng nghịch tạo. Nhưng những tiến triển gần đây trong công nghệ mạng nghịch tạo đã tạo ra rất nhiều hướng đi để deepfake phát triển.

Khi mới được công bố vào 2014, GAN chỉ có thể tạo ra những tấm hình thô thiển, có độ phân giải thấp. Nhưng gần đây, các nhà nghiên cứu đã tìm ra cách để thiết kế mạng GAN sao cho nó có thể sản xuất ra những tấm hình giống thật với độ phân giải lên đến 1024 pixel. Kỹ thuật sử dụng trong công nghệ GAN trên có thể không tương thích với bộ biên mã tự động, nhưng một ai đó hoàn toàn có thể phát triển một kỹ thuật tương tự dành riêng cho bộ biên mã - hay thậm chí cả một cơ cấu mạng thần kinh mới chỉ để áp dụng cho việc thay mặt.

Đề phòng deepfake

Sự trỗi dậy của công nghệ giả dạng khuôn mặt đang dần trở thành một mối lo ngại. Cho tới gần đây, ta vẫn có thể tin được nội dung trong các video có khuôn mặt của ai đó. Nhưng với sự tồn tại của deepfake cùng các công cụ kỹ thuật số khác, chúng ta phải luôn hoài nghi tính chính xác của bất cứ tấm ảnh hay video nào. Nếu chúng ta nhìn thấy một đoạn video ai đó nói những điều tai tiếng, hay cởi đồ của họ ra, chúng ta phải cân nhắc khả năng rằng một người khác đã cố tình hãm hại đối tượng trong video bằng công nghệ thay mặt.

Nhưng với thử nghiệm của tôi, chúng ta đã thấy rõ những giới hạn của công nghệ deepfake ở hiện tại. Cần rất nhiều kiến thức và cố gắng để có thể tạo ra được một khuôn mặt ảo trông thật thuyết phục. Tôi đương nhiên đã thất bại và tôi không chắc đã có ai tạo được một đoạn video deepfake mà người xem không thể phân biệt được thật giả.

Hơn nữa, các công cụ như Faceswap chỉ thay mặt. Chúng không thay trán, tóc, tay hay chân. Nên nếu khuôn mặt trông có hoàn hảo, chúng ta vẫn có thể xác định đoạn video đó là thật hay giả dựa trên các yếu tố khác.

Tuy nhiên, những giới hạn của deepfake rất có thể sẽ biến mất. Chỉ vài năm trôi qua, các phần mềm có thể sở hữu khả năng để giả dạng khuôn mặt ai đó mà người xem không thể nào nhận biết được thật giả. Nếu chuyện đó xảy ra thì sao?

Trong trường hợp này, tôi nghĩ chúng ta nên nhớ rằng rất nhiều phương tiện truyền thông khác đã có thể được làm giả từ rất lâu. Ví dụ, rất đơn giản để tạo ra một tấm ảnh chụp màn hình ghi lại một lá thư điện tử, mà nội dung trong đó hoàn toàn là bịa đặt. Nhưng mà chẳng có cuộc đời nào bị hủy hoại chỉ vì thư điện tử giả cả. Và chúng vẫn có khả năng dùng để làm chứng trong các buổi đàm luận công cộng.

Mọi người biết thư điện tử có thể làm giả nên họ phải tìm hiểu chứng cứ xác thực từ bên ngoài. Điều gì đã khiến cho lá thư được chú ý? Có người nào khác đã nhận được bản sao chép của lá thư vào thời điểm nó được viết? Người viết lá thư đã thừa nhận là họ viết hay khẳng định rằng nó là giả? Những câu hỏi như này giúp cho mọi người xác định được tính xác thực của một lá thư điện tử.

Lừa được một lần thôi

Điều đó cũng tương tự với video. Khả năng rất nhỏ là một tên lừa đảo sẽ phá hủy cuộc đời ai đó bằng việc phát tán một đoạn video họ nói hay làm những việc điên rồ. Nhưng rất nhanh thôi, công chúng sẽ học được cách nghi ngờ mọi thứ họ thấy trong một đoạn video. Họ sẽ biết cách xem xét nó thật kĩ, tìm hiểu về nhân chứng, chuỗi sự kiện hay dùng bất cứ phương thức chứng thực nào khác.

Tôi nghĩ rằng vấn đề này cũng hoàn toàn đúng đối với sự lạm dụng xấu xa nhất của công nghệ deepfake: ghép mặt ai đó vào một video khiêu dâm. Điều này rõ ràng là sai trái và khinh rẻ nhân phẩm người khác. Rất nhiều người đã cố gắng nâng cao nhận thức của công chúng và cho họ biết rằng những video như thế này có thể phá hủy danh tiếng và sự nghiệp của bất kì ai. Thế nhưng tôi nghĩ rằng quan niệm này chưa hẳn đúng.

Dù sao thì, kể cả bây giờ, trên mạng đã đầy rẫy những tấm ảnh Photoshop giả tạo mang khuôn mặt của những ngôi sao nổi tiếng ghép với thân thể của các diễn viên khiêu dâm. Và điều này đương nhiên khiến cho các chị em phụ nữ rất phiền muộn. Nhưng công chúng không bao giờ kết luận ngay là người trong hình đã chụp những tấm ảnh khỏa thân này cả - đơn giản là vì chúng ta biết Photoshop tồn tại và có thể bị sử dụng để làm giả ảnh.

Điều đó cũng đúng với các video khiêu dâm deepfake. Đương nhiên là chẳng có gì hay ho khi bạn là đối tượng bị ghép mặt trong một video khiêu dâm. Nhưng sự xuất hiện của những video giả tạo này còn xa mới nghiêm trọng như một video "hư hỏng" thật sự của bạn bị rò rỉ. Thiếu đi chứng cứ và tính xác thực, công chúng sẽ dễ dàng nhận ra nó là giả.

Matt Tora, nhà lập trình của Faceswap, đã nói với tôi rằng lý do trên chính là một nguồn động lực to lớn của anh trong việc sáng tạo phần mềm thay mặt. Anh ấy tin rằng sự phát triển phần mềm giả dạng khuôn mặt là điều tất yếu. Anh hi vọng rằng việc tạo ra một phần mềm thân thiện với người dùng và có mã nguồn mở sẽ giúp làm sáng tỏ loại công nghệ này, đồng thời giáo dục cho công chúng biết khả năng và giới hạn của nó. Từ đó, giúp cho xã hội học được cách nghi ngờ tính chất xác thực của mọi video.

Về lâu về dài, điều này có thể khiến công chúng hoàn toàn mất đi sự tin tưởng vào những chứng cứ tồn tại dưới dạng video. Và với sự phát triển của công nghệ hiện nay cùng với nhận thức đang ngày một nâng cao của mọi người, nó hoàn toàn có thể thành sự thật.

Bóng ma Deepfake trỗi dậy: Phát hiện 14.678 video ghép mặt người nổi tiếng, 96% số này có nội dung khiêu dâm

Theo Trí Thức Trẻ Copy link 26/12/2019 20:42 (GMT +7)

Link bài gốc Lấy link