Dự án Flash-MoE cho thấy iPhone 17 Pro có thể chạy mô hình AI 400 tỷ tham số bằng cách stream dữ liệu từ SSD lên GPU.
Các mô hình ngôn ngữ lớn (LLM) với 400 tỷ tham số thông thường đòi hỏi phần cứng chuyên dụng với dung lượng RAM khổng lồ. Ngay cả phiên bản đã được nén (quantized) cũng cần tối thiểu 200 GB RAM. Với yêu cầu như vậy, iPhone 17 Pro vốn chỉ trang bị 12 GB LPDDR5X RAM được xem là hoàn toàn ngoài cuộc. Tuy nhiên, một đoạn video mới đây cho thấy điều tưởng như không thể đã xảy ra, và ẩn sau đó là một số kỹ thuật khéo léo đáng chú ý.
Người dùng @anemll đã công bố video chạy thử Flash-MoE, một dự án mã nguồn mở, trực tiếp trên iPhone 17 Pro. Kết quả cho thấy chiếc điện thoại thực sự xử lý được mô hình 400 tỷ tham số này, nhưng tốc độ sinh văn bản chỉ đạt 0.6 token/giây, tương đương khoảng một từ được tạo ra sau mỗi 1,5 đến 2 giây. Đây là tốc độ cực kỳ chậm so với trải nghiệm thực tế, và sẽ khiến phần lớn người dùng nhanh chóng mất kiên nhẫn.
Chạy model AI 400 tỷ tham số trên chính chiếc iPhone 17 Pro, tốc độ 0,6 token/giây
Bí quyết để vượt qua giới hạn RAM nằm ở cách Flash-MoE vận hành: thay vì nạp toàn bộ mô hình vào bộ nhớ (điều hiển nhiên là bất khả thi với 12 GB RAM), dự án này tận dụng bộ nhớ lưu trữ SSD của thiết bị để stream dữ liệu trực tiếp lên GPU theo từng phần nhỏ khi cần. Đây là phương pháp tương tự kỹ thuật memory-mapped inference vốn được dùng trên máy tính để bàn khi VRAM không đủ đáp ứng mô hình lớn.
Ngoài ra, chữ "MoE" trong tên Flash-MoE là viết tắt của Mixture of Experts, một kiến trúc mô hình đặc biệt trong đó chỉ một phần nhỏ trong tổng số 400 tỷ tham số được kích hoạt cho mỗi token sinh ra. Điều này giúp giảm đáng kể lượng dữ liệu cần xử lý tại một thời điểm, tạo điều kiện để kỹ thuật stream SSD hoạt động khả thi hơn trên phần cứng di động.
Một điểm đáng chú ý khi chạy LLM cục bộ theo cách này là toàn bộ quá trình xử lý diễn ra hoàn toàn trên thiết bị, không cần kết nối internet, và đảm bảo quyền riêng tư tuyệt đối: 100% dữ liệu không rời khỏi máy. Tuy nhiên, chi phí phải trả là mức tiêu thụ pin rất cao khi GPU phải duy trì hoạt động liên tục trong suốt quá trình sinh văn bản.
Các nhà phát triển cũng thường dùng phiên bản quantized của LLM để giảm yêu cầu phần cứng, nhưng ngay cả bản nén của mô hình 400 tỷ tham số vẫn cần tối thiểu 200 GB RAM nếu chạy theo cách thông thường, con số vượt xa bất kỳ smartphone nào hiện tại. Thực tế này cho thấy khoảng cách lớn giữa việc "chạy được" một mô hình và việc sử dụng nó ở mức độ thực dụng. Flash-MoE trên iPhone 17 Pro đã vượt qua rào cản đầu tiên, nhưng với 0.6 token/giây, rào cản thứ hai vẫn còn rất xa.
NỔI BẬT TRANG CHỦ
-
Trải nghiệm Core Ultra 7 270K Plus: Một lời khẳng định "Chúng tôi đã trở lại" từ Intel?
Core Ultra 7 270K Plus có thể là bước đi cho thấy Intel đang dần lấy lại vị thế trong phân khúc gaming.
-
Giữa lúc hàng nghìn lập trình viên đang bị mất việc, Sam Altman đăng dòng tweet: "Cảm ơn các bạn vì tất cả"