Kiến trúc Jaguar - Quân bài dành cho Windows tablet & Ultrabook của AMD

    Leopard, Leopard 

    Bước cải tiến mới từ kiến trúc Bobcat.

    Dù yếu thế hơn Intel ở dòng chip x86 cao cấp (HP), AMD lại tỏ ra khá mạnh mẽ ở các thiết kế x86 tiết kiệm điện (LP). Hẳn một số bạn vẫn còn nhớ phong trào netbook do Intel khởi xướng hồi 2008 với các cỗ máy dựa trên chip Atom. Điểm khôi hài ở chỗ dù Intel là người đặt ra khái niệm netbook, song AMD mới là người thành công ở dòng máy này khi ra mắt thế hệ APU đầu tiên dựa trên nền tảng Brazos với kiến trúc Bobcat vào 2010. Ba năm sau, hãng này tiếp tục cải tiến dòng sản phẩm x86 LP bằng kiến trúc Jaguar.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Một cái nhìn sơ bộ

    Tuy được AMD tiết lộ trước báo giới tại Hot Chips năm nay, song các chip Kabini và Temash dựa trên Jaguar sẽ chưa xuất hiện trong 2012 mà phải tới năm sau mới có mặt trên thị trường. Vì kiến trúc Jaguar được định hướng sản xuất trên dây chuyền 28nm thay cho Bobcat dựa trên 40nm cũ.

    Thêm vào đó, những gì AMD công bố lần này chỉ là nhân x86 Jaguar. Còn nhân đồ hoạ dành cho chip Kabini hay Temash vẫn chưa được hé lộ, nhưng nhiều khả năng chúng sẽ dựa trên kiến trúc GCN mà AMD đang áp dụng cho dòng sản phẩm HD 7000 của hãng này. Trong khuôn khổ bài này, chúng ta chỉ đề cập tới nhân Jaguar.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd
    Lộ trình của AMD.
    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd
    Lộ trình của Intel.

    Dù cho kiến trúc Bonnell / Satwell hiện có trên các chip Atom của Intel chưa thực sự tốt, điều này không có nghĩa Intel sẽ không cải thiện chúng. Một số thông tin rò rỉ cách đây không lâu cho thấy các chip Atom 2013 của Intel sẽ dùng kiến trúc Silvermont hứa hẹn sẽ thay đổi cái nhìn về Atom khi chuyển sang chế độ tính toán OoO (out of order) tương tự Bobcat và con chip cao cấp nhất sẽ có tới 4 nhân so với chỉ 2 nhân như hiện nay. Tức AMD không thể hài lòng với những gì Bobcat đang có, họ phải tiếp tục cải thiện chúng.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Jaguar được thiết kế với mục tiêu:

    • Đem lại hiệu năng cao hơn (thể hiện qua mức IPC)
    • Xung cao hơn trong cùng mức tiêu thụ điện
    • Tiết kiệm điện hơn khi không chạy hết công suất
    • Có nhiều năng lực tính toán hơn (qua số các tập lệnh cao cấp)

    Nhiều năng lực tính toán cho server?

    Jaguar vẫn trang bị các tập lệnh (ISA) vốn có trên Bobcat, nhưng kèm thêm các bộ tập lệnh khác hiện chỉ có trên kiến trúc Bulldozer / Piledriver của hãng này, ví như SSE4.1 & 4.2, AES, AVX... Thực sự tôi chưa rõ mục đích của việc này để làm gì vì Jaguar được nhắm đến các thiết kế tiết kiệm điện và không cần hiệu năng quá cao (vốn ngốn nhiều điện). Khó hình dung được có mấy ai dùng chiếc tablet Windows 8 hoặc Ultrabook để chạy render hoặc giải mã AES. Song chọn lựa của AMD là của AMD.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Nền tảng Brazos của AMD cho phép quản lý đến 64 GB bộ nhớ RAM, nhờ năng lực lập địa chỉ bộ nhớ đến 36-bit. Sang tới Jaguar, AMD đẩy con số này lên 40-bit, tức một chip Kabini hay Temash có thể quản lý tới 1 TB (!) Song điều khó hiểu là trên tablet hay Ultrabook thì ai sẽ dùng tới ngần này bộ nhớ? Ngoại trừ việc Jaguar có thể xuất hiện trên server, tôi chưa nghĩ ra được một sản phẩm phổ thông nào cần tới 1 TB RAM.

    Sau cùng là năng lực ảo hoá (virtualization). Tính năng này vốn chỉ cần thiết với những ai chạy máy ảo. Dù cho vài người dùng laptop có thể xuất hiện nhu cầu này, song cũng rất hãn hữu. Vẫn hợp lý hơn nếu chạy máy ảo trong môi trường server. Dường như AMD không chỉ nhắm Jaguar cho các thiết bị tiêu dùng cá nhân mà kể cả môi trường doanh nghiệp.

    Nâng cao hiệu năng

    Việc bổ sung thêm các năng lực tính toán sẽ hoàn toàn vô nghĩa nếu hiệu năng con chip không đổi. Tuy tốt hơn kiến trúc Bonnell của Intel, Bobcat vẫn chưa đủ sức chạy các tác vụ cần nhiều sức mạnh. Dựa theo bảng so sánh của chính AMD, mức xung trên Jaguar sẽ cao hơn Bobcat tối thiểu 10%. So với nền tảng Brazos mạnh nhất có mức xung 1,7 GHz, có thể dự đoán con chip Kabini sẽ đạt mức 2 GHz hoặc trong ngoài khoảng này.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Nhưng để có mức xung cao hơn không chỉ là vấn đề overclock (OC), việc này cần đến một vài thay đổi để Jaguar có thể hoạt động ổn định ở mức xung cao. Chúng thay đổi ở bản chất đơn vị xử lý số nguyên INT và số thực FPU.

    Nhiều nhân hơn

    Tương tự cách làm của Intel với chip Atom Valleyview, AMD cũng cải thiện hiệu năng bằng cách tăng nhiều nhân xử lý hơn. Một chip Kabini sẽ có tối đa 4 nhân Jaguar. Điều này đạt được phần lớn nhờ lợi ích của việc thu nhỏ transistor (từ 40nm xuống 28nm) giúp "nhồi" thêm nhiều trans hơn mà mức tiêu thụ điện không đổi.

    Vì có nhiều nhân hơn, AMD áp dụng một phương pháp từng làm với các thiết kế đa nhân trước đây: chia sẻ bộ đệm L2 hoặc L3 Cache nằm giữa chúng. 4 nhân Jaguar sẽ xài chung một bộ đệm L2 Cache 2 MB (trung bình 512 KB mỗi nhân).

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Lợi ích? Nếu một hay nhiều nhân không xài hết phần "của mình", các nhân còn lại có thể dùng phần "thừa" đó. Cho dễ tưởng tượng, hãy hình dung bạn chia sẻ bàn làm việc với các đồng nghiệp, nếu bạn không dùng hết phần bàn của mình, ai đó có thể hỏi "mượn" để chứa đồ của họ. Thiệt hại? Đôi khi các nhân "rỗi" cần không gian nhớ của riêng nó, sẽ tốn một thời lượng nhất định để các nhân kia "dọn bớt" những gì chúng "lấn chiếm". Nhưng rõ ràng lợi ích của việc này lớn hơn nên đây có thể xem là một thay đổi hợp lý.

    Thay đổi cấu trúc nhân

    Nếu so sánh cấu tạo của từng nhân Bobcat và Jaguar (cả INT lẫn FPU), bạn sẽ thấy nhân Jaguar có phần đơn giản hơn. Tuy vậy đây chỉ là hiệu ứng thị giác. Thực ra một số thành phần chức năng đã được AMD "gom" chung thành một đơn vị (có thể thấy ở bên FPU có ít khối chức năng hơn hoặc ở bộ phận front-end).

    Thực tế là AMD có bổ sung thêm một số thứ khác vào những gì có sẵn trên Bobcat. Như thêm vào một đơn vị thực hiện các phép chia (Divider) cho nhân INT được thừa hưởng từ chip Llano. Các đơn vị chức năng khác ở INT hoàn toàn không thay đổi (2 ALU, 1 AGU nạp, 1 AGU chứa, 1 bộ nhân). Bên cạnh đó, AMD còn tăng kích thước các đơn vị hỗ trợ xử lý OoO như bộ điều lịch (scheduler) và ROB lớn hơn.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd
    Cấu trúc nhân Jaguar.
    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd
    Cấu trúc nhân Bobcat.

    Thứ duy nhất bị bỏ đi trên Jaguar mà bạn không thấy trong sơ đồ là L2 Cache. Bởi vì L2 Cache lúc này được dùng chung giữa 4 nhân Jaguar nên nó không thuộc dùng bất kỳ nhân nào. Chỉ có đơn vị BU (bus unit) sẽ giúp 4 nhân này "nói chuyện" với L2 Cache và cầu bắc (north bridge).

    Bên cạnh đó, AMD còn bổ sung một thành phần khác tương tự trên Steamroller là một bộ đệm tập lệnh (không nêu trong sơ đồ). Bộ đệm này sẽ lưu lại các tập lệnh được dùng lại nhiều lần (loop) và bộ phận decode có thể được tắt đi để tiết kiệm điện.

    Với INT có lẽ không thay đổi nhiều, thì FPU lại có nhiều cải tiến. Các cải tiến này lại không thể hiện trong sơ đồ. Cụ thể là độ rộng các FPU được tăng lên 128-bit, so với mức 64-bit trước đây. Chi tiết này có phần nào trái với dự đoán trước đây của tôi về Jaguar: kiến trúc này không có sự chia sẻ FPU như Bulldozer / Piledriver. Và để tính toán các tập lệnh 256-bit (ví như AVX), một FPU của Jaguar sẽ tốn đến 2 chu kỳ để xử lý (2 x 128-bit). Có nghĩa năng lực FP của Jaguar vẫn không bằng Bulldozer, nhưng dù sao nó vẫn nhanh hơn Bobcat vì kể cả có hỗ trợ AVX, một nhân Bobcat phải tốn tới 4 chu kỳ để xử lý (4 x 64-bit).

    Ống lệnh dài hơn, xung cao hơn

    Thoạt nghe vài bạn có thể "phản ứng" với cách làm này. Vì sử dụng ống lệnh (pipeline) dài sẽ có nguy cơ bị "thiệt" về hiệu năng nếu cơ chế tiên đoán rẽ nhánh (branch prediction) kém. Đây là điều từng xảy ra trên kiến trúc Netburst của Intel và Bulldozer của AMD. Song không phải cứ làm dài ống lệnh là dở. Vì một số điều sau:

    - Ống lệnh dài hơn giúp đạt xung cao hơn. Đây là lý do mà Intel thực hiện với Netburst khi muốn tạo ra con chip 10 GHz! Song cũng là lý do nếu bạn muốn một thiết kế có xung thấp (dưới 2 GHz chẳng hạn) có thể ổn định ở mức cao hơn (giả dụ 3 GHz). Các ống lệnh ngắn khó duy trì mức xung cao ổn định bằng (với cùng lượng trans).

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    - Sụt hiệu năng là do bộ tiên đoán. Hãy hình dung ống lệnh như một kế hoạch dài hạn, ống lệnh ngắn chỉ thực hiện trong 2 - 3 năm, còn ống lệnh dài từ 5 - 10 năm. Bộ tiên đoán đóng vai trò của ban lãnh đạo ra quyết định sẽ thực hiện gì trong suốt thời gian đó. Nếu lãnh đạo ra quyết định sai thì kế hoạch thực hiện không như ý muốn và ngược lại. Nên hiệu năng cao hay thấp phụ thuộc bộ tiên đoán chứ không phải chiều dài ống lệnh.

    - Lợi và hại. Tăng chiều dài ống lệnh có nguy cơ bị hại do tiên đoán sai, song thiệt hại là bao nhiêu so với mức IPC đạt được? Theo AMD, mức IPC mà Jaguar đạt được cao hơn Bobcat đến 15%, trong khi tăng thêm 1 bước cho ống lệnh chỉ gia tăng nguy tiên đoán sai lên 7,7% (13 bước trên Bobcat vs. 14 bước trên Jaguar). Như vậy nhìn chung, tăng chiều dài ống lệnh có lợi trên Jaguar.

    Tiết kiệm điện hơn

    Thiết kế chip trong hôm nay không chỉ là vấn đề sức mạnh, mà còn là hiệu quả tiêu thụ điện. Một chip đạt 3 GFlops nhưng ngốn 100W vẫn không hiệu quả bằng chip chỉ đạt 2 GFlops mà chỉ xài 50W. Đặc biệt với các thiết bị bị hạn chế về nguồn điện như tablet hay laptop, điều này càng cần thiết hơn. Nên cải thiện hiệu quả tiêu thụ điện cũng là một mục tiêu thiết kế trên Jaguar.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Bằng việc bổ sung / thiết kế lại các bộ đệm tập lệnh (IC Loop Buffer), bộ chứa yêu cầu (Store Queue), L2 Cache có khả năng hạ thấp xung (clock)... kiến trúc Jaguar cho phép dùng điện hiệu quả hơn Bobcat. AMD có một bảng so sánh sau:

    • Khi không xử lý (halt) cả hai đều không phát sinh IPC
    • Khi xử lý (apps) thì Jaguar đạt 1,1 IPC so với 0,95 IPC
    • Khi chạy các ứng dụng tối ưu cho Bobcat thì mức IPC của cả hai tương đương nhau
    • Khi chạy các ứng dụng tối ưu cho Jaguar thì mức IPC của Bobcat chỉ đạt 1/2

    Sơ kết

    Nhìn tổng quan, Jaguar là một thiết kế dựa trên Bobcat, nhưng có nhiều cải tiến nhằm giúp kiến trúc mới có thể đạt hiệu năng cao hơn thế hệ cũ. Với tối đa 4 nhân Jaguar, chip Kabini về lý thuyết sẽ hơn hẳn chip Zacate vốn chỉ có 2 nhân Bobcat. Nhờ dây chuyền 28nm, với cùng lượng điện năng tiêu thụ, kiến trúc Jaguar cho phép đạt mức xung cao hơn Bobcat do sản xuất trên 40nm.

    kien-truc-aguar-quan-bai-danh-cho-windows-tablet--ultrabook-cua-amd

    Nhưng tất cả các điều trên chỉ đạt được nếu xung của Kabini cao hơn Zacate. Những gì AMD mới trình bày hôm nay chỉ mới hiện trên lý thuyết. Vẫn cần có sản phẩm thực tế để kiểm chứng. Và điều này chỉ diễn ra trong năm sau. Sẽ là một câu chuyện thú vị để xem giữa kiến trúc Silvermont của Intel hay Jaguar của AMD tốt hơn.

    Tổng hợp.
    Tin cùng chuyên mục
    Xem theo ngày