Gặp gỡ Kripa Krishnan, giám đốc triển khai các hoạt động "phá hoại" của Google

    Neo,  

    Google đã chuẩn bị mọi phương án đối phó với cả những trận động đất kinh hoàng, sóng thần cao vài chục mét và thậm chí cả người ngoài hành tinh xâm lược.

    Tại Google, có một nhóm 10 kỹ sư của Google, được lãnh đạo bởi Kripa Krishman, chuyên dựng lên các tình huống nguy hiểm, có thể gây thiệt hại cho cơ sở vật chất, hoạt động của Google. Sau đó, họ ghi lại những gì có thể xảy ra và tìm phương án đối phó để đảm bảo rằng Google có thể hoạt động bình thường dù có bất cứ điều gì xay ra chăng nữa.

    Đôi lúc, nhóm này dựng lên tình huống người sao Hỏa xâm chiếm trái đất. Lúc khác họ lại giả vờ rằng có một trận động đất hoặc thảm họa sinh thái xảy ra.

     Kripa Krishman, trưởng nhóm Disater Recovery Testing tại Google

    Kripa Krishman, trưởng nhóm Disater Recovery Testing tại Google

    Nhóm này mang tên DiRT (Disater Recovery Testing) và được phép tấn công các mục tiêu bên trong Google mà không cần cảnh báo. Kripa Krishman lãnh đạo nhóm này trong vòng chín năm qua và cô đã dành rất nhiều thời gian để hoàn thiện "nghệ thuật phá hoại" tại Google.

    Tức giận, căng thẳng và rất nhiều cà phê

    Krishnan chia sẻ rằng những kịch bản mà cô đưa ra nghe có vẻ hài hước nhưng thực sự rất nghiêm trọng. Vì được thử nghiệm trực tiếp trên hệ thống hoặc đôi lúc trên toàn bộ trung tâm dữ liệu của Google nên nếu để tình trạng xấu xảy ra quá lâu Google sẽ gặp vấn đề nghiêm trong và thiệt hại lớn về tài chính.

    Trước mỗi lần triển khai thử nghiệm, toàn bộ nhóm của Krishnan tập trung trong một căn phòng mang tên "phòng chiến sự". Đôi khi, những căn phòng này được đặt ở bất cứ đâu trên thế giới.

    "Chúng tôi có những tính huống căng thẳng trong phòng chiến sự. Ở đây, 20 hoặc 30 người ngồi làm việc cùng nhau. Căn phòng luôn nóng hừng hực, mọi người đều uống rất nhiều cà phê để tỉnh táo và luôn sẵn sàng nổi giận với bất cứ ai", Krishnan chia sẻ.

    Tuy nhiên, bản thân Krishnan khi không làm việc lại là một phụ nữ vui tính, cuốn hút. Cô kể những câu chuyện về quá trình nhóm của cô đi quanh Google tàn phá mọi thứ với sự giúp đỡ của hàng trăm chuyên gia khác của Google. Những chuyên gia này được điều động để hỗ trợ Krishnan hoàn thành những thử thách khi cần.

    Và khi quá trình thử nghiệm diễn ra đúng kế hoạch, thảm họa xảy ra như thật, phòng chiến sự rất căng thẳng.

    Ví dụ, trong một lần dàn dựng thử nghiệm một lượng kết nối cực lớn có thể khiến một phần Google bị tê liệt, nhóm của Krishnan phát hiện ra rằng một ứng dụng phổ biến của họ được sử dụng bởi hàng triệu người đang bị chậm lại. Họ không nghĩ rằng thử nghiệm của mình khiến ứng dụng này bị chậm.

    Nhưng họ cũng không dám chắc có nên dừng thử nghiệm hay không bởi hậu quả của việc dừng thử nghiệm giữa chừng cũng khá nghiêm trọng. Trong vòng 15 phút, họ họp bàn và quyết định sẽ không dừng thử nghiệm.

    "Trong 15 phút đó chúng tôi thét vào mặt nhau. Những tiếng cãi vã, tranh luận thậm chí cả nước mắt cũng xuất hiện trong phòng chiến thuật trước khi quyết định được đưa ra", Krishnan nhớ lại.

    Nhân viên Google không thích điện thoại

    Trong một lần thử nghiệm khác, nhóm của Krishnan đã đưa ra kịch bản rằng internet bị tê liệt khiến các phương thức liên lạc hiện tại của nhân viên Google với nhau qua internet như Google Hangouts hoặc chat nhóm. Vì vậy, mọi người phải sử dụng một phương thức cũ đó là gọi nhóm qua điện thoại.

    Nhờ thử nghiệm này, cô phát hiện ra nhân viên Google không hề thích điện thoại.

    Họ không hề biết số tổng đài cần liên hệ để gia nhập kênh gọi nhóm và cũng không biết cách quay số để gia nhập. Tệ hơn cả, khi tất cả đã kết nối, một vài người đặt điện thoại ở chế độ chờ khiến những người còn lại không thể nói chuyện tiếp và phải nghe âm thanh khó chịu.

    Phát hiện ra điện thoại vệ tinh khá vô dụng

    Nhiều năm trước, Google đã trang bị cho các kỹ sư và giám đốc cấp cao của họ điện thoại vệ tinh để có thể liên lạc khi các thảm họa xảy ra.

    Khi đội DiRT triển khai tình huống xảy ra một trận động đất, 100% những người sở hữu điện thoại vệ tinh không thể sử dụng chúng. Họ không tìm thấy điện thoại vệ tinh của mình hoặc điện thoại đã hết pin bởi họ quên sạc. Hơn nữa, cách duy nhất để bắt được sóng vệ tinh là leo lên mái nhà, một hành động không an toàn khi xảy ra động đất.

    "Nếu chúng tôi không tiến hành thử nghiệm, chúng tôi sẽ không biết sự thật đó và chúng tôi sẽ tiếp tục đầu tư vô ích vào điện thoại vệ tinh", cô nói.

    Cầu xin, vay mượn và thẻ tín dụng

    Một lần khác, Krishnan và nhóm của cô đã đặt một trung tâm dữ liệu của Google vào tình trạng lũ lụt, buộc nó phải ngừng sử dụng điện lưới và chuyển sang máy phát điện dự phòng chạy bằng diesel. Cô yêu cầu nhóm điều hành trung tâm dữ liệu phải dự trữ nhiều nguyên liệu.

    Cô cố gắng buộc họ phải dùng tới quỹ dự phòng cho trường hợp khẩn cấp của Google. Tuy nhiên, các kỹ sư tại trung tâm dữ liệu đã có một giải pháp sáng tạo để kiếm tiền.

    Các kỹ sư cầu xin cộng đồng địa phương tặng dụng cụ hoặc cho họ mượn tiền. Thậm chí có người còn cho phép các kỹ sư Google sử dụng thẻ tín dụng với hạn mức vô cùng lớn để chống lại thiên tai. Những người này, dù chưa bao giờ quyên góp tiền cho các tổ chức khác, sẵn sàng làm tất cả để Google không bị sập.

    Lần khác nữa, nhóm của Krishnan đã thử bộ phận nhân sự. Kịch bản là một thiên thạch đâm vào trái đất, nhân viên Google trên toàn thế giới đang gặp nguy hiểm.

    "Toàn bộ mục tiêu của chiến dịch là oanh tạc phòng nhân sự", Krishnan nói. "Và để tìm câu trả lời cho các câu hỏi mà họ chưa hề tính tới như đặt những chuyến bay giá 15.000 USD để đưa nhân viên về Mỹ an toàn hoặc mua sẵn quần áo cho nhân viên đề phòng hành lý bị thất lạc...". Bộ phận nhân sự đã khiến nhóm DiRT sửng sốt khi nhanh chóng tự tổ chức và xử lý mọi vấn đề.

    Tự động hóa

    Hiện tại, một nhóm nhỏ các kỹ sư thử nghiệm từ các hãng khác nhau đã hợp tác cùng nhau để chia sẻ kinh nghiệm. Họ gọi nhóm nhỏ, non trẻ của mình là "chaos engineering", Krishnan nói.

    Nhóm này đang nghiên cứu, tìm cách để tự động hóa một số thử nghiệm.

    "Hiện tại, vấn đề của chúng tôi là quy mô. Chúng tôi đang làm hàng trăm bài kiểm tra nhưng không thể mở rộng quy mô của nhóm lên mức hàng trăm người. Do vậy, chúng tôi đang tìm hiểu cách tự động hóa một số thử nghiệm. Chúng tôi muốn tìm cách tấn công liên tục, tự động để xem hệ thống tự phục hồi liên tục như thế nào", cô chia sẻ.

    Những điều này chưa hề có trước đây nhưng sau gần 10 năm, Krishnan đã quá quen thuộc với nó.

    Những năm tháng gắn bó với các thử nghiệm đã dạy Krishnan một điều rất quan trọng: Không bao giờ có đủ kế hoạch thảm họa và công nghệ dự phòng. Người ta sẽ luôn thử nghiệm, thay đổi và hoàn thiện chúng.

    "Chúng tôi muốn mọi người thực hành đủ, đến mức họ có những khái niệm đúng. Sau đó, chúng tôi tin rằng họ có thể chắp cánh cho nó. Cho họ nhiều không gian hơn để giải quyết vấn đề", Krishnan nói.

    Theo Business Insider

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ