ăm 2014, Amazon vẫn đang run rẩy sau thất bại bất ngờ của Fire Phone. Không ai có thể tin được rằng khi bước chân vào thị trường smartphone đang tăng trưởng vượt bậc, một tên tuổi có thành tích lẫy lừng như Amazon lại có thể gục ngã. Cuối cùng, đây vẫn là công ty đã một lần giành lấy chiến trường e-reader từ tay Sony, đã đẩy tablet xuống mức giá ai cũng có thể chạm tay tới... Ấy vậy mà khi bước chân vào thị trường màu mỡ nhất của cả thế giới lúc bấy giờ, Amazon lại vấp ngã.
Vài tháng sau, Amazon vén màn một chiếc loa di động. Đi kèm với sự ra mắt của sản phẩm ấy là những hoài nghi: liệu công ty của Jeff Bezos có còn khả năng sáng tạo? Liệu Amazon có thể thêm một lần khuynh đảo thị trường phần cứng?
Câu trả lời là có. Chưa đầy một năm kể từ ngày phát hành chính thức vào nửa sau 2015, doanh số Echo đạt mốc 3 triệu máy.
Chiếc loa Echo của Amazon đã thực sự mở ra một phân khúc sản phẩm hoàn toàn mới, nhưng nếu bạn bắt buộc phải xác định một tiền thân cho Echo thì đó sẽ không phải là loa Bluetooth đến từ Beats Electronics, Sonos hay bất cứ một hãng âm thanh nào khác. Tiền thân của Echo là một chiếc điện thoại: cũng giống như chiếc loa của Amazon, iPhone 4S mang trong mình một công nghệ được nhân cách hóa để giao tiếp với con người theo cách tự nhiên nhất của con người – công nghệ trợ lý ảo qua giọng nói.
Không phải vô cớ mà người ta nhắc đến Siri nhiều như thế, bất chấp sự thật rằng cô nàng ra mắt trên một sản phẩm có thiết kế gần như giống hệt chiếc iPhone 4 đã cũ. Xét trên nhiều khía cạnh, Siri là công nghệ đại chúng đầu tiên cho phép hàng triệu con người giao tiếp với máy móc theo cách "người" nhất có thể.
Sự khác biệt của Siri so với các hệ thống trước đây không phải là dễ nhận thấy, nhưng nếu tắt Siri và sử dụng hệ thống Voice Control đơn sơ hiện vẫn đang có mặt trên iOS, bạn sẽ nhận ra một sự thật rõ ràng: tất cả các hệ thống điều khiển bằng giọng nói trước Siri đều chỉ là phiên bản âm thanh của các menu câu lệnh đơn giản. "Gọi Facetime. Chơi nhạc. Gọi điện"... Ngay đến cả Google Now xuất hiện sau này về bản chất cũng chỉ là tìm kiếm giọng nói kết hợp với các tính năng "trợ lý" được hiển thị chứ không phải là hồi đáp
Sự khác biệt của Siri? Đây là trợ lý ảo ảo đầu tiên có thể hiểu được ngôn ngữ tự nhiên của con người và có thể đóng vai trò người đại diện cho Internet để giao tiếp với con người. Phép màu của Siri: bạn có thể nói "Hãy cho tôi biết thời tiết ngày mai" thay vì gõ phím "thời tiết Hà Nội 15/7" lên ô nhập liệu của Google.com. Câu trả lời không phải là một danh sách liên kết hiển thị trên màn hình mà là "Sẽ mưa to đấy. Nhớ mang ô đi nhé".
Ít người biết rằng Steve Jobs gặp gỡ các nhà lãnh đạo của Siri Inc. lần đầu tiên vào năm 2010, tức là khi nhà sáng lập này cũng chỉ còn không đầy 1 năm lãnh đạo Apple. Ngày Steve Jobs gọi điện hẹn gặp, CEO của Siri Inc. là Dag Kittlaus suýt nữa đã bỏ lỡ cuộc gọi vì sử dụng một chiếc iPhone vỡ màn hình.
Trong suốt hàng chục năm qua, nhắc đến công nghệ và nhắc tới "giao diện" là nhắc tới màn hình đầu tiên. Máy vi tính thời kỳ chưa có chuột hay chưa có Windows cũng vẫn phải có màn hình. Với smartphone và tablet, màn hình là bộ phận nhập liệu duy nhất của người dùng.
Từ thiết bị này sang thiết bị khác, "màn hình" đã luôn luôn là kênh truyền tải thông tin bắt buộc phải có từ các thiết bị công nghệ tới người dùng. Nhưng như trường hợp của Kittlaus đã chứng minh, chính sự phụ thuộc này có thể khiến các thiết bị công nghệ trở nên vô dụng. Khi smartphone bị vỡ màn hình, chúng có thể trở nên vô dụng hoàn toàn.
Con người thậm chí còn không nên phụ thuộc vào màn hình. Sự trì trệ của cuộc cách mạng nhà thông minh trong những năm qua là một ví dụ. Các thiết bị gia dụng có thể trở nên thông minh khi được kết nối Wi-Fi và có chip xử lý riêng, nhưng thường thì bạn vẫn phải điều khiển chúng qua màn hình smartphone/tablet hoặc các bộ SmartHome Hub. Không phải ai cũng muốn mang điện thoại theo người mọi lúc mọi nơi trong nhà, và hiển nhiên là điện thoại cũng có lúc phải được cắm sạc. Không phải ai cũng muốn số hóa cuộc sống của họ hơn nữa.
Đó là còn chưa kể bạn không thể vừa lái xe vừa gõ tay trên màn hình. Bạn không thể vừa nấu ăn vừa gõ tay trên màn hình và rời mắt khỏi chiếc chảo trước mặt. Bạn không biết chiếc smartphone, bộ não của căn nhà "thông minh" của bạn, có đang nằm ở trong máy giặt thông minh hay không.
"Chúng ta không cần thêm màn hình trong căn nhà của mình. Thứ mà chúng ta thực sự cần phải đánh bại là cái công tắc đèn. Nếu như thiết bị của bạn phức tạp hơn thế, đòi hỏi người dùng phải suy nghĩ nhiều hơn thế, có lẽ là nó sẽ không phổ biến đâu", Yves Behar, nhà sáng lập của Jawbone khẳng định trong một cuộc trò chuyện có tên "Thiết kế tốt sẽ đặt người dùng làm trọng tâm". Trong thị trường vòng đeo luyện tập, chính sự đơn giản của trải nghiệm người dùng cùng ưu tiên đặt vào phong cách thiết kế đã giúp cho Jawbone thành công.
Cũng chính vì lý do này mà Jawbone được coi là một thành công đáng ghi nhận khi so sánh trực tiếp với smartwatch Android Wear. Ra mắt từ đầu 2014, phần lớn thiết bị Android Wear đều có chung một điểm yếu phá vỡ thế mạnh của đồng hồ truyền thống: màn hình quá khổ. Rất nhiều nhà sản xuất mà đặc biệt là Samsung thậm chí còn cố gắng nhồi nhét bàn phím ảo lên smartwatch.
Thế rồi Apple Watch ra đời với tuyên ngôn rất rõ ràng: màn hình đồng hồ quá nhỏ, không đủ để gõ phím như smartphone. Nếu muốn nhập liệu một cách tiện lợi nhất, hãy sử dụng Siri.
Như thế, chương tiếp theo của cuộc cách mạng giao diện công nghệ ra đời từ những nhu cầu thực tế nhất của con người: không phải lúc nào chúng ta cũng có thể dùng màn hình. Thứ gì đơn giản hơn, tự nhiên hơn cả công tắc đèn?
Bạn biết nói trước khi được phép bật tắt đèn. Và những chiếc smartphone bị vỡ màn hình, nếu được kết nối với một bộ loa, nếu có trợ lý ảo luôn luôn lắng nghe để bật nhạc theo ý bạn, tắt đèn hộ bạn... Chúng sẽ không còn vô dụng nữa.
Trong một nghiên cứu do Tech.pinions thực hiện vào tháng 6 vừa qua, hàng trăm người sở hữu Echo đã thống kê lại các tác vụ ưa thích nhất của họ trên chiếc loa của Amazon. "Kể truyện cư ời", "kể truyện trẻ em" và "đọc tin tức" đứng cạnh "điều chỉnh đèn", "chơi nhạc", "lên lịch làm việc"...
Thoạt nghe, các tác vụ này có vẻ đơn giản. Quả thật là chúng ta vẫn cần có PC hay tablet, và đúng là bạn sẽ không thể tạo bảng tính Excel chỉ sử dụng giọng nói. Nhưng "trợ lý ảo" cũng có phần giống như trợ lý thật: một vị giám đốc sẽ không giao cho thư ký của mình những công việc đòi hỏi tư duy của giám đốc. Con người không (nên) đưa những công việc phức tạp cho trợ lý ảo trên điện thoại, thay vào đó chỉ nên giao phó cho AI những tác vụ tẻ nhạt nhất, đơn điệu nhất.
Tác vụ có thể đơn điệu, nhưng để hiểu được câu lệnh của người nói là cả một hành trình dài đầy khó nhọc. Ngay đến cả bộ phận công nghệ cao lừng danh của Lầu Năm Góc là DARPA cũng mất hàng năm trời, 150 triệu USD để tạo ra CALO, dự án tiền thân của Siri. Chính bản thân Apple cũng phải có năng lực công nghệ siêu đẳng mới có thể tiếp lửa. Đừng quên rằng đây là gã khổng lồ biết cả thiết kế chip lẫn sáng tạo ngôn ngữ lập trình, đã là thế lực đầu tiên "nhét máy Mac" vào thân điện thoại di động – theo lời cựu CEO BlackBerry, Mike Lazaridis.
Hãy so sánh giữa giao diện máy tính/điện thoại bình thường và câu lệnh dành cho trợ lý ảo để nhận thấy rõ vì sao những gì Apple và Amazon lại là những thành tựu công nghệ đáng kinh ngạc. Trên máy tính, bạn có thể click vào nút "OK" để ứng dụng chuyển sang màn hình tiếp theo. Nếu nút bấm đó được ghi chú "Tiếp tục" hay "Hoàn thành" thay cho "OK" thì ở dưới nền, câu lệnh của bạn vẫn là 1. Hệ điều hành vẫn sẽ dễ dàng tự lựa chọn được một đường đi xác định duy nhất.
Với Siri và Alexa, bạn có thể nói "OK" hay "Tiếp tục" nhưng cũng có thể nói "Đi tiếp đi". Bạn thậm chí có thể nói "Đợi một chút" thay cho "Cancel". Đó là cách giao tiếp tự nhiên nhất, dễ dàng nhất của bạn, là cách giao tiếp đầu tiên bạn học được khi chập chững bước vào tuổi lên 2. Nhưng với máy tính, đó là một thứ ngôn ngữ mơ hồ gấp hàng nghìn lần so với Java, Swift hay GO. Cùng một ý tưởng, con người có hàng trăm cách diễn đạt.
Một ví dụ khác: "Hãy tìm cho tôi một cửa hàng cao cấp gần nhà Jennifer để tôi đưa nàng đi ăn tối".
Đằng sau câu nói này là rất nhiều tác vụ. Thế nào là cao cấp? Có lẽ là 4 sao trở lên. Nhà Jennifer ở đâu?
Quan trọng hơn, Jennifer là ai? Trong danh bạ của bạn có tới 4 Jennifer, nhưng bạn chỉ thường xuyên liên lạc, nhắn tin với một cô nàng có tên danh bạ là "Jenn V.". Có lẽ là nàng Jennifer này đây.
Đi ăn tối ư? Bây giờ đã là 7 giờ 30. Đi từ nhà bạn đến nhà Jennifer mất 30 phút. Trợ lý ảo của bạn sẽ phải loại bỏ các nhà hàng đóng cửa trước 8 giờ.
Và trợ lý ảo sẽ trả lời: "Tôi thấy lựa chọn phù hợp nhất là nhà hàng Bean Leaf. Tôi đã soạn ra một tin nhắn để gửi cho Jenn V phía dưới đây".
Từ những ngày tháng "IQ" thấp của Siri, các nhà hoạch định công nghệ đã nhận ra một sự thật quan trọng: không chỉ mang khả năng giao tiếp tự nhiên, trợ lý ảo này còn là hiện thân của "do engine", một khái niệm đã được ngành Trí Thông minh Nhân tạo theo đuổi từ lâu. "Do engine" (tạm dịch: bộ máy thực hiện) là bước tiến hóa đại diện cho giai đoạn thứ 3 của thế giới công nghệ, tiếp nối "search engine" (bộ máy tìm kiếm): trong khi search engine sẽ nhận từ khóa và hiển thị thông tin thì do engine sẽ tự đưa ra quyết định dựa trên các thông tin tự tìm kiếm được. TỰ xác định Jennifer là ai, ăn tối ở đâu – đó đều là những tính năng search engine không làm được, nhưng do engine phải có.
Con người đã có ý tưởng về "robot biết nói" từ nửa đầu của thế kỷ 20, nhưng không phải vô cớ mà những "do engine" như Siri, Alexa, Cortana và Google Assistant chỉ đồng loạt xuất hiện khi cuộc cách mạng Big Data và AI đang đi vào giai đoạn "nóng" nhất. Chính sự phức tạp của ngôn ngữ người cùng số lượng khổng lồ các thông tin về ngữ cảnh đã khiến công nghệ trợ lý ảo vượt ra ngoài khả năng xử lý của các con chip tân tiến trên smartphone và tablet ngày nay, ngay cả khi Định luật Moore đã đi tới điểm kết thúc. Một thành phố như Singapore hay Tokyo đã có thể có tới hàng nghìn quán ăn. Trên khắp thế giới, Apple và Amazon có hàng trăm triệu người dùng. Mỗi người có một ngữ cảnh khác nhau: một căn nhà, một nơi làm việc, một phương tiện đi lại, một hệ sinh thái thiết bị công nghệ, một vài quán ăn ưa thích và một cô nàng Jennifer thân thương riêng.
Điều này buộc công nghệ xử lý giọng nói phải vượt qua thứ logic "if then else" của điện toán truyền thống, phải bằng cách nào đó loại bỏ những thứ mơ hồ trong từng câu nói, phải lục tìm biển dữ liệu ngữ cảnh để tìm ra giải pháp đáp ứng nhu cầu của con người. Trợ lý ảo bởi vậy trở thành điểm hội tụ của 2 xu hướng có vẻ trái ngược: 1, đơn giản hóa trải nghiệm người dùng (giao diện giọng nói) và 2, siêu việt hóa trí thông minh của máy móc (Big Data, AI, cloud). Hãy ghi nhớ rằng bộ não của máy móc chỉ như những con ruồi không biết học hỏi, và đã phải mất đến hàng thập kỷ của điện toán chúng ta mới chạm tay vào deep learning, mới có thể dạy được máy móc tự biết quyết định, tự hành động theo đúng định nghĩa của do engine.
Đó là lý do toàn bộ đội ngũ kỹ sư cao cấp của ông vua đám mây là Amazon "xanh mặt" khi được CEO Jeff Bezos đặt mục tiêu rằng trợ lý ảo Alexa phải hồi đáp người dùng trong vòng 1 trở xuống. "Điều chúng tôi phải làm là tạo ra một cái máy tính ảo ở trên mây. Chỉ có giọng nói của bạn điều khiển được cái máy tính ấy", Dave Limp, phó tổng phụ trách mảng phần cứng của Amazon và cũng là người lãnh đạo dự án Echo kể lại.
Trước ngày ra đi, Steve Jobs để lại tầm nhìn để Apple hướng tới tương lai. "Tôi tin rằng Steve Jobs là người ủng hộ mạnh mẽ nhất cho thương vụ mua lại Siri tại Apple. Tại Sự kiện ATD-D8, ông ấy nói 'Siri không phải là một công ty chuyên về tìm kiếm, họ là một công ty chuyên về AI", Adam Cheyer, một trong những nhà sáng lập của Siri Inc. kể lại với LinkedIn.
"Steve coi Siri là công nghệ để cách mạng hóa và tích hợp tất cả những gì Apple đã làm từ trước đến nay".
Cũng giống như Apple, Microsoft hiểu rằng AI là chìa khóa chinh phục cuộc đua trợ lý ảo. Thậm chí, cô trợ lý ảo được lấy tên từ một AI siêu việt của dòng game Halo có hẳn một cuốn sổ riêng để lưu trữ những thông tin riêng của người dùng. Với mỗi tác vụ được bạn thực hiện trên smartphone Lumia, mỗi thông tin được nhập trên web và ứng dụng, Cortana lại càng hiểu rõ bạn hơn.
Và Cortana cũng sẽ hiểu rõ về cả loài người: khi Windows 10 ra mắt vào năm ngoái, Cortana đã đặt chân lên 400 triệu chiếc PC dư thừa sức mạnh xử lý trên toàn cầu.
Tham vọng của Microsoft hẳn nhiên không dừng ở PC. Nhờ có dòng sản phẩm Xbox đình đám, Microsoft đang là một thế lực lớn trong cuộc chiến thống trị phòng khách của người tiêu dùng. Quan trọng nhất, Microsoft làm chủ lĩnh vực thực tại hỗ trợ nhờ bộ kính HoloLens đình đám.
Trong thế giới kết hợp giữa đồ họa và đời thực của HoloLens, cả chuột, bàn phím và tay cầm game đều sẽ không được trân trọng. Tương lai của Microsoft thuộc về Cortana. Và đằng sau Cortana là bộ máy đám mây khổng lồ đã đưa gã khổng lồ phần mềm trở lại đầy mạnh mẽ trong thời đại Satya Nadella.
VR cũng không có chỗ cho bàn phím và tay cầm, nên ông vua của VR cũng không muốn thua kém Microsoft. Tham vọng mới của Facebook là giúp con người kết nối qua không gian ảo, và hiển nhiên chìa khóa vàng sẽ là sự kết hợp giữa Occulus/Gear VR và trợ lý ảo "Facebook M". Mô hình M hiện tại mới chỉ được thử nghiệm tại một vài thành phố và vẫn có bàn tay rất rõ ràng của con người – đâu đó, một nhân viên của Facebook sẽ nhận yêu cầu kiểm tra hàng do M gửi tới và gọi điện cho bưu điện, cung cấp thông tin này cho M để M thông báo lại với bạn. Thế nhưng, đây cũng chính là cách để nhân viên này cũng đang đào tạo cho M thực hiện những tác vụ thiết thực nhất, con người nhất.
Đáng chú ý và đáng sợ hơn, Facebook cũng đang nắm giữ tất cả những thông tin riêng tư nhất của bạn. Đây là ông lớn đã bóc tách hàng tỷ câu status để lọc ra những từ khóa thích hợp nhất cho quảng cáo, cho News Feed. Không khó để nhận ra rằng những thông tin có nghĩa ấy sẽ là chìa khóa quan trọng để tạo ra một trợ lý ảo siêu phàm.
Cuối cùng là Google. Với các dịch vụ dữ liệu đã được hàng tỷ người trên thế giới lựa chọn, các bộ máy AI và Big Data siêu việt bậc nhất thế giới và một hệ điều hành di động có thị phần cao gấp 3 lần tất cả các đối thủ cộng lại, Google nắm giữ vị thế thuận lợi nhất để thống trị chiến trường trợ lý ảo.
Ấy vậy mà trong suốt bao nhiêu năm, Google chỉ có một trợ lý ảo không biết trò chuyện như con người. Tất cả thay đổi vào năm 2016 khi gã khổng lồ tìm kiếm chính thức thành lập một bộ phận phần cứng riêng và đột ngột ra mắt 2 dòng sản phẩm có trọng tâm rõ rệt là trợ lý ảo "biết nói" Google Assistant: smartphone Pixel và loa Home. Trong tuyên bố ngày 4/10, đại diện của hãng khẳng định chiếc smartphone do Google tự thiết kế phần cứng cũng sẽ được độc quyền trợ lý ảo đầy đủ đầu tiên của Google.
Đây là một động thái chắc chắn sẽ khiến các đối tác phần cứng của gã khổng lồ tìm kiếm phải giận dữ nhưng cũng cho thấy rằng cuộc chiến trợ lý ảo là đủ quan trọng để Google sẵn sàng hy sinh mối quan hệ với Samsung hay LG.
Hãy nhìn vào bất cứ một trào lưu công nghệ đáng chú ý nào và bạn cũng sẽ nhìn thấy bóng hình của cuộc chiến trợ lý ảo trong đó. Cả Samsung và Sony đều đang phát triển các sản phẩm tương tự như Echo. Trong trọng tâm mới của NVIDIA Tegra là lĩnh vực xe thông minh, tính năng nhận diện giọng nói cũng được đặt lên hàng đầu. Và khi NVIDIA mang đến những đột phá trong cách thức sử dụng GPU để tăng tốc cho AI thì cuộc đua trợ lý ảo cũng trở nên "nóng" hơn bao giờ hết. Không có sự trùng hợp nào ở đây cả.
Đến cả tai nghe AirPods được Apple ra mắt sau khi đưa ra quyết định khai tử cổng 3.5mm cũng mang trọng tâm trợ lý ảo: bạn có thể kích hoạt Siri qua AirPods. Trên hệ điều hành tvOS của Apple TV thế hệ mới, trọng tâm không chỉ dừng ở ứng dụng: Siri có mặt trên remote. Và ngay đến cả các đài truyền hình tại Mỹ cũng đang mong muốn mở ra khẳ năng điều khiển set-top box bằng giọng nói cho người dùng.
Mỗi gã khổng lồ công nghệ sẽ mang một màu sắc riêng vào thế giới giao diện giọng nói. Trong khi Apple, Microsoft và Amazon muốn "nhân cách hóa" trợ lý ảo thì Google lại kiên quyết giữ tên gọi "OK Google" khô khan. Echo và Home có thể thoải mái tận hưởng kết nối Wi-Fi ổn định trong căn nhà, nhưng iPhone và Pixel sẽ phải đối mặt với tình trạng thiếu ổn định của mạng di động. Trong khi Microsoft chọn hệ điều hành, Facebook chọn ứng dụng nhắn tin làm nền tảng chính. Nhưng dù có chạy đua với nhau theo cách nào, tất cả các ông lớn đều đồng ý rằng trợ lý ảo là cuộc chiến của tương lai.
Tương lai công nghệ sẽ chỉ có một điểm chung duy nhất với quá khứ: những kẻ khổng lồ sẽ xuất hiện và gục ngã. Ở thời điểm hiện tại, ai dám chắc chắn Apple, Amazon, Microsoft và Google sẽ không có ngày chìm vào dĩ vãng như Nokia và Yahoo? Nhưng bất kể gã khổng lồ nào sẽ sống và sẽ chết, trợ lý ảo có thể là cuộc đại chiến cuối cùng của thế giới công nghệ. Khi chúng ta đã đi từ bàn phím, chuột, Clickwheel đến cảm ứng đa điểm, tác dụng của đôi bàn tay với các thiết bị công nghệ cũng đã được khai phá hết. Khi chúng ta muốn được điều khiển công nghệ mà không cần dùng tay, thứ gì sẽ thay thế giọng nói?
Đây có lẽ sẽ là cuộc lật đổ cuối cùng. Mọi ứng dụng sẽ trở nên vô nghĩa. Khi tất cả các thiết bị phần cứng sẽ chỉ đóng vai trò "hộp đựng" cho một loại giao diện không cần tới màn hình, ai dám nói một loại thiết bị nào đó sẽ lấn át tất cả các loại phần cứng khác như smartphone đã từng một lần lấn át PC, máy nghe nhạc và máy ảnh số? Ai dám nói smartphone sẽ không hết thời, ai dám nói smart home và không gian ảo VR/AR sẽ mãi mãi mờ nhạt như hiện nay? Nếu như 10, 20 năm nữa Apple gục ngã, iPhone sẽ chỉ là một dấu chân trong khởi điểm của cuộc đại cách mạng "trợ lý ảo" mà thôi.