DeepSeek: Mô hình AI Trung Quốc thách thức sự thống trị của Mỹ

Trong một diễn biến gây chú ý, DeepSeek – một công ty AI đến từ Trung Quốc – đang thu hút sự chú ý toàn cầu nhờ mô hình AI mạnh mẽ và chi phí xây dựng thấp, khiến giới công nghệ ở Thung lũng Silicon phải lo ngại.

Vào cuối tháng 12/2024, DeepSeek đã công bố mô hình ngôn ngữ lớn (LLM) DeepSeek V3 miễn phí. Mặc dù còn một số vấn đề về phản hồi, mô hình này đã gây ấn tượng mạnh khi chỉ mất hai tháng để phát triển và chi phí chưa đến 6 triệu USD, sử dụng GPU H800 của Nvidia – phiên bản bị giảm sức mạnh theo yêu cầu của Mỹ, thay vì các mẫu chip AI cao cấp nhất.

DeepSeek V3: Thách thức các mô hình AI lớn như GPT-4 và Llama 3.1

Trong một loạt bài kiểm tra tiêu chuẩn của bên thứ ba, DeepSeek V3 đã vượt qua các mô hình AI nổi tiếng như Llama 3.1 của Meta, GPT-4 của OpenAI và Claude Sonnet 3.5 của Anthropic, thể hiện khả năng giải quyết các vấn đề phức tạp như toán học và mã hóa. Thậm chí, DeepSeek V3 còn đánh bại các đối thủ trong bài kiểm tra Aider Polyglot, một bài kiểm tra đánh giá khả năng của các mô hình AI. Được đào tạo trên tập dữ liệu lên tới 14,8 nghìn tỷ token với 671 tỷ tham số, DeepSeek V3 sở hữu kích thước lớn hơn khoảng 1,6 lần so với Llama 3.1 405B.

DeepSeek R1: Mô hình mới với khả năng lý luận

Không dừng lại ở đó, vào ngày 20/1, DeepSeek tiếp tục công bố mô hình AI mới mang tên DeepSeek R1, có khả năng lý luận, và mã nguồn của mô hình này đã được phát hành trên Github. DeepSeek R1 được đánh giá vượt trội hơn so với các mô hình AI khác, bao gồm cả OpenAI o1, trong một số bài kiểm tra. DeepSeek R1 không chỉ rẻ hơn 96,4% so với OpenAI o1 mà còn mang lại hiệu suất tương tự. Cụ thể, chi phí sử dụng DeepSeek R1 chỉ là 2,19 USD cho một triệu token đầu ra, trong khi OpenAI o1 tiêu tốn đến 60 USD.

Giám đốc sản phẩm DeepSeek, Shubham Saboo, cho biết trên X: “DeepSeek R1 là mã nguồn mở 100%, rẻ hơn rất nhiều so với OpenAI o1 nhưng vẫn cung cấp hiệu suất tương đương”. Arnaud Bertrand, người sáng lập HouseTrip, cũng cho rằng DeepSeek R1 có sức mạnh ngang với iPhone nhưng lại được bán với giá rất thấp, chỉ 30 USD thay vì 1.000 USD.

Thách thức sự thống trị của Mỹ về AI

Sự ra mắt của DeepSeek V3 và R1 khiến giới chuyên gia và các công ty công nghệ lớn phải suy ngẫm về vị trí dẫn đầu của Mỹ trong lĩnh vực AI. DeepSeek chứng minh rằng Trung Quốc có thể phát triển các mô hình AI mạnh mẽ với chi phí thấp hơn rất nhiều so với các công ty công nghệ lớn của Mỹ. CEO Microsoft, Satya Nadella, đã phải thừa nhận rằng “chúng ta nên xem xét những diễn biến ở Trung Quốc một cách rất, rất nghiêm túc”.

Theo Chetan Puttagunta, chuyên gia từ Benchmark, DeepSeek đã sử dụng quy trình gọi là “chưng cất” để tinh gọn và cải thiện hiệu suất của mô hình AI, giúp giảm thiểu chi phí mà vẫn duy trì hiệu suất vượt trội. Điều này khiến các công ty công nghệ lớn ở Mỹ phải đặt câu hỏi về hiệu quả của khoản chi khổng lồ họ đầu tư vào AI và trung tâm dữ liệu.

Sự đổi mới trong kiến trúc AI

DeepSeek, được thành lập vào tháng 5/2023 bởi Liang Wenfeng và có trụ sở tại Hàng Châu, Trung Quốc, không giống như các công ty AI khác tại quốc gia này. Công ty tập trung vào việc xây dựng nền tảng công nghệ với chi phí tự chủ, không dựa vào các khoản trợ cấp lớn như nhiều công ty khác. DeepSeek đã tạo ra các kiến trúc AI mới, bao gồm MLA (multi-head latent attention), giúp giảm mức sử dụng bộ nhớ và chi phí tính toán, nhờ đó giảm tổng chi phí xây dựng mô hình AI.

DeepSeek đang từng bước khẳng định vị thế của mình là một “thế lực bí ẩn từ phương Đông”, với các sản phẩm như DeepSeek V2 đã thu hút sự chú ý của giới chuyên gia. Các nhà phân tích tại Thung lũng Silicon cho rằng DeepSeek “đã thuê một nhóm thiên tài vượt sức tưởng tượng” để phát triển các mô hình, với quy mô và hiệu suất vượt trội.

Nhiều công ty Trung Quốc đồng tham gia phát triển

DeepSeek không phải là công ty duy nhất của Trung Quốc đang gây tiếng vang trong lĩnh vực AI. Trước đó, ByteDance – công ty mẹ của TikTok – cũng công bố mô hình Doubao-1.5-pro vượt trội OpenAI o1 trong các bài kiểm tra chuẩn đánh giá khả năng hiểu và phản hồi của các mô hình AI. Các công ty Trung Quốc khác, như Moonshot AI, Minimax, và iFlyTek, cũng đã giới thiệu các mô hình AI lý luận chỉ trong tháng 1 năm nay.

Tương lai của AI là câu chuyện tối ưu hóa chi phí

Aravind Srinivas, CEO của Perplexity AI, nhận định rằng tối ưu hóa chi phí là động lực chính cho sự phát triển của các công nghệ mới. “Vì phải đối mặt với những hạn chế, họ đã phát triển được những giải pháp hiệu quả và tiết kiệm hơn nhiều”. Điều này cho thấy Trung Quốc đang có những bước tiến vượt bậc trong việc phát triển AI với chi phí hợp lý và hiệu suất ấn tượng, đe dọa sự thống trị của Mỹ trong lĩnh vực này.