Blog

Tối ưu hóa Inference cho DeepSeek-R1 trên VPS chạy CPU AMD EPYC: Bí quyết tối đa hóa Token/s

Khám phá cấu hình chi tiết và các kỹ thuật tối ưu hóa chuyên sâu để chạy siêu mô hình DeepSeek-R1 trên hệ thống VPS sử dụng CPU AMD EPYC. Hướng dẫn toàn diện giúp loại bỏ nghẽn cổ chai băng thông bộ nhớ, tối ưu hóa thiết lập NUMA, cấu hình thread tối ưu và tinh chỉnh framework (llama.cpp, vLLM/ZenDNN) nhằm đạt tốc độ sinh mã (Token/s) vượt trội mà không cần đầu tư hệ thống GPU đắt đỏ.

30 tháng 5, 2026

9 phút đọc