Quay về trang chủ
Blog

Tối ưu hóa Inference cho DeepSeek-R1 trên VPS chạy CPU AMD EPYC: Bí quyết tối đa hóa Token/s

Khám phá cấu hình chi tiết và các kỹ thuật tối ưu hóa phần cứng nâng cao (AVX-512, NUMA, K-Quantization) để đạt tốc độ sinh token (Token/s) tối đa khi chạy mô hình DeepSeek-R1 trên hệ thống VPS sử dụng vi xử lý CPU AMD EPYC.

7 phút đọc