Quay về trang chủ
Blog

Tối ưu hóa Inference cho DeepSeek-R1 trên VPS chạy CPU AMD EPYC: Bí quyết tối đa hóa Token/s

Khám phá chiến lược toàn diện giúp tối ưu hóa tốc độ inference (Token/s) khi triển khai DeepSeek-R1 trên VPS sử dụng CPU AMD EPYC. Từ kỹ thuật cấu hình NUMA, tối ưu thư viện ZenDNN 5.2, đến việc tinh chỉnh luồng (threading) nhằm khai thác tối đa băng thông bộ nhớ cho doanh nghiệp.

7 phút đọc