Khám phá chiến lược toàn diện giúp tối ưu hóa tốc độ inference (Token/s) khi triển khai DeepSeek-R1 trên VPS sử dụng CPU AMD EPYC. Từ kỹ thuật cấu hình NUMA, tối ưu thư viện ZenDNN 5.2, đến việc tinh chỉnh luồng (threading) nhằm khai thác tối đa băng thông bộ nhớ cho doanh nghiệp.