Hướng dẫn chi tiết cách cấu hình và tối ưu hóa trạm phục vụ AI (Inference Server) cho model DeepSeek-R1-Distill-Llama-8B trên hạ tầng VPS thuần CPU AMD EPYC. Tận dụng tối đa băng thông bộ nhớ và tập lệnh AVX2/AVX-512 nhằm đạt hiệu năng xử lý tiệm cận GPU với chi phí tối thiểu.