Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -295,10 +295,11 @@ print(f"Peak Memory Usage: {mem:.02f} GB")
 |                                  | Phi-4 mini-Ins | Phi-4-mini-instruct-FP8         |
 | latency (batch_size=1)           | 1.61s          | 1.25s (1.29x speedup)           |
 | latency (batch_size=256)         | 5.16s          | 4.89s (1.05x speedup)           |
-| serving (num_prompts=1)          | 1.37 req/s     | 1.74 req/s (1.27x speedup)      |
-| serving (num_prompts=1000)       | 66.68 req/s    | 80.53 req/s (1.21x speedup)     |
 Note the result of latency (benchmark_latency) is in seconds, and serving (benchmark_serving) is in number of requests per second.
 <details>
 <summary> Reproduce Model Performance Results </summary>

 |                                  | Phi-4 mini-Ins | Phi-4-mini-instruct-FP8         |
 | latency (batch_size=1)           | 1.61s          | 1.25s (1.29x speedup)           |
 | latency (batch_size=256)         | 5.16s          | 4.89s (1.05x speedup)           |
+| serving (num_prompts=1)          | 1.37 req/s     | 1.66 req/s (1.21x speedup)      |
+| serving (num_prompts=1000)       | 62.55 req/s    | 72.56 req/s (1.16x speedup)     |
 Note the result of latency (benchmark_latency) is in seconds, and serving (benchmark_serving) is in number of requests per second.
+Note the result is not using fbgemm kernels, (no `fbgemm-gpu-genai` installed), fbgemm kernels has less speedup when num_prompts is 1000 currently.
 <details>
 <summary> Reproduce Model Performance Results </summary>