Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -102,11 +102,13 @@ lm_eval --model hf --model_args pretrained=jerryzh168/phi4-mini-float8dq --tasks
 | Benchmark                        |                |                          |
 |----------------------------------|----------------|--------------------------|
 |                                  | Phi-4 mini-Ins | phi4-mini-float8dq       |
-| latency (batch_size=1)           | 1.64 s         | 1.41s (16% speedup)      |
-| latency (batch_size=128)         | 3.1 s          | 2.72s (14% speedup)      |
 | serving (num_prompts=1)          | 1.35 req/s     | 1.57 req/s (16% speedup) |
 | serving (num_prompts=1000)       | 66.68 req/s    | 80.53 req/s (21% speedup)|
 ## Download vllm source code and install vllm
 ```
 git clone [email protected]:vllm-project/vllm.git

 | Benchmark                        |                |                          |
 |----------------------------------|----------------|--------------------------|
 |                                  | Phi-4 mini-Ins | phi4-mini-float8dq       |
+| latency (batch_size=1)           | 1.64s         | 1.41s (16% speedup)      |
+| latency (batch_size=128)         | 3.1s          | 2.72s (14% speedup)      |
 | serving (num_prompts=1)          | 1.35 req/s     | 1.57 req/s (16% speedup) |
 | serving (num_prompts=1000)       | 66.68 req/s    | 80.53 req/s (21% speedup)|
+Note the result of latency (benchmark_latency) is in seconds, and serving (benchmark_serving) is in number of requests per second.
 ## Download vllm source code and install vllm
 ```
 git clone [email protected]:vllm-project/vllm.git