Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -130,7 +130,7 @@ We can use the following code to get a sense of peak memory usage during inferen
 | Benchmark        |                |                                |
 |------------------|----------------|--------------------------------|
 |                  | Phi-4 mini-Ins | Phi-4-mini-instruct-float8dq   |
-| Peak Memory (GB) | 8.91           | 5.70                           |
 ## Benchmark Peak Memory
@@ -186,8 +186,8 @@ pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
 | Benchmark                        |                |                          |
 |----------------------------------|----------------|--------------------------|
 |                                  | Phi-4 mini-Ins | phi4-mini-float8dq       |
-| latency (batch_size=1)           | 1.64s         | 1.41s (16% speedup)      |
-| latency (batch_size=128)         | 3.1s          | 2.72s (14% speedup)      |
 | serving (num_prompts=1)          | 1.35 req/s     | 1.57 req/s (16% speedup) |
 | serving (num_prompts=1000)       | 66.68 req/s    | 80.53 req/s (21% speedup)|

 | Benchmark        |                |                                |
 |------------------|----------------|--------------------------------|
 |                  | Phi-4 mini-Ins | Phi-4-mini-instruct-float8dq   |
+| Peak Memory (GB) | 8.91           | 5.70 (36% reduction)           |
 ## Benchmark Peak Memory
 | Benchmark                        |                |                          |
 |----------------------------------|----------------|--------------------------|
 |                                  | Phi-4 mini-Ins | phi4-mini-float8dq       |
+| latency (batch_size=1)           | 1.64s          | 1.41s (16% speedup)      |
+| latency (batch_size=128)         | 3.1s           | 2.72s (14% speedup)      |
 | serving (num_prompts=1)          | 1.35 req/s     | 1.57 req/s (16% speedup) |
 | serving (num_prompts=1000)       | 66.68 req/s    | 80.53 req/s (21% speedup)|