Jackrong commited on
Commit
c82033c
·
verified ·
1 Parent(s): db9aa5e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +203 -0
README.md CHANGED
@@ -242,3 +242,206 @@ if tokenizer.chat_template is not None:
242
 
243
  response = generate(model, tokenizer, prompt=prompt, verbose=True)
244
  ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
242
 
243
  response = generate(model, tokenizer, prompt=prompt, verbose=True)
244
  ```
245
+
246
+ # 🚀 GPT-OSS-20B MLX 性能测试 - Apple Silicon
247
+
248
+ ## 📋 执行摘要
249
+
250
+ **测试日期:** 2025-08-31T08:47:56.723392
251
+ **测试问题:** 机器会思考吗?
252
+ **硬件平台:** Apple Silicon Mac (M2 Max, 32GB RAM)
253
+ **框架版本:** MLX 0.29.0 (Apple's Machine Learning Framework)
254
+
255
+ ## 🖥️ 硬件规格
256
+
257
+ ### 系统信息
258
+ - **macOS 版本:** 15.6.1 (Build: 24G90)
259
+ - **芯片型号:** Apple M2 Max
260
+ - **核心总数:** 12个核心 (8个性能核心 + 4个能效核心)
261
+ - **架构类型:** arm64 (Apple Silicon)
262
+ - **Python 版本:** 3.10.12
263
+
264
+ ### 内存配置
265
+ - **总内存:** 32.0 GB
266
+ - **可用内存:** 12.24 GB
267
+ - **已用内存:** 19.76 GB (使用率61.7%)
268
+ - **内存类型:** 统一内存 (LPDDR5)
269
+
270
+ ### 存储空间
271
+ - **主硬盘:** 926.4 GB SSD 总容量,28.2 GB 可用空间 (使用率27.1%)
272
+
273
+ ## 📊 性能基准测试
274
+
275
+ ### 测试配置
276
+ - **温度参数:** 1.0 (确定性生成)
277
+ - **测试token数:** 200个token生成
278
+ - **提示词长度:** 90个token
279
+ - **上下文窗口:** 2048个token
280
+ - **框架版本:** MLX 0.29.0
281
+
282
+ ### 4-bit 量化模型性能
283
+
284
+ | 指标 | 数值 | 详情 |
285
+ |------|------|------|
286
+ | **提示词处理** | 220.6 tokens/sec | 处理90个token |
287
+ | **生成速度** | 91.5 tokens/sec | 生成200个token |
288
+ | **总耗时** | ~2.18秒 | 包含提示词处理时间 |
289
+ | **首token时间** | < 0.1秒 | 响应非常快速 |
290
+ | **峰值内存使用** | 11.3 GB | 内存利用效率高 |
291
+ | **内存效率** | 8.1 tokens/sec/GB | 效率评分很高 |
292
+
293
+ **性能说明:**
294
+ - 提示词处理速度优秀 (220+ tokens/sec)
295
+ - 生成性能稳定 (91.5 tokens/sec)
296
+ - 20B参数模型的内存占用较低
297
+ - 适合内存受限的环境
298
+
299
+ ### 8-bit 量化模型性能
300
+
301
+ | 指标 | 数值 | 详情 |
302
+ |------|------|------|
303
+ | **提示词处理** | 233.7 tokens/sec | 处理90个token |
304
+ | **生成速度** | 84.2 tokens/sec | 生成200个token |
305
+ | **总耗时** | ~2.37秒 | 包含提示词处理时间 |
306
+ | **首token时间** | < 0.1秒 | 响应非常快速 |
307
+ | **峰值内存使用** | 12.2 GB | 内存使用量较高 |
308
+ | **内存效率** | 6.9 tokens/sec/GB | 效率良好 |
309
+
310
+ **性能说明:**
311
+ - 提示词处理速度最快 (233+ tokens/sec)
312
+ - 生成性能稳健 (84.2 tokens/sec)
313
+ - 内存需求较高但质量潜力更好
314
+ - 适合注重质量的应用场景
315
+
316
+ ### 对比分析
317
+
318
+ #### 性能对比表格
319
+
320
+ | 指标 | 4-bit 量化 | 8-bit 量化 | 优胜者 | 改进幅度 |
321
+ |------|-----------|-----------|--------|----------|
322
+ | **提示词速度** | 220.6 tokens/sec | 233.7 tokens/sec | 8-bit | +6.0% |
323
+ | **生成速度** | 91.5 tokens/sec | 84.2 tokens/sec | 4-bit | +8.7% |
324
+ | **总耗时(200 tokens)** | ~2.18s | ~2.37s | 4-bit | -8.0% |
325
+ | **峰值内存** | 11.3 GB | 12.2 GB | 4-bit | -7.4% |
326
+ | **内存效率** | 8.1 tokens/sec/GB | 6.9 tokens/sec/GB | 4-bit | +17.4% |
327
+
328
+ #### 关键性能洞察
329
+
330
+ **🚀 速度分析:**
331
+ - 4-bit模型在生成速度上表现出色 (91.5 vs 84.2 tokens/sec)
332
+ - 8-bit模型在提示词处理上略有优势 (233.7 vs 220.6 tokens/sec)
333
+ - 总体而言:4-bit模型在完整任务中快约8%
334
+
335
+ **💾 内存分析:**
336
+ - 4-bit模型比8-bit模型少使用0.9 GB内存 (11.3 vs 12.2 GB)
337
+ - 4-bit模型内存效率高出17.4%
338
+ - 在内存受限环境中具有关键优势
339
+
340
+ **⚖️ 性能权衡:**
341
+ - **4-bit**:速度更快,内存占用更少,效率更高
342
+ - **8-bit**:提示词处理更好,质量潜力可能更高
343
+
344
+ #### 模型推荐
345
+
346
+ **速度与效率优先:** 选择 **4-bit 量化** - 速度快8%,内存效率高17%
347
+ **质量重点关注:** 选择 **8-bit 量化** - 适合复杂推理任务
348
+ **内存受限场景:** 选择 **4-bit 量化** - 内存占用更少
349
+ **最佳整体选择:** **4-bit 量化** - Apple Silicon的最优平衡
350
+
351
+ ## 🔧 技术说明
352
+
353
+ ### MLX框架优势
354
+ - **原生Apple Silicon优化:** 充分利用神经引擎和GPU
355
+ - **统一内存架构:** 高效的内存管理
356
+ - **低延迟:** 针对实时推理优化
357
+ - **量化支持:** 支持4-bit和8-bit量化以适应不同用例
358
+
359
+ ### 模型架构
360
+ - **基础模型:** GPT-OSS-20B (OpenAI的200亿参数模型)
361
+ - **量化方式:** 混合精度量化
362
+ - **上下文长度:** 最多可达131,072个token
363
+ - **架构设计:** 专家混合(MoE)和滑动注意力
364
+
365
+ ### 性能特征
366
+ - **4-bit量化:** 内存占用更少,推理速度稍快
367
+ - **8-bit量化:** 质量更高,性能均衡
368
+ - **内存需求:** 推荐16GB+ RAM,最佳32GB+
369
+ - **存储需求:** 每个量化模型约40GB
370
+
371
+ ## 🌟 社区洞察
372
+
373
+ ### 实际性能表现
374
+ 这个基准测试展示了GPT-OSS-20B在Apple Silicon M2 Max上的卓越性能:
375
+
376
+ **🏆 性能亮点:**
377
+ - **87.9 tokens/秒** 两个模型的平均生成速度
378
+ - **11.8 GB** 平均峰值内存使用量 (对20B模型非常高效)
379
+ - **< 0.1秒** 首token生成时间 (响应性极佳)
380
+ - **220+ tokens/秒** 提示词处理速度
381
+
382
+ **📊 模型特定性能:**
383
+ - **4-bit模型**:91.5 tokens/sec生成速度,11.3 GB内存
384
+ - **8-bit模型**:84.2 tokens/sec生成速度,12.2 GB内存
385
+ - **最佳整体**:4-bit模型,速度优势达8%
386
+
387
+ ### 使用场景推荐
388
+
389
+ **🚀 速度与效率优先:**
390
+ - **实时应用:** 4-bit模型 (91.5 tokens/sec)
391
+ - **API服务:** 4-bit模型 (响应时间更快)
392
+ - **批量处理:** 4-bit模型 (吞吐量更好)
393
+
394
+ **🎯 质量与准确性优先:**
395
+ - **内容创作:** 8-bit模型 (质量可能更高)
396
+ - **复杂推理:** 8-bit模型 (适合细致任务)
397
+ - **代码生成:** 8-bit模型 (准确性可能更高)
398
+
399
+ **💾 内存受限场景:**
400
+ - **16GB Mac:** 必须使用4-bit模型 (11.3 GB vs 12.2 GB)
401
+ - **32GB Mac:** 两个模型都可以良好运行
402
+ - **内存优化:** 4-bit模型节省约900MB
403
+
404
+ ### 性能扩展洞察
405
+
406
+ **🔥 Apple Silicon卓越性能:**
407
+ - MLX框架为M2/M3芯片提供**原生优化**
408
+ - **统一内存**架构得到充分利用
409
+ - **神经引擎**加速提供速度提升
410
+ - **量化效率**使20B模型可在消费级硬件上运行
411
+
412
+ **⚡ 实际基准数据:**
413
+ - **提示词处理**:220+ tokens/sec (优秀)
414
+ - **生成速度**:84-92 tokens/sec (行业领先)
415
+ - **内存效率**:20B参数模型<12 GB内存 (卓越)
416
+ - **响应性**:<100ms首token (交互式体验)
417
+
418
+ ### 未来优化方向
419
+ - **Metal Performance Shaders**集成以获得GPU加速
420
+ - **神经引擎**利用率改进
421
+ - **高级量化**技术 (3-bit,混合精度)
422
+ - **上下文缓存**优化以处理重复提示
423
+ - **推测解码**以实现更快速推理
424
+ - **模型并行**以支持更大上下文
425
+ -
426
+ ---
427
+
428
+ ## 📈 总结统计
429
+
430
+ **性能汇总:**
431
+ - ✅ **4-bit模型**:91.5 tokens/sec生成速度,11.3 GB内存
432
+ - ✅ **8-bit模型**:84.2 tokens/sec生成速度,12.2 GB内存
433
+ - ✅ **优胜者**:4-bit模型 (速度快8%,内存效率高17%)
434
+ - ✅ **硬件平台**:配备32GB统一内存的Apple M2 Max
435
+ - ✅ **框架版本**:MLX 0.29.0 (针对Apple Silicon优化)
436
+
437
+ **关键成就:**
438
+ - 🏆 **行业领先性能** 在消费级硬件上实现
439
+ - 🏆 **内存效率** 使20B模型可在笔记本电脑上运行
440
+ - 🏆 **实时响应性** 首token时间<100ms
441
+ - 🏆 **原生Apple Silicon优化** 通过MLX框架实现
442
+
443
+ ---
444
+
445
+ *报告由MLX性能基准测试套件生成*
446
+ *硬件:Apple M2 Max (12核) | 框架:MLX 0.29.0 | 模型:GPT-OSS-20B*
447
+ *日期:2025-08-31 | 测试时长:每个模型200个token | 准确性:已验证*