Spaces:

arubenruben
/

Quantization-Attempts

Running

App Files Files Community

Rúben Almeida commited on Apr 16

Commit

3081464

1 Parent(s): edebf90

Update version of requirements

Browse files

Files changed (4) hide show

dto.py +45 -0
main.py +4 -45
requirements.txt +3 -3
tests/test_awq.py +5 -3

dto.py ADDED Viewed

	@@ -0,0 +1,45 @@

+from abc import ABC
+from typing import Optional
+from pydantic import BaseModel, Field
+### DTO Definitions
+class QuantizationConfig(ABC, BaseModel):
+    pass
+class ConvertRequest(ABC, BaseModel):
+    hf_model_name: str
+    hf_tokenizer_name: Optional[str] = Field(None, description="Hugging Face tokenizer name. Defaults to hf_model_name")
+    hf_token: Optional[str] = Field(None, description="Hugging Face token for private models")
+    hf_push_repo: Optional[str] = Field(None, description="Hugging Face repo to push the converted model. If not provided, the model will be downloaded only.")
+### -------
+### Quantization Configurations
+class AWQQuantizationConfig(QuantizationConfig):
+    zero_point: Optional[bool] = Field(True, description="Use zero point quantization")
+    q_group_size: Optional[int] = Field(128, description="Quantization group size")
+    w_bit: Optional[int] = Field(4, description="Weight bit")
+    version: Optional[str] = Field("GEMM", description="Quantization version")
+class GPTQQuantizationConfig(QuantizationConfig):
+    pass
+class GGUFQuantizationConfig(QuantizationConfig):
+    pass
+class AWQConvertionRequest(ConvertRequest):
+    quantization_config: Optional[AWQQuantizationConfig] = Field(
+        default_factory=lambda: AWQQuantizationConfig(),
+        description="AWQ quantization configuration"
+    )
+class GPTQConvertionRequest(ConvertRequest):
+    quantization_config: Optional[GPTQQuantizationConfig] = Field(
+        default_factory=lambda: GPTQQuantizationConfig(),
+        description="GPTQ quantization configuration"
+    )
+class GGUFConvertionRequest(ConvertRequest):
+    quantization_config: Optional[GGUFQuantizationConfig] = Field(
+        default_factory=lambda: GGUFQuantizationConfig(),
+        description="GGUF quantization configuration"
+    )
+### -------

main.py CHANGED Viewed

@@ -1,13 +1,12 @@
 import zipfile
-from abc import ABC
-from typing import Optional, Union
 from awq import AutoAWQForCausalLM
-from pydantic import BaseModel, Field
 from transformers import AutoTokenizer
 from tempfile import NamedTemporaryFile
 from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse, FileResponse
 ### FastAPI Initialization
 @asynccontextmanager
@@ -17,46 +16,6 @@ async def lifespan(app:FastAPI):
 app = FastAPI(title="Huggingface Safetensor Model Converter to AWQ", version="0.1.0", lifespan=lifespan)
 ### -------
-### DTO Definitions
-class QuantizationConfig(ABC, BaseModel):
-    pass
-class ConvertRequest(ABC, BaseModel):
-    hf_model_name: str
-    hf_tokenizer_name: Optional[str] = Field(None, description="Hugging Face tokenizer name. Defaults to hf_model_name")
-    hf_token: Optional[str] = Field(None, description="Hugging Face token for private models")
-    hf_push_repo: Optional[str] = Field(None, description="Hugging Face repo to push the converted model. If not provided, the model will be downloaded only.")
-### -------
-### Quantization Configurations
-class AWQQuantizationConfig(QuantizationConfig):
-    zero_point: Optional[bool] = Field(True, description="Use zero point quantization")
-    q_group_size: Optional[int] = Field(128, description="Quantization group size")
-    w_bit: Optional[int] = Field(4, description="Weight bit")
-    version: Optional[str] = Field("GEMM", description="Quantization version")
-class GPTQQuantizationConfig(QuantizationConfig):
-    pass
-class GGUFQuantizationConfig(QuantizationConfig):
-    pass
-class AWQConvertionRequest(ConvertRequest):
-    quantization_config: Optional[AWQQuantizationConfig] = Field(
-        default_factory=lambda: AWQQuantizationConfig(),
-        description="AWQ quantization configuration"
-    )
-class GPTQConvertionRequest(ConvertRequest):
-    quantization_config: Optional[GPTQQuantizationConfig] = Field(
-        default_factory=lambda: GPTQQuantizationConfig(),
-        description="GPTQ quantization configuration"
-    )
-class GGUFConvertionRequest(ConvertRequest):
-    quantization_config: Optional[GGUFQuantizationConfig] = Field(
-        default_factory=lambda: GGUFQuantizationConfig(),
-        description="GGUF quantization configuration"
-    )
-### -------
 @app.get("/", include_in_schema=False)
 def redirect_to_docs():
@@ -102,11 +61,11 @@ def convert(request: AWQConvertionRequest)->Union[FileResponse, dict]:
     raise HTTPException(status_code=500, detail="Failed to convert model")
 @app.post("/convert_gpt_q", response_model=None)
-def convert_gpt_q(request: ConvertRequest)->Union[FileResponse, dict]:
     raise HTTPException(status_code=501, detail="Not implemented yet")
 @app.post("/convert_gguf", response_model=None)
-def convert_gguf(request: ConvertRequest)->Union[FileResponse, dict]:
     raise HTTPException(status_code=501, detail="Not implemented yet")
 @app.get("/health")

 import zipfile
+from typing import Union
 from awq import AutoAWQForCausalLM
 from transformers import AutoTokenizer
 from tempfile import NamedTemporaryFile
 from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse, FileResponse
+from .dto import AWQConvertionRequest, GGUFConvertionRequest, GPTQConvertionRequest
 ### FastAPI Initialization
 @asynccontextmanager
 app = FastAPI(title="Huggingface Safetensor Model Converter to AWQ", version="0.1.0", lifespan=lifespan)
 ### -------
 @app.get("/", include_in_schema=False)
 def redirect_to_docs():
     raise HTTPException(status_code=500, detail="Failed to convert model")
 @app.post("/convert_gpt_q", response_model=None)
+def convert_gpt_q(request: GPTQConvertionRequest)->Union[FileResponse, dict]:
     raise HTTPException(status_code=501, detail="Not implemented yet")
 @app.post("/convert_gguf", response_model=None)
+def convert_gguf(request: GGUFConvertionRequest)->Union[FileResponse, dict]:
     raise HTTPException(status_code=501, detail="Not implemented yet")
 @app.get("/health")

requirements.txt CHANGED Viewed

@@ -5,10 +5,10 @@ torchaudio
 setuptools
 wheel
 pydantic
-fastapi[standard]
-transformers
 huggingface_hub
-autoawq[kernels]
 starlette>=0.46.2
 pytest
 requests

 setuptools
 wheel
 pydantic
+fastapi[standard]>=0.115.12
+transformers>=4.51.3
 huggingface_hub
+autoawq[kernels]>=0.2.8
 starlette>=0.46.2
 pytest
 requests

tests/test_awq.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import pytest
 import requests
 from environs import Env
-from huggingface_hub import login
 env = Env()
 env.read_env(override=True)
@@ -16,6 +15,9 @@ def test_incompatible_model():
                 "hf_push_repo": None,
             }
         )
         assert response.status_code == 400
@@ -23,7 +25,7 @@ def test_convert_download():
     response = requests.post(
         f"{env.str('ENDPOINT')}/convert_awq",
         json={
-            "hf_model_name": "Qwen/Qwen2.5-14B-Instruct",
         }
     )
@@ -33,7 +35,7 @@ def test_convert_download():
 def test_convert_push():
-    model_name = "Qwen/Qwen2.5-14B-Instruct"
     response = requests.post(
         f"{env.str('ENDPOINT')}/convert_awq",

 import pytest
 import requests
 from environs import Env
 env = Env()
 env.read_env(override=True)
                 "hf_push_repo": None,
             }
         )
+        response.raise_for_status()
         assert response.status_code == 400
     response = requests.post(
         f"{env.str('ENDPOINT')}/convert_awq",
         json={
+            "hf_model_name": "Qwen/Qwen2.5-7B-Instruct",
         }
     )
 def test_convert_push():
+    model_name = "Qwen/Qwen2.5-7B-Instruct"
     response = requests.post(
         f"{env.str('ENDPOINT')}/convert_awq",