Spaces:

frameai
/

Loxa-1.6B-uncensored

Sleeping

File size: 1,350 Bytes

6dae430
02ce4ee
19c180b
6dae430
19c180b
6dae430
02ce4ee
6dae430
 
 
19c180b
6dae430
 
 
 
02ce4ee
19c180b
 
 
 
 
 
 
6dae430
 
19c180b
6dae430
19c180b
 
 
 
6dae430
 
19c180b
 
6dae430
19c180b
 
6dae430
 
 
 
 
19c180b
02ce4ee
6dae430
 
 
 
 
 
 
 
 
 
19c180b
6dae430
19c180b

import gradio as gr
import os
from huggingface_hub import InferenceClient

client = InferenceClient("explorewithai/Loxa-1.6B")

meo_system = os.environ.get("MEO")

def respond(
    message,
    history: list[tuple[str, str]],
    max_tokens,
    temperature,
    top_p,
):
    messages = [{"role": "system", "content": meo_system}]

    for val in history:
        if val[0]:
            messages.append({"role": "user", "content": val[0]})
        if val[1]:
            messages.append({"role": "assistant", "content": val[1]})

    messages.append({"role": "user", "content": message})

    response = ""

    for message in client.chat_completion(
        messages,
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
    ):
        token = message.choices[0].delta.content

        response += token
        yield response


demo = gr.ChatInterface(
    respond,
    additional_inputs=[
        gr.Slider(minimum=1, maximum=2048, value=2048, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05,
            label="Top-p (nucleus sampling)",
        ),
    ],
)


if __name__ == "__main__":
    demo.launch()