TheStinger/Ilaria_RVC · Report: Not Working @ 5:45 PM EST 11/15/24

Nov 15, 2024

Currently not inferencing.

Nov 16, 2024

not inferencing at 11 AM 11/16/24 because the GPU keeps going on and off

Nov 25, 2024

gpu task aborted error every time 8:20 PM 11/24/24

Dec 7, 2024

same problem as 11/16/24, GPU keeps turning on and off

soiz1

Jun 27

1. GPU がオン／オフを繰り返す理由

コールドスタート／アイドルタイムアウト
- Hugging Face Spaces 上の GPU インスタンスは、一定時間使われないと自動的に「スリープ」状態になり、再度リクエストが来ると再起動されます。
リソース競合・プリエンプション
- 無料プランでは他ユーザーとの共有リソースとなるため、長時間連続して使うとセッションが切られることがあります。
メモリ不足／OOM (Out-Of-Memory)
- モデルロードやバッチ推論時に GPU メモリが足りず、タスクが強制終了される場合があります。

import torch

def infer(...):
    # 推論処理
    ...
    torch.cuda.empty_cache()
    return output

キュー機能の有効化
- gr.Interface／gr.Blocks に対して enable_queue=True を指定し、@app .queue() デコレータでキュー処理を使うと、同時アクセスがあっても安定しやすくなります。
```
import gradio as gr



@app
	.queue()
def inference(...):
    ...
demo = gr.Interface(fn=inference, ..., enable_queue=True)
```
タイムアウト延長
- Spaces の「Settings」→「Advanced settings」で「⏱️ Request timeout (sec)」をデフォルトの 60→120 秒などに延長すると、コールドスタートに伴う遅延でタイムアウトしにくくなります。

Spaces の「Logs」タブ
- エラーメッセージ全文 (OOM、CUDA エラー等) が出力されているはずです。これは、管理者のみが見ることができます。
代わりの方法：ローカル再現
- git clone してローカル GPU 環境で動作確認し、どこで落ちるか特定すると原因追及がしやすくなります。