laserbeam2045 commited on
Commit
a37edf7
·
1 Parent(s): 9fa7b35
Files changed (1) hide show
  1. app.py +8 -5
app.py CHANGED
@@ -9,10 +9,10 @@ from llama_cpp import Llama # llama-cpp-python をインポート
9
  # Hugging Face Hub の設定
10
  # -----------------------------------------------------------------------------
11
  HF_TOKEN = os.environ.get("HF_TOKEN") # 必要に応じて Secrets にセット
12
- REPO_ID = "google/gemma-3-4b-it-qat-q4_0-gguf"
13
- # 実際にリポジトリに置かれている GGUF ファイル名を確認してください。
14
- # 例: "gemma-3-12b-it-qat-q4_0-gguf.gguf"
15
- GGUF_FILENAME = "gemma-3-4b-it-q4_0.gguf"
16
 
17
  # キャッシュ先のパス(リポジトリ直下に置く場合)
18
  MODEL_PATH = os.path.join(os.getcwd(), GGUF_FILENAME)
@@ -54,7 +54,8 @@ except Exception as e:
54
  # -----------------------------------------------------------------------------
55
  # FastAPI 定義
56
  # -----------------------------------------------------------------------------
57
- app = FastAPI(title="Gemma3-4B-IT Q4_0 GGUF API")
 
58
 
59
  @app.get("/")
60
  async def read_root():
@@ -101,3 +102,5 @@ import uvicorn
101
  port = int(os.environ.get("PORT", 8000))
102
  # host="0.0.0.0" でコンテナ外からのアクセスを許可
103
  uvicorn.run(app, host="0.0.0.0", port=port, log_level="info")
 
 
 
9
  # Hugging Face Hub の設定
10
  # -----------------------------------------------------------------------------
11
  HF_TOKEN = os.environ.get("HF_TOKEN") # 必要に応じて Secrets にセット
12
+ # より軽量な Gemma 2B モデルに変更
13
+ REPO_ID = "google/gemma-2b-it-gguf"
14
+ # Gemma 2B の Q4_0 GGUF ファイル名 (リポジトリで確認)
15
+ GGUF_FILENAME = "gemma-2b-it-q4_0.gguf"
16
 
17
  # キャッシュ先のパス(リポジトリ直下に置く場合)
18
  MODEL_PATH = os.path.join(os.getcwd(), GGUF_FILENAME)
 
54
  # -----------------------------------------------------------------------------
55
  # FastAPI 定義
56
  # -----------------------------------------------------------------------------
57
+ # タイトルもモデルに合わせて変更
58
+ app = FastAPI(title="Gemma-2B-IT Q4_0 GGUF API")
59
 
60
  @app.get("/")
61
  async def read_root():
 
102
  port = int(os.environ.get("PORT", 8000))
103
  # host="0.0.0.0" でコンテナ外からのアクセスを許可
104
  uvicorn.run(app, host="0.0.0.0", port=port, log_level="info")
105
+
106
+ # curl -X POST https://alphaphoenix-matrix.hf.space/generate -H "Content-Type: application/json" -d '{"prompt": "日本の首都は?"}'