Spaces:

VIDraft
/

ThinkFlow-llama

Running on Zero

openfree commited on Mar 24

Commit

5d8d623

verified ·

1 Parent(s): 2198075

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -77,12 +77,12 @@ MODEL_CONFIG = {
     "medium": {  # 10B-30B
         "max_memory": {0: "40GiB"},
         "offload": False,
-        "quantization": "4bit"
     },
     "large": {  # >30B
         "max_memory": {0: "70GiB"},
         "offload": True,
-        "quantization": "4bit"
     }
 }
@@ -166,8 +166,17 @@ def load_model(model_names):
             "trust_remote_code": True,
         }
-        # BF16 정밀도 사용 (A100에 최적화)
-        if config["quantization"]:
             # 양자화 적용
             from transformers import BitsAndBytesConfig
             quantization_config = BitsAndBytesConfig(
@@ -180,7 +189,7 @@ def load_model(model_names):
                 device_map="auto",
                 max_memory=config["max_memory"],
                 torch_dtype=DTYPE,
-                quantization_config=quantization_config if config["quantization"] else None,
                 offload_folder="offload" if config["offload"] else None,
                 **common_params
             )

     "medium": {  # 10B-30B
         "max_memory": {0: "40GiB"},
         "offload": False,
+        "quantization": None  # BitsAndBytes 문제로 양자화 비활성화
     },
     "large": {  # >30B
         "max_memory": {0: "70GiB"},
         "offload": True,
+        "quantization": None  # BitsAndBytes 문제로 양자화 비활성화
     }
 }
             "trust_remote_code": True,
         }
+        # BitsAndBytes 사용 가능 여부 확인
+        try:
+            import bitsandbytes
+            has_bitsandbytes = True
+            print("BitsAndBytes 라이브러리 로드 성공")
+        except ImportError:
+            has_bitsandbytes = False
+            print("BitsAndBytes 라이브러리를 찾을 수 없습니다. 양자화 없이 모델을 로드합니다.")
+        # 양자화 설정이 필요하고 BitsAndBytes를 사용할 수 있는 경우
+        if config["quantization"] and has_bitsandbytes:
             # 양자화 적용
             from transformers import BitsAndBytesConfig
             quantization_config = BitsAndBytesConfig(
                 device_map="auto",
                 max_memory=config["max_memory"],
                 torch_dtype=DTYPE,
+                quantization_config=quantization_config,
                 offload_folder="offload" if config["offload"] else None,
                 **common_params
             )