gguf-my-repo

Running

App Files Files Community

Oleg Shulyakov commited on 12 days ago

Commit

1147115

1 Parent(s): e7b8f47

Update _split_and_upload_model

Browse files

Files changed (1) hide show

app.py +14 -12

app.py CHANGED Viewed

@@ -169,11 +169,13 @@ class HuggingFaceModelProcessor:
         print(f"Importance matrix generation completed: {os.path.abspath(quant_config.imatrix_file)}")
-    def _split_and_upload_model(self, model_path: str, outdir: str, repo_id: str, token: str,
-                               split_config: SplitConfig) -> None:
         """Split large model files and upload shards."""
-        print(f"Model path: {model_path}")
-        print(f"Output dir: {outdir}")
         split_cmd = ["llama-gguf-split", "--split"]
@@ -182,8 +184,8 @@ class HuggingFaceModelProcessor:
         else:
             split_cmd.extend(["--split-max-tensors", str(split_config.max_tensors)])
-        model_path_prefix = '.'.join(model_path.split('.')[:-1])
-        split_cmd.extend([model_path, model_path_prefix])
         print(f"Split command: {split_cmd}")
         result = subprocess.run(split_cmd, shell=False, capture_output=True, text=True)
@@ -198,14 +200,14 @@ class HuggingFaceModelProcessor:
         print("Model split successfully!")
         # Remove original model file
-        if os.path.exists(model_path):
-            os.remove(model_path)
         model_file_prefix = model_path_prefix.split('/')[-1]
         print(f"Model file name prefix: {model_file_prefix}")
         sharded_model_files = [
-            f for f in os.listdir(outdir)
             if f.startswith(model_file_prefix) and f.endswith(".gguf")
         ]
@@ -214,10 +216,10 @@ class HuggingFaceModelProcessor:
         print(f"Sharded model files: {sharded_model_files}")
         for file in sharded_model_files:
-            file_path = os.path.join(outdir, file)
             try:
                 print(f"Uploading file: {file_path}")
-                self._upload_file(token, file_path, file, repo_id)
             except Exception as e:
                 raise GGUFConverterError(f"Error uploading file {file_path}: {e}")
@@ -402,7 +404,7 @@ llama-server --hf-repo "{processing_config.new_repo_id}" --hf-file "{processing_
         # Upload model
         if split_config.enabled:
             print(f"Splitting quantized model: {os.path.abspath(quant_config.quantized_gguf)}")
-            self._split_and_upload_model(quant_config.quantized_gguf, processing_config.outdir, processing_config.new_repo_id, processing_config.token, split_config)
         else:
             try:
                 print(f"Uploading quantized model: {os.path.abspath(quant_config.quantized_gguf)}")

         print(f"Importance matrix generation completed: {os.path.abspath(quant_config.imatrix_file)}")
+    def _split_and_upload_model(self, processing_config: ModelProcessingConfig) -> None:
         """Split large model files and upload shards."""
+        quant_config = processing_config.quant_config
+        split_config = processing_config.split_config
+        print(f"Model path: {quant_config.quantized_gguf}")
+        print(f"Output dir: {processing_config.outdir}")
         split_cmd = ["llama-gguf-split", "--split"]
         else:
             split_cmd.extend(["--split-max-tensors", str(split_config.max_tensors)])
+        model_path_prefix = '.'.join(quant_config.quantized_gguf.split('.')[:-1])
+        split_cmd.extend([quant_config.quantized_gguf, model_path_prefix])
         print(f"Split command: {split_cmd}")
         result = subprocess.run(split_cmd, shell=False, capture_output=True, text=True)
         print("Model split successfully!")
         # Remove original model file
+        if os.path.exists(quant_config.quantized_gguf):
+            os.remove(quant_config.quantized_gguf)
         model_file_prefix = model_path_prefix.split('/')[-1]
         print(f"Model file name prefix: {model_file_prefix}")
         sharded_model_files = [
+            f for f in os.listdir(processing_config.outdir)
             if f.startswith(model_file_prefix) and f.endswith(".gguf")
         ]
         print(f"Sharded model files: {sharded_model_files}")
         for file in sharded_model_files:
+            file_path = os.path.join(processing_config.outdir, file)
             try:
                 print(f"Uploading file: {file_path}")
+                self._upload_file(processing_config, file_path, file)
             except Exception as e:
                 raise GGUFConverterError(f"Error uploading file {file_path}: {e}")
         # Upload model
         if split_config.enabled:
             print(f"Splitting quantized model: {os.path.abspath(quant_config.quantized_gguf)}")
+            self._split_and_upload_model(processing_config)
         else:
             try:
                 print(f"Uploading quantized model: {os.path.abspath(quant_config.quantized_gguf)}")