Spaces:

unitxt
/

metric

Running

App Files Files Community

Elron commited on 1 day ago

Commit

b66f73e

verified ·

1 Parent(s): e013bd8

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

inference.py +18 -6
version.py +1 -1

inference.py CHANGED Viewed

@@ -79,7 +79,7 @@ class StandardAPIParamsMixin(Artifact):
     n: Optional[int] = None
     parallel_tool_calls: Optional[bool] = None
     service_tier: Optional[Literal["auto", "default"]] = None
-    credentials: Optional[Dict[str, str]] = {}
     extra_headers: Optional[Dict[str, str]] = None
@@ -468,7 +468,7 @@ class LazyLoadMixin(Artifact):
 class HFGenerationParamsMixin(Artifact):
-    max_new_tokens: int
     do_sample: bool = False
     temperature: Optional[float] = None
     top_p: Optional[float] = None
@@ -488,6 +488,7 @@ class HFInferenceEngineBase(
     TorchDeviceMixin,
 ):
     model_name: str
     label: str
     n_top_tokens: int = 5
@@ -710,8 +711,9 @@ class HFAutoModelInferenceEngine(HFInferenceEngineBase):
     def _init_processor(self):
         from transformers import AutoTokenizer
         self.processor = AutoTokenizer.from_pretrained(
-            pretrained_model_name_or_path=self.model_name,
             use_fast=self.use_fast_tokenizer,
         )
@@ -1120,6 +1122,7 @@ class HFPipelineBasedInferenceEngine(
     TorchDeviceMixin,
 ):
     model_name: str
     label: str = "hf_pipeline_inference_engine"
     use_fast_tokenizer: bool = True
@@ -1217,8 +1220,8 @@ class HFPipelineBasedInferenceEngine(
         path = self.model_name
         if settings.hf_offline_models_path is not None:
             path = os.path.join(settings.hf_offline_models_path, path)
-        tokenizer = AutoTokenizer.from_pretrained(self.model_name)
         self.model = pipeline(
             model=path,
             task=self.task,
@@ -3359,6 +3362,8 @@ class LiteLLMInferenceEngine(
         return get_model_and_label_id(self.model, self.label)
     def prepare_engine(self):
         # Initialize the token bucket rate limiter
         self._rate_limiter = AsyncTokenBucket(
             rate=self.max_requests_per_second,
@@ -3474,7 +3479,7 @@ class CrossProviderInferenceEngine(InferenceEngine, StandardAPIParamsMixin):
     user requests.
     Current _supported_apis = ["watsonx", "together-ai", "open-ai", "aws", "ollama",
-    "bam", "watsonx-sdk", "rits", "vertex-ai"]
     Args:
         provider (Optional):
@@ -3681,6 +3686,11 @@ class CrossProviderInferenceEngine(InferenceEngine, StandardAPIParamsMixin):
             "mixtral-8x7b-instruct-v0.1": "replicate/mistralai/mixtral-8x7b-instruct-v0.1",
             "gpt-4-1": "replicate/openai/gpt-4.1",
         },
     }
     provider_model_map["watsonx"] = {
         k: f"watsonx/{v}" for k, v in provider_model_map["watsonx-sdk"].items()
@@ -3698,12 +3708,14 @@ class CrossProviderInferenceEngine(InferenceEngine, StandardAPIParamsMixin):
         "azure": LiteLLMInferenceEngine,
         "vertex-ai": LiteLLMInferenceEngine,
         "replicate": LiteLLMInferenceEngine,
     }
     _provider_param_renaming = {
         "bam": {"max_tokens": "max_new_tokens", "model": "model_name"},
         "watsonx-sdk": {"model": "model_name"},
         "rits": {"model": "model_name"},
     }
     def get_return_object(self, **kwargs):

     n: Optional[int] = None
     parallel_tool_calls: Optional[bool] = None
     service_tier: Optional[Literal["auto", "default"]] = None
+    credentials: Optional[Dict[str, str]] = None
     extra_headers: Optional[Dict[str, str]] = None
 class HFGenerationParamsMixin(Artifact):
+    max_new_tokens: Optional[int] = None
     do_sample: bool = False
     temperature: Optional[float] = None
     top_p: Optional[float] = None
     TorchDeviceMixin,
 ):
     model_name: str
+    tokenizer_name: Optional[str] = None
     label: str
     n_top_tokens: int = 5
     def _init_processor(self):
         from transformers import AutoTokenizer
+        tokenizer_name = self.tokenizer_name or self.model_name
         self.processor = AutoTokenizer.from_pretrained(
+            pretrained_model_name_or_path=tokenizer_name,
             use_fast=self.use_fast_tokenizer,
         )
     TorchDeviceMixin,
 ):
     model_name: str
+    tokenizer_name: Optional[str] = None
     label: str = "hf_pipeline_inference_engine"
     use_fast_tokenizer: bool = True
         path = self.model_name
         if settings.hf_offline_models_path is not None:
             path = os.path.join(settings.hf_offline_models_path, path)
+        tokenizer_name = self.tokenizer_name or self.model_name
+        tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
         self.model = pipeline(
             model=path,
             task=self.task,
         return get_model_and_label_id(self.model, self.label)
     def prepare_engine(self):
+        if self.credentials is None:
+            self.credentials = {}
         # Initialize the token bucket rate limiter
         self._rate_limiter = AsyncTokenBucket(
             rate=self.max_requests_per_second,
     user requests.
     Current _supported_apis = ["watsonx", "together-ai", "open-ai", "aws", "ollama",
+    "bam", "watsonx-sdk", "rits", "vertex-ai","hf-local"]
     Args:
         provider (Optional):
             "mixtral-8x7b-instruct-v0.1": "replicate/mistralai/mixtral-8x7b-instruct-v0.1",
             "gpt-4-1": "replicate/openai/gpt-4.1",
         },
+        "hf-local": {
+            "granite-3-3-8b-instruct": "ibm-granite/granite-3.3-8b-instruct",
+            "llama-3-3-8b-instruct": "meta-llama/Llama-3.3-8B-Instruct",
+            "SmolLM2-1.7B-Instruct": "HuggingFaceTB/SmolLM2-1.7B-Instruct",
+        },
     }
     provider_model_map["watsonx"] = {
         k: f"watsonx/{v}" for k, v in provider_model_map["watsonx-sdk"].items()
         "azure": LiteLLMInferenceEngine,
         "vertex-ai": LiteLLMInferenceEngine,
         "replicate": LiteLLMInferenceEngine,
+        "hf-local": HFAutoModelInferenceEngine,
     }
     _provider_param_renaming = {
         "bam": {"max_tokens": "max_new_tokens", "model": "model_name"},
         "watsonx-sdk": {"model": "model_name"},
         "rits": {"model": "model_name"},
+        "hf-local": {"model": "model_name"},
     }
     def get_return_object(self, **kwargs):

version.py CHANGED Viewed

	@@ -1 +1 @@
1	- version = "1.26.1"


1	+ version = "1.26.2"