fredzzp
/

open-dcoder-0.5B

@@ -470,10 +470,6 @@ class Qwen2RotaryEmbedding(nn.Module):
         sin = sin * self.attention_scaling
         return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
-@add_start_docstrings(
-    "The bare Qwen2 Model outputting raw hidden-states without any specific head on top.",
-    QWEN2_START_DOCSTRING,
-)
 class Qwen2PreTrainedModel(PreTrainedModel):
     # ... (class unchanged)
     config_class = Qwen2Config
@@ -654,7 +650,6 @@ class Qwen2ForCausalLM(Qwen2PreTrainedModel, MDMGenerationMixin):
     def get_decoder(self):
         return self.model
-    @add_start_docstrings_to_model_forward(QWEN2_INPUTS_DOCSTRING)
     @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
     def forward(
         self,

         sin = sin * self.attention_scaling
         return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
 class Qwen2PreTrainedModel(PreTrainedModel):
     # ... (class unchanged)
     config_class = Qwen2Config
     def get_decoder(self):
         return self.model
     @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
     def forward(
         self,