|
--- |
|
language: en |
|
license: apache-2.0 |
|
library_name: transformers |
|
tags: |
|
- distilbert |
|
- text-classification |
|
- emotion-analysis |
|
- pytorch |
|
- mac-m4-test |
|
pipeline_tag: text-classification |
|
widget: |
|
- text: "I'm so excited to try out the new Mac Mini M4 for machine learning!" |
|
example_title: "Excitement Example" |
|
- text: "I'm a bit worried about the performance on complex tasks." |
|
example_title: "Worry Example" |
|
- text: "I am so grateful for all the help you have provided." |
|
example_title: "Gratitude Example" |
|
--- |
|
|
|
# `distilbert-base-uncased` Finetuned for Emotion Analysis |
|
|
|
这是一个基于 `distilbert-base-uncased` 微调的、能够识别 **28种细粒度情感** 的分析模型。 |
|
|
|
**特别说明:这个模型主要是为了测试在新款 Mac Mini M4 上进行本地模型微调的流程和性能而创建的一次技术尝试。因此,它没有经过详尽的评估,主要用于演示和实验目的。** |
|
|
|
## 模型描述 |
|
|
|
本模型可以识别文本中蕴含的 28 种不同的情绪。这比传统的情感分析(如积极/消极/中性)提供了更丰富、更细致的视角。 |
|
|
|
完整的标签列表如下: |
|
|
|
| Label | 中文 | Label | 中文 | |
|
| :--- | :--- | :--- | :--- | |
|
| `admiration` | 钦佩 | `gratitude` | 感谢 | |
|
| `amusement` | 娱乐 | `grief` | 悲痛 | |
|
| `anger` | 愤怒 | `joy` | 开心 | |
|
| `annoyance` | 烦躁 | `love` | 爱 | |
|
| `approval` | 认同 | `nervousness` | 紧张 | |
|
| `caring` | 关心 | `optimism` | 乐观 | |
|
| `confusion` | 困惑 | `pride` | 自豪 | |
|
| `curiosity` | 好奇 | `realization` | 顿悟 | |
|
| `desire` | 渴望 | `relief` | 如释重负 | |
|
| `disappointment` | 失望 | `remorse` | 懊悔 | |
|
| `disapproval` | 不认同 | `sadness` | 悲伤 | |
|
| `disgust` | 厌恶 | `surprise` | 惊讶 | |
|
| `embarrassment`| 尴尬 | `neutral` | 中性 | |
|
| `excitement` | 激动 | `fear` | 害怕 | |
|
|
|
|
|
## 如何使用 (How to Use) |
|
|
|
你可以通过 `transformers` 库的 `pipeline` 轻松使用这个模型。 |
|
|
|
```python |
|
from transformers import pipeline |
|
|
|
# 使用模型 ID 加载 pipeline |
|
model_id = "tourcoder/distilbert-base-uncased-finetuned-emotion-analysis" |
|
emotion_classifier = pipeline("text-classification", model=model_id) |
|
|
|
# 进行预测 |
|
text = "I can't believe I finished the project, I am so relieved!" |
|
results = emotion_classifier(text) |
|
|
|
print(results) |
|
# 预期输出: [{'label': 'relief', 'score': 0.9...}] |
|
``` |
|
|
|
### 在 Apple Silicon (M1/M2/M3/M4) 上运行 |
|
|
|
如果你在 Mac 上使用,可以指定设备为 `"mps"` 来利用 Apple Silicon 的 GPU 加速。 |
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForSequenceClassification |
|
import torch |
|
|
|
# 模型ID |
|
model_id = "tourcoder/distilbert-base-uncased-finetuned-emotion-analysis" |
|
|
|
# 检查 MPS 是否可用 |
|
device = "mps" if torch.backends.mps.is_available() else "cpu" |
|
print(f"Using device: {device}") |
|
|
|
# 加载模型和分词器 |
|
tokenizer = AutoTokenizer.from_pretrained(model_id) |
|
model = AutoModelForSequenceClassification.from_pretrained(model_id).to(device) |
|
|
|
# 准备输入 |
|
text = "This experiment on the Mac Mini M4 was a great success!" |
|
inputs = tokenizer(text, return_tensors="pt").to(device) |
|
|
|
# 推理 |
|
with torch.no_grad(): |
|
logits = model(**inputs).logits |
|
|
|
# 获取预测结果 |
|
predicted_class_id = logits.argmax().item() |
|
predicted_label = model.config.id2label[predicted_class_id] |
|
|
|
print(f"Text: '{text}'") |
|
print(f"Predicted emotion: {predicted_label}") |
|
# 预期输出: Predicted emotion: joy (或 pride / admiration) |
|
``` |
|
|
|
## 训练与实验说明 |
|
|
|
* **实验目的**: 验证和体验在 **Mac Mini (M4 芯片)** 上使用 PyTorch 和 `transformers` 库进行本地模型微调的完整流程。 |
|
* **硬件**: Apple Mac Mini (M4 Chip) |
|
* **框架**: PyTorch (利用 MPS 后端进行加速) |
|
* **基础模型**: `distilbert-base-uncased` |
|
* **数据集**: 该模型使用了包含28个情感标签的数据集进行微调,自制数据集。 |
|
* **免责声明**: 这是一个概念验证(Proof of Concept)模型。其性能和鲁棒性未经过严格测试,不建议直接用于生产环境。 |
|
|
|
## 局限性 (Limitations) |
|
|
|
* `distilbert` 是一个轻量级模型,虽然速度快,但在理解复杂和细微的情感上可能不如更大的模型(如 `RoBERTa` 或 `DeBERTa`)。 |
|
* 模型的表现高度依赖于其训练数据。对于训练集中未涵盖的文本风格或领域,其预测可能不准确。 |
|
* 模型可能会反映出训练数据中存在的偏见。 |
|
|