HoiAlice commited on
Commit
c18367a
·
1 Parent(s): b693e02
Files changed (1) hide show
  1. app.py +12 -7
app.py CHANGED
@@ -12,7 +12,7 @@ def load_model():
12
  inference_model = AutoModelForSequenceClassification.from_pretrained(model_path)
13
  return pipeline("text-classification", model=inference_model, tokenizer=inference_tokenizer, top_k=None)
14
 
15
- def top_pct(preds, threshold: float = 0.95):
16
  """Возвращает топ предсказаний, пока их суммарная вероятность не превысит threshold"""
17
  if not preds:
18
  return []
@@ -47,7 +47,7 @@ threshold = st.slider(
47
  "Порог уверенности (суммарная вероятность тематик):",
48
  min_value=0.5,
49
  max_value=1.0,
50
- value=0.95,
51
  step=0.05
52
  )
53
 
@@ -82,14 +82,19 @@ if st.button("Определить тематики"):
82
  with st.sidebar:
83
  st.markdown("""
84
  ## О сервисе
85
- Этот сервис использует модель PubMedBERT, обученную для классификации научных статей по тематикам.
86
 
87
  ### Как использовать:
88
  1. Введите текст абстракта в поле ввода
89
- 2. Отрегулируйте порог уверенности (по умолчанию 0.95)
90
  3. Нажмите кнопку "Определить тематики"
91
 
92
  ### Техническая информация:
93
- - Используемое устройство: {'GPU' if device == 'cuda' else 'CPU'}
94
- - Модель: oracat/bert-paper-classifier-arxiv
95
- """)
 
 
 
 
 
 
12
  inference_model = AutoModelForSequenceClassification.from_pretrained(model_path)
13
  return pipeline("text-classification", model=inference_model, tokenizer=inference_tokenizer, top_k=None)
14
 
15
+ def top_pct(preds, threshold: float = 0.9):
16
  """Возвращает топ предсказаний, пока их суммарная вероятность не превысит threshold"""
17
  if not preds:
18
  return []
 
47
  "Порог уверенности (суммарная вероятность тематик):",
48
  min_value=0.5,
49
  max_value=1.0,
50
+ value=0.9,
51
  step=0.05
52
  )
53
 
 
82
  with st.sidebar:
83
  st.markdown("""
84
  ## О сервисе
85
+ Этот сервис использует модель уже обученную языковую модель для выделения тематики статьи по ее описанию.
86
 
87
  ### Как использовать:
88
  1. Введите текст абстракта в поле ввода
89
+ 2. Отрегулируйте порог уверенности (по умолчанию 0.90)
90
  3. Нажмите кнопку "Определить тематики"
91
 
92
  ### Техническая информация:
93
+ - Используемый датасет: [arXiv papers](https://www.kaggle.com/datasets/neelshah18/arxivdataset)
94
+ - Модель: [BiomedNLP-PubMedBERT](https://huggingface.co/microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract)
95
+
96
+ ### Благодарности:
97
+ - Большое спасибо Диму Сафину, Ekaterina Zabairachnaya и Андрею Панферову за содержательную критику и активную поддержку,
98
+ без вас бы я уже ливнул бы отседова.
99
+ """
100
+ )