Spaces:

scademy
/

distilbert-sentiment-analysis

Running

richardkovacs commited on Nov 22, 2023

Commit

11d3b20

1 Parent(s): fca027b

feat: add dataset preparator script

Files changed (2) hide show

.gitignore CHANGED Viewed

@@ -1,3 +1,4 @@
 venv
 flagged
 .env

 venv
 flagged
 .env
+*.csv

dataset.py ADDED Viewed

+from datasets import load_dataset
+import pandas as pd
+divider = 1
+data_size = 25000 // divider
+case_size = data_size // 2
+dataset = load_dataset("imdb")
+train_df = pd.DataFrame(dataset['train'])
+test_df = pd.DataFrame(dataset['test'])
+train_df = train_df.iloc[::divider, :]
+test_df = test_df.iloc[::divider, :]
+train_df['label'] = train_df['label'].apply(lambda x: 'NEGATIVE' if x == 0 else 'POSITIVE')
+test_df['label'] = test_df['label'].apply(lambda x: 'NEGATIVE' if x == 0 else 'POSITIVE')
+train_df.to_csv(f'imdb_train_{case_size}_{case_size}.csv', index=False)
+test_df.to_csv(f'imdb_test_{case_size}_{case_size}.csv', index=False)