diff --git "a/html/0-2 Train_model.html" "b/html/0-2 Train_model.html" --- "a/html/0-2 Train_model.html" +++ "b/html/0-2 Train_model.html" @@ -3,7 +3,7 @@
-%%capture
@@ -15131,6 +15252,167 @@ body[data-format='mobile'] .jp-OutputArea-child .jp-OutputArea-output {
Requirement already satisfied: transformers in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (4.27.4) +Requirement already satisfied: wandb in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (0.14.2) +Collecting torchmetrics + Using cached torchmetrics-0.11.4-py3-none-any.whl (519 kB) +Collecting lightning + Downloading lightning-2.0.3-py3-none-any.whl (1.8 MB) + ---------------------------------------- 0.0/1.8 MB ? eta -:--:-- + - -------------------------------------- 0.1/1.8 MB 2.6 MB/s eta 0:00:01 + ----- ---------------------------------- 0.2/1.8 MB 2.9 MB/s eta 0:00:01 + ----------- ---------------------------- 0.5/1.8 MB 4.6 MB/s eta 0:00:01 + ------------------------ --------------- 1.1/1.8 MB 6.5 MB/s eta 0:00:01 + ---------------------------------------- 1.8/1.8 MB 8.4 MB/s eta 0:00:00 +Requirement already satisfied: tqdm>=4.27 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (4.65.0) +Requirement already satisfied: huggingface-hub<1.0,>=0.11.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (0.13.4) +Requirement already satisfied: numpy>=1.17 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (1.24.2) +Requirement already satisfied: regex!=2019.12.17 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (2023.3.23) +Requirement already satisfied: tokenizers!=0.11.3,<0.14,>=0.11.1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (0.13.3) +Requirement already satisfied: filelock in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (3.11.0) +Requirement already satisfied: requests in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (2.28.2) +Requirement already satisfied: packaging>=20.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (23.0) +Requirement already satisfied: pyyaml>=5.1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from transformers) (6.0) +Requirement already satisfied: GitPython!=3.1.29,>=1.0.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (3.1.31) +Requirement already satisfied: pathtools in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (0.1.2) +Requirement already satisfied: appdirs>=1.4.3 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (1.4.4) +Requirement already satisfied: docker-pycreds>=0.4.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (0.4.0) +Requirement already satisfied: Click!=8.0.0,>=7.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (8.1.3) +Requirement already satisfied: setproctitle in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (1.3.2) +Requirement already satisfied: protobuf!=4.21.0,<5,>=3.19.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (4.22.3) +Requirement already satisfied: sentry-sdk>=1.0.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (1.19.1) +Requirement already satisfied: psutil>=5.0.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (5.9.4) +Requirement already satisfied: setuptools in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from wandb) (67.6.1) +Requirement already satisfied: torch>=1.8.1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from torchmetrics) (1.13.1) +Collecting lightning-utilities<2.0,>=0.7.0 + Using cached lightning_utilities-0.8.0-py3-none-any.whl (20 kB) +Collecting arrow<3.0,>=1.2.0 + Using cached arrow-1.2.3-py3-none-any.whl (66 kB) +Collecting fastapi<0.89.0,>=0.69.0 + Using cached fastapi-0.88.0-py3-none-any.whl (55 kB) +Collecting pytorch-lightning + Downloading pytorch_lightning-2.0.3-py3-none-any.whl (720 kB) + ---------------------------------------- 0.0/720.6 kB ? eta -:--:-- + ------------------------------------- 720.6/720.6 kB 44.4 MB/s eta 0:00:00 +Requirement already satisfied: traitlets<7.0,>=5.3.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from lightning) (5.9.0) +Requirement already satisfied: Jinja2<5.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from lightning) (3.1.2) +Collecting starsessions<2.0,>=1.2.1 + Using cached starsessions-1.3.0-py3-none-any.whl (10 kB) +Collecting deepdiff<8.0,>=5.7.0 + Using cached deepdiff-6.3.0-py3-none-any.whl (69 kB) +Collecting croniter<1.4.0,>=1.3.0 + Using cached croniter-1.3.15-py2.py3-none-any.whl (19 kB) +Requirement already satisfied: urllib3<3.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from lightning) (1.26.15) +Collecting python-multipart<2.0,>=0.0.5 + Using cached python_multipart-0.0.6-py3-none-any.whl (45 kB) +Requirement already satisfied: typing-extensions<6.0,>=4.0.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from lightning) (4.5.0) +Requirement already satisfied: fsspec<2024.0,>=2022.5.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from lightning) (2023.4.0) +Collecting starlette + Downloading starlette-0.28.0-py3-none-any.whl (68 kB) + ---------------------------------------- 0.0/68.9 kB ? eta -:--:-- + ---------------------------------------- 68.9/68.9 kB 3.7 MB/s eta 0:00:00 +Collecting lightning-cloud>=0.5.34 + Using cached lightning_cloud-0.5.36-py3-none-any.whl (562 kB) +Collecting websockets<12.0 + Using cached websockets-11.0.3-cp310-cp310-win_amd64.whl (124 kB) +Collecting dateutils<2.0 + Using cached dateutils-0.6.12-py2.py3-none-any.whl (5.7 kB) +Requirement already satisfied: pydantic<4.0,>=1.7.4 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from lightning) (1.10.7) +Collecting beautifulsoup4<6.0,>=4.8.0 + Using cached beautifulsoup4-4.12.2-py3-none-any.whl (142 kB) +Collecting rich<15.0,>=12.3.0 + Using cached rich-13.4.1-py3-none-any.whl (239 kB) +Collecting inquirer<5.0,>=2.10.0 + Using cached inquirer-3.1.3-py3-none-any.whl (18 kB) +Collecting uvicorn<2.0 + Using cached uvicorn-0.22.0-py3-none-any.whl (58 kB) +Collecting websocket-client<3.0 + Using cached websocket_client-1.5.2-py3-none-any.whl (56 kB) +Requirement already satisfied: python-dateutil>=2.7.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from arrow<3.0,>=1.2.0->lightning) (2.8.2) +Collecting soupsieve>1.2 + Using cached soupsieve-2.4.1-py3-none-any.whl (36 kB) +Requirement already satisfied: colorama in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from Click!=8.0.0,>=7.0->wandb) (0.4.6) +Requirement already satisfied: pytz in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from dateutils<2.0->lightning) (2023.3) +Collecting ordered-set<4.2.0,>=4.0.2 + Using cached ordered_set-4.1.0-py3-none-any.whl (7.6 kB) +Requirement already satisfied: six>=1.4.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from docker-pycreds>=0.4.0->wandb) (1.16.0) +Collecting starlette + Using cached starlette-0.22.0-py3-none-any.whl (64 kB) +Collecting anyio<5,>=3.4.0 + Using cached anyio-3.7.0-py3-none-any.whl (80 kB) +Requirement already satisfied: aiohttp!=4.0.0a0,!=4.0.0a1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from fsspec<2024.0,>=2022.5.0->lightning) (3.8.4) +Requirement already satisfied: gitdb<5,>=4.0.1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from GitPython!=3.1.29,>=1.0.0->wandb) (4.0.10) +Collecting readchar>=3.0.6 + Using cached readchar-4.0.5-py3-none-any.whl (8.5 kB) +Collecting python-editor>=1.0.4 + Using cached python_editor-1.0.4-py3-none-any.whl (4.9 kB) +Collecting blessed>=1.19.0 + Using cached blessed-1.20.0-py2.py3-none-any.whl (58 kB) +Requirement already satisfied: MarkupSafe>=2.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from Jinja2<5.0->lightning) (2.1.2) +Collecting pyjwt + Using cached PyJWT-2.7.0-py3-none-any.whl (22 kB) +Requirement already satisfied: idna<4,>=2.5 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from requests->transformers) (3.4) +Requirement already satisfied: charset-normalizer<4,>=2 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from requests->transformers) (3.1.0) +Requirement already satisfied: certifi>=2017.4.17 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from requests->transformers) (2022.12.7) +Collecting markdown-it-py<3.0.0,>=2.2.0 + Using cached markdown_it_py-2.2.0-py3-none-any.whl (84 kB) +Requirement already satisfied: pygments<3.0.0,>=2.13.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from rich<15.0,>=12.3.0->lightning) (2.15.0) +Collecting itsdangerous<3.0.0,>=2.0.1 + Using cached itsdangerous-2.1.2-py3-none-any.whl (15 kB) +Collecting h11>=0.8 + Using cached h11-0.14.0-py3-none-any.whl (58 kB) +Requirement already satisfied: async-timeout<5.0,>=4.0.0a3 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec<2024.0,>=2022.5.0->lightning) (4.0.2) +Requirement already satisfied: aiosignal>=1.1.2 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec<2024.0,>=2022.5.0->lightning) (1.3.1) +Requirement already satisfied: yarl<2.0,>=1.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec<2024.0,>=2022.5.0->lightning) (1.8.2) +Requirement already satisfied: frozenlist>=1.1.1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec<2024.0,>=2022.5.0->lightning) (1.3.3) +Requirement already satisfied: multidict<7.0,>=4.5 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec<2024.0,>=2022.5.0->lightning) (6.0.4) +Requirement already satisfied: attrs>=17.3.0 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec<2024.0,>=2022.5.0->lightning) (22.2.0) +Collecting sniffio>=1.1 + Using cached sniffio-1.3.0-py3-none-any.whl (10 kB) +Collecting exceptiongroup + Using cached exceptiongroup-1.1.1-py3-none-any.whl (14 kB) +Collecting jinxed>=1.1.0 + Using cached jinxed-1.2.0-py2.py3-none-any.whl (33 kB) +Requirement already satisfied: wcwidth>=0.1.4 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from blessed>=1.19.0->inquirer<5.0,>=2.10.0->lightning) (0.2.6) +Requirement already satisfied: smmap<6,>=3.0.1 in c:\users\froro\onedrive\escritorio\unal\rna\financia\env\lib\site-packages (from gitdb<5,>=4.0.1->GitPython!=3.1.29,>=1.0.0->wandb) (5.0.0) +Collecting mdurl~=0.1 + Using cached mdurl-0.1.2-py3-none-any.whl (10.0 kB) +Collecting ansicon + Using cached ansicon-1.89.0-py2.py3-none-any.whl (63 kB) +Installing collected packages: python-editor, ansicon, websockets, websocket-client, soupsieve, sniffio, readchar, python-multipart, pyjwt, ordered-set, mdurl, lightning-utilities, jinxed, itsdangerous, h11, exceptiongroup, uvicorn, torchmetrics, markdown-it-py, deepdiff, dateutils, croniter, blessed, beautifulsoup4, arrow, anyio, starlette, rich, inquirer, starsessions, pytorch-lightning, fastapi, lightning-cloud, lightning +Successfully installed ansicon-1.89.0 anyio-3.7.0 arrow-1.2.3 beautifulsoup4-4.12.2 blessed-1.20.0 croniter-1.3.15 dateutils-0.6.12 deepdiff-6.3.0 exceptiongroup-1.1.1 fastapi-0.88.0 h11-0.14.0 inquirer-3.1.3 itsdangerous-2.1.2 jinxed-1.2.0 lightning-2.0.3 lightning-cloud-0.5.36 lightning-utilities-0.8.0 markdown-it-py-2.2.0 mdurl-0.1.2 ordered-set-4.1.0 pyjwt-2.7.0 python-editor-1.0.4 python-multipart-0.0.6 pytorch-lightning-2.0.3 readchar-4.0.5 rich-13.4.1 sniffio-1.3.0 soupsieve-2.4.1 starlette-0.22.0 starsessions-1.3.0 torchmetrics-0.11.4 uvicorn-0.22.0 websocket-client-1.5.2 websockets-11.0.3 ++
+[notice] A new release of pip is available: 23.0.1 -> 23.1.2 +[notice] To update, run: python.exe -m pip install --upgrade pip ++
Se va hacer fine-tuning al modelo de robertuito, uno de los modelos que representa el estado del arte en la detección de sentimientos en epañol. El cambio que vamos hacer es de multilabel, al final el modelo va a retornar un vector de 9 posiciones. Donde cada una nos dice la probabilidad o incertidumbre de pertenecer a esa etiqueta.
+El modelo pre-entrenado de Robertuito para realizar fine-tuning en la detección de sentimientos en español. Al modificar el enfoque de clasificación a multilabel, el modelo será capaz de retornar un vector de 9 posiciones, donde cada posición representa la probabilidad o incertidumbre de pertenecer a una etiqueta específica.
+El fine-tuning del modelo de Robertuito implica ajustar los pesos y parámetros del modelo utilizando tus datos específicos y el nuevo enfoque de clasificación multilabel. Durante este proceso, puedes utilizar técnicas como el descenso de gradiente estocástico (SGD) o el algoritmo Adam para optimizar la función de pérdida y lograr un modelo más preciso.
+Una vez completado el fine-tuning, podrás utilizar el modelo para realizar inferencias en nuevos textos. Al proporcionar un texto de entrada, el modelo calculará las probabilidades de pertenencia a cada una de las 9 etiquetas de sentimiento. Estas probabilidades reflejarán la confianza o incertidumbre del modelo en relación con cada etiqueta.
+Es importante destacar que durante el proceso de fine-tuning, es necesario contar con un conjunto de datos etiquetados correctamente para entrenar el modelo y ajustar los pesos de manera adecuada. Además, la cantidad y calidad de los datos utilizados en el fine-tuning pueden influir en el rendimiento del modelo final.
+Con el modelo pre-entrenado de Robertuito y el enfoque de fine-tuning para clasificación multilabel, estarás en condiciones de realizar detección de sentimientos más precisa y obtener información sobre las probabilidades asociadas a cada etiqueta de sentimiento en tus datos de entrada en español.
Como primera medida es importante instranciar el tokenizador
- -a = auto_tokenizer("hola", return_tensors="pt" )
-a
-
{'input_ids': tensor([[ 0, 1878, 2]]), 'token_type_ids': tensor([[0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1]])}-
Instanciamos el modelo de hugginface y mostramos su funcionamiento.
- -model_hugginface(a["input_ids"], a["attention_mask"], a["token_type_ids"]).logits
-
tensor([[-0.0134, 0.0390, 0.2664, -0.0361, -0.2827, 0.1921, -0.1001, -0.0453, - -0.1583]], grad_fn=<AddmmBackward0>)-
La configuración del modelo se realiza en base a las siguientes consideraciones:
+Número de etiquetas: Se define la variable num_labels como el producto de NUM_LABELS y NUM_VARIABLES. Esto se debe a que se está trabajando con un enfoque multilabel, donde se tienen múltiples etiquetas para cada instancia de datos. El número de etiquetas se obtiene multiplicando el número de categorías posibles en cada variable (como se mencionó anteriormente, 3 categorías para cada una de las 3 variables).
+Nombre del modelo: Se especifica el nombre del modelo pre-entrenado utilizado, que en este caso es "pysentimiento/robertuito-sentiment-analysis". Este modelo ya ha sido entrenado en una tarea similar de detección de sentimientos en español y se utilizará como punto de partida para el fine-tuning.
+Tokenizador automático: Se crea una instancia de AutoTokenizer a partir del modelo pre-entrenado. Esto permite convertir los textos de entrada en secuencias numéricas que el modelo puede procesar. El tokenizador se adapta automáticamente al modelo utilizado, en este caso, Robertuito, y maneja la tokenización adecuada para el idioma español.
+Modelo de clasificación de secuencia: Se crea una instancia de AutoModelForSequenceClassification a partir del modelo pre-entrenado. Este modelo es específico para tareas de clasificación de secuencias y se adapta automáticamente al modelo pre-entrenado especificado. Se le proporciona el número de etiquetas (num_labels) que se definió previamente y se establece ignore_mismatched_sizes=True para manejar casos en los que las dimensiones
+Creamos las clase FinanciaSentimental que hereda de Dataset, donde se cargarán los datos para entrenar el mdoelo. Importante ver que el texto va a pasar por el tokenizador y las etiquetas se convierte a tensor.
+A continuación se muestra el esqueleto de la clase FinanciaSentimental que hereda de Dataset y se encarga de cargar los datos para entrenar el modelo. Se realiza el procesamiento de los textos mediante el tokenizador y las etiquetas se convierten en tensores para su posterior uso en el entrenamiento del modelo:
Usando lalibrería lightning, creamos el modelo y la lógica de entrenamiento.Se uso el optimizador Adamw, y un schuler donde a medida que se acerque al objectivo, la función reducirá su lr.
+la lógica de entrenamiento utilizando la librería PyTorch Lightning, junto con el optimizador AdamW y un scheduler que reduce la tasa de aprendizaje a medida que se acerca al objetivo:
from google.colab import drive
-drive.mount('/content/drive')
-
El modelo de referencia utilizado en el proyecto es el "robertuito-sentiment-analysis" de la biblioteca "pysentimiento". Puedes encontrar más información sobre este modelo en el siguiente enlace: pysentimiento/robertuito-sentiment-analysis.
+Este modelo representa el estado del arte en la detección de sentimientos en español y ha sido pre-entrenado en un corpus extenso de textos en español. Utiliza la arquitectura de modelo basada en Transformers, que ha demostrado ser altamente efectiva en tareas de procesamiento del lenguaje natural.
+El modelo está diseñado para realizar la clasificación de sentimientos en textos en español, proporcionando predicciones para tres categorías principales: positivo, negativo y neutro. Es importante destacar que el modelo fue ajustado para adaptarse a un problema de múltiples etiquetas, donde se espera que la salida sea un vector de nueve componentes que representan las diferentes combinaciones de sentimientos para las variables objetivo, compañías y consumidores.
+El uso de este modelo pre-entrenado ofrece la ventaja de aprovechar el conocimiento y las características lingüísticas aprendidas en grandes cantidades de datos, lo que puede mejorar el rendimiento y la precisión de la detección de sentimientos en noticias financieras.
-Mounted at /content/drive -
df_valid
-
- | id | -text | -target | -tag | -target_sentiment_negative | -target_sentiment_neutral | -target_sentiment_positive | -companies_sentiment_negative | -companies_sentiment_neutral | -companies_sentiment_positive | -consumers_sentiment_negative | -consumers_sentiment_neutral | -consumers_sentiment_positive | -
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
820 | -80591 | -La UE advierte de las consecuencias económicas... | -UE | -test | -1 | -0 | -0 | -1 | -0 | -0 | -1 | -0 | -0 | -
775 | -72293 | -Empieza el juicio por los 500 seísmos que caus... | -Castor | -test | -1 | -0 | -0 | -0 | -1 | -0 | -1 | -0 | -0 | -
830 | -99766 | -Los ‘nuevos’ ERTE mantienen la prohibición de ... | -ERTE | -test | -0 | -0 | -1 | -1 | -0 | -0 | -0 | -0 | -1 | -
822 | -40165 | -Cellnex salta mañana al cuarto puesto por capi... | -Cellnex | -test | -0 | -0 | -1 | -1 | -0 | -0 | -0 | -1 | -0 | -
848 | -32667 | -Stripe, el mayor 'unicornio' de Silicon Valley... | -Stripe | -test | -0 | -0 | -1 | -0 | -1 | -0 | -0 | -1 | -0 | -
... | -... | -... | -... | -... | -... | -... | -... | -... | -... | -... | -... | -... | -... | -
807 | -7312 | -Así evoluciona el precio de la vivienda usada | -precio de vivienda usada | -test | -0 | -1 | -0 | -0 | -1 | -0 | -0 | -1 | -0 | -
842 | -25376 | -Santander aprueba la salida a Bolsa de Getnet ... | -Santander | -test | -0 | -0 | -1 | -0 | -1 | -0 | -0 | -1 | -0 | -
750 | -67465 | -Calviño aboga por retrasar la reforma fiscal h... | -Calviño | -test | -0 | -0 | -1 | -0 | -1 | -0 | -1 | -0 | -0 | -
828 | -310714 | -El consejo de Norwegian rechaza las dos oferta... | -Norwegian | -test | -0 | -0 | -1 | -1 | -0 | -0 | -0 | -1 | -0 | -
838 | -9887 | -Las inmobiliarias se lanzan a comprar supermer... | -inmobiliarias | -test | -0 | -0 | -1 | -0 | -1 | -0 | -0 | -1 | -0 | -
84 rows × 13 columns
-print(df.shape)
-print(df_train.shape)
-
(905, 13) -(736, 13) --
inputs = next(iter(train_dataset))
-print(inputs.keys())
-
En el código proporcionado se están creando los dataloaders para el conjunto de entrenamiento (train_dataloader), validación (valid_dataloader) y prueba (test_dataloader).
+La clase DataLoader de PyTorch se utiliza para cargar los conjuntos de datos y generar lotes de datos para el entrenamiento del modelo.
+Cada dataloader se crea con los siguientes parámetros:
+train_dataset, valid_dataset, test_dataset: Son los conjuntos de datos correspondientes al entrenamiento, validación y prueba, respectivamente. +batch_size: Especifica el número de ejemplos que se procesarán en paralelo en cada iteración del entrenamiento. En este caso, se establece en 16, lo que significa que se procesarán 16 ejemplos a la vez. +shuffle=True: Indica si los ejemplos se deben mezclar aleatoriamente antes de cada iteración. En este caso, se establece en True para los dataloaders de entrenamiento, validación y prueba, lo que garantiza que los ejemplos se mezclen en cada época de entrenamiento y evaluación.
-dict_keys(['input_ids', 'attention_mask', 'token_type_ids', 'labels']) -
inputs = next(iter(train_dataloader))
-print(inputs.keys())
-
dict_keys(['input_ids', 'attention_mask', 'token_type_ids', 'labels']) --