diff --git "a/html/0-1 Pysentimiento.html" "b/html/0-1 Pysentimiento.html" --- "a/html/0-1 Pysentimiento.html" +++ "b/html/0-1 Pysentimiento.html" @@ -15101,7 +15101,116 @@ body[data-format='mobile'] .jp-OutputArea-child .jp-OutputArea-output { } init_mathjax(); - + + +
@@ -15110,7 +15219,33 @@ body[data-format='mobile'] .jp-OutputArea-child .jp-OutputArea-output {
-

FinancIA

El siguiente notebook es un prototipo un detector de sentimientos de noticias.

+

FinancIA

En este notebook, presentaremos un prototipo de detector de sentimientos de noticias, una aplicación emocionante de la inteligencia artificial en el campo financiero. Nuestro objetivo principal es realizar un análisis exploratorio de texto utilizando técnicas de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) para clasificar las noticias según su tono emocional.

+ +
+
+ + +
+
+ + @@ -15155,6 +15290,18 @@ body[data-format='mobile'] .jp-OutputArea-child .jp-OutputArea-output {
+ +
+
+ + +
+
+
+
+ + +
+
+
+
+
+ +
@@ -15357,7 +15527,7 @@ body[data-format='mobile'] .jp-OutputArea-child .jp-OutputArea-output {
  • len: Tamaño del texto
  • Consumer_sentiment: Este es el sentimiento, que el titular de la noticia genera para el consumidor. Puede dividirse en Negativo, Neutro o Positivo
  • Companies_sentimient: Este es setimiento, que el titular de la noticia genera en la compañia. Puede dividirse en Negativo, Neutro o positivo
  • -
  • target_sentimient:
  • +
  • target_sentimient: sentimiento general asociado con la noticia
  • @@ -15370,7 +15540,7 @@ body[data-format='mobile'] .jp-OutputArea-child .jp-OutputArea-output {
    -

    Variable objectivo.

    El objectivo del modelo es predecir, el sentimiento de para targer, companies y consumer. Cada uno de estas se divide en tres Positiva, Negativa y Neutral. Por lo tanto la varaible objectivo va hacer un vector de nueve componente, esto se da por las tres variables y las tres categorias, lo que lo convierte en un problema de mutiples labels. En otras palabras una registro (Una fila en el dataset) puede pertenecer a varias categorias a la vez

    +

    Variable objectivo.

    El objetivo del modelo es predecir el sentimiento para las variables "target", "companies" y "consumer", donde cada una de ellas se divide en tres categorías: positiva, negativa y neutral. Esto implica que el vector objetivo será de nueve componentes, ya que cada variable tiene tres categorías posibles. El problema de clasificación se convierte en un problema de múltiples etiquetas, lo que significa que una fila en el conjunto de datos puede pertenecer a varias categorías a la vez. El objetivo del modelo será predecir las etiquetas correspondientes a cada una de las nueve combinaciones posibles de sentimientos para las tres variables.

    @@ -15434,7 +15604,7 @@ Name: 0, dtype: int32
    -

    Aquí podemos ver el vector de caracteristicas. Lo que esperamos de la red neuronal es que entre más cercano esté a uno, es porque al texto se le asocia esta caracteristica.

    +

    |

    Imagen 2: Vector de caracteristica.
    |

    @@ -15446,7 +15616,11 @@ Name: 0, dtype: int32
    -

    Análisis exploratorio

    +

    Entiendo. Según la imagen del vector de características, se espera que la red neuronal produzca valores cercanos a 1 para indicar la asociación del texto con una determinada característica o categoría de sentimiento. Esto implica que cuanto más cercano esté el valor a 1, mayor será la probabilidad de que el texto esté relacionado con esa característica específica.

    +

    En un problema de clasificación de múltiples etiquetas, donde se busca predecir varias categorías simultáneamente, los valores del vector de características pueden interpretarse como la probabilidad de pertenencia a cada una de las categorías. Por lo tanto, un valor cercano a 1 indica una alta probabilidad de que el texto pertenezca a una categoría en particular.

    +

    Es importante tener en cuenta que la interpretación exacta de los valores depende del enfoque y la configuración específica del modelo utilizado. Algunos modelos pueden generar probabilidades directamente a través de una función de activación de salida, como la función sigmoide, mientras que otros pueden producir valores continuos que luego se convierten en probabilidades utilizando un umbral determinado.

    +

    En resumen, se espera que la red neuronal produzca valores cercanos a 1 en el vector de características para indicar una mayor asociación con una característica específica o categoría de sentimiento en un problema de clasificación de múltiples etiquetas. Estos valores pueden interpretarse como probabilidades de pertenencia a cada categoría.

    +
    @@ -15457,8 +15631,7 @@ Name: 0, dtype: int32
    -

    Para el análisis exploratorio, se va a centrar en saber que palabras son común mente más usadas y tambien cada una de las caracteristicas

    - +

    Análisis exploratorio

    @@ -15469,7 +15642,7 @@ Name: 0, dtype: int32
    -

    target_sentiment

    +

    Varaiable target_sentiment

    @@ -15534,7 +15707,19 @@ class="
    -

    Se puede ver como el dataset está desvalanceado. En este caso para la variables target_sentiment, se tiene más registros para las etiquetas positivas.

    +

    |

    Imagen 3: Frecuencia de las etiquetas para target_sentimet
    |

    + +
    +
    + + +
    +
    + + @@ -15600,7 +15785,22 @@ class="
    +
    +
    + +
    +
    + + @@ -15725,7 +15925,22 @@ class="
    +
    +
    + +
    +
    + +
    @@ -15790,7 +16005,7 @@ class="
    -

    En este caso, se tienen más registros para la neutral, y menos registros para el positivo.

    +

    |

    Imagen 4: Frecuencia de las etiquetas para companies_sentiment
    |

    @@ -15908,6 +16123,18 @@ class=" + +
    +
    + + +
    -
    - - - -
    @@ -16163,6 +16266,18 @@ class="
    +
    +
    +
    + + +
    @@ -16236,7 +16351,29 @@ class="
    +
    +
    + +
    +
    + + @@ -16294,6 +16431,18 @@ class="
    +
    +
    +
    + + +
    @@ -16347,48 +16496,18 @@ class="
    -
    +
    +
    - -
    - -
    - - - -