En esta sección vemos algunas diferencias en el uso de las palabras que escogimos de acuerdo al género de las películas.
if (!require(wordVectors)) {
if (!(require(devtools))) {
install.packages("devtools")
}
devtools::install_github("bmschmidt/wordVectors")
}
Cargamos los modelos entrenados:
model_all
con todos los géneros cinematográficosmodel_less
con un los géneros cinematográficos simplificados
Ahora se evalúa la palabra “drink”, perteneciente al género de acción, con el modelo “model_less”, para encontrar sus palabras más similiares.
Después de la misma palabra en otros géneros, se encuentra la palabra “cerveza”, seguida de “brandy”, “bebidas” en plural, “vodka”, “whiskey”, “vino” y “scotch”. Estos resultados son reflejo de las bebidas a las que más se hace referencia en las películas de acción.
DT::datatable(model_less %>% closest_to("drink_action", n = 20))
Se evalúa la palabra “drink”, perteneciente al género de animación, con el modelo “model_less”, para encontrar sus palabras más similiares.
Los resultados muestran que, a diferencia del análisis de la misma palabra perteneciente al género de acción, las similitudes incluyen bebidas no alcohólicas, como el té, café, “refill” y taza.
DT::datatable(model_less %>% closest_to("drink_animation", n = 20))
Kiss en películas de acción es similar a abrazo y sonrisa.
DT::datatable(model_less %>% closest_to("kiss_action", n = 20))
En las películas de animación kiss es similar a baile.
DT::datatable(model_less %>% closest_to("kiss_animation", n = 20))
La palabra star en las películas de acción se relaciona a naves espaciales, lasers y “ninja stars”.
DT::datatable(model_less %>% closest_to("star_action", n = 20))
Se evalúa la palabra “star”, pero ahora perteneciente al género de animación, con el modelo “model_less”, para encontrar sus palabras más similiares.
El resultado llama la atención, dado que dentro de las palabras similares, se encuentran varias que no se relacionan con el segmento infantil, audiencia que se pensaría son el mercado meta de la mayoría de las películas animadas…
DT::datatable(model_less %>% closest_to("star_animation", n = 20))
Se evalúa la palabra “kill”, perteneciente al género de acción, con el modelo “model_less”, para encontrar sus palabras más similiares.
DT::datatable(model_less %>% closest_to("kill_action", n = 20))
Se evalúa la palabra “kill”, perteneciente al género de animación, con el modelo “model_less”, para encontrar sus palabras más similiares.
DT::datatable(model_less %>% closest_to("kill_animation", n = 20))
La comparación entre los dos últimos resultados reflejan el distinto uso de la palabra “matar”, dentro de los géneros de acción y animación. Bajo el género de acción, disparar y morir tienen una mayor similitud. Se puede creer, que cuando en las películas acción se menciona la palabra matar, realmente se asesina. Mientras que, en el género animado, cuando se menciona la palabra matar, se utiliza dentro de un contexto de diálogo, donde se busca comunicar una lección, ya que se utilizan palabras como culpa y “debiste haber escuchado”.
model_all
y model_less
Se evalúa la palabra “kiss”, perteneciente al género de acción, con el modelo “model_less”, para encontrar sus palabras más similiares.
DT::datatable(model_less %>% closest_to("star_action", n = 30))
Se vuelve a evaluar la palabra “star”, perteneciente al género de acción, pero ahora con el modelo “model_all”, para encontrar sus palabras más similiares.
DT::datatable(model_all %>% closest_to("star_action", n = 30))
Se observa que las salidas de ambos modelos arrojan resultados semejantes. Se podría decir que la disminución de géneros, en la que se incurrió para entrenar el modelo “model_less”, no representó un cambio en las palabras identificadas.
Al comparar las diferencias por género de las palabras similares a las que elegimos usando model_all
y model_less
llegamos a la conclusión que las simplificaciones a los géneros cinematográficos que hicimos -agregar listas de películas de géneros que se intersectaban o al eliminar las listas que tenían pocos elementos- impacta poco en los resultados.