LIS Data Solutions crea una herramienta de topic modeling para analizar foros
Una solución basada en el machine learning
Saber de qué temas se habla en una red social o entender qué dirección toman las conversaciones de los usuarios de un foro de internet sobre una cuestión determinada no es fácil: la información aparece desperdigada, repartida entre miles de comentarios, y es muy difícil llevar a cabo un análisis manual de la misma.
Una solución basada en el machine learning
Para afrontar el reto de analizar la información contenida en foros web, en LIS Data Solutions pusimos en práctica nuestros conocimientos en big data y machine learning. El proyecto, para el que se estableció una duración estimada de 12 meses, presentaba un enfoque práctico de algunas de nuestras investigaciones previas sobre técnicas de Procesamiento de Lenguaje Natural (PLN).
Se trataba de realizar un análisis automático de un conjunto de textos en español (en este caso, comentarios en foros de opinión) para saber de qué se habla y obtener un resumen de los temas más destacados. También debía ser posible buscar la presencia de temas concretos, así como realizar análisis a diferentes niveles o sugerir extensiones de los temas propuestos por los usuarios.
Cómo usar el topic modeling para generar información entendible
Nuestro equipo de I+D decidió recurrir a técnicas de machine learning como el “topic modeling”, que consiste en la detección de patrones en el uso de las palabras y en la consecuente agrupación de piezas de texto en función de esos patrones.
Creamos un corpus con comentarios de Amazon con los que entrenar al modelo en la forma de escribir en foros (informalmente, con faltas de ortografía, con frases cortas y poco complejas, etc.) y probamos diferentes técnicas de topic modeling y encaje léxico o embedding. Al acabar el proyecto, habíamos alcanzado nuestro objetivo: contábamos con un sistema que realizaba un análisis satisfactorio de los principales temas de cada conversación y presentaba los datos de forma ordenada y fácilmente entendible en un panel de control.
Datos económicos
Plazo Ejecución | 27/06/2022 – 30/06/2023 |
Concedente | SODERCAN |
Título del proyecto | TIC 2022 – ANDES |
Presupuesto | 81.039,00 € |
Importe concedido | 17.623,48 € |
Fecha de concesión | 25/01/2023 |
% | 22% |