<\/span><\/h2>\nA menudo, solemos de explicar la miner\u00eda de datos como \u201ctratar de encontrar diamantes en el pajar<\/strong>\u201d (cuando encontramos algo de valor entre tanto dato, la comparaci\u00f3n con una aguja se nos queda corta para explicar su potencial). Encontrar patrones de comportamiento<\/strong> (bien sea de compras, bien sea en fallos o en cualquier proceso operativo) es con diferencia el principal objetivo de las empresas anal\u00edticas<\/strong>, pues es identificar estos insigths lo que valoran en gran medida los clientes.<\/p>\nEs por ello que no creo que haya herramienta m\u00e1s apreciada para el an\u00e1lisis de datos como las reglas de asociaci\u00f3n<\/strong> (con su implementaci\u00f3n m\u00e1s famosa, el algoritmo A Priori).<\/p>\n<\/p>\n
La idea que subyace en las reglas de asociaci\u00f3n es simple: analizando un conjunto de datos, descubrir relaciones entre variables<\/strong>.\u00a0Por ejemplo, analizando transacciones, en donde tenemos muchos productos posibles, descubrir que, en transacciones en las que est\u00e1 el producto A, est\u00e1 tambi\u00e9n el producto B.<\/p>\nEstas relaciones ser\u00e1n m\u00e1s consistentes cuanto m\u00e1s grande sea el conjunto de datos<\/strong>.<\/p>\nComo imaginar\u00e1n, estas relaciones no suelen ser tan obvias. Para medir c\u00f3mo de fuerte es la relaci\u00f3n entre variables, hay diferentes m\u00e9tricas (soporte, confianza o para m\u00ed una de las m\u00e1s \u00fatiles, el llamado lift). A su vez, esta b\u00fasqueda de relaciones quiz\u00e1 tenga que optimizarse (imagine las diferentes combinatorias que pueden darse, por ejemplo, en un almac\u00e9n de 5.000 productos) echando mano de t\u00e9cnicas metaheur\u00edsticas, como los algoritmos gen\u00e9ticos.<\/p>\n
Dado que el objetivo de estos post no es crear m\u00e1s v\u00e9rtigo e inundar la p\u00e1gina de vocablos en ingl\u00e9s, demos un enfoque m\u00e1s pr\u00e1ctico y \u201cterrenal\u201d a todo esto.<\/p>\n