{"id":1255,"date":"2018-09-17T06:21:07","date_gmt":"2018-09-17T06:21:07","guid":{"rendered":"https:\/\/lisdatasolutions.sidnpre.com\/2018\/09\/17\/big-data-paralelizacion-de-datos-con-apache-spark\/"},"modified":"2022-08-01T15:46:42","modified_gmt":"2022-08-01T15:46:42","slug":"big-data-paralelizacion-de-datos-con-apache-spark","status":"publish","type":"post","link":"https:\/\/www.lisdatasolutions.com\/es\/blog\/big-data-paralelizacion-de-datos-con-apache-spark\/","title":{"rendered":"Big Data: paralelizaci\u00f3n de datos con Apache Spark"},"content":{"rendered":"
Apache Spark<\/strong> es un software que se encarga de distribuir o paralelizar los datos<\/strong> a la hora de analizarlos.<\/p>\n Hoy en d\u00eda se habla mucho de la paralelizaci\u00f3n de los datos en diferentes m\u00e1quinas para procesar la informaci\u00f3n m\u00e1s r\u00e1pido<\/strong>, \u00bfpero realmente que es eso? Paralelizar los datos en diferentes m\u00e1quinas no es m\u00e1s que dividir los datos en archivos m\u00e1s peque\u00f1os. Estos archivos m\u00e1s peque\u00f1os son enviados cada uno a una m\u00e1quina diferente. De esta forma, cada m\u00e1quina procesar\u00e1 una peque\u00f1a parte del fichero inicial en lugar de analizar el fichero completo.<\/p>\n <\/p>\n Si tenemos el siguiente archivo: consumos.csv con 2 columnas, la primera indica la hora a la que se recogieron los datos y la segunda indica el consumo de KW\/h. Este fichero tiene 10 momentos diferentes en las que se han recogido los datos. Creamos un cl\u00faster con Spark<\/strong> como vemos en la siguiente figura:<\/p>\n <\/p>\n Una de las m\u00e1quinas es la encargada de controlar las operaciones, que recibe el nombre de m\u00e1ster, y las otras dos m\u00e1quinas comunicadas con el m\u00e1ster, reciben el nombre de trabajadores. Si mandamos hallar la suma de KW\/h a nuestro cl\u00faster, que procede de la siguiente forma:<\/p>\n Ahora bien, si queremos hallar la media del consumo, cada m\u00e1quina devuelve la suma como ha hecho antes y, tambi\u00e9n, devuelve el n\u00famero de filas que ten\u00eda el fichero que ha analizado. En nuestro ejemplo, se actuar\u00eda de la siguiente forma:<\/p>\n <\/p>\n Veamos de manera gr\u00e1fica c\u00f3mo calcular\u00eda la media de los consumos:<\/p>\n <\/p>\n Concluimos por lo tanto la simplicidad y velocidad que nos aporta Spark ante un problema de grandes dimensiones. Divide y vencer\u00e1s!<\/p>\n Apache Spark es un software que se encarga de distribuir o paralelizar los datos a la hora de analizarlos. Hoy en d\u00eda se habla mucho de la paralelizaci\u00f3n de los datos en diferentes m\u00e1quinas para procesar la informaci\u00f3n m\u00e1s r\u00e1pido, \u00bfpero realmente que es eso? Paralelizar los datos en diferentes m\u00e1quinas no es m\u00e1s que […]<\/p>\n","protected":false},"author":1,"featured_media":1256,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0},"categories":[111,28],"tags":[],"acf":[],"yoast_head":"\n\n
\n
COMPARTE ESTE POST<\/h4>\n","protected":false},"excerpt":{"rendered":"