dimanche 15 janvier 2017

Apache Spark


Logo
Apache Spark est un framework open-source de cluster-computing. Initialement développé à l'Université de Californie, AMPLab de Berkeley, la base de codes Spark a été plus tard donnée à la Fondation Apache Software, qui l'a maintenu depuis. Spark fournit une interface pour programmer des clusters entiers avec un parallélisme de données implicites et une tolérance aux pannes.

Apache Spark fournit aux programmeurs une interface de programmation d'applications centrée sur une structure de données appelée ensemble de données distribuées résilientes (RDD), un multiset en lecture seule d'éléments de données distribués sur un cluster de machines, maintenu de manière tolérante aux pannes. ] Il a été développé en réponse aux limitations du paradigme de calcul de cluster MapReduce, ce qui force une structure de flux de données linéaire particulière sur les programmes distribués: programmes MapReduce lire les données d'entrée du disque, cartographier une fonction à travers les données, réduire les résultats de la carte, Résultats sur disque. Les RDD de Spark fonctionnent comme un ensemble de travail pour les programmes distribués qui offre une forme (délibérément) restreinte de mémoire partagée partagée

Author:

0 commentaires: