dimanche 15 janvier 2017

Apache Spark


Logo
Apache Spark est un framework open-source de cluster-computing. Initialement développé à l'Université de Californie, AMPLab de Berkeley, la base de codes Spark a été plus tard donnée à la Fondation Apache Software, qui l'a maintenu depuis. Spark fournit une interface pour programmer des clusters entiers avec un parallélisme de données implicites et une tolérance aux pannes.

Apache Spark fournit aux programmeurs une interface de programmation d'applications centrée sur une structure de données appelée ensemble de données distribuées résilientes (RDD), un multiset en lecture seule d'éléments de données distribués sur un cluster de machines, maintenu de manière tolérante aux pannes. ] Il a été développé en réponse aux limitations du paradigme de calcul de cluster MapReduce, ce qui force une structure de flux de données linéaire particulière sur les programmes distribués: programmes MapReduce lire les données d'entrée du disque, cartographier une fonction à travers les données, réduire les résultats de la carte, Résultats sur disque. Les RDD de Spark fonctionnent comme un ensemble de travail pour les programmes distribués qui offre une forme (délibérément) restreinte de mémoire partagée partagée

Author:

Related Posts:

  • Apache Oozie Apache Oozie est un système de planification de workflow basé sur serveur pour gérer les jobs Hadoo… Read More
  • Apache Pig Apache Pig est une plate-forme de haut niveau pour la création de programmes exécutés sur Apache Ha… Read More
  • apache avro Avro est un appel de procédure à distance et une structure de sérialisation de données développée … Read More
  • Apache Kafka Apache Kafka est une plate-forme de traitement de flux open-source développée par Apache Software … Read More
  • Apache Velocity Apache Velocity est un moteur de modèle basé sur Java qui fournit un langage de modèle pour référe… Read More
  • Apache Flume Apache Flume est un service distribué, fiable et disponible pour collecter, regrouper et déplace… Read More
  • Apache Hive Apache Hive est une infrastructure d'entrepôt de données construite sur le dessus de Hadoop pour f… Read More
  • MongoDB MongoDB est un programme de base de données libre et open source multi-plateforme orienté docume… Read More

0 commentaires: