mardi 17 janvier 2017

Apache Pig

Apache Pig est une plate-forme de haut niveau pour la création de programmes exécutés sur Apache Hadoop. Le langage de cette plate-forme s'appelle Pig Latin.Pig peut exécuter ses travaux Hadoop dans MapReduce, Apache Tez ou Apache Spark. Pig Latin extrait la programmation de l'idiome Java MapReduce en une notation qui rend la programmation de MapReduce haut niveau, similaire à celle de SQL pour RDBMSs. Pig Latin peut être étendu à l'aide de fonctions définies par l'utilisateur (UDF) que l'utilisateur peut écrire en Java, Python, JavaScript, Ruby ou Groovy et ensuite appeler directement à partir de la langue.




Avec YARN en tant que centre d'architecture d'ApacheTM Hadoop, plusieurs moteurs d'accès aux données comme Apache Pig interagissent avec les données stockées dans le cluster. Apache Pig permet aux utilisateurs d'Apache Hadoop d'écrire des transformations MapReduce complexes en utilisant un langage de script simple appelé Pig Latin. Pig traduit le script Pig Latin en MapReduce afin qu'il puisse être exécuté dans YARN pour accéder à un ensemble de données stocké dans le système de fichiers distribué Hadoop (HDFS).

QU'EST-CE QUE LE Pig FAIT
Pig a été conçu pour effectuer une longue série d'opérations de données, ce qui le rend idéal pour trois catégories de travaux Big Data:

Les pipelines de données extrait-transformer-charger (ETL)
Recherche sur les données brutes, et
Traitement itératif des données.

Author:

Related Posts:

  • apache avro Avro est un appel de procédure à distance et une structure de sérialisation de données développée … Read More
  • MongoDB MongoDB est un programme de base de données libre et open source multi-plateforme orienté docume… Read More
  • Apache Flume Apache Flume est un service distribué, fiable et disponible pour collecter, regrouper et déplace… Read More
  • Apache Pig Apache Pig est une plate-forme de haut niveau pour la création de programmes exécutés sur Apache Ha… Read More
  • Zookeeper Zookeeper I propose to spend a little time together to discover Zookeeper which is regularly found … Read More
  • HBase HBase est une base de données open source, non relationnelle, distribuée basée sur le modèle BigTab… Read More
  • Apache Hive Apache Hive est une infrastructure d'entrepôt de données construite sur le dessus de Hadoop pour f… Read More
  • MapReduce MapReduce est un modèle de programmation et une implémentation associée pour le traitement et la gén… Read More

0 commentaires: