mardi 17 janvier 2017

Apache Pig

Apache Pig est une plate-forme de haut niveau pour la création de programmes exécutés sur Apache Hadoop. Le langage de cette plate-forme s'appelle Pig Latin.Pig peut exécuter ses travaux Hadoop dans MapReduce, Apache Tez ou Apache Spark. Pig Latin extrait la programmation de l'idiome Java MapReduce en une notation qui rend la programmation de MapReduce haut niveau, similaire à celle de SQL pour RDBMSs. Pig Latin peut être étendu à l'aide de fonctions définies par l'utilisateur (UDF) que l'utilisateur peut écrire en Java, Python, JavaScript, Ruby ou Groovy et ensuite appeler directement à partir de la langue.




Avec YARN en tant que centre d'architecture d'ApacheTM Hadoop, plusieurs moteurs d'accès aux données comme Apache Pig interagissent avec les données stockées dans le cluster. Apache Pig permet aux utilisateurs d'Apache Hadoop d'écrire des transformations MapReduce complexes en utilisant un langage de script simple appelé Pig Latin. Pig traduit le script Pig Latin en MapReduce afin qu'il puisse être exécuté dans YARN pour accéder à un ensemble de données stocké dans le système de fichiers distribué Hadoop (HDFS).

QU'EST-CE QUE LE Pig FAIT
Pig a été conçu pour effectuer une longue série d'opérations de données, ce qui le rend idéal pour trois catégories de travaux Big Data:

Les pipelines de données extrait-transformer-charger (ETL)
Recherche sur les données brutes, et
Traitement itératif des données.

Author:

0 commentaires: