| 02:33
Apache Hive
Apache Hive est une infrastructure d'entrepôt de données construite sur le dessus de Hadoop pour fournir la synthèse des données, la requête et l'analyse. Hive fournit une interface SQL-like pour interroger les données stockées dans diverses bases de données et systèmes de fichiers qui s'intègrent avec Hadoop. Les requêtes SQL traditionnelles doivent être implémentées dans l'API MapReduce Java pour exécuter des applications et des requêtes SQL sur des données distribuées. Hive fournit l'abstraction SQL nécessaire pour intégrer les requêtes SQL (HiveQL) dans l'API Java sous-jacente sans avoir à implémenter de requêtes dans l'API Java de bas niveau. Comme la plupart des applications d'entreposage de données fonctionnent avec des langages de requête basés sur SQL, Hive supporte la portabilité facile de l'application basée sur SQL vers Hadoop [3]. Tout d'abord développé par Facebook, Apache Hive est maintenant utilisé et développé par d'autres sociétés telles que Netflix et le Financial Industry Regulatory Authority (FINRA). Amazon maintient une fourchette logicielle d'Apache Hive incluse dans Amazon Elastic MapReduce sur Amazon Web Services.
La norme de facto pour les requêtes SQL dans Hadoop
Depuis son incubation en 2008, Apache Hive est considéré comme le standard de facto pour les requêtes SQL interactives sur des petabytes de données dans Hadoop.
Avec l'achèvement de l'Initiative Stinger et la prochaine phase de Stinger.next, la communauté Apache a considérablement amélioré la vitesse, l'échelle et la sémantique SQL de Hive. Hive s'intègre facilement avec d'autres technologies de centre de données critiques en utilisant une interface JDBC familière.
QU'EST-CE QUE
Hadoop a été construit pour organiser et stocker des quantités massives de données de toutes formes, tailles et formats. En raison de l'architecture «schema on read» de Hadoop, un cluster Hadoop est un réservoir parfait de données hétérogènes structurées et non structurées - à partir d'une multitude de sources.
Les analystes de données utilisent Hive pour interroger, synthétiser, analyser et analyser ces données, puis les transformer en informations opérationnelles.
0 commentaires: