Promu par Databricks, le concept de Lakehouse associe les avantages des data lakes et des datawarehouses. Avec l'ajout de Delta Engine à sa technologie Delta Lake, le fournisseur cherche à accélérer les requêtes sur les données les plus récentes. L'acquisition de l'outil de tableau de bord Redash apporte une touche finale à l'ensemble pour la visualisation des données.
Fondé par les créateurs du projet Spark, Databricks vient de clore l’édition virtuelle de sa conférence Spark + AI Summit. A cette occasion, le fournisseur de plateforme de gestion de données unifiée a annoncé le rachat de la start-up israélienne Redash et de son outil open source de création de tableaux de bord, ainsi que la disponibilité de Delta Engine. Ce dernier est un moteur de requête permettant d’interroger les data lakes cloud de façon performante. Delta Engine est spécialement adapté à la technologie open source Delta Lake de Databricks, cette couche de stockage qui s’installe au-dessus des data lakes pour mieux structurer et fiabiliser les transactions à travers l’application de schémas, l’ajout de méta-données, des propriétés ACID (atomicité, cohérence, isolation, durabilité) et l’unification des traitements en streaming et par lots (mode batch). Le projet Delta Lake a été transmis en 2019 à la Fondation Linux, cette dernière venant par ailleurs tout juste d'hériter aussi de MLflow, le framework de Databricks pour gérer le cycle de vie des modèles d'apprentissage machine.
Depuis quelques mois, l’équipe de Databricks met l'accent sur le concept de Lakehouse et cherche à le populariser. Celui-ci consiste à dépasser les restrictions associées aux data lakes d’une part et aux datawarehouses d’autre part, en combinant les avantages des deux types d’architecture. L’objectif est de mettre en oeuvre les structures de données du datawarehouse sur le type de stockage à coût réduit utilisé pour les data lakes. Avec le moteur Delta Engine, Databricks entend faciliter la gestion des lacs de données, dans lesquels sont déversés données structurées et non structurées, en permettant des requêtes rapides sur des données fraîchement déversées. « Les lacs de données organisés permettent d’effectuer tout type de traitements analytiques, y compris ceux que requièrent la data science et l'apprentissage machine sur les données les plus récentes », décrit Ali Ghodsi, co-fondateur et CEO de Databricks dans un communiqué.
Redash, une communauté de près de 300 contributeurs
Le rachat de la start-up Redash vient compléter l'ensemble avec son outil de construction de tableau de bord et de visualisation de données. Son fondateur Arik Fraimovich a lancé ce projet open source en 2013. Pour faciliter l’écriture des requêtes, Redash fournit un éditeur SQL en ligne, permet de parcourir le schéma de données pour y insérer des éléments et de créer du séquences de code (snippets) à réutiliser. Les résultats des requêtes peuvent être utilisées comme sources de données pour joindre les bases de données.
Les tableaux de bord se construisent par glisser-déposer avec redimensionnement des visualisations. Le rafraîchissement des données se programme et les visualisations se partagent. Le projet Redash s’appuie sur une communauté de près de 300 contributeurs et il a déjà généré une multitude de forks. Dans un premier temps, il s’utilisera avec la plateforme Databricks au moyen d’un connecteur gratuit. Dans les prochains mois, il sera intégré à l’Unified Data Analytics Platform et à son environnement de travail et tirera alors profit des capacités du moteur de requêtes Delta Engine.
Aucun commentaire:
Enregistrer un commentaire