Der Versuch von Google Cloud, es zu standardisieren

Die Query Union war nur ein erster Schritt. Google Cloud kündigte am 6. April eine Vorschau von BigLake an. Der Dienst wird als eine Möglichkeit beschrieben, Data Lakes und Speicher über mehrere Clouds hinweg zu vereinheitlichen. Die GCP wird dann zum zentralen Controller für den Zugriff und die Sicherung dieser Umgebungen.

„BigLake bringt die jahrzehntelange Erfahrung, die wir mit BigQuery haben, in andere Data Lakes ein“, sagte Gerrit Kazmayr, Vice President und General Manager, Database, Analytics, and Looker bei Google Cloud, auf einer Pressekonferenz. „Auf diese Weise können Sie Leistung, Governance, Zugriffsebene und Sicherheit mit offenen Dateiformaten kombinieren“, rühmt er sich.

Sudhir Hasby, Senior Director of Product Management bei Google Cloud, fasst das Problem in einen Rahmen. „In der Vergangenheit wurden alle Daten in verschiedenen Speichersystemen gespeichert, einige in Repositories, und diese bieten unterschiedliche Kapazitäten und erstellen Datenrepositorys innerhalb von Organisationen“, sagt er.

Laut dem Beamten profitieren diese Silos, die auf unterschiedlichen Technologien basieren, nicht von der gleichen Governance-Ebene. Ein Data Warehouse kann eine feinkörnige Zugriffskontrolle für konsistente Governance bieten, aber ein Data Lake, der viel größere Datenmengen enthält, verfügt nicht unbedingt über diesen Mechanismus.

Mit dem zunehmenden Bewusstsein von Organisationen für Governance-Richtlinien [à déployer]„Wir müssen vorwärts gehen und eine gewisse Konsistenz zwischen diesen verschiedenen Plattformen und Strategien haben“, sagt Sudhir Ashby.

BigLake: eine „standardisierte“ Open-Source-Speicher-Engine

BigLake-Funktionen, die von zertifizierten Google-Partnern beansprucht werden.

Es sagt nicht genau aus, was BigLake tut. Dieses Produkt ist eine praktisch „vereinheitlichte“ Speicher-Engine neben BigQuery, die den Zugriff auf und die Verwaltung von Tabellen in offenen Formaten über mehrere Cloud-Dienste hinweg vereinfachen soll. Diese Daten müssen in den Objektspeicherdiensten der drei Cloud-Giganten Google Cloud Storage, Amazon S3 und Azure Data Lake Storage Gen2 vorhanden sein. Das Versprechen von GCP an Kunden ist, dass sie ihre vorhandene Cloud-Infrastruktur nutzen können.

Um jedoch das erforderliche Maß an Governance zu erreichen, führt BigLake neue Tabellen ein. Es ist weiterhin möglich, „externe Tabellen“ zu verwenden, die erfordern, dass die Metadaten und Schemas für diese Assets in BigQuery gespeichert werden, aber die GCP garantiert nicht die Governance und Konsistenz der verknüpften Daten. Andererseits erleichtert es die Konvertierung externer Tabellen in BigLake-Tabellen. Dieser Mechanismus ähnelt den „regierten Tabellen“, die in Lake Formation von AWS eingeführt wurden.

Tatsächlich verknüpfte die Ressource die Erstellung von BigLake-Tabellen mit der Konfiguration von Zugriffsrechten von Google IAM. Daher gibt es drei Rollen: einen Data Lake-Administrator, der IAM-Regeln für Cloud-Speicherobjekte und Repositories verwaltet, einen Data Lake-Administrator, der die BigLake-Tabellen erstellt, löscht und aktualisiert (entspricht „BigQuery-Administrator“) und einen Datenanalysten, der kann unter bestimmten Bedingungen Daten lesen und abfragen. Die Zugriffssteuerung auf Zeilen- und Spaltenebene wird über Labels hinweg ausgelöst, die vom BigLake-Tabellenschema-Editor bearbeitet werden sollen. Zugriffsregeln werden von den BigQuery-APIs erzwungen. Für Kunden, die Daten über Data Lakes, Data Warehouses und den Datenmarktplatz hinweg ständig kontrollieren möchten, wird GCP Dataplex und Unified Data Management (und Data Network Management) mit BigLake integrieren.

Die BigLake-Tabelle verhält sich wie ihre BigQuery-Pendants und erfüllt dieselben Einschränkungen, aber es gibt verschiedene APIs, mit denen gearbeitet werden kann. Die auf dem gRPC-Protokoll basierende BigQuery Storage Read API ermöglicht das Lesen von BigLake-Tabellen in den Formaten JSON, CSV, Avro und ORC aus Open-Source-Verarbeitungs-Engines wie Apache Spark. Es gibt auch Konnektoren für Spark-, Hive- und Trino-Engines, die auf Dataproc-VMs oder Containern gehostet werden, um Daten zu verarbeiten, die in Google Cloud Storage gespeichert sind. Sogar die Datenübertragungsebene zu diesen Open-Source-Analytics-Engines: GCP verlässt sich auf Apache Arrow, um das Herunterladen (großer) Datenmengen zu beschleunigen.

Beachten Sie, dass Google Cloud Storage noch keine Avro- und ORC-Formate unterstützt. GCP verspricht, Tabellenformate von Delta Lake (Parquet) und später Apache Iceberg und Apache Hudi zu unterstützen.

Wenn die Daten die Google Cloud nicht erreichen, geht die Google Cloud zu den Daten

Standardmäßig können in Amazon S3 und Azure Data Lake Storage Gen2 externe Tabellen über die API von BigQuery Omni, der Multicloud- und verteilten Version von BigQuery, gelesen werden. GCP hat auch BigLake-Tabellen mit diesem Dienst kompatibel gemacht. Dann ist der Konvertierungsmechanismus besonders nützlich.

Für die Datenverarbeitung veröffentlicht und verwaltet die GCP die Kontrollebene von BigQuery auf der GCP. Diese Kontrollebene führt Datenebenen auf Cloud-Instanzen von AWS (S3) oder Microsoft Azure (Azure Blob Storage) aus, bei denen es sich um Datenebenen handelt, auf denen die BigQuery-Abfrage-Engine ausgeführt wird, und speichert dann die Abfrageergebnisse im Storage Services-Objekt des Benutzers oder sendet sie zurück an die Masterinstanz auf der GCP. Der Benutzer interessiert sich für die Erweiterungen externer Verbindungen und das Schreiben von Anfragen. BigQuery Omni wird vollständig vom Google Certified Partners-Programm verwaltet, und der Kunde zahlt keine Ausstiegskosten bei den Drittanbietern.

„BigQuery Omni ist ein großes Unterscheidungsmerkmal, weil wir Sie nicht bitten, hohe ETL-Kosten in Rechnung zu stellen“, sagt Gerrit Kazmayr.

„Wir würden gerne mehr Daten auf BigQuery generieren sehen, aber wir wissen, dass die Daten unserer Kunden über mehrere Data Lakes in mehreren Clouds verteilt sind, einschließlich AWS und Azure.“

Sudhir HasbeLeitender Direktor des Produktmanagements, Google Cloud

Fügt Sudhir Ashbe hinzu, der darauf besteht, dass GCP daran glaubt, die Berechnung näher an die Daten zu bringen, anstatt sie zu verschieben. „Wir akzeptieren die Tatsache, dass sich die Dateien an verschiedenen Orten befinden, und gehen die Daten durch, anstatt sie an einem Ort zu sammeln.“

BigQuery Omni ist seit Dezember 2021 öffentlich verfügbar. Es ist wahrscheinlich zu früh, um zu überprüfen, ob der Einsatz der Lösung und ihres Preismodells vorteilhafter ist als die Verdoppelung der Funktionalität des ETL, einschließlich der Kosten für die Datenausgabe.

Data Cloud Alliance: Verpflichtungen, noch keine Roadmap

In allen Fällen sollte BigLake das Kopieren und Duplizieren von Daten einschränken, wenn nicht sogar verhindern. Diese Vereinheitlichung der Nutzungen hat Snowflake einerseits für seine Multicloud-Plattform gelobt, vor allem von Databriks, der als erster auf einen etwas Marketing-Begriff für Lakehouse gesetzt hat, eine Kombination aus Data Lake und Data Warehouse (und wer es ist). weniger vom Multimedia-Prinzip überzeugt) ). „Ich denke, der größte Unterschied besteht darin, dass wir an eine offene Datenarchitektur glauben“, sagt Gerrit Kazmayr, um den GCP-Ansatz von dem von Akteuren wie Snowflake zu unterscheiden. „Bei BigLake erwarten wir nicht, dass Kunden offene oder proprietäre Speicher zwischen Open-Source- oder proprietären Verarbeitungs-Engines kompromittieren.“ Beispielsweise erwartet GCP, dass Kunden, die die Lösung verwenden, Daten aus verschiedenen Quellen wie SaaS-Software (Salesforce, Workday oder Marketo) analysieren und sie mit Looker, Power BI oder Tableau visualisieren.

“Kunden wollen an keinen Verkäufer gekettet sein, auch nicht an uns.”

Gerrit KasmayrVice President und General Manager von Databases, Analytics and Viewer, Google Cloud

Databriks ist ein Partner, der „die gleiche Philosophie“ wie GCP teilt, betont Sudhir Ashbe. „Wir arbeiten mit Databricks zusammen, die Spark-Engine ist in BigQuery integriert, und wir werden weiterhin mit diesem Unternehmen zusammenarbeiten, um Kundenprobleme gemeinsam auf eine Weise zu lösen, die mit Open-Source-Formaten kompatibel ist.“

In diesem Sinne kündigte Google die Gründung der Data Cloud Alliance an. Databriks ist neben Startbust, MongoDB, Elastic, Fivetran, Neo4J, Redis, Dataiku Accenture und Deloitte eines der Mitglieder dieser Gruppe. Diese Partner „verpflichten“ sich, die Einführung offener Datenmodelle und -standards zu beschleunigen, die Komplexität von Governance, Compliance und Sicherheit zu reduzieren und die Ausbildung von Talenten und Praktikern in diesen Bereichen zu verbessern.

„Kunden wollen nicht an einen Verkäufer gefesselt sein, wir auch nicht“, gibt Gerrit Kazmayer zu. „Es geht darum, die Besten zusammenzubringen und die Probleme unserer gemeinsamen Kunden zu lösen“, fügt er hinzu. Das macht die Initiative derzeit nicht sichtbarer. Beamte versprechen, dass dem „Gründungsmoment“ Ankündigungen folgen werden, aber es wurde kein Zeitplan für den Start bekannt gegeben. Databriks seinerseits beruft sich auf die Tatsache, zu dieser Initiative beizutragen, um den Datenaustausch zu verbessern, was derzeit eine seiner Prioritäten ist.

Leave a Comment