Hardware für Data Warehouses – oder Data Warehouse auf Englisch – war bis vor kurzem die beste Art von Ausrüstung, um Leistungsprobleme von analytischen Engines zu lösen, die auf lokale Datenbanken angewiesen sind. Das Angebot an Online-Diensten hat jedoch einen solchen Reifegrad erreicht, dass Data-Warehouse-Storage mittlerweile zu den beliebtesten Cloud-Produkten gehört.
Sind die Tage der Speichergeräte für das Data Warehouse also gezählt? Es ist legitim, die Frage angesichts der Mängel dieses Geräts zu stellen. Dies sind Geräte, deren Anschaffung, Betrieb und Wartung teuer sind. Es ist beispielsweise nicht möglich, die Kapazität physischer Geräte bei sich ändernden Anforderungen geringfügig zu erweitern. Dies erfordert zwangsläufig einen erheblichen Ausbau, wobei große Mengen an Kapazität wahrscheinlich für einige Zeit ungenutzt bleiben werden.
Und beachten Sie, dass es nicht nur an der Vielfalt der Hardwareeinheiten des Herstellers mangelt. Nein, die Erweiterung eines solchen Geräts erfordert komplexe Software- und Netzwerkneukonfigurationen, die kein Unternehmen riskieren würde, kleine Kapazitätserweiterungen hinzuzufügen.
Inzwischen bieten Cloud-Giganten – zumindest Amazon AWS, Microsoft Azure und Google GCP – Online-Dienste an, die die gleiche Speicherfunktion wie ein Data Warehouse ausführen oder sogar zusätzliche Tools wie ETL oder Datenvisualisierung aggregieren.
Anstatt eine große Summe für den einmaligen Kauf eines Geräts („Capex“) aufbringen zu müssen, ohne auf Wartung und langfristige Betriebskosten verzichten zu können, hat die Cloud den Vorteil, dass sie für ein globales Abonnement monatlich abgerechnet werden. Es umfasst die Infrastrukturressource und alle vom Cloud-Anbieter durchgeführten Wartungsarbeiten.
Schließlich gibt es noch einen weiteren Grund, der Unternehmen dazu bewegen könnte, physische Data-Warehouse-Infrastrukturen aufzugeben: Sie werden von den Herstellern selbst vernachlässigt. Zugunsten der in der Cloud verfügbaren Standardversionen.
Wie funktioniert das Datawarehouse?
Um über die Vorzüge eines physischen Geräts oder eines Online-Dienstes nachzudenken, ist es wichtig zu verstehen, wie Data Warehouse Gearing funktioniert. Der Datenspeicher wird von Data Lake betrieben. Der Data Lake ist das Repository, das alle Daten des Unternehmens enthält. Daten können strukturiert (Datenbanken), unstrukturiert (Dateien), halbstrukturiert (Dateien mit Metadaten, wie im Objektspeicher) sein. Der Data Lake ist die Domäne eines Data Scientists.
Ein Data Lake ist chaotisch, während ein Datenspeicher eine organisierte Umgebung ist, die nur die strukturierten Daten in Datenbanken enthält.
Data Lakes sind für Benutzer oder sogar die meisten IT-Experten nicht zugänglich. Die dortigen Daten können durchsucht und teilweise über ihre Metadaten abgefragt werden, um festzustellen, woher sie stammen und welcher Verwendung sie entsprechen. Aber Data Lakes sind nicht der Ort, an dem Geschäftsanalysen stattfinden – sie sind der Ort, an dem sich Daten befinden, bevor sie Analyseprozessen zugeführt werden.
Daten können in vielen Formen vorliegen und der Abruf wird oft durch Tagging-Systeme wie Hadoop, Apache Spark oder sogar Amazon Athena (in der Cloud) unterstützt, was die Aufnahme und Analyse erleichtert.
Wenn Daten im Data Warehouse ankommen, werden sie ausgewertet, sortiert und in der Regel einem Extraktions-, Lade- und Transformationsprozess (ETL) unterzogen. Anschließend wird es in einer oder mehreren Datenbanken innerhalb des Data Warehouse gespeichert.
Einfache Server mit QLC-SSD, aber viele Einstellungen
In ihrer historischen Definition dienen Datenrepositorien fast immer nur der Ex-post-Analyse. Sie sind aus Performancegründen von der Transaktionsverarbeitung getrennt. Ein Data Warehouse an sich muss nicht so schnell sein wie Transaktionsdatenbanken. Die Eingangs-/Ausgangsbandbreite (E/A) muss jedoch eine Anzahl sequentieller Übertragungen unterstützen, insbesondere wenn während der analytischen Verarbeitung ganze Datensätze konsultiert oder kopiert werden.
Diese Anforderungen bedeuten oft, dass die Festplatten, auf denen das Data Warehouse basiert, einigermaßen leistungsfähig sein müssen. Will man heute anstelle von Festplatten SSDs verwenden, so reichen Modelle vom Typ QLC aus, da sie alle notwendigen Fähigkeiten mitbringen, um sequentielle Zugriffe zu bedienen.
Es ist möglich, aus vorgefertigten Infrastrukturelementen ein eigenes Data Warehouse aufzubauen. Das Anpassen des Speichers ist ebenfalls ein relativ einfacher Teil des Prozesses. Die Auswahl der Ausrüstung ist jedoch zweitrangig gegenüber den Designanstrengungen, die die Robustheit der Lösung gewährleisten. Sie müssen die mit den Ziel-Workloads kompatible Hardware, das Betriebssystem, die Datenbank-Engine (DBMS), ein Kommunikationsmedium und natürlich eine Art von Speicher auswählen. Alle diese Einstellungen sind auf den Geräten vorkonfiguriert.
Herkömmliche Geräte anzeigen
Das erste Data-Warehouse-Speichergerät wurde 2001 von Netezza herausgebracht, einem Anbieter, der 2010 von IBM übernommen wurde. Das Produkt erhielt ein Facelifting, verschwand Mitte des Jahrzehnts und wurde um 2019 wiederbelebt, als Red Hat von IBM übernommen wurde.
Der Vorteil des unter der Marke Netezza vorgestellten Geräts besteht darin, dass es nun zu 100 % auf Flash-Speicher basiert und seine Verarbeitung von einem speziell präparierten FPGA durchgeführt wird. Es ermöglicht auch die hybride Cloud-Wiedergabe, wobei virtuelle Versionen online ausgeführt werden.
Teradata ist ein weiterer wichtiger Akteur in diesem Bereich. Es bietet weiterhin IntelliFlex-Geräte für Unternehmen an, unterstützt sie aber jetzt mit virtuellen Cloud-Geräten von intelliCloud. Die Ressource hat einen Onlinedienst, Teradata Everywhere, erstellt, der es Benutzern ermöglicht, Abfragen gleichzeitig an mehrere öffentliche und private Datenbanken zu senden. In diesem Fall arbeiten sie im MPP-Modus (Massive Parallel Processing), was bedeutet, dass die Workloads unabhängig sind und ihre einzelnen Operationen die Rechenleistung nicht auf Kosten anderer anpassen.
EMC vermarktete zuvor Geräte von Greenplum. Diese existiert heute nur noch in Programmform. Greenplum basiert auf der hochparallelen PostgreSQL-Datenbank-Engine. Es kann sowohl in der Cloud als auch von lokalen Servern verwendet werden.
Schließlich war Oracle mit seinen eigenen Exadata-Maschinen einer der größten Anbieter von Hardware für Data Warehouses. Sein Hauptangebot ist jetzt das Autonomous Data Warehouse. Dies ist ein Dienst, der in der Oracle-Cloud verfügbar ist und vor Ort innerhalb eines aufgerufenen Geräts übertragen werden kann [email protected] Es basiert auf der Oracle-Datenbank.
Online Dienste
Amazon Red Shift
Amazon Redshift ist der verwaltete Data-Warehouse-Service von AWS. Es ermöglicht Ihnen, Projekte mit einigen hundert Gigabyte (GB) an Daten zu starten und diese dann auf Petabyte (PB) hochzuskalieren. Um ein Data Warehouse zu erstellen, müssen Sie lediglich eine Gruppe von Knoten ausführen, die als Redshift-Gruppe bezeichnet wird.
Daten werden in Redshift aufgenommen und mithilfe von SQL-Tools analysiert, aber auch durch gebrauchsfertige Anwendungen für wirtschaftliche Intelligenz. Redshift wird über eine dedizierte grafische Konsole, eine Befehlszeilenschnittstelle (CLI) und APIs gesteuert. Mit diesem Angebot richtet sich AWS an Unternehmen, die ihre Oracle-Datenbanken in die Cloud migrieren möchten.
Es gibt kommerzielle Pakete einschließlich ETL Matillion und Tableau für die Datenvisualisierung. Es gibt eine Variante namens Redshift Spectrum, die es ermöglicht, in S3 gespeicherte Daten zu analysieren.
Azure SQL-Data Warehouse
Azure SQL Data Warehouse ist ein cloudbasierter verwalteter Dienst von Microsoft. Unterstützt das Speichern vieler PBs von Daten. Es arbeitet entweder im MPP-Modus oder im SMP-Modus, der weniger Ressourcen verbraucht, indem die gesamte Rechenleistung auf alle Workloads verteilt wird. Recheneinheiten werden in Form von virtuellen Maschinen dargestellt: Es ist trivial, bei Überlastung Ressourcen hinzuzufügen.
In Microsoft-Angeboten sind Datenverarbeitung und Speicherung zwei verschiedene Dienste. Microsoft erklärt, dass dies zur Kostenreduzierung beiträgt, da es möglich ist, Rechenressourcen abzuschalten, wenn sie nicht verwendet werden, während die Daten in einem Betriebszustand bleiben (sie müssen nicht in das neue Data Warehouse geladen werden, wenn die nächste Analyse stattfindet gestartet).
Dieser Dienst verwendet die Azure SQL-Datenbank-Engine und Azure Data Factory ETL.
Google BigQuery
Schließlich ist BigQuery ein GCP-Data-Warehouse-Hardwaredienst. Wie die anderen ermöglicht es, viele Po zu speichern, und Abfragen werden von SQL ausgeführt.
BigQuery wird mit gebrauchsfertigen Modulen geliefert, hauptsächlich um maschinelles Lernen zu starten, aber auch GIS (Geografisches Informationssystem) oder sogar BI (Business Intelligence). Es hat die Besonderheit, dass es Daten aus Google Sheets liefern kann, einer Tabellenkalkulation für die Online-Office-Suite von Google.
BigQuery kann über eine grafische Konsole, eine Befehlszeilenschnittstelle oder APIs gesteuert werden. Google bietet diesen Dienst als Lösung an, um Teradata-Geräte in die Cloud zu migrieren. Der Dienst bietet auch eine Möglichkeit zum Importieren von Daten, die bisher vom Redshift-Dienst des Konkurrenten AWS verarbeitet wurden.