Softguide Softwareführer

Software > Software-Nachrichten > Big-Data-Integration

Big-Data-Integration

Das Wachstum des Data Warehouse bewältigen

Presseartikel eingestellt am 07.11.2023 zur Software CoSort

07.11.2023 Babenhausen - Die meisten heute üblichen ETL- und ELT-Tools sowie Datenbanken können große Datenmengen nicht effizient transformieren, jedenfalls nicht ohne Mehraufwand.

Die meisten heute üblichen ETL- und ELT-Tools sowie Datenbanken können große Datenmengen nicht effizient transformieren, jedenfalls nicht ohne 

  • eine teure Parallelverarbeitungs-Edition 
  • Entnahme von Datenbank- oder Systemressourcen von Dritten
  • eine komplexe, schwer zu wartende Hadoop- oder Spark-Umgebung
  • eine 6- oder gar 7-stellige Investition in Hardware-Appliances oder Server-Upgrades oder
  • das Problem auf eine noch teurere Datenbank zu übertragen.

Grund dafür sind die komplexen Sortier-, Joint- und Aggregations-Jobs, die sonst zu lange dauern. Auch nachfolgende Aufgaben, wie etwa das Laden, Analysieren oder BI-Displays, leiden dadurch. Und all diese E-, T- und L-Schritte – kurz für Extraktion-, Transformation- und Laden – werden typischerweise in separaten Schritten und I/O-Durchgängen, mit unterschiedlichen Tools oder auch ständig wechselnden Cloud-Konfigurationen durchgeführt.

Den Turbo einschalten

Wer bereits ETL- oder ELT-Tools verwendet, kann als Turbo für diese Schritte die Extraktions- und Transformationsprogramme von IRI direkt einbinden – wie etwa FACT (Fast Extract) für den parallelen Datenbank-Unload, CoSort für Big Data Sortierung und Manipulation oder die umfassende ETL- und Datenmanagement-Plattform Voracity – die innerhalb anderer ETL-Tools ausgeführt werden können und auf unterschiedlichster Hardware laufen.

Sortier-, Joint- und Aggregations-Transformationen in Tools wie Informatica, Datastage, Talend, Pentaho, ODI und anderen können ebenso optimiert werden. Viele Datentransformation- und Datenintegrations-Aufträge können auch direkt in Hadoop ausgeführt werden und können dann aus anderen Tools auf API- oder Skript-Ebene aufgerufen werden, z.B. aus Kalido, ETI, Natural der Software AG, SAS oder Terastream.

So lassen sich die vorhandenen Metadaten und Workflows einfach weiter nutzen; die IRI-Software wird dabei direkt von einem der bereits vorhandenen Tools aufgerufen, um die Verarbeitungsgeschwindigkeit zu erhöhen und/oder beim Entladen oder bei Datentransformationen Operationen zu nutzen wie Sortierungen, Joins, Aggregate, Lookups, Perl-kompatible reguläre Ausdrücke, Datentyp- und Dateiformatkonvertierungen, Feld-/Spaltenverschlüsselung und Maskierung, Detail-, Delta- (Changed Data Capture, CDC) und Summenberichte, Pivoting von Zeilen und Spalten oder Generierung von Testdaten.

Die IRI-Jobs lassen sich per Kommando an das Betriebssystem als Batch-Job starten – oder auch per ETL-Tool-Befehl über API oder Eclipse GUI aufrufen, um dann die Daten bei Bedarf über Dateien, Pipelines oder Prozeduren hin und her fließen zu lassen. In der GUI-Umgebung der Workbench lassen sich die einzelnen Job-Spezifikationen oder aber auch komplette ELT- und ELT-Workflows erstellen, die dann mit den gewünschten Quellen und Zielen verbunden werden. Dabei unterstützen die IRI-Tools über 150 verschiedene Quellen und Ziele, lokal oder in der Cloud. 

Counter