conference logo

Playlist "Linuxtag 2006"

Business-Intelligence und Data-Warehousing mit Kettle

Jens Bleuel (PRORATIO Systeme und Beratung GmbH) and Matt Casters (Kettle)

Im Dezember 2005 stellte Matt Casters 158.000 Zeilen Java-Code seines ETL-Tool Kettle (Extraktion, Transformation & Laden) als Open-Source-Lizenz (LGPL) zur Verfügung. Die Entwicklung wurde vor über 4 Jahren begonnen und entstanden ist ein ausgesprochen benutzerfreundliches und umfassendes ETL-Tool. In diesem Vortrag wird ein Überblick über einige Open-Source-Projekte im Business-Intelligence-Bereich und eine Demonstration von Kettle zum Aufbau eines Data Warehouse gegeben. Kettle enthält derzeit vier Module: Spoon (grafische Benutzeroberfläche zum Erstellen komplexer Transformationen), Pan (Ausführung von Transformationen im Batch), Chef (grafische Benutzeroberfläche, um komplexe Jobs zu entwerfen), Kitchen (Ausführung von Batch-Jobs). Weitere Details: Transformationen und Jobs werden komplett als Metadaten abgespeichert. Diese Metadaten werden von Kettle analysiert und ausgeführt, es ist keine Code-Generierung notwendig. Derzeit gibt es ca. 35 verschiedene Transformationsschritte und 10 Jobtypen. Nahezu jede gebräuchliche Datenbank wird unterstützt, inklusive MySQL, SQL Server, Oracle, DB2, PostgreSQL, MS Access, Sybase, Informix, MaxDB, Firebird, AS/400, Ingres, Caché u.v.m. Kettle kann zu diversen Datentransformationen eingesetzt werden, der Haupteinsatz aber ist das Erstellen und Verteilen von Data-Warehouses. Deshalb werden auch sog. Slowly Changing Dimensions (Kimbal Types I, II and III) und Junk Dimensions in einem Transformationsschritt unterstützt. Zahlreiche optimierte Methoden werden verwendet, um beispielsweise das Einfügen von Datensätzen oder Batch-Updates zu beschleunigen. Kettle unterstützt einen sog. Plugin-Mechanismus, mit dem es möglich ist, eigene Transformationsschritte oder Datenanbindungen zu erstellen. Hierfür hat die Firma Proratio in Mainz ein Plugin zur Anbindung eines SAP R/3 Systems entwickelt. Neben dem Support der Proratio hat kürzlich Pentaho als Anbieter von professionellen Open-Source-Produkten im Business-Intelligence-Bereich die Integration und den Support von Kettle bekanntgegeben. Das Tool wird derzeit pro Monat ca. 2000 mal heruntergeladen und ist bereits in vielen Firmen jeder Größenordnung im professionellen Einsatz. Dem Projekt gehören aktuell 24 Entwickler an, die über 1000 Erweiterungen und Änderungen beigetragen haben. Die Vortragenden werden neben der Programmdemonstration über die weiteren Entwicklungsschritte des Projekts und die Integration in Pentaho berichten. Der Vortrag richtet sich an Entscheider und Entwickler gleichermaßen.

Über den Autor Jens Bleuel: Jens Bleuel is software developer and project leader at PRORATIO Systeme und Beratung GmbH. His main business is Data Warehousing and the architecture, design and development of user friendly tools. He studied business economics, was on a grammar school for electronics and programmed in a wide area of environments, e.g. Assembler, C, Visual Basic, Delphi, .Net and these days mainly in Java. His customer focus is on the wholesale market and consumer goods industries. The latest development was a plug in for the ETL tool Kettle so data warehouses can be filled easily from SAP R/3 systems (ProSAPCONN). Jens is 36 years old and lives with his wife and two boys (Theodor, 5 years old and Johannes, 3 years old) in Mainz, Germany (at the nice Rhine river). In his spare time he practices Tai Chi and takes photographs. Über den Autor Matt Casters: Matt Casters is founder and primary sponsor of the Kettle project. Matt has more than 12 years experience in data warehousing and business intelligence. His background as a Unix support professional, a programmer, and a database consultant, combined with the business knowledge he gained from leading BI implementations lead him to the create the Kettle software platform. Matt is 37 years old, maried with 2 children Sam (19 months old) and Hannelore (1,5 months old) and lives 20km to the north of Brussels. Matt has been involved in Linux since the kernel version 0.98 series and currently runs SuSE Linux 10.1 Beta 8 on his l33t Acer 8104 laptop.