Skalierbare Daten-Pipelines mit Apache NiFi

Eine zentrale Herausforderung von datenlastigen Systemen ist der Umgang mit vielfältigen, heterogenen Datenquellen. Ein wichtiger Teil ist der Datentransport, also der Transfer von Daten z. B. aus relationale Datenbanksystemen, Kafka, FTP-Servern oder IoT-Geräten als Quellsysteme in andere Systeme, wie z.B. ElasticSearch, Hadoop oder AWS S3. Während man früher für eine Weiterlesen…

Von Oliver, vor

Aufbau einer Data Science Pipeline

Maschinelles Lernen und Künstliche Intelligenz werden für den geschäftlichen Erfolg immer wichtiger. Mit der Hadoop-Plattform und Frameworks wie TensorFlow oder scikit-learn kann eine Data-Science-Umgebung sehr leicht aufgebaut werden. In stark regulierten Branchen, wie zum Beispiel der Finanzindustrie, sind vor dem produktiven Einsatz allerdings viele regulatorische und technologische Hürden zu überwinden. Weiterlesen…

Von Oliver, vor