Site Reliability Engineer (all genders)

Cologne / Remote from Germany

Voll- oder Teilzeit

Festanstellung

Über das Arbeiten bei envelio

Zu einfach ist langweilig! Gemeinsam haben wir die Mission, die Energiewende voranzutreiben. Wir lieben, was wir tun und dabei ist uns kein Thema zu groß. Wir übernehmen Verantwortung für unsere Arbeit und wachsen an jeder neuen Aufgabe. Kurz gesagt: Own it, love it, grow with it.

Wir sind ein bodenständiges Team aus Kaffee- und Mate-Liebhaber:innen. Unser Geek-Humor resultiert in einer rituellen Nutzung von Emojis und der enzyklopädischen Herausarbeitung von unnützem Wissen. Mehr als 150 envelianer:innen mit über 20 verschiedenen Nationalitäten sind bereits an Bord. Komm dazu und wachse mit uns!

Deine Rolle

Als Site Reliability Engineer (all genders) wirst du Teil eines hochspezialisierten Squads von ca. 6 Engineers, das für den zuverlässigen Betrieb und die Infrastruktur der Intelligent Grid Platform (IGP) verantwortlich ist. Die Plattform läuft auf über 100 Kundeninstanzen auf Kubernetes, verteilt über Azure, Open Telekom Cloud und On-Premise-Umgebungen.

Du entwirfst, baust und pflegst die Plattform-Grundlage: Cluster-Provisionierung, Deployment-Pipelines, Observability, Secrets-Management und Infrastructure-as-Code. Du arbeitest eng mit dem neuen Operations-Team zusammen, das den täglichen IGP-Betrieb für Kunden übernehmen wird, und stellst Tooling, Monitoring und Automatisierung bereit, die sie dafür brauchen.

Du arbeitest in einem Squad zusammen mit anderen SRElern und berichtest an den Engineering Manager.

Wie du etwas bewirkst

Du betreibst und verbesserst Kubernetes-Cluster über mehrere Clouds und On-Premise-Umgebungen hinweg und stellst sicher, dass sie zuverlässig, sicher und kosteneffizient sind
Du entwickelst und pflegst Infrastructure-as-Code (Terraform, SaltStack) zur Verwaltung von über 100 Kundeninstanzen mit geschichteter Konfiguration
Du entwirfst und pflegst Observability (Monitoring, Alerting, SLOs), damit Produktionsprobleme frühzeitig erkannt und schnell behoben werden
Du verantwortest und entwickelst Secrets-Management, Zertifikatsautomatisierung und Security-Tooling über die gesamte Plattform
Du reduzierst operativen Aufwand durch Automatisierung, besseres Tooling und solide Runbooks
Du beteiligst dich an Incident Response, Root-Cause-Analyse und treibst Follow-ups voran, damit sich dieselben Probleme nicht wiederholen
Du arbeitest mit Entwicklungs-Squads und dem Operations-Team zusammen, um die Gesamtzuverlässigkeit der IGP zu verbessern

Dein Profil

Perfektion ist ein Mythos! Uns interessiert der Mensch hinter dem Bildschirm — betrachte diese Kriterien als hilfreiche Orientierung. Wir freuen uns zu sehen, wie deine individuellen Stärken zu uns passen.

Du hast nachweisliche Erfahrung im Betrieb von Produktions-Workloads auf Kubernetes in einer Cloud- oder Hybrid-Umgebung
Du bist vertraut mit LinuxAdministration, Netzwerken und verteilten Systemen
Du hast praktische Erfahrung mit Infrastructure-as-CodeTools wie Terraform oder CloudFormation
Du hast mit Configuration-ManagementTools wie SaltStack, Ansible oder Chef gearbeitet
Du hast Erfahrung mit Container- und Orchestrierungs-Technologie (Docker, Kubernetes, Helm) im produktiven Einsatz
Du verstehst Monitoring und Observability und hast mit Tools wie Datadog, Prometheus oder Grafana gearbeitet
Du kommunizierst effektiv in asynchronen, Remote-first-Umgebungen
Du bist neugierig, lernst gerne und bist offen für den Einsatz von KI-Tools in deiner täglichen Arbeit
Du verfügst über verhandlungssichere Englischkenntnisse (Niveau C1)
Nice to have: Erfahrung mit einer Programmiersprache wie Python oder Go
Nice to have: Deutschkenntnisse

Wie wir Software entwickeln

Agile Arbeitsweise mit Kanban in cross-funktionalen Squads
Continuous Integration / Continuous Delivery
Arbeiten in kleinen Batches mit schnellen Reviews
Knowledge-Sharing-Sessions zwischen Entwickler:innen
"You Code it – You Own it" – Squad-Verantwortung für definierte Funktionsbereiche des Produkts
Blameless Post-Mortems und Kultur der kontinuierlichen Verbesserung

Unser Tech Stack

Multi-Cloud, hybrides On-Prem-Setup mit Kubernetes und Helm als gemeinsamer Nenner
Applikation primär geschrieben in Python und TypeScript
Standard-Backing-Services wie PostgreSQL, RabbitMQ, Redis
Gitlab & Gitlab CI für das Management des Software Delivery Lifecycle
Terraform für Infrastructure as Code

Deine Benefits

Passe den Arbeitsmodus an deinen Lifestyle an – fully remote oder hybrid mit Office-Option in Köln
Option zum mobilen Arbeiten aus dem Ausland (bis zu drei Monate pro Jahr von überall in der EU oder den USA)
State of the Art Technologie und moderner Tech Stack
Sehr gute Hardware-Ausstattung (16 Zoll MacBooks, 2 Bildschirme an deinem Arbeitsplatz)
30 Urlaubstage + 3 Corporate Holidays
Unterstützung deiner Gesundheit mit der Urban Sports Club Kooperation
Flexible Nutzung eines monatlichen Mobilitätsbudgets (z.B. Jobrad, ÖPNV)
Zeit und Budget für individuelles Wachstum
Optionale betriebliche Altersvorsorge
Regelmäßige Firmen- und Teamevents

Über uns

Intelligente Netze für eine nachhaltige Zukunft weltweit – das ist unsere Vision! Deshalb schaffen wir das digitale Zentrum für die Zukunft des Stromnetzbetriebs: Die Intelligent Grid Platform (IGP). Die IGP bildet den Kern unserer SaaS-Lösung. Dabei ist es unser Ziel, die IGP und envelio jeden Tag 1 % besser zu machen. Komm ins envelio-Team und trage mit deiner Arbeit zur Energiewende bei.

Als Remote-First-Unternehmen lassen wir dich entscheiden, wie viel du remote arbeiten möchtest – von 0% bis 100%. Ob du in Köln oder Aachen, Bonn oder Berlin, München oder Castrop-Rauxel wohnst; Hauptsache du hast Internet! Du kannst auch bis zu drei Monate im Jahr vom Ausland aus arbeiten. Seit 2017 haben wir ein vielfältiges internationales Team aufgebaut, mit Englisch als Unternehmenssprache.