Freelance
Remote
Veröffentlicht vor 1 Monat

1st solution consulting gmbh

ür unseren Kunden aus der IT-Branche suchen wir einen “Site Reliability Engineer (m/w/d)” auf Contracting-Basis.

Start: ab sofort

Ende: 6 Monate

Kapazität: Vollzeit

Volumen: 120 Tag(e)

Einsatzort: Remote

Projektkontext:

Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern.

Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben.

Aufgaben:

Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen
Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz
Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen
Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten
Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring)
Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD)
Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation
Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos
Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe
Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen
Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen

Anforderungen:

lange SRE und operativer Erfahrung
Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer
Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage)
Sehr gute Programmierkenntnisse in Go
Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen
Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen
Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry
Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten
Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme

Um dich für diesen Job zu bewerben, besuche bitte www.linkedin.com.

Site Reliability Engineer – Freelance