• Freelance
  • Remote

1st solution consulting gmbh

ür unseren Kunden aus der IT-Branche suchen wir einen “Site Reliability Engineer (m/w/d)” auf Contracting-Basis.

Start: ab sofort

Ende: 6 Monate

Kapazität: Vollzeit

Volumen: 120 Tag(e)

Einsatzort: Remote

Projektkontext:

Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern.

Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben.

Aufgaben:

  • Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen
  • Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz
  • Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen
  • Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten
  • Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring)
  • Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD)
  • Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation
  • Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos
  • Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe
  • Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen
  • Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen

Anforderungen:

  • lange SRE und operativer Erfahrung
  • Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer
  • Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage)
  • Sehr gute Programmierkenntnisse in Go
  • Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen
  • Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen
  • Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry
  • Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten
  • Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme

Um dich für diesen Job zu bewerben, besuche bitte www.linkedin.com.