Site Reliability Engineer

Site Reliability Engineer, Azure DevOps, datadog, kubernetes, grafana
Hays IT Contracting to współpraca oparta na zasadach B2B. Nasza firma dopasowuje specjalistów IT do najciekawszych projektów technologicznych na rynku.
Dołącz do grona 500 zadowolonych Kontraktorów i pracuj dla Klientów Hays!

Obecnie dla naszego Klienta poszukujemy Kandydatów na stanowisko:

Site Reliability Engineer

Lokalizacja: zdalnie 100%
Rodzaj umowy: kontrakt (B2B przez Hays Poland)
Stawka: 150-200zł/h
Branża: consultingowa
Godziny pracy: biurowe, elastyczne


Szukamy Senior Site Reliability Engineer, który weźmie realną odpowiedzialność za niezawodność aplikacji i pipeline’ów opartych o AI. To nie jest rola “ticketowa” ani tylko koncepcyjna
– szukamy osoby hands-on, która sama diagnozuje, naprawia i automatyzuje, a nie tylko projektuje rozwiązania dla innych.

Rola łączy:
  • odpowiedzialność za operacyjną stabilność systemów AI,
  • budowę operacyjnego “control tower”
    (monitoring, alerting, KPI)
  • oraz aktywną pracę inżynierską
    przy realnych problemach produkcyjnych.


Czego oczekujemy:
Kandydat musi mieć praktyczne doświadczenie z:
  • Azure DevOps – Boards, Repos, Pipelines
  • Kubernetes – troubleshooting, scaling, operacje produkcyjne
  • Datadog – metrics, logs, dashboardy, alerting
  • Azure Portal – operacje środowiskowe i konfiguracja
  • CI/CD – optymalizacja pipeline’ów, testy, quality gates
  • (Nice to have) Grafana
Wymagania:
  • 5+ lat doświadczenia jako SRE / Production / Platform Engineer
  • Realne doświadczenie w środowiskach produkcyjnych
  • Bardzo dobra znajomość incident management i RCA
  • Umiejętność budowania praktycznego, a nie teoretycznego monitoringu
Preferowane:
  • Doświadczenie z AI / LLM pipelines i ich obserwowalnością
  • Budowa multi app monitoring platforms
  • Praca w skalowanych środowiskach Kubernetes (AKS lub podobne)

Kluczowe technologie:
  • Azure DevOps – Boards, Repos, Pipelines
  • Kubernetes – troubleshooting, scaling, operacje produkcyjne
  • Datadog – metrics, logs, dashboardy, alerting
  • Azure Portal – operacje środowiskowe i konfiguracja
  • CI/CD – optymalizacja pipeline’ów, testy, quality gates
  • (Nice to have) Grafana

Czym będziesz się zajmował:
  • Budowa i utrzymanie centralnego operacyjnego “control tower”
    dla aplikacji i pipeline’ów AI
  • Projektowanie i wdrażanie monitoringu, alertów i dashboardów
    (sygnały, progi, routing, runbooki)
  • Incident response: triage, koordynacja, root cause analysis, post‑mortems i działania prewencyjne
  • Standaryzacja telemetrii pipeline’ów
    (success/failure, latency, throughput, bottlenecks)
  • Optymalizacja CI/CD
    – jakość releasów, testy automatyczne, reliability gates
  • Współpraca z zespołami engineeringowymi w celu zmniejszenia liczby powtarzalnych incydentów
  • Oczekiwane rezultaty (30/60/90 dni):
  • 30 dni
  • Zrozumienie największych problemów niezawodności
  • Pierwsze SLIs dla aplikacji i pipeline’ów
  • Działające dashboardy stagingowe
  • 60 dni
  • Funkcjonujące alerty z realnym routingiem i runbookami
  • Pierwsze quality gates w CI/CD
  • Regularne raporty operacyjne dla interesariuszy
  • 90 dni
  • Wyraźny spadek “noise incidents”
  • Dojrzały control tower używany przez zespoły i leadership
  • Większa pewność releasów dzięki automatyzacji i telemetryce
  • Jak mierzymy sukces:
  • Control tower realnie używany przez zespoły i management
  • Alerty, które pomagają, a nie przeszkadzają
  • Spadek czasu wykrycia i naprawy incydentów
  • Mniej regresji po deployach

Jak będzie wyglądał proces rekrutacyjny:
  • Twoje CV trafi do weryfikacji przez Rekrutera Hays
  • Rekruter skontaktuje się z Tobą telefonicznie – 15-minutowa rozmowa o projekcie i Twoim doświadczeniu
  • Rozmowa techniczna z Klientem – spotkanie online (1h)
  • Oferta
  • Witamy w projekcie!

Hays Poland sp. z o.o. jest agencją zatrudnienia zarejestrowaną w rejestrze prowadzonym przez Marszałka Województwa Mazowieckiego pod numerem 361.

#LI-DNI
Kliknij tutaj aby uzyskać dostęp do Polityki prywatności HAYS, która zawiera szczegółowe informacje na temat tego, w jaki sposób wykorzystujemy i chronimy twoje dane osobowe oraz Twoje prawa z tym związane.

podsumowanie

Rodzaj pracy
Kontrakt
Branża/Sektor
Technologia & Usługi internetowe
Lokalizacja
Warszawa
Obszar specjalizacji
Cloud
Płaca
150-200zł/h
Nr ref.:
1199074
Data ważności
30 Apr 2026

Podobne oferty pracy do Site Reliability Engineer

  • Blue Prism Application Manager

    Blue Prism Application Manager, Blue Prism, PRA, Application Manager, RPA Application Manager, Robotic Process
    Mazowieckie
  • QA Test Engineer

    QA, Automation Testing, Manual testing, Remote, Tosca, Azure Devops
    Polska120 - 155 pln/h (net+vat)
  • Test Automation Engineer

    Playwright, JUnit / TestNG, GitLab, RestAssured, Postman,
    Gliwice12 000–17 000 PLN gross
  • DevOps Engineer

    DevOps
    Polskado 170PLN/h net+VAT
  • Software Engineer II (Full-stack Android)

    Android development (Kotlin or Java), Mid, C
    Kraków