• Разработка и внедрение программных решений для повышения отказоустойчивости ИТ-инфраструктуры
• Автоматизация процессов мониторинга, диагностики и восстановления сервисов
• Анализ причин сбоев и разработка мер по их предотвращению
• Участие в проектировании архитектуры отказоустойчивых систем
• Написание интеграционных тестов
• Внедрение best practices в области отказоустойчивости (например, chaos engineering)
• Участие в DevOps практиках, CI/CD
• Взаимодействие с другими командами (разработчиками, DevOps, эксплуатации).
• Опыт разработки на Python, Go, Java или\и другом языке программирования от 3ех лет
• Понимание принципов отказоустойчивости, высокой доступности и масштабируемости систем
• Опыт работы с контейнеризацией (Docker, Kubernetes)
• Знание сетевых технологий и протоколов
• Умение работать с системами мониторинга и логирования
• Знание Linux на уровне администратора