• Разработка на Python
• Проектирование, разработка, оптимизация и поддержка ETL процессов для загрузки данных из различных источников
• Управление потоковой обработкой данных с использованием Apache Kafka (разработка продюсеров/консьюмеров, управление топиками, обеспечение надежности и отказоустойчивости)
• Разработка и оптимизация структур данных, схем и запросов в PostgreSQL для операционных и транзакционных задач
• Построение, администрирование и тонкая настройка ClickHouse кластеров для обеспечения высокой производительности аналитических запросов на больших объемах данных
• Разработка и поддержка решений на базе ClickHouse (или связки PostgreSQL + ClickHouse)
• Интеграция данных между PostgreSQL, Kafka, ClickHouse и другими компонентами инфраструктуры (API, очереди, S3)
• Мониторинг производительности, отказоустойчивости и безопасности data pipeline и баз данных
• Автоматизация процессов обработки данных и развертывания (CI/CD)
• Взаимодействие с аналитиками, разработчиками и product owner'ами для понимания потребностей в данных и их реализации
• Устранение неисправностей в pipeline данных и базах данных
• Опыт работы на Python от 3ех лет
• Опыт разработки и администрирования ClickHouse (знание особенностей движков таблиц, оптимизация запросов, кластеризация, репликация, шардирование)
• Глубокое понимание и практический опыт работы с Apache Kafka, настройка и обеспечение надежности потоков данных
• Опыт работы с PostgreSQL (написание сложных SQL-запросов, оптимизация производительности, понимание механизмов транзакций, репликации)
• Понимание принципов построения ETL процессов
• Знание SQL на продвинутом уровне
• Понимание принципов DevOps (Docker, Kubernetes, Linux, CI/CD) применительно к инфраструктуре данных