В начале 2024 года вышел отчет по состоянию Site Reliability Engineering в индустрии — The SRE Report 2024. Это уже 6-е издание отчета, исследования проводятся с 2018 года рабочей группой, состоящей из сотрудников Catchpoint и приглашенных экспертов. В подготовке текущего отчета участвовали: Niall Murphy (автор книг Site Reliability Engineering и The Site Reliability Workbook), Alex Hidalgo (автор книги Implementing SLO), Alex Elman (Indeed), Sarah Butt (SentinelOne), Kurt Andersen (Clari, SREcon) и др. Про компанию Catchpoint известно, что они разрабатывают SaaS платформу для Digital Experience Monitoring, аналогами которой являются платформы от Datadog, Dynatrace и New Relic. Исследование проводилось в форме опроса, в котором в этом году приняло участие 433 представителя индустрии, большинство из Америки и крупных компаний (больше 1000 сотрудников) из следующих индустрий: Technology, Financial, Healthcare, Government и Professional services.

Что интересного мы отметили в отчете:
1. В небольших компаниях (до 100 инженеров) функция SRE централизована в одной команде, поддерживающей несколько сервисов. С ростом компании происходит разделение на продуктовые и платформенные команды, что приводит к изменению топологий и структуры SRE команды;
2. Основные трудности с которыми сталкиваются SRE команды: планирование бюджета и ресурсов, приоритизация и архитектура. При этом найм, взаимодействие с командами и прозрачность работы отмечают реже;
3. С точки зрения влияния SRE на бизнес (Business Value) отмечают следующие факторы: Операционная эффективность (Operational Efficiencies), Customer Satisfaction и Customer Experience, Repair Times и реже — соблюдение SLA и Velocity;
4. Наиболее сложными аспектами решения инцидентов выделяют диагностику и поиск проблем, эскалацию и координацию между участниками, извлечение уроков и обучение на инцидентах;
5. Основное внимание уделяется решению инцидентов, оказывающим значительное влияние на пользователей, инцидентам высокого уровня (High severity) и тем, которые видны публично;
6. В качестве областей для улучшения процессов надежности выделяют: смену фокуса с исправлений на обучение на инцидентах, установление связей между инцидентами, выполнение action items после разбора инцидентов;
7. Разбор инцидентов, проведение ретроспектив и подготовка постмортемов лидируются в основном представителями SRE команд и руководителями, отдельная выделенная incident team встречается редко и в больших компаниях. При этом половина участников отмечает что уделяют недостаточное время для разбора инцидентов;
8. Вне дежурств SRE команды тратят в среднем 50% времени на инженерную работу, 25% времени на операционную работу (Toil) и 15% на прерывания;
9. Большинство компаний используют от 2 до 5 различных инструментов и систем для мониторинга и наблюдаемости. Не только из-за разного функционала и сценариев использования, но часто в следствии дублирования. Количество инструментов увеличивается с ростом компании;
10. Кроме мониторинга внутренних сервисов подчеркивается важность мониторинга внешних сервисов, таких как BGP, CDN, SASE, SaaS, внешние DNS и API;
11. Наиболее часто используемые метрики для измерений: Upwww.tg-me.com/Availability, Performance/Response time, Latency и Error rate. Saturation упоминается гораздо реже, а SLOs разделяют на два типа: Uptime SLOs и Performance SLOs.
В начале апреля вышел 32-й выпуск технологического радара от компании Thoughtworks. На радаре упоминаются 22 практики, 28 платформ и более 50 инструментов и фреймворков. Что интересного мы отметили:
1. Развитие платформ и инструментов, связанных с CI/CD и Release Engineering:
- Платформа GitLab для автоматизации процессов CI/CD;
- Инструмент Nyx для автоматизации управления релизами;
- Инструмент OpenRewrite для рефакторинга кода;
- Инструмент Renovate для автоматизации обновления зависимостей;
- Инструмент Jujutsu для управления и контроля версий, работающий поверх Git;
- Инструмент Turborepo для сборки больших JavaScript или TypeScript проектов;
- Инструмент Mergiraf для разрешения конфликтов в Git.
2. Развитие Observability платформ и инструментов:
- Стандарт и набор инструментов OpenTelemetry для сбора, обработки и передачи данных телеметрии (метрик, логов, трассировок);
- Платформа Grafana Loki для агрегации и анализа логов;
- Платформа Grafana Tempo для распределенной трассировки;
- Инструмент Grafana Alloy для сбора, обработки и передачи телеметрии, поддерживающий OpenTelemetry.
3. Возникновение практик, платформ и инструментов для нового направления Observability for AI:
- Практика структурирования вывода LLM (Structured output from LLMs);
- Практика использование графов знаний для улучшения качества ответов LLM (GraphRAG)
- Платформа Weights & Biases для мониторинга и оценки производительности моделей;
- Платформа Arize Phoenix для наблюдаемости LLM;
- Платформа Helicone для мониторинга LLM;
- Платформа Humanloop для повышения надежности AI-систем;
- Инструменты Gemma Scope для наблюдаемости LLM;
- Инструменты NeMo Guardrails для обеспечения безопасности и наблюдаемости LLM.
4. Развитие практик и инструментов, связанных с Infrastructure as Code:
- Практика управление доступом для инфраструктуры (Just-in-time privileged access management);
- Платформа Railway для упрощения развертывания и управления инфраструктурой
- Инструмент System Initiative для визуального управления инфраструктурой;
5. Развитие практик и инструментов, связанных с Security Engineering:
- Практика тестирования приложений с использованием случайных данных (Fuzz testing);
- Практика обеспечения прозрачности цепочки поставок (Software Bill of Materials);
- Практика анализа угроз для проектирования безопасных систем (Threat modeling)
- Платформа Chainloop для обеспечения безопасности цепочки поставок;
- Платформа Plerion для анализа безопасности облачных рабочих нагрузок;
- Платформа Redactive для обработки конфиденциальных данных.
6. Развитие практик и инструментов, связанных с Data Engineering:
- Подход к данным как к продукту (Data product thinking);
- Платформа Synthesized для генерации синтетических данных;
- Платформа Tonic.ai для создания синтетических данных;
- Платформа Databricks Delta Live Tables для управления потоками данных;
- Инструмент Trino для распределенных SQL-запросов;
- Инструмент Metabase для визуализации и анализа данных.
7. Практика Architecture advice process для улучшения принятия решений по архитектуре и инструмент для создания диаграмм D2;
8. Применение модели Competence envelope для анализа системных сбоев, полезная для SRE (Competence envelope as a model for understanding system failures);
9. Упоминание Agile фреймворка SAFe в качестве антипаттерна;
10. Появление антипаттернов применения AI: AI-accelerated shadow IT, Complacency with AI-generated code, Local coding assistants, Replacing pair programming with AI;
11. Развитие практик, платформ и инструментов, связанных с AI и LLM: Model distillation, Prompt engineering, Small language models, Using GenAI to understand legacy codebases, AI-friendly code design, AI-powered UI testing, Unblocked, Deepseek R1, Model Context Protocol (MCP), Open WebUI, Reasoning models, Claude Sonnet, AnythingLLM, OpenRouter, LangGraph, Graphiti, turbopuffer, FastGraphRAG, Cursor, v0, Windsurf, Cline.
2025/05/13 20:32:36
Back to Top
HTML Embed Code: