Книга Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub) - скачать бесплатно в epub, fb2, pdf, txt, Бетси Бейер
bannerbanner
Читать онлайн
Краткое содержаниеSite Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)
Добавить В библиотеку
Оценить:

Рейтинг: 4

Поделиться
Купить и скачать

Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)

Вот уже почти 20 лет компания Google обеспечивает работу невообразимо сложных и масштабных систем, которые чутко реагируют на запросы пользователей. Поисковик Google находит ответ на любые вопросы за доли секунды, карты Google с высочайшей точностью отражают земной ландшафт, а почта Google доступна в режиме 365/24/7 и, в сущности, стала первым общедоступным облачным хранилищем. Неужели эти системы безупречны? Нет, они тоже отказывают, ломаются и устаревают, как любая техника. Просто мы этого не замечаем. Все дело в том, что уже более десяти лет Google нарабатывает уникальную технологию Site Reliability Engineering, обеспечивающую бесперебойную работу и поступательное разв…
Далее
Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)
На сайте электронной библиотеки Litportal вы можете скачать книгу Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub) в формате fb2.zip, txt, txt.zip, rtf.zip, a4.pdf, a6.pdf, mobi.prc, epub, ios.epub, fb3. У нас можно прочитать отзывы и рецензии о этом произведении.

Скачать книгу в форматах

Краткое содержание

Введение в Site Reliability Engineering

Книга "Site Reliability Engineering: Надежность и безотказность как в Google" представляет собой коллективный труд инженеров Google под редакцией Бетси Бейер. Она раскрывает философию и практики SRE — подхода, разработанного в Google для управления высоконагруженными распределёнными системами. Основная идея SRE заключается в синтезе разработки программного обеспечения и операционной работы, где инженеры фокусируются на автоматизации, измерении метрик и создании систем, способных к самовосстановлению. Авторы подчёркивают, что SRE — это не просто набор инструментов, а культура, основанная на балансе между инновациями и стабильностью.

Роль SRE-инженера

SRE-инженеры в Google выступают как мост между разработчиками и операционными командами. Их ключевая задача — обеспечение надёжности сервисов при постоянном внедрении новых функций. В отличие от традиционных системных администраторов, SRE тратят не более 50% времени на рутинные операции, выделяя остальные ресурсы на проектирование автоматизации и улучшение архитектуры. Например, один из принципов гласит: "Если задача выполняется вручную более двух раз, её необходимо автоматизировать". Это снижает человеческие ошибки и позволяет масштабировать процессы.

Основные принципы SRE

Фундаментом методологии являются Service Level Objectives (SLO), Service Level Indicators (SLI) и Service Level Agreements (SLA). Эти концепции определяют, как измерять и поддерживать целевые уровни надёжности. Например, SLO для веб-сервиса может включать доступность 99.9% в течение квартала. Превышение Error Budget — допустимого количества сбоев — становится сигналом для приостановки выпуска новых функций до восстановления стабильности. Такой подход создаёт прозрачность между командами разработки и SRE, переводя технические метрики в бизнес-приоритеты.

Управление инцидентами и постмортемы

В книге детально описан процесс реагирования на сбои. Инциденты классифицируются по уровню воздействия, а их расследование проводится через blameless postmortem — анализ без поиска виноватых. Например, в одном из кейсов сбоя в глобальном хранилище данных команда обнаружила, что причиной стала не ошибка кода, а неучтённая особенность конфигурации сети. Такой подход поощряет открытость и обучение на ошибках. Авторы настаивают: "Цель постмортема — улучшить систему, а не наказать людей".

Автоматизация и инструменты

Значительная часть книги посвящена автоматизации как краеугольному камню SRE. Описываются системы мониторинга, такие как Borgmon, предшественник современных Prometheus и Grafana. Они позволяют собирать метрики в реальном времени, устанавливать алерты и прогнозировать аномалии. Отдельное внимание уделяется Canary Releases — практике постепенного развёртывания изменений сначала на небольшом проценте трафика. Например, обновление поискового алгоритма Google может тестироваться на 1% пользователей перед глобальным релизом.

Управление нагрузкой и распределённые системы

Главы о проектировании устойчивых систем объясняют принципы обработки пиковых нагрузок. Используются стратегии вроде circuit breakers ("предохранителей"), которые изолируют сбои в отдельных компонентах, предотвращая каскадные отказы. Авторы приводят пример Gmail: при сбое в одном дата-центре трафик автоматически перенаправляется в другие регионы, сохраняя доступность сервиса. Также обсуждается важность тестирования в продакшене через Chaos Engineering — преднамеренное внесение сбоев для проверки отказоустойчивости.

Культура и взаимодействие команд

SRE-культура в Google строится на взаимном уважении между разработчиками и инженерами надёжности. Команды совместно определяют приоритеты: разработчики фокусируются на функциональности, SRE — на стабильности. Например, если сервис часто нарушает SLO, SRE могут потребовать отложить выпуск новых функций до устранения "технического долга". Книга подчёркивает важность прозрачности: dashboards с метриками доступны всем сотрудникам, что стимулирует коллективную ответственность за качество.

Эволюция SRE в Google

В заключительных главах описано, как подход SRE эволюционировал с ростом Google. От управления поиском и рекламой до таких сложных систем, как Google Cloud и YouTube. Авторы признают, что не все практики применимы вне Google, но базовые принципы — фокус на автоматизации, баланс инноваций и надёжности, культура обучения — универсальны. Приводятся примеры внедрения SRE в стартапах и корпорациях, подчёркивается важность адаптации методологии под конкретные бизнес-цели.

Читать онлайн

Спасибо за оценку! Будем признательны, если Вы оставите комментарий о данном произведении.
Помогите, пожалуйста, другим читателям нашего сайта, оставьте отзыв или рецензию о прочитанной книге.

Отзывы о книге Site Reliability Engineering. Надежность и безотказность как в Google (pdf+epub)

sm0l
Отзыв с LiveLib от Мая г.,
Систематизированный перечень подходов Google для обеспечения надежности сервисов, где Devops - лишь один из инструментов. Книга организована как сборник статей от разных авторов, но довольно цельный. Перевод не идеальный, но читабельный. Полезно будет прочитать всем, кто занимается организацией надежности высоконагруженных сервисов.
MaxKirov
Отзыв с LiveLib от Сентября г.,
SRE - это то, что происходит, когда вы просите программиста спроектировать команду службы эксплуатации.В какой-то момент, казалось, об SRE заговорили из каждого утюга (по крайней мере, в моем информационном пузыре). Так что пройти мимо этой книги у меня не было практически никаких шансов. Сразу оговорюсь, что её имеет смысл читать исключительно "специалистам", ну либо очень любопытным людям.Я же, поработав "с компьютерами" некоторое время, могу с уверенностью сказать, что компьютеры ненадёжны (впрочем, в каких-то отношениях точно надёжнее людей). Поэтому лично меня построение (и принципы построения) надёжных технических систем, которые способны функционировать достаточно автономно, стало интересовать само по себе.Именно об этом данная книга. По сути, это компиляция статей о разных аспектах того, как строить отказоустойчивые системы. И, по сути, эти принципы достаточно хорошо сформулированы, чтобы быть применимы не только в IT-сфере.Так уж получилось, что то, что ПО разрабатывалось одни…Далее
leetcoder
Отзыв с LiveLib от Мая г.,
Общее впечатления от книги какое-то среднее! Из минусов: 1. Очень много воды! Ну очень много. 2. Во многих главах слишком сильная заточка конкретно под Google. Я понимаю, что эту книгу дают в обязательном порядке читать всем, кто устраивается на работу в Google. Но вот практическая польза для сотрудников других организаций - под вопросом.Но всё же нельзя не выделить и плюсы. Это, во-первых, теоретическая база по SRE, тех поддержке, работе с SLA и SLO, жизненному циклу продукта, тех дизайну и т.д.Есть главы, в которых практически одна вода, либо сильно специфичная информация, которая могла бы быть интересной только для инженеров Google. Но есть и действительно полезные главы, прочитав которые можно хорошо расширить свой кругозор в области системного дизайна. Среди таких глав хотелось бы отметить главу 23 про разрешение конфликтов. В ней автор рассказывает про алгоритмы достижения распределенного консенсуса, про семейство алгоритмов Paxos и др. Также интересно было почитать про тему мягк…Далее
0x539
Отзыв с LiveLib от Мая г.,
SRE - это то, что происходит, когда вы просите программиста спроектировать команду службы эксплуатации.В какой-то момент, казалось, об SRE заговорили из каждого утюга (по крайней мере, в моем информационном пузыре). Так что пройти мимо этой книги у меня не было практически никаких шансов. Сразу оговорюсь, что её имеет смысл читать исключительно "специалистам", ну либо очень любопытным людям.Я же, поработав "с компьютерами" некоторое время, могу с уверенностью сказать, что компьютеры ненадёжны (впрочем, в каких-то отношениях точно надёжнее людей). Поэтому лично меня построение (и принципы построения) надёжных технических систем, которые способны функционировать достаточно автономно, стало интересовать само по себе.Именно об этом данная книга. По сути, это компиляция статей о разных аспектах того, как строить отказоустойчивые системы. И, по сути, эти принципы достаточно хорошо сформулированы, чтобы быть применимы не только в IT-сфере.Так уж получилось, что то, что ПО разрабатывалось одни…Далее