Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITSumma)

Преждевременная
оптимизация архитектуры
Евгений Потапов
Антон Баранов

ITSumma, генеральный директор
15 лет опыта системного
администрирования
Компания основана в 2008 году
О нас

О нас
ITSumma, начальник отдела по работе с
клиентами
В прошлом - системный администратор Linux.
Более 7 лет опыта работы с Linux-системами и
web-проектами различной сложности.
Последние три года тружусь над
обеспечением стабильной работы highload-
проектов для посетителей со всего мира.

• Работаем с 2008 года
• Штат 60 человек
• Офисы в Иркутске, Санкт-
Петербурге и Москве
• Более 200 клиентов
• 100 активных чатов в день
• 150000 оповещений в
месяц
ITSumma

Откуда берется беда?

Главные причины аварий
•Ошибки в работе, связанные с новыми
версиями приложения

•Проблемы, связанные с ростом нагрузки и
масштабированием

•Проблемы, связанные с ростом нагрузки и
масштабированием
•Аварии, связанные с ошибками
планирования архитектуры проекта

Ошибки планирования архитектуры

• Новые решения создают дополнительную сложность

• Сложность уменьшает надежность эксплуатации

• Сложность уменьшает надежность эксплуатации
• Закон Луссера

Закон Луссера
надёжность ракеты равна произведению
надёжности всех компонентов, а не надёжности
самого ненадёжного элемента

Причины создания сложности
•Решение для данной проблемы уникальное

•О существующем решении не известно

•О существующем решении не известно
•Решение известно, но оно неинтересное

Небольшой проект
Ожидаемая посещаемость после старта
проекта
3000 – 5000 RPS

«Облако – это очень надежно»
Падения Amazon Web Services:
21 апреля 2011 года: US East – 53 часа
7 августа 2011 года: EU West – 36 часов
29 июня 2012 года: US East – 7 часов
20 сентября 2015 года: US East – 5 часов
4 июня 2016 года: AWS Sydney – 5 часов

«Облако масштабируется»
Большинство хостингов в РФ – 12 ядер, максимум 24 –
дальше – горизонтальное масштабирование

Проще и надежнее железного сервера ничего нет

…но и там бывают проблемы
Горизонтальное масштабирование и
резервирование проекта:
•Балансировка web-инстансов
•Балансировка нагрузки на БД

Проект T: резервные инстансы находятся на одних и тех же физических серверах

Резервирование
•Резервная площадка должна быть в другом
ЦОДе
•Виртуализация добавляет осложнений
•Резерв это не бэкап

Распределение нагрузки между БД
Проект Х: пост не успевает появиться в списке после создания записи

За чем следить:
• Мониторинг статуса реплики
• Мониторинг отставания репликации
• Мониторинг консистентности репликации
синхронная репликация не панацея

Несколько web-серверов – единый балансировщик
Проект F: падение балансировщика приводит к падению всего проекта

Несколько web-серверов – единый балансировщик
Проект F: падение узла без failover портит весь трафик (а не треть)

Несколько web-серверов – общие данные –
NFS
•Простое, понятное решение
•Нет проблем с синхронизацией данных
•Понятная настройка

Проблемы с NFS:
•Сбой связи между NFS-сервером и web-
сервером
•Восстановление работоспособности требует
перезагрузки

Деплой
•Git pull – неинтересно
•CI – очень интересно

Деплой
•CI – необходим контроль информационной
схемы
•CI – overhead на внедрение
•CI – дополнительная сложность во время
деплоя

Средний проект
Выбор замены для NFS:
CEPH? Слишком сложно, а для
конфигурирования, нет времени
- MOOSEFS!

MooseFS
•Всё идеально, но…

MooseFS
•Сбой по питанию

Выбор решения для хранения данных -
вопрос открытый

Ошибки системы деплоя:
•Различие dev и prod баз данных по количеству
данных

данных
•Не учитывается нагрузка на prod

данных
•Разные конфигурации ПО dev и prod серверов

данных
•Разные конфигурации ПО dev и prod серверов
•Разное «железо» у stage и prod

Высокая нагрузка на БД

На что надеемся?
•Апгрейд «железа» вместо оптимизации
запросов к БД

•«Тюнинг сервера»

•«Тюнинг сервера»
•Переход на другую БД

•Сбор статистики и анализ долгих запросов

•Сбор статистики по числу запросов

•Сбор статистики по числу запросов
•Кластеризация данных

Крупный проект
•Любовь к новым технологиям и
«построению архитектур»
•Безоговорочная вера в автоматизацию
•Отсутствие регулярных аудитов
производительности

«Любовь к новым технологиям»
•«мы хотим как-то использовать докер и
консул в своем проекте»

•«обновление конфигурации только через
chef»

•«обновление конфигурации только через
chef»
•«давайте сделаем кластер»

«Любовь к новым технологиям» - как жить?
• Нельзя использовать технологии ради технологий
• Простые действия становятся сложными – об этом
надо помнить

Вера в автоматизацию
• «Наш кластер будет отказоустойчивым»

• «Оно само перебалансируется в случае аварии»

• «Оно само перебалансируется в случае аварии»
• «Наш стек технологий полностью исключает такую
ситуацию»

Вера в автоматизацию - как жить?

Не забываем про оптимизацию:
•1 страница – 8000 запросов к SQL
•Частые деплои – отсутствие профилирования
•Отсутствует регулярный аудит
производительности

Бомба замедленного действия:
Проект К: рост нагрузки на CPU не пропорционален росту траффика

Бомба замедленного действия:
Проект К: каждый деплой немного увеличивает время ответа

Вместо выводов
•Не все новое – хорошее

•Не все интересное – нужное

•Не все крутое – полезное

•Не все крутое – полезное
•Во многой мудрости много печали

http://facebook.com/eapotapov
eapotapov@itsumma.ru
https://www.facebook.com/anton.s.baranov
abaranov@itsumma.ru
http://itsumma.ru
Вопросы?

Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITSumma)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITSumma)

Ähnlich wie Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITSumma) (20)

Mehr von Ontico

Mehr von Ontico (20)

Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITSumma)