CodeFest 2012. Рыжиков С. — Архитектура и запуск облачного сервиса в Amazon AWS. Как обеспечить реальные 24?

Архитектура
и
запуск
облачного
сервиса
в

Amazon
AWS.
Как
обеспечить
реальные
24?

Сергей
Рыжиков

генеральный
директор

компании
«1С-‐Битрикс»

Цель
на
2012
год

Задача
для
компании
в
2012
году
–
запустить
в

коммерческую
эксплуатацию
«Битрикс24»

•  Аренда
Корпоративного
портала
как
инструмента
социального

интранета

•  Развитие
социального
Project-‐
и
Task-‐менеджмента

•  Развитие
Social
CRM
-‐
готового,
простого
в
использовании

решения

•  Собрать
и
накопить
опыт
по
эксплуатации
облачных
веб-‐
сервисов,
поделиться
им
с
партнерами

Запускаем
новый
SaaS-‐сервис

Есть
несколько
задач
на
старте
и

в
процессе
работы

•  Новый
SaaS
сервис
–
как
коммерческие,
так
и
«бесплатные»

пользователи

•  Минимизация
расходов
на
эксплуатацию
и
снижение
финансовых

рисков
на
старте
проекта

•  Масштабирование
при
росте
нагрузки
и
обратное
масштабирование

•  Надежность
–
обеспечение
SLA

•  Работа
с
разными
рынками:
США,
Европа,
Россия

•  Быстрая
отдача
статического
контента

Из
«бизнес-‐требований»

появились
технические

•  Отказоустойчивость
–
умение
размещаться
сразу
в
нескольких

разных
территориально
распределенных
датацентрах
(в
разных

странах)

•  MulJTenancy
архитектура

•  Полное
разделение
логики
(кода
продукта)
и
данных

•  Пользовательские
данные
–
это
большой
объем
статических
файлов

и
база
данных

•  Универсальный
API
платформы
для
многолетней
разработки

•  Динамическое
по
нагрузке

Две
итоговые
задачи:

•  Выбор
технической
платформы
для
инфраструктуры

•  Выбор
платформы

Независимые

факторы
надежности
Человечество
уже
сделало

определенный
путь
для

обеспечения
независимых

факторов
надежности.

Для
нужен

аналогичный
подход
–

продолжать
работу
без

потери
данных
в
случае

выхода
из
строя
одного
ДЦ
и

быть
способными

восстанавливать
базы
данных

за
несколько
минут.

Традиционное
устройство

веб-‐продуктов

Веб-‐приложение

Кэширование

на
диск

База
данных

Обычный
продукт
не
поддерживает
гео
веб-‐кластер,
облачные

файлы,
распределенное
кэширование,
mulwtenancy…

1
этап
:
Веб-‐кластер

Балансировщик
(клиентские
запросы

по
HTTP)

Веб-‐сервер
1
Веб-‐сервер
2

MySQL
MySQL

memcached
1
memcached
2

master
slave

Облачная
платформа:
веб-‐кластер

•  Вертикальный
шардинг
(вынесение
модулей
на
отдельные
серверы

MySQL)

•  Репликация
MySQL
и
балансирование
нагрузки
между
серверами

•  Распределенный
кеш
данных
(memcached)

•  Непрерывность
сессий
между
веб-‐серверами
(хранение
сессий
в
базе

данных)

•  Кластеризация
веб-‐сервера:

–  Синхронизация
файлов
(это
–
проблема
для
облачного
сервиса)

–  Балансирование
нагрузки
между
серверами

2
этап
–
гео

Асинхронная
master-‐master
репликация

«Веб-‐кластер»,

для
обеспечения
работы
географически


ДЦ
в
России
веб-‐кластеров.
ДЦ
в
США

Потеря
связи
между
ДЦ
может

Веб-‐нода
составлять
часы.
Веб-‐нода

Веб-‐нода
Веб-‐нода

Веб-‐нода
Веб-‐нода

Кэш
Кэш

Кэш
Кэш

Кэш
Кэш


БД
ДЦ
в
Германии
БД

БД
БД

БД
БД

Веб-‐нода

Веб-‐нода

Веб-‐нода

Кэш

Кэш

Кэш

БД

БД

БД

Облачное
хранилище

файлов

ДЦ в России ДЦ в США
Посетители
Веб-сервер
Веб-сервера Веб-сервер
Веб-сервера
Веб-серверы Веб-серверы

Веб-‐приложение Веб-приложение

Облачное
хранилище
файлов
(Amazon

БД (master) S3,
Azure,
Google
Storage,
OpenStack

БД (master)
Swi…)
+
CDN

slave slave

Платформа
для

облачных
веб-‐сервисов

•  В
версии
10.
0
реализована
поддержка
веб-‐кластера.

•  В
версии
11.0
–
географический
master-‐master.

•  В
версии
11.0
–
поддержка
облачных
хранилищ,
тайм-‐зон,

автомасштабирования.

•  В
2011
году
разработана
облачная
в

Амазоне.

•  Накоплен
опыт
работы
в
Амазоне
,
опыт
и

особенности
работы
в
облачной
инфраструктуре.

•  В
конце
2011
г
была
запущена
первая
опытная
версия
сервиса

«Битрикс24».

Из
«бизнес-‐требований»

появились
технические

•  Отказоустойчивость
–
умение
размещаться
сразу
в
разных

(в
разных
странах)

•  Большой
объем
базы
данных
–
шардинг
–
возможность
разделить

базу
данных
по
территории
и
группам
клиентов

•  MulJTenancy

•  Полное
логики
(кода
продукта)
и
данных

•  Пользовательские
данные
–
это
большой
объем
статических
файлов
и

база
данных

•  Универсальный
API
платформы
для
многолетней

•  Динамическое
по
нагрузке

Выбор
платформы
для

разворачивания
инфраструктуры

Минусы
размещения
на

собственном
оборудовании:

•  Необходимы
вложения
в
инфраструктуру
на
старте
проекта

•  Сложность
масштабирования

•  Сложность
администрирования
(в
случае
размещения
в

удаленных
датацентрах)

•  Создание
всех
сопутствующих
сервисов
с
нуля

«Когда
мы
только
начинали
работу
над
стартапом
(FriendFeed),
нам
нужно

было
решить,
покупать
собственные
серверы
или
же
выбрать
одного
из

«облачных»
хостинг-‐провайдеров
–
таких
как
Amazon
(AWS).
Мы
выбрали

первое
–
решили
приобрести
собственные
серверы.
Оглядываясь
назад,
я

думаю,
что
это
было
большой
ошибкой»

Брет
Тейлор

технический
директор
Facebook

Используем
все
возможности
масштабирования
в

Amazon,
исходя
из
экономики
проекта.

Архитектура

ElasZc

Load
Balancing

… …

Web
1

Web
2

Web
N
S3

Web
1

Web
2

Web
N

Датацентр
1
в
MySQL
MySQL
Датацентр
2
в

регионе
US
East
master
master
регионе
US
East

master-‐master

(Virginia)
(Virginia)

Мониторинг
и
и

–
–

CloudWatch
+
CloudWatch
+

AutoScaling
AutoScaling

management,

monitoring,

MySQL
backup

Web
–
автоматическое


связку
Elaswc
Load
Balancing
+
CloudWatch
+

Auto
Scaling

Очень
высокая
посещаемость

ElasZc
Load
Balancing

…

Web
1
Web
2

Web
N

CloudWatch
+
Auto
Scaling

Web
–
автоматическое


связку
Elaswc
Load
Balancing
+
CloudWatch
+

Auto
Scaling

"   Автоматически
стартуют
новые
машины,
если
средняя
нагрузка
CPU
превышает

60%

"   Автоматически
останавливаются
и
выводятся
из
эксплуатации,
если
средняя

нагрузка
менее
30%

"   Ставили
верхний
порог
на
80%,
однако
начинается
общая
деградация
системы

–
пользователям
работать
некомфортно
(долго
загружаются
страницы)

Специфика
веб-‐нод

Есть
несколько
задач,
которые

необходимо
решить:

•  На
веб-‐нодах
нет
пользовательского

контента,
все
ноды
должны
быть

абсолютно
идентичны.

•  Read
only.
Никакие
пользовательские

данные
не
пишутся
и
не
сохраняются

на
веб-‐нодах,
так
как
в
любой
момент

времени
любая
машина
может
быть

выключена
или
стартует
новая
из

«чистого»
образа.

•  При
этом
обеспечить

изоляцию
пользователей
друг
от

друга.

Специфика
веб-‐нод

•  Нет
Apache.
Есть
PHP-‐FPM
+
nginx

•  У
каждого
клиента
свой
домен

•  Был
разработан
модуль
для
PHP:

•  проверяет
корректность
домена,

завершает
хит
с
ошибкой,
если
имя

некорректно

•  устанавливает
соединение
с

нужной
базой
в
зависимости
от

домена

•  обеспечивает
безопасность
и

изоляцию
друг
от

друга

•  служит
для
шардинга
данных

разных
по
разным

базам

Bitrix24
-‐
cвой
модуль
для
PHP

•  Обеспечивает
переопределние
функции
соединения

с
базой
данных.

•  В
отдельной
таблице
хранит
строки
соединения
с

разными
мастерами
и
«слейвами»,

обслуживающими
БД.

•  Позволяет
выполнять
горизонтальное

БД
(шардинг)
по
любому

количеству
серверов
вплоть
до
«один
клиент
на

одном
сервере».

•  Обеспечивает
запуск
(fork)
процессов
для
PHP
и

быструю
отдачу
страницы
пользователю.

Статический
контент

сервиса

"   Статические
данные

храним
в
S3.

"   Загрузка
осуществляется

«прозрачно»
для
–

они
работают
с
привычными

интерфейсами.

"   Правильно
формируются
url’ы
к

картинкам,
документам
и
т.п.

"   Для
каждого
созданного

Корпоративного
портала
создается

персональный
аккаунт
–
данные

каждого
КП
полностью
изолированы

друг
от
друга.

Полная
изоляция
данных

•  Данные
одной
компании
полностью
изолированы
от
данных

другой.

•  Для
каждого
клиента
данные
хранятся
раздельно:

o  свой
логин
пароль
к
БД

o  своя
БД
со
структурой
таблиц

o  свое
облачное
хранилище
S3
с
отдельным
логином/
паролем

o  отдельное
пространство
для
кеширования
данных

•  Все
веб-‐ноды
могут
обслуживать
любых
клиентов,
набор

данных
определяется
по
домену
и
не
может
быть
изменен.

Готов
только
первый

«двигатель
самолета»

ElasZc
ElasZc

Load
Balancing
Load
Balancing

… …

Web
1

Web
2

Web
N
S3

Web
1

Web
2

Web
N

Датацентр
1
в
MySQL
MySQL
Датацентр
2
в

регионе
US
East
master
master
регионе
US
East

master-‐master

(Virginia)
(Virginia)

и
и

–
–

CloudWatch
+
CloudWatch
+

AutoScaling
AutoScaling

management,

monitoring,

MySQL
backup

master-‐master

репликацию
в
MySQL

•  Особенности
настройки
MySQL:

•  auto_increment_increment

•  auto_increment_oﬀset

•  Базы
в
разных
синхронны,
при
этом
независимы
друг
от

друга:
потеря
связности
между
датацентрами
может
составлять
часы,

данные
синхронизируются
после
восстановления.

•  В
любое
время
можно
добавить
новые
датацентры.

•  Пользователь
и
все
сотрудники
этой
компании
работают
в
одном

датацентре
за
счет
управления
балансировщиком.

•  Сессии
храним
в
базе,
но
не
реплицируем
между
серверами
из-‐за

большого
траффика:

•  SET
sql_log_bin
=
0

…
или
…

•  replicate-‐wild-‐ignore-‐table
=
%.b_sec_session%

Сценарий
1:
авария
на
одной

или

ElasZc

Load
Balancing

… …

Web
1

Web
2

Web
N
S3

Web
1

Web
2

Web
N

Датацентр
1
в
MySQL
MySQL
Датацентр
2
в

регионе
US
East
master
master
регионе
US
East

master-‐master

(Virginia)
(Virginia)

и
и

–
–

CloudWatch
+
CloudWatch
+

AutoScaling
AutoScaling

management,

monitoring,

MySQL
backup

Сценарий
1:
авария
на
одной

или

"   Load
Balancing
определяет
вышедшие
из
строя
машины.

"   Исходя
из
заданных
параметров
группы
балансировки,

автоматически
восстанавливается
нужное
количество

машин.

Сценарий
2:
потеря
связности

между

ElasZc
ElasZc
ElasZc

Load
Balancing
Load
Balancing
Load
Balancing

… …

Web
1

Web
2

Web
N
S3

Web
1

Web
2

Web
N

Датацентр
1
в
MySQL
MySQL
Датацентр
2
в

регионе
US
East
master
master
регионе
US
East

master-‐master

(Virginia)
(Virginia)

и
и

–
–

CloudWatch
+
CloudWatch
+

AutoScaling
AutoScaling

management,

monitoring,

MySQL
backup

Сценарий
2:
потеря
связности

между

"   Каждый
датацентр
продолжает
обслуживать
свой
сегмент

клиентов.

"   Данные
синхронизируются
после
восстановления

связности.

Сценарий
3:
плановые
работы
с

базой
или
авария
всего
ДЦ

ElasZc

Load
Balancing

… …

Web
1

Web
2

Web
N
S3

Web
1

Web
2

Web
N

Датацентр
1
в
MySQL
MySQL
Датацентр
2
в

регионе
US
East
master
master
регионе
US
East

master-‐master

(Virginia)
(Virginia)

и
и

–
–

CloudWatch
+
CloudWatch
+

AutoScaling
AutoScaling

management,

monitoring,

MySQL
backup

Сценарий
3:
плановые
работы
с

базой
или
авария
всего
ДЦ

"   Весь
трафик
переключается
в
один
работающий
датацентр.

" CloudWatch
определяет
возросшую
нагрузку
на
машины
и

добавляет
их
в
соответствие
с
правилами
для
AutoScaling.

"   Приостанавливается
мастер-‐мастер
репликация.

"   Проводятся
все
необходимые
работы
с
базой,
на
которую

не
идет
нагрузка.

"   База
включается
в
работу,
восстанавливается
репликация.

"   Траффик
распределяется
на
оба
датацентра.

"   Гасятся
лишние
машины,
если
средняя
нагрузка
стала
ниже

порогового
значения.

MySQL?
Percona
Server!

Один
из
выводов
в
процессе
эксплуатации:
используем

один
из
fork’ов
MySQL
–
Percona
Server
(обратно
совместим

с
MySQL)

•  Оптимизирован
для
работы
в
«облаке»
(с
относительно
медленными
дисками)

•  Быстрое
восстановление
кэша
при
рестарте
базы

для
Mulwtenancy
приложений
с
тысячами
таблиц

для
сбора
статистики
по
отдельным

•  Подробная
статистика
по
медленным
запросам

•  XtraDB
и
XtraBackup

Конфигурация
машин

с
базами
MySQL
Виртуальная
машина
(EC2)

-‐
Extra
Large
Instance
–
15

Gb
RAM

Этапы
масштабирования:

1)  Вертикальное

(дисковая
система
RAID-‐10
на
EBS)

2)  Веб-‐кластер
master-‐slave.
Запуск

необходимого
числа
слейвов
в

конфигурации
веб-‐кластера

master-‐slave

3)  Горизонтальное

масштабирование,

мастера
на
несколько
серверов

Все
этапы
выполняются
без

остановки
сервиса.

Бэкап
базы
данных

Еще
один
вывод:
для
разных
сценариев

данных
использовать
разные
бэкапы.

"   Для
целого
сервера
БД
в
случае
аварии
используем

образ
машин
со
всеми
дисками
(AMI)
–
делаем
целостный
бэкап

RAID’а,
используя
файловую
систему,
поддерживающую
freeze
и

механизм
snapshot’ов
в
Амазоне.

"   Логические
(mysqldump)
и
бинарные
инкрементальные
(Xtrabackup)

бэкапы
используются
для
отдельных
баз
или
таблиц,

поврежденных
в
случае
некорректных
операций
в
системе
или
ошибок

пользователей.

"   Второй
тип
бэкапов
делается
на
выделенном
slave,
на
который
не

распределяется
общая
нагрузка.
Тем
самым
ресурсоемкие
операции

создания
бэкапов
не
влияют
на
работу
пользователей.

Обновления
ПО
на

Как
ставить
обновления
на
нодах,
не
допустив

рассинхронизации
данных
(веб
и
база)

Сервер

Новый

обновлений
образ
AMI

Web
1

ElasZc

Load

Web
2
Balancing

Web
N

Контроллер

Используется
для
логического
управления
проектами,
выполнения

любых
команд,
SQL-‐запросов
и
PHP-‐кода
на
любой
из
копии
проекта.

Обеспечивает
биллинг,
включение
тарифных
планов,
ограничения
по

пользователям,
дисковому
пространству
и
т.д.

Итоговая
Битрикс24

HTTP/HTTPS
HTTP/HTTPS
HTTP/HTTPS

*.com
*.com
*.ru

*.ru

ElasZc
ElasZc

Load
Balancing
Load
Balancing

CloudWatch
CloudWatch

… …
+
+

AutoScaling

S3

AutoScaling

Web
1

Web
2

Web
N

Web
1

Web
2

Web
N

cache
MySQL
MySQL
cache

master
master

master-‐master


MySQL
slave
MySQL
slave

management,

CloudWatch

monitoring,
CloudWatch

MySQL
backup

Надежность

Один
из
приоритетов
–

постоянная
доступность
сервиса,

его
отказоустойчивость.

"   Все
веб-‐ноды
идентичны
и
не

зависимы
друг
от
друга,
в
случае

аварии
автоматически
стартуют

новые.

"   Два
датацентра
синхронизированы

друг
с
другом
и
равноценно

обслуживают
клиентов.
В
случае

аварии
на
уровне
датацентра
или

плановых
работ
с
базой,
трафик

прозрачно
для
клиентов

переключается
на
рабочий

датацентр.

Идет
тестирование

Ваш
персональный

«инвайт»
на
Битрикс24

XXX-‐XXX-‐XX

•  Не
раздавайте
«инвайты»,
используйте
только
сами!

•  Для
тестирования
ограничение
по
не

установлено.

•  Тем,
кто
перейдет
на
использование
компанией,
сервис

предоставим
бесплатно
(50
Гб).

Следите
за
нами!

twi¦er.com/1C_Bitrix

facebook.com/1CBitrix

www.1c-‐bitrix.ru

Спасибо
за
внимание!

Вопросы?

CodeFest 2012. Рыжиков С. — Архитектура и запуск облачного сервиса в Amazon AWS. Как обеспечить реальные 24?

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (8)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie CodeFest 2012. Рыжиков С. — Архитектура и запуск облачного сервиса в Amazon AWS. Как обеспечить реальные 24?

Ähnlich wie CodeFest 2012. Рыжиков С. — Архитектура и запуск облачного сервиса в Amazon AWS. Как обеспечить реальные 24? (20)

Mehr von CodeFest

Mehr von CodeFest (20)

CodeFest 2012. Рыжиков С. — Архитектура и запуск облачного сервиса в Amazon AWS. Как обеспечить реальные 24?