MA:
Administrator, później Cloud
w Onecie od 2000
- Utrzymanie aplikacji
ST:
Programista frontowy, później systemowy i Cloud
W Onecie od 2002
- Rozwój aplikacji
MA:
-Codzienne wyzwania
Chmura nie powstała w próżni, skąd się wzięła?
ST:
O chmurach w ogóle
Nasza chmura
Czy to działa?
MA:
- Systemy rozproszone, dla Internetu
- „Wyzwania” (RU, PV, UU), Storage
ST:
Inny Internet
Nie było jeszcze Chrome, Safari
Tylko: IE6, Netscape 7, Opera 7 (Ad-ware, pierwsza wersja obsługująca DOM)
Oczywiście w 2003 nie było „dzisiejszych” chmur
Już wtedy - „chmura” serwerów frontowych PHP
IQ Test
KS:
Duże wydarzenie medialne w wielu krajach Europy
Nieprzyjemna charakterystyka ruchu użytkowników
Tydzień wcześniej – test próbny
MA
Wynik: serwis przy przewidywanej oglądalności nie zadziała
http://www.faratfilm.pl/?p=151
MA
Tydzień przygotowań do wydarzenia
Maszyny „pożyczone” z innych usług
Instalacja serwerów z płytki
Pierwsze próby skryptowania instalacji
Jak często psują się serwery? Ręczna obsługa takich zdarzeń
Podkreślić to!!!
Sukces !
http://denisgnet.no-ip.org/index.php?article=24
MA:
Pierwszy z wniosków
ST:
Z rozwojem firmy używamy kilku serwerowni
aplikacje nie wspierały kilku DC rozciągięty LAN
Mamy 2 serwerownie, zależne od siebie,
infrastruktura jest monolityczna
Błąd w jednej serwerowni powodował problemy w drugiej
Szukaliśmy sposobu na rozwiązanie
http://www.comarch.pl/handel-i-uslugi/rozwiazania/comarch-infrastruktura-it/data-center-1/galeria/
MA:
Pierwszy pomysł na DRP
Izolacja i separacja awarii
Rozwiązanie problemów sieciowych
Możliwość przenoszenia aplikacji między modułami
Forum JAKO PRZYKŁAD „PLATFORMY”
MA:
Poprawa jakości sieci
Poprawa jakości usług
Podniesione bezpieczeństwo
MA:
Udana migracja, 0 downtime!
Marnotrawstwo sprzętu
Im nowszy sprzęt, tym większe
Aplikacje nie potrafiły „skonsumować” sprzętu
Modna wirtualizacja
http://biznes.onet.pl/serce-onetu,18550,3204219,6555140,fotoreportaze-detal-galeria#photo6555140
MA:
BCP: podział na klasy „ważności” -> unconference
Rezerwy:
100% na SG
50% na ważnych
30% na „reszcie”
https://www.flickr.com/photos/dmoola/730766000
ST
Katastrofa pod Smoleńskiem
Wszystkie słabe punkty obnażone
Za bardzo skupiliśmy się na bezpieczeństwie (HA, DRP)
Nie zauważyliśmy ograniczenia możliwości skalowania pojedynczego modułu
http://www.tvnfakty.pl/10_lat_
http://www.tvnfakty.pl/assets/images/WazneRelacje/Smolensk/smolensk1.jpg
ST:
+100%
ST:
W ciągu 15-30 minut wzrost ruchu na „wiadomościach” 10x
Tyle udało się podać i zmierzyć
ST:
Niemal całkowity zanik ruchu w „rozrywce”
MA:
A administratorzy w tym czasie…
awaryjne skalowanie serwerów, zabieranie ręczne, itd
Tylko 1h niedostępności (sukces IT)
ST:
No, a biznesowo: totalna porażka
https://www.flickr.com/photos/georgholzer/3716553443
MA
100 małych rezerw != duża rezerwa
Dalej: to nie był dobry rok…
MA
W Krakowie woda przerwała wały
Musieliśmy wyłączyć serwerownię „zapasową”
MA
Zabieramy serwery
http://foto2.m.onet.pl/_m/753e3a3275920688aab1e9d7e361f916,0,19,0.jpg
MA:
główne funkcjonalności nie działają poprawnie
Zależności między modułami
MA:
administratorzy potrzebowali pomocy,
Aplikacje MUSZĄ mieć wsparcie developerów
ST
developerzy pomagali
Problem: specjalne konfiguracje serwerów pod aplikacje, trudności przy przenoszeniu
http://www.shutterstock.com/pl/pic-180687500/stock-photo-hacker-using-laptop-lots-of-digits-on-the-computer-screen.html?src=2gi3FtvcZJ-tFQsCcWOWrg-1-48
MA: hasło
MA:
Podsumowanie historii:
Automatyzacja pracy
Elastyczność, nie tylko mon
NIE dla dedykowanych konfiguracji
Wyciągnęliśmy naukę z lekcji, które nas spotkały
ST:
Nie mieliśmy pomysłu, jak przejść ewolucyjnie
Potrzebna duża zmiana
ST:
-Projekt architektury OD ZERA
zwirtualizujemy wszystko!
Dzięki temu
oderwanie od sprzętu
utylizacja sprzętu
elastyczność
MA:
STOP!
Popatrzmy na wymagania!
Wirtualizacja nie odpowiada na żadną z potrzeb
1100 serwerów
Polityka cenowa VMWare
ST:
Skoro nie wirtualizacja, to co?
ST
… tylko automatyka, która pozwala traktować sprzęt jak pulę zasobów.
pełna automatyzacja
jeden zbiór zasobów
Nie 100x (32core, 144GB RAM, 1TB HDD) tylko (3200 cores, 1.5TB RAM i 100TB HDD)
Jak/gdzie zbudować taką chmurę?
ST
Prywatna:
własna lokalizacja
własny sprzęt
własne rozwiązanie
własna serwerownia,
Nowoczesna i bezpieczna
ludzie, sprzęt, …
Narzędzia: Eucalyptus, OpenNebula, OpenStack
Koszt zbudowania, elastyczność,
Wysoki próg wejścia
Powódź - niebezpieczeństwo
http://biznes.onet.pl/serce-onetu,18550,3204219,6555140,fotoreportaze-detal-galeria#photo6555140
ST
Publiczna:
-usługa kupiona na zewnątrz
-koszty (pay as you grow)
-nie martwisz się „jak”?
Był to rok 2010
Dostępne publiczne (Amazon, Rackspace)
Ale nie wszystko wolno (ograniczenia prawne, częściowo nie chcemy)
ST:
Hybrydowa:
-wziąć najlepsze od każdego
-uruchamiany własną instancję ORAZ kupujemy usługę od providera
Zysk: dodatkowe bezpieczeństwo bez dublowania infrastruktury
Pojemność nieograniczona – skalowanie na peak time
MA:
Jak to zbudować ?
https://www.flickr.com/photos/55391407@N03/5172482581
http://www.shutterstock.com/pl/pic-125142224/stock-vector-best-idea-concept-creative.html?src=WhHQ3iF_oA2_Grf_-yONrA-1-11
MA:
Przy IQ, przy Smoleńsku, ciągle potrzebne były _zasoby_ (serwer, storage)
Dobry przykład: Amazon EC2
IaaS ma dostarczyć takie „zasoby” („serwer wirtualny”, „bucket”)
Nacisk na „as a Service”
„Usługi” IaaS:
serwer wirtualny
load balancer
Storage -> unconference
Czas dostępności: pojedyncze minuty
ST:
Tylko nie o to chodziło!
http://www.shutterstock.com/pl/pic-67737544/stock-photo-cloud-computing-servers-virtual-apps-computer-gears-isolated.html?src=PIHVAjPWwx4lujQ3ewFuqA-2-147
ST
Celem działania firmy nie są serwery tylko działające funkcjonalności !
Potrzebna jest automatyzacja aplikacji a nie serwerów
ST:
Perspektywa developera:
Chcemy posiadać „nieskończony serwer” – cały sprzęt traktujemy jako chmurę
Chcemy wdrażać łatwo i często
Aplikacja raz uruchomiona działa póki nie zostanie zatrzymana (bez względu na problemy sprzętowe)
Chcę korzystać z gotowych usług, nie chcę instalować serwera bazy danych
http://www.shutterstock.com/pl/pic-102236311/stock-vector-abstract-concept-of-cloud-computing.html?src=PIHVAjPWwx4lujQ3ewFuqA-1-19
ST
Aplikacje wykorzystują jedno środowisko
Nie chcemy konfigurować serwera na potrzeby aplikacji
Łatwe do automatyzowania
http://www.shutterstock.com/pl/pic-153881807/stock-photo-paas-wordcloud-concept-the-word-in-red-color-surrounded-by-a-cloud-of-blue-words.html?src=rsJm392sCwfibxZzYHhTLA-1-1
Małe funkcjonalności
Łatwe testy i wdrożenia
dobrze się rozpraszają
I tak zarządza nimi automatyka
https://www.flickr.com/photos/readerwalker/4142003275
Nie przechowują danych lokalnie na dysku, nie modyfikują pamięci
Łatwe skalowanie
Odporność na awarie
https://www.flickr.com/photos/pingendiartifex/273739336
Asynchroniczne – opartę o pętlę zdarzeń
Wszystkie zadania kolejkowane, obsługiwane w przypadkowej kolejności
Dobre wykorzystanie sprzętu
Dobre skalowanie ze wzrostem liczy użytkowników
http://www.shutterstock.com/pl/pic-184351490/stock-photo-business-people-standing-in-queue-over-white-background.html?src=EoLiObqeHgSonKj9WEBFQg-1-6
ST:
Podkreślić: asynchroniczne != współbieżne
Więcej na unconference!
ST:
Chmura = ruchliwa ulica w mieście.
Platforma PaaS = droga, znaki i oświetlenie, REGUŁY
Aplikacje = samochody.
Admin chmury może skupić się na odpowiedniej przepustowości drogi
Developer razem z aplikacją jedzie gdzie i kiedy chce.
Kabriolet i ciężarówka
Wszyscy stosują się do ustalonych zasad ruchu.
Zauważcie: pojawiła się DUŻA zmiana!
teraz to developer odpowiada za jakość działania aplikacji
Admin nie wie nic o aplikacjach!
http://www.shutterstock.com/pl/pic-106827782/stock-photo-crossing-from-the-top.html?src=YzRuy4s5pDbAs1jQkWCwlw-1-3
MA:
Nie ma policji, nie ma sprawdzania ręcznego
Pilnowanie przepisów
MA:
Nie da się odnieść korzyści z wejścia w chmurę, jeśli nie zmieni się organizacji
Czy to działa?
MA:
Chaos Monkey, losowo wyłączamy
Żeby się upewnić, że automatyka działa dobrze na każdej warstwie i że aplikacje spełniają założenia
Permanentna awaria
Ciągła niestabilność podstawowym założeniem
Awaryjne przeskalowanie
Co się stanie jeśli w ruchu produkcyjnym padnie serwer?
MA:
Sprawdzam!
ST:
Czy to słuszny kierunek przekonaliśmy się 13.03.2013
Catholic Church England and Wales, Flickr CC
ST:
Chwilowy skok o 100%
Wydarzenie obsłużone „pod czujnym nadzorem ale bez żadnych interwencji”
Nie było potrzeby skalowania, ale nawet gdyby, to byłoby to łatwe
MA
Ale czy było to „wystarczająco duże” wydarzenie?
ST
Wyniki głosowania do europarlamentu
http://wiadomosci.onet.pl/kraj/wybory-do-pe-2014-tak-glosowano-w-poszczegolnych-okregach/jc6eb
ST:
Wiadomości 23x normalnego ruchu,
+80% cały onet
MA
Czy to koniec? Nie – to świetny początek :)
Co fajnego można zbudować na chmurze dowiecie się na kolejnych prezentacjach
Podsumowanie ST
Redukcja sprzętu dla SG
Nie odniesiesz korzyści, jeśli się nie zmienisz