Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG
1. Webinarium Microsoft
Konrad Wypchło, Program Manager, ITMAGINATION
Włodzimierz Bielski, Architekt, ITMAGINATION
Tematem trzeciego eSeminarium firmy Microsoft z cyklu Chmura
publiczna w scenariuszach biznesowych jest wykorzystanie chmury
obliczeniowej do integracji i wizualizacji danych.
Niniejszą publikację rozpoczniemy od przedstawienia aktualnych
trendów w analizie danych. Opowiemy o problemach i wyzwaniach,
jakie stają przed nami w zakresie integracji, przetwarzania
i raportowania danych biznesowych.
Zanim przejdziemy do omawiania scenariuszy biznesowych,
poszukajmy odpowiedzi na pytanie, jakie wyzwania w zakresie
analizy danych stoją dzisiaj przed firmami różnej wielkości?
Nie ulega wątpliwości, że najważniejszym obecnie trendem na
rynku nowych technologii jest Big Data. Hasło to nierzadko pada
z ust osób związanych z branżą IT.
Prelegenci
Cykl
webinariów
Agenda
spotkania
Wyzwania
analizy
danych
1.
Prowadzący: Paweł Potasiński, Microsoft
ITMAGINATION jest partnerem Microsoft od 6 lat, czyli od początku istnienia firmy.
Główną działalnością ITMAGINATION jest budowa systemów analitycznych i raportowych
dla różnych grup odbiorców i szerokiego spektrum zastosowań.
Przedsiębiorstwa muszą zmagać się z dużą ilością danych. Bazy danych, w tym bazy operacyjne,
osiągają rozmiary już nie setek gigabajtów, tylko bardziej dziesiątek terabajtów. Mamy ogromne
hurtownie danych, coraz większe są również bazy analityczne. W branży mówi się o tym, że świat
podąża w kierunku baz danych, który rozmiar liczy się w zetabajtach, czyli w jednostkach, którymi
dzisiaj nie operujemy.
Na trzech wybranych scenariuszach biznesowych pokażemy, w jaki sposób usługi Microsoft
udostępniane w chmurze wpisują się w te zagadnienia. Na koniec spróbujemy odpowiedzieć
na pytanie, jak zacząć używać technologii chmurowych, aby przyniosły one wymierne korzyści
biznesowe?
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
2. 2.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Z drugiej strony możemy powiedzieć, że same w sobie dane nie
mają większej wartości. Są po prostu brzydkie. Klienci bardzo
często pytają o to, w jaki sposób mogą poradzić sobie z dużą ilo-
ścią nieuporządkowanych danych, nad którymi nie panują. W wielu
przypadkach są to dane pochodzące z zewnątrz, spoza organizacji.
Szacuje się, ze ilość tych informacji sięga nawet 85% wszystkich
danych. Z perspektywy ich analizy, jest to bardzo duża ilość.
Kilka lat temu nie mówiono jeszcze, że chmura obliczeniowa
może być podstawą do tworzenia rozwiązań z zakresu analizy
danych. Spróbujmy odpowiedzieć, jak to jest dzisiaj?
Chcielibyśmy zaznaczyć, że każdy użytkownik, niezależnie czy będzie
to analityk lub kierownik, w różnych sytuacjach, na spotkaniach,
na prezentacjach, powinien mieć narzędzia, które pozwolą mu te
informacje po pierwsze analizować, a po drugie prezentować innym,
w sposób atrakcyjny wizualnie, zrozumiały i ułatwiający przekaz.
Z punktu widzenia użytkownika, nieistotne jest to, w jaki sposób
i gdzie te dane będą przechowywane. Platforma technologiczna po-
winna być w jak największym stopniu odsunięta od użytkowników.
Duża ilość
nieuporządko-
wanych danych
Chmura
w analizie danych
Narzędzia
analizy
Wreszcie, ilość tych danych jest nie tylko duża, ale i rośnie w zastraszającym tempie. Mówi się o tym,
że obecnie, w okresie 2-3 miesięcy, na świecie przybywa taka ilość informacji jak przez kilka wieków
wstecz. Największym problemem, z którym się borykamy, jest więc coraz większa ilość danych.
Faktem jest, że nie tak dawno, o chmurze jeszcze nikt nie wspominał lub dopiero zaczynało się
o niej mówić. Rozwiązania firmy ITMAGINATION skupiały się wokół przetwarzania danych stricte
poprzez systemy budowane przez działy IT. Cykl tworzenia takiego systemu był dość długi.
Dzisiaj użytkownicy i firmy chcą mieć dane dostępne jak najszybciej, a przy tym samodzielnie móc
je w różny sposób je modelować i pobierać z różnych źródeł. W kontekście Big data warto podkre-
ślić, że nie tylko wolumen, ale również różnorodność źródeł, nawet jeśli mowa o prostych skoro-
szytach Excel, jest już na tyle duża, że potrzebujemy dodatkowych rozwiązań, które będą wspierać
procesy ich przetwarzania i analizy.
Microsoft ma bogatą ofertę rozwiązań do analizy danych dostarczanych w modelu on premise.
W skład tej grupy produktów wchodzi SQL Server wraz z narzędziami analitycznymi Business
Intelligence. Nowe rozwiązania chmurowe w sposób spójny integrują się z dotychczas stosowanymi
systemami. To przesunięcie technologii ma niejako charakter wyniesienia tradycyjnych aplikacji
i serwerów do chmury. Z drugiej strony narzędzia te udostępniane są klientom w formie usług
sprzedawanych w modelu Software as a Service (SaaS).
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
3. Korzystając z platformy Windows Azure możemy w łatwy sposób
przenosić, kopiować czy replikować bazy danych Microsoft SQL Server
uruchomione lokalnie (on premise) do chmury.
Porozmawiajmy na temat wyzwań związanych z analizą dużych zbio-
rów danych. Dzisiaj firmy stają przed koniecznością szybkiej analizy
informacji, które napływają z różnych, zmieniających się źródeł.
Integracja
systemów
Wyzwania
analizy
3.
Z perspektywy programisty i użytkownika końcowego ważne jest, że proces dostępu do tych danych
jest w pełni przezroczysty. Nie ma znaczenia, czy maszyna z bazą danych działa w lokalnym centrum
danych, czy też jest to zasób dzierżawiony w chmurze publicznej.
Z jednej strony mamy infrastrukturę utrzymywaną w lokalnym lub wynajmowanym centrum danych,
a z drugiej szeroko rozumianą chmurę, do której możemy przenosić wszystkie swoje dane, aplikacje
i serwery. Oba te byty, czyli infrastruktura lokalna (on premise) i chmura, wzajemnie się przenikają.
Wyobraźmy sobie scenariusz, w którym firma zaczyna migrować pewne zasoby do chmury. Przykła-
dowo, kopie danych są przesuwane do zewnętrznej lokalizacji, aby oddzielić je od systemu transakcyj-
nego. I odwrotnie: mając pewne rozwiązanie chmurowe, może się okazać że z jakichś powodów
(np. organizacyjnych) zechcemy przenieść je do lokalnego centrum danych. Każdy z tych scenariuszy
jest możliwy do wykonania.
Integracja systemów działa więc w obie strony, jest bardzo prosta do przeprowadzenia i przezroczysta
dla wszystkich odbiorców danych. Oprogramowanie Microsoft wspiera procesy migracji między środo-
wiskiem lokalnym i chmurą.
W jednym z przykładów integracji, który zaprezentujemy w dalszej części tekstu, zostaną pokazane
dane w arkuszu Excel, które będą pochodzić z repliki danych, znajdującej się w chmurze.
Problemem jest więc przetwarzanie danych, które mają odmienną formę i pochodzą z nieznanych
wcześniej źródeł. W każdym z tych przypadków konieczna jest zmiana samych źródeł, które
– co ważne odnotowania – zmieniają się wraz z otoczeniem.
Z tego względu coraz większą popularnością na rynku cieszą się rozwiązania samoobsługowych
systemów analitycznych (self-service BI). Wskazują na to najnowsze analizy trendów prezentowane
m.in. przez Gartnera. Microsoft doskonale wpisuje się w te trendy ze swoimi rozwiązaniami, dostar-
czając m.in. rozwiązanie Power BI, który szerzej omówimy w dalszej części tekstu.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
4. O systemach self-service BI mówimy głównie w kontekście użyt-
kowników biznesowych. Dzięki tego typu narzędziom pracownicy
mogą samodzielnie analizować duże ilości danych. W tym miejscu
nasuwa się pytanie o rolę działu IT w zakresie dostarczania i prze-
twarzania danych w przedsiębiorstwie.
Wszystkie przykłady zaprezentowane w niniejszym tekście są
w mniejszym lub większym stopniu oparte o rozwiązanie Power BI.
Zanim jednak przejdziemy do kwestii technicznych, spróbujmy od-
powiedzieć na pytanie, w jaki sposób dzisiaj przetwarzamy i anali-
zujemy dane.
Z jednej strony rola działu IT w zasadzie pozostaje ta sama.
Informatycy nadal są odpowiedzialni za dostarczanie i utrzymanie
zasobów IT, niezależnie od tego, czy będzie to infrastruktura lokalna,
czy w chmurze.
Rola IT
w biznesie
Power BI
Podsumowanie
części I
4.
IT pełni rolę moderatora – usługodawcy, który dostarcza ustrukturyzowane dane np. w postaci
hurtowni danych. Mamy więc tutaj tradycyjne podejście do agregacji i udostępniania użytkownikom
końcowym danych, które pochodzą z systemów informatycznych przedsiębiorstwa.
Dział IT nadal pozostaje potrzebny, jednak wszystkie te dane, które dzisiaj są agregowane przez
informatyków, np. cele sprzedażowe dostarczane w formie dokumentów Excel, będą mogły być
przygotowywane przez użytkowników końcowych. Podejście to pozwala skrócić czas potrzebny na
pozyskanie informacji z wielu dni do minut, właśnie dzięki temu, że to użytkownik generuje sam
potrzebnemu zestawienia.
Część zadań związanych z pozyskiwaniem, przetwarzaniem i analizą danych będzie mogła być jed-
nak wykonywana przez użytkowników końcowych. Dzięki temu podejściu, niektóre zadania uda się
wykonać szybciej. Do minimum ograniczona zostaje potrzeba komunikacji pomiędzy działem IT,
a użytkownikami biznesowymi. W tym kontekście dział IT otwiera przed pracownikami przedsię-
biorstwa nowe możliwości, natomiast sam proces zarządzania i utrzymania systemów informatycz-
nych pozostaje bez zmian.
Zanim zaczniemy pracować z danymi musimy je pobrać ze źródeł wewnętrznych (np. system ERP,
dokumenty Excel), bądź też źródeł zewnętrznych (np. sieci społecznościowe). Problem w tym,
że posiadając te dane, nie możemy zagwarantować ich wysokiej jakości. Wynika to z faktu,
że w wielu przypadkach są one wprowadzane przez ludzi (ryzyko pomyłek) lub pochodzą z niezna-
nych nam systemów.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
5. 5.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Ważnym krokiem jest więc proces oczyszczania danych. Na tym
etapie wymagane jest, aby używana przez nas platforma BI wspie-
rała te zadania. Jak się później przekonamy, w oprogramowaniu
Power BI mamy do tego odpowiednie narzędzia.
Zobaczmy, jak przekłada się to na komponenty Power BI. Do pobie-
rania i oczyszczania danych możemy użyć narzędzia Power Query.
Power BI stanowi element usługi Office 365. Jest to jeden z dodat-
ków (add-ons), które można dodać do subskrypcji narzędzi i usług
biurowych dostarczanych w chmurze Microsoft.
Oczyszczanie
danych
i raportowanie
Elementy
Power BI
Kolejny krok polega na łączeniu danych pochodzących z różnych źródeł, spinając je w przyjętym
modelu analitycznym. Połączone dane warto wzbogacić o informacje referencyjne pochodzące
z zewnątrz np. z chmury.
Zebrane i przygotowane dane musimy lepiej zrozumieć (poczuć je), aby móc w kolejnym kroku zbu-
dować proste, wiarygodne oraz czytelne dla użytkowników biznesowych wizualizacje. Pamiętajmy,
że odbiorcą tych danych może być również osoba zarządzająca przedsiębiorstwem, która ma bardzo
mało czasu. Narzędzie, które oddajemy w ręce użytkownika musi być więc intuicyjne w obsłudze.
Zestawienia i wizualizacje możemy udostępnić w portalu intranetowym, aby zapewnić wygodny
dostęp do nich pozostałym osobom.
Zwróćmy uwagę, że platforma analityczna firmy Microsoft pozwala wykonać te same czynności na wiele
sposobów. Pokazujemy ścieżkę bazującą na oprogramowaniu Power BI, która nie wyklucza możliwości
użycia klasycznych narzędzi do analizy danych np. PowerPivot obecnego na rynku już ponad 5-6 lat.
Najlepszym narzędziem do eksploracji danych pozostaje bez wątpienia dobrze znany wszystkim pro-
gram jakim jest Microsoft Excel. W temacie naszej publikacji cały czas poruszamy się w obrębie Excela
wzbogaconego o pewne dodatki. Pół żartem można dodać, że część danych będzie pochodziła z na-
rzędzia, które w dalszej części wykorzystamy do analizy tych danych przy użyciu rozwiązań Power BI.
Wynika to z faktu, że w wielu scenariuszach chcemy podłączyć się pod istniejący proces i go ulepszyć,
a niekoniecznie zamieniać.
Jeśli chodzi o wizualizację danych do dyspozycji mamy stosunkowo nowe narzędzie Power View, dostęp-
ne również dla urządzeń mobilnych. Power Map umożliwia prezentację danych i wykresów na trójwy-
miarowej mapie Ziemi. Gwarantuje niespotykane wrażenia wizualne. Z kolei współdzielenie danych,
zestawień i raportów odbywa się z wykorzystaniem platformy SharePoint w chmurze Windows Azure.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
6. 6.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
W trakcie omawiania pierwszego scenariusza spróbujemy pokazać
kawałek Power BI w ujęciu praktycznym. Konrad wcieli się w rolę
menedżera sprzedaży w firmie z branży FMCG. Przedsiębiorstwo to
dostarcza klientom detalicznym szeroki asortyment wody mineralnej.
System analityczny ma pomóc w mierzeniu wydajności pracowni-
ków. Zadaniem kierownika jest śledzenie, jak wizyty przedstawicieli
handlowych u klientów przekładają się na sprzedaż (efektywność).
Scenariusz 1:
Menedżer
sprzedaży
Wydajność
pracowników
Z perspektywy menedżera sprzedaży, Konrad spotyka się z kilkoma problemami, które chciał-
by rozwiązać za pomocą narzędzia BI. Pierwszym z nich jest brak rzetelnych informacji na temat
sprzedaży. System analityczny ma zapewnić mu podstawowe dane i wskaźniki sprzedaży w różnych
przekrojach – z podziałem na regiony, przedstawicieli handlowych czy produkty. Konrad chciałby
mieć również większą kontrolę nad sposobem prezentacji tych danych. Odpowiedzią na problemy
Konrada jest program Excel, który integruje wszystkie komponenty Power BI.
Zacznijmy od przedstawienia rozwiązania, czyli pokazania tego co trzeba zrobić, aby uzyskać pożą-
dany efekt końcowy. W tym celu przygotowaliśmy zestaw interaktywnych raportów Power View, któ-
re pozwalają za pomocą kilku kliknięć zmieniać zakres i sposób prezentacji danych. Na przykład,
za pomocą jednego kliknięcia wybieramy region sprzedaży, aby zawęzić (przefiltrować) zakres wy-
świetlanych danych do wskazanego obszaru. Tak pozyskane dane pozwoliły nam wzmocnić działa-
nia w regionie w celu zwiększenia wyników sprzedaży.
W tym celu przygotowaliśmy raport, który pokazuje liczbę wizyt w zadanym okresie (tutaj: jest to
rok) oraz poziom realizacji planów sprzedaży, rozumianą tutaj przez wartość sprzedaży brutto.
Na wykresie można zauważyć, że w ciągu ostatnich kilku okresów, liczba wizyt u klientów była zna-
cząca, a mimo to wartość sprzedaży pozostała na tym samym poziomie. Trend ten jest szczególnie
widoczny pod koniec roku, kiedy dynamika sprzedaży nie była już tak duża, jak na początku okresu.
Drugim wnioskiem, który można wyciągnąć z analizy jest to, że rynek już nasycił się po wprowadze-
niu nowego produktu. Powodem mniejszej dynamiki sprzedaży może być również fakt, że sprzedaż
wody mineralnej jest sezonowa, ze szczytem w okresie letnim.
Aby to potwierdzić, wybierzmy jeden kluczowy produkt (Wodospad smaku), a następnie przeanali-
zujmy jego sprzedaż. Wyraźnie widać, że w miesiącach letnich sprzedaż jest najwyższa. Mamy więc
do czynienia z klasyczną sezonowością sprzedaży dla wybranego asortymentu.
Model ten warto rozszerzyć o elementy systemu Big data, dołączając do danych sprzedażowych
informacje o średniej temperaturze miesięcznej lub dniowej w miejscach, gdzie woda (główny
produkt firmy) jest sprzedawana. Narzędzia Microsoft umożliwiają wykorzystanie danych, które są
udostępniane publicznie, tutaj: danych meteorologicznych.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
7. 7.
Tworzenie raportów analitycznych jest bardzo proste, kiedy mamy
zdefiniowany model danych. Kryje się za tym kompletna infrastruktu-
ra, która umożliwia funkcjonowanie całego systemu analitycznego.
W kwestii licencjonowania mamy do wyboru dwie opcje.
Możemy samodzielnie zarządzać licencjami na oprogramowanie
zainstalowane w maszynie wirtualnej lub też wynająć zasoby
w chmurze Windows Azure z prawem do używania wskazanych
aplikacji Microsoft.
Analityka
w chmuzre
Licencjonowanie
i koszty
chmury
Nie chcemy, aby system analityczny dodatkowo obciążał system produkcyjny (on-premise). W tym
celu, za pomocą wbudowanych narzędzi SQL Server, wykonaliśmy replikę maszyny wirtualnej bazy
danych do chmury Windows Azure. W rezultacie otrzymaliśmy coś na wzór hurtowni danych, która
przechowuje te same informacje, co system źródłowy (baza operacyjna), ale jest używana wyłącz-
nie na potrzeby raportowania oraz pobierania danych (odpytywania) za pomocą programu Excel czy
innych narzędzi analitycznych. Tak wydzielona „hurtownia danych” może posłużyć nam także do
zbudowania bazy analitycznej.
Zbudowanie infrastruktury, która pozwoli nam odpiąć się od systemu produkcyjnego jest niezwykle
proste. Stworzenie maszyny wirtualnej lub klastra Hadoop w Windows Azure sprowadza się do kil-
ku kliknięć myszą. W galerii Azure znajdziemy gotowe do użycia maszyny wirtualne Windows i SQL
Server, co pozwala ograniczyć czas potrzebny na instalację tych systemów od podstaw.
Drugi model oznacza nieco wyższy koszt wynajęcia maszyny wirtualnej, z drugiej - daje nam więk-
szą swobodę w zamawianiu serwerów, szczególnie jeśli potrzebujemy ich na krótki okres. W tym
przypadku nie musimy zajmować się kwestią licencjonowania oprogramowania.
Chmura Windows Azure pozwala wynajmować zasoby na tak długo, jak ich potrzebujemy. Istnie-
je możliwość uruchomienia dodatkowych maszyn wirtualnych np. w przypadku nagłego wzrostu
zapytań do bazy czy prowadzenia projektów integracji danych, tak aby zwiększyć wydajność całego
systemu i odciążyć serwery produkcyjne. Maszyna wirtualna może zostać wyłączona, kiedy nie ma
dalszej potrzeby jej używania. Od tego momentu klient nie płaci za niewykorzystywane zasoby.
Nie utrzymuje również niepotrzebnych licencji, które w przypadku wdrożenia on-premise, pozostały
by bezużyteczne.
Mamy więc raporty i system monitorujący. Ważne jest (i dotyczy to wszystkich komponentów Azure),
że wszystkie czynności w chmurze możemy wykonywać z poziomu graficznego interfejsu (GUI).
Do dyspozycji mamy również Windows PowerShell, jeśli chcemy te procesy automatyzować.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
8. 8.
Wróćmy do narzędzia Power Pivot. Mamy wykres z danymi sprze-
dażowymi (ilość produktów sprzedawanych w danym dniu miesią-
ca), do którego chcemy dołączyć dodatkowe informacje o kategorii
produktu lub jego producencie. Czynność ta jest bardzo prosta, jeśli
umiemy posługiwać się tabelami przestawnymi, czyli znane nam są
takie pojęcia jak wymiar, kalkulacja itd.
Power
Pivot
Model danych został zaprojektowany tak, aby prezentować relacje biznesowe. Dane wyświetlane
w Power Pivot wyglądają tak samo, jak w tabelach przestawnych. Praca z Power Pivot nie różni się
więc znacząco od korzystania z arkusza Excel.
W demonstracji chcielibyśmy zwrócić uwagę na jeszcze jedną kwestię. Power Pivot umożliwia wizu-
alizację danych na mapach. Narzędzie to pozwala na dodawanie hierarchii, dzięki czemu dane geo-
graficzne mogą być prezentowane w formie graficznej, w ujęciu kraju, regionu czy miasta. Informacja
o lokalizacji kojarzona jest z danymi sprzedażowymi na podstawie adresu klienta lub koordynat GPS.
Oprogramowanie Microsoft dostarczane jest z dokładną mapą Polski w formie komponentu Power View.
Warstwa raportowa jest tym elementem modelu danych, którą
można tworzyć bardzo prosto. Przykładowo, za pomocą jednego
kliknięcia myszą, można dodać kolejny poziom hierarchii w analizo-
wanych danych.
Na potrzeby tej publikacji przygotowaliśmy dwie proste demon-
stracje. Załóżmy, że firma produkcyjna wprowadza na rynek nowy
produkt. Chcemy zobaczyć, jak rozszerzanie dystrybucji na cały kraj
przekłada się na wzrost sprzedaży. Zaczynamy od Warszawy, w któ-
rej przedsiębiorstwo ma swoją siedzibę. Na wykresie zobaczymy jak
rozkłada się ta sprzedaż na obszarze całego kraju. Nie będziemy
tutaj omawiać interfejsu programu, bo jest on bardzo prosty. W tym
miejscu wspomnijmy jak wygląda wiązanie danych sprzedażowych
z informacjami geograficznymi.
Power
Map
Nowy
produkt
na rynek
Na rynku dostępny jest również produkt Project GeoFlow (Power Map), który umożliwia prezenta-
cję danych na mapach wraz z upływem czasu. Narzędzie to wykorzystamy do przygotowania inte-
raktywnej wizualizacji pokazującej np. jak zmienia się pokrycie produktami na obszarze kraju lub
regionu. Power Map pozwala przedstawić te zmiany w atrakcyjnej formie „opowiadania o danych”.
W narzędziu mamy szerokie spektrum możliwości mapowania tych danych. Odbywa się to na pod-
stawie atrybutów takich jak adres, miejscowość, kraj, kod pocztowy, a nawet szerokość geograficz-
na. Wiele firm, zamiast na koordynatach GPS, opiera się po prostu na adresach.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
9. 9.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Przygotowana animacja prezentuje zmianę obszaru dystrybucji produktu na przestrzeni kolejnych
miesięcy. Wraz z rozwojem sieci dystrybucji widok mapy przechodzi płynnie z obszaru Warszawy na
pozostałe regiony kraju. Animacja może być w dowolnym momencie zatrzymywana, a wyświetlane
mapy skalowane, obracane, przybliżane. Oprogramowanie pozwala na dodawanie adnotacji. Istnieje
możliwość zapisania animacji w formie pliku wideo.
Power Map dostępny jest dla komputerów biurkowych (desktop). Narzędzie to wykorzystuje moc
współczesnych komputerów do renderowania trójwymiarowych map. Z kolei mapy Power View są
dwuwymiarowe i można uzyskiwać do nich dostęp przez przeglądarkę internetową. W przypadku
Power Map wygenerowane animacje możemy zapisać w formie nagrania wideo i odtwarzać je rów-
nież na urządzeniach mobilnych.
Wspomnieliśmy wcześniej o możliwości umieszczania różnych da-
nych, poza Power Map, na portalu internetowym. Sam portal można
uruchomić mając subskrypcję na usługę Office 365 wraz z kompo-
nentem Power BI. Wystarczy wgrać pliki raportów do portalu, aby
móc je w trybie interaktywnym przeglądać i analizować z poziomu
przeglądarki internetowej.
Dużo się mówi o tym, że portal Power BI oferuje dużo więcej funkcji,
niż tylko współdzielenie raportów i praca z danymi w oknie przeglą-
darki. Jedną z nich jest rozwiązanie Q&A.
Publikowanie
raportów
Q&A i zapytania
w języku
naturalnym
Funkcja ta pozwala samodzielnie zadać pytanie dotyczące danych w sposób bardzo ogólny. Inny-
mi słowy, tylko w przybliżeniu wiemy, o co chcemy zapytać, a z drugiej strony nie mamy czasu,
ani umiejętności w budowaniu i modyfikacji tabel przestawnych. Power BI umożliwia eksploracje
danych w sposób dynamiczny, który będzie zrozumiały także dla osób zarządczych.
W kontekście tłumaczenia języka mówionego (w tej chwili angielskiego) na rozumienie danych
w systemie Power BI Q&A największe znaczenie ma sam model danych, a nie sposób w jaki zorga-
nizujemy raporty. Wrzucając model Power Pivot na serwer do narzędzia Power BI dostaniemy pew-
ne wyniki, natomiast mamy też dostęp do narzędzi i dokumentacji, które pozwolą usprawnić model
danych w taki sposób, aby zapytania kierowane do Q&A były w większym stopniu zrozumiałe.
W tym celu stosuje się synonimy. Przykładem może być tutaj wprowadzenie synonimów dla nazw,
kategorii itd. w modelu danych dla polskiego producenta wody mineralnej, przygotowanego
z użyciem narzędzia Power BI w języku angielskim (polska wersja pojawi się pewnie w niedługim
czasie). Power BI umożliwia śledzenie zadawanych pytań. Analitycy widzą więc, o jakie informacje
pytają pracownicy i jakich danych używają.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
10. 10.
Zwróćmy uwagę, że narzędzia analityczne rozwijane są bardzo
dynamicznie. Kolejne wersje Power Query wydawane są niemal co
miesiąc. Najnowsza wersja tego narzędzia przynosi m.in. obsługę
nowego źródła danych - SAP Business Objects. Cykl wydawniczy
narzędzi Power BI, które w rzeczywistości są bardziej usługami niż
typowymi produktami, został skrócony z 18 miesięcy do mniej niż
miesiąca. Usługi te rozwijane są w trybie ciągłym.
W pierwszym scenariuszu przedstawiono technologię Power Pivot
służącą do wielowymiarowego modelowania danych. Analiza ta doty-
czyła dużej ilości (ponad 2 miliony rekordów) danych sprzedażowych.
Silnik Power Pivot działa w pamięci RAM (in memory) i umożliwia pracę z danymi pochodzącymi
z różnych źródeł. Narzędzie Power View umożliwia wizualizację tych danych przez tworzenie ani-
mowanych wykresów i zestawień. Wizualizacje te tworzone są w czasie rzeczywistymi (online), tak
więc zmiana układu lub zakresu danych wpływa natychmiast na to, co widzimy na ekranie. Z kolei
Power Map umożliwia prezentację zebranych informacji na mapach.
Pierwszym jego zadaniem jest zarządzanie celami sprzedaży. W wielu firmach system stawiania
celów (targety) oparty jest wyłącznie o arkusze kalkulacyjne Excel. Problemem, z którym się spo-
tykamy, jest konieczność weryfikacji danych sprzedażowych, pochodzących z systemu informatycz-
nego przedsiębiorstwa, z celami sprzedażowymi, zapisanymi właśnie w plikach Excel. Dodatkowo,
kierownik widzi cele sprzedaży przypisane dla pracownika, bez planów odnoszących się do po-
szczególnych produktów. Co z tym możemy zrobić?
Z perspektywy menedżera sprzedaży patrzyliśmy na firmę global-
nie, zwracając uwagę na wyniki sprzedaży według produktu, regio-
nu itd. W drugim scenariuszu wcielimy się w kierownika regionu,
którego zadania i problemy są nieco odmienne. Kierownik danego
obszaru ma pod sobą pracowników, których musi rozliczyć z pracy
w terenie (salesforce).
Rozwój
narzędzi
Power BI
Podsumowanie
scenariusza
Scenariusz 2:
Kierownik
regionu
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
11. 11.
W publikacji tej chcemy pokazać możliwość wykorzystania usługi
SharePoint Online do agregowania informacji o planach i wynikach
sprzedaży. Kierownicy regionów wgrywają tutaj pliki, jeśli cel zo-
stanie osiągnięty. W rezultacie mamy zestaw 20-30 arkuszy Excel
utworzonych przez poszczególnych kierowników regionu. Dane te
można w prosty sposób dołożyć do przedstawionego w poprzednim
scenariuszu modelu sprzedaży. Sprawdźmy, jak to zrobić.
Przypomnijmy, że raport z wykonania sprzedaży został umieszczo-
ny w portalu SharePoint przez kierowników regionu. W tym celu
wykorzystywane jest oprogramowanie Power Query. Jest to narzę-
dzie klasy ETL służące do czyszczenia i integracji danych. Zwróćmy
uwagę, że Power Query jest integralną częścią Power BI, w odróż-
nieniu od Power Pivot, który jest dodatkiem do Excela w wersji 2010
i 2013. Obróbka danych z wykorzystaniem Power Query wykonywa-
na jest przez użytkownika. W przeciwieństwie od innych systemów
ETL, Power Query nie jest narzędziem serwerowym.
Agregacja
danych
w SharePoint
Power
Query
Pierwsze, co przychodzi nam na myśl to zastosowanie złożonego procesu ETL. Zadanie to ma być
wykonywane przez użytkowników końcowych, a nie programistów i analityków zatrudnionych w
działach IT. Na ekranie widzimy wygenerowany raport, który porównuje cele sprzedażowe (targety)
z wynikami sprzedaży. Dane te są wizualizowane z wykorzystaniem wskaźników KPI, semaforów,
grafik i kolorów. Co ważne, cele zostały rozbite po produktach. Zwróćmy uwagę, że cała wizualiza-
cja została przygotowana wyłącznie z programie Excel w formie tabeli przestawnej.
Wróćmy do naszego przykładu. Za pomocą Power Query umieściliśmy w witrynie SharePoint jeden
z plików z wynikami sprzedaży. Power Query ma swój język operacji, jednak jeśli jesteśmy użytkow-
nikami biznesowymi, wszystkie operacje wykonywane w tym narzędziu możemy wykonać za pomo-
cą myszy.
Power Query pozwala obrabiać załadowane dane. Na początek z tabeli danych usuwamy zbędny na-
główek. Wprowadzone przez kierowników dane mają postać tabeli przestawnej. Przetwarzanie tych
danych przez narzędzia analityczne jest niewygodne, dlatego za pomocą Power Query zamienimy je
na znormalizowane dane tabelaryczne. W Power Query czynność ta wymaga jednego kliknięcia
w przeciwieństwie do wielu linijek kodu SQL, które należałoby napisać korzystając z innego narzędzia.
Jako ciekawostkę dodajmy, że w oknie Power Query widoczny jest skrypt, który powstaje w trakcie
wykonania operacji przekształcania danych. Zapisywane są kolejne kroki związane z ich modyfika-
cją, tak więc sam skrypt, jeśli zachodzi taka potrzeba, można przy odrobinie umiejętności zoptyma-
lizować i w jeszcze większym stopniu dostosować do własnych wymagań.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
12. Spróbujmy odpowiedzieć na pytanie, jak to się dzieje, że mając
z góry ustalony cel sprzedażowy (target) możemy rozbić go na pro-
dukty? W ujęciu biznesowym czynność ta wykonywana jest według
kluczy podziałowych ustalonych na podstawie danych historycznych.
To wszystko dzieje się w Power Pivot.
Alokacja
sprzedaży na
produkty
Uruchamiamy edytor Power Pivot. Mamy tutaj tabele, czyli surowe dane o planowanej sprzedaży,
które zostały wcześniej zaimportowane przez Power Query. Nie znajdziemy tu jednak informacji
o produktach.
Obok mamy proste kalkulacje w języku DAX, którego składnia została zaprojektowana tak, aby być jak
najbardziej zbliżona do formuł Microsoft Excel, ale jednocześnie zaoferować funkcjonalność podobną
do języka MDX. Mamy więc pojedynczy wiersz kodu (formułę), która liczy nam współczynnik udziału
produktu w całości sprzedaży. Mechanizm ten można zastosować również w scenariuszu, w którym
cele sprzedażowe narzucone są z góry.
Wiele rzeczy, które pracownicy firmy wykonują teraz w Excelu, możemy zamodelować przy użyciu
Power Query. W jednym pliku istnieje możliwość integracji danych z programu Excel, Power View
oraz Power Map.
Zaprezentowaliśmy wizualizację wyświetloną w oknie programu Excel. Z powodzeniem może być ona
dostępna również w sieci. Niezależnie od tego, jakie technologie analizy danych zastosujemy (Excel,
Power BI) dane, raporty i zestawienia przenoszone są do portalu internetowego. Za każdym razem,
dzięki Excel Services, wizualizacje te wyświetlane są dokładnie w takiej samej formie w jakiej zostały
przygotowane i udostępnione.
12.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
W celu scalenia danych pochodzących z różnych źródeł (wielu plików) wykorzystano mechanizmy
automatyzacji zadań Power Query. Każdy z plików został załadowany i przetworzony w pętli. Zapyta-
nie Power Query może zostać udostępnione innym osobom. Jest to zadaniem „data stewarda”, czyli
osoby, która w przyszłości będzie nadzorowała zapytania użytkowników.
Dane i raporty przechowywane są w chmurze Azure. Dostęp do tych obiektów możliwy jest po zalo-
gowaniu się do usługi Office 365. Power Query umożliwia bezpośrednie logowanie do konta przed-
siębiorstwa w chmurze.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
13. Power Query jest narzędziem, które umożliwia łatwiejsze i bardziej
efektywne wykonywanie zadań, które dotychczas były realizowane
wyłącznie w programie Excel. Chodzi tutaj głównie o pobieranie da-
nych z kilku źródeł oraz ich przetwarzanie i agregowanie w formie
tabel przestawnych.
W trzecim scenariuszu biznesowym spróbujemy postawić się w roli
szefa marketingu, który chce dowiedzieć się, w jaki sposób zarzą-
dzana przez niego marka jest postrzegana w internecie, w sieciach
społecznościowych oraz widziana w wynikach wyszukiwarek.
Wszyscy doskonale wiemy, że tego typu informacje są potrzebne
w prowadzeniu działań marketingowych. Chcemy wiedzieć, jak
postrzegają nas klienci oraz użytkownicy – teraz oraz w przeszłości
(dane historyczne).
Podsumowanie
scenariusza
Scenariusz 3:
Szef
marketingu
W sytuacji kiedy mamy do czynienia z analitycznymi rozwiązaniami klasy korporacyjnej, czyli hur-
townią danych z warstwą gotowych raportów i narzędzi BI, wdrożenie podobnych scenariuszy bizne-
sowych wymagałoby interakcji między użytkownikiem biznesowym, a działem IT.
W wielu przypadkach działy IT nie są w stanie odpowiednio szybko reagować na zgłoszenia napły-
wające od użytkowników. Jeśli modyfikacja danych i raportów, np. przez dołożenie planów sprze-
daży, nie mogłaby być szybko zrealizowana, wielu pracowników zdecydowałoby się na zrzut danych
z systemu BI i dalszą samodzielną obróbkę tych informacji. Tak przygotowane zestawienia trudno
byłoby jednak dalej dystrybuować.
Dane wygenerowane przez Power Pivot można publikować na SQL Server w bardzo prosty spo-
sób. Ponownie da się tutaj zauważyć pełną integrację między Power Pivot, w którym tworzymy
modele, a SQL Server. Ma to sens w przypadku dużej ilości danych, które mogą zostać wyniesione
do bazy analitycznej.
Faktem jest, że tych danych nie można pobrać. Z jednej strony mamy więc problem z ich dostępno-
ścią. Po drugie – danych o firmie i marce może być tak dużo oraz mogą być one w takiej formie,
że ciężko będzie je przetwarzać i analizować. Problem ten jest tak trudny do rozwiązania, że de
facto dział IT przy użyciu klasycznych narzędzi nie jest tego w stanie wykonać. Nie do końca bowiem
wiadomo nawet, jak do prostych modeli powinniśmy „włożyć” te dane.
13.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
14. Analiza sieci społecznościowych (social analytics) to jeden
z najgorętszych tematów w obszarze Big data. Scenariusz, który
pokażemy jest bardzo prosty, ale pokazuje kierunek w jakim mo-
żemy pójść stając przed zadaniem analizy dużej ilości nieustruk-
turyzowanych lub słabo ustrukturyzowanych danych.
W tym momencie spróbujmy zastanowić się, w jaki sposób doszli-
śmy do tych wniosków. W pierwszym kroku zebraliśmy potrzebne
dane za pomocą otwartego narzędzia Flume. Za chwilę zauważy-
my, że Microsoft, udostępniając swoją platformę Big Data o nazwie
HDInsight oparł się wyłącznie na otwartych rozwiązaniach Open
Source. Dla Microsoft nie jest to nowość. W Windows Azure znaj-
dziemy maszyny wirtualne z oprogramowaniem Oracle czy obrazy
dystrybucji Linuksa itd.
Analiza
sieci
społecznościowych
Dane
wejściowe
Zaczniemy od pokazania wyniku, aby w kolejnej części tekstu opowiedzieć, jak do niego doszliśmy.
Na slajdzie widzimy grafikę prezentującą postrzeganie marki, rozumiane jako liczbę wystąpień
(faktów) na temat firmy np. wpisy w serwisie Twitter.
Na początek informacja o tym, jak powstaje taki zbiór danych. Informacje pobierane są za pomocą
interfejsu programistycznego (API) udostępnionego przez sieć społecznościową, choć należy jasno
powiedzieć, ze nie wszystkie serwisy tego typu pozwalają na ekstrakcję dużej ilości danych. Na ryn-
ku znajdziemy również dostawców, którzy komercyjnie pomagają w pozyskiwaniu takich informacji.
Wróćmy do naszego przykładu. Analiza jest dość prosta, bowiem ilość informacji zawartych
w pojedynczym wpisie na Twitterze jest niewielka. W zaprezentowanym przykładzie można zauwa-
żyć, który kraj jest do naszej firmy najbardziej negatywnie nastawiony. Tutaj dochodzimy do kon-
kluzji, iż w obszarze social analytics raczej chodzi o wyłapywanie negatywnych opinii, które mają
znacznie mocniejszy przekaz, niż te pozytywne.
Dane wejściowe używane do analizy nie są w pełni ustrukturyzowane. Opisowo mówiąc, dane te
nie są zupełnie bez struktury, natomiast tabele SQL nie do końca nadają się do przechowywania
informacji pozyskiwanych z internetu i sieci społecznościowych. To co widzimy na prezentacji to
wpisy Twittera składające się z dużej ilości tekstu i metadanych. Warto odnotować, że mocną stroną
Hadoop HDInsight jest właśnie praca z tekstem.
W tym scenariuszu interesuje nas wyłącznie tekst zawarty we wpisie Twittera. Mamy słownik
kilkuset słów angielskich o wydźwięku negatywnym, neutralnym i pozytywnym, które umożliwiają
skategoryzowanie treści pojawiających się na Twitterze.
14.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
15. Tym co odróżnia HDInsight od konkurencyjnych rozwiązań jest szyb-
kość i łatwość uruchamiania oraz używania systemów analitycznych
w chmurze Microsoft. W tym celu kupujemy subskrypcje Windows
Azure z usługą HDInsight.
Jest to możliwe, bowiem postawienie klastra HDInsight trwa
ok.15 minut. Cała ta operacja wymaga wskazania jedynie kilku
informacji o tworzonym klastrze np. ilość potrzebnych węzłów.
Dla osób znających Hadoop, Microsoft udostępnia kilka wersji
HDInsight.
HDInsight
Uruchamianie
klastra
HDInsight
W HDInsight wyraźnie rozdzielono obszary związane z przechowywaniem oraz przetwarzaniem
informacji.
Dane przechowywane są w magazynie (storage) Windows Azure. Kiedy załadujemy do chmury
wszystkie potrzebne pliki i obiekty (mogą to być gigabajty lub nawet terabajty danych) dopiero wte-
dy powołujemy do życia klaster HDInsight.
Klaster ten jest nam niezbędny wyłącznie do tego, aby te dane przetwarzać. Podobnie jak w przy-
padku maszyn wirtualnych, gdzie czas życia maszyny z perspektywy kosztowej ma znacznie, zada-
nia w chmurze związane z przetwarzaniem danych rozliczane są wyłącznie za czas (godziny) korzy-
stania z klastra HDInsight.
Nie ukrywajmy faktu, że rozwiązania te nie są dostarczane za darmo. Hadoop składa się z wie-
lu rozproszonych węzłów, które oferują potężną moc obliczeniową. Konkluzja nasuwa się jedna
- trwałe dane przechowujemy w relatywnie tanim magazynie w chmurze, podczas gdy instancje
obliczeniowe wynajmujemy wyłącznie na czas przetwarzania tych danych.
Technologicznie HDInsight jest bardzo zbieżny produktami dostarczanymi przez firmę Hortonworks
(jeden z liderów rozwiązań Hadoop), która jest partnerem Microsoftu w zakresie przetwarzania
dużych ilości danych. HDInsight stanowi więc kolejne miejsce, gdzie zauważyć można przecięcie
technologii Microsoft z oprogramowaniem Open Source.
Microsoft udostępnia HDInsight Emulator (wcześniejsza nazwa HDInsight Server), który umożliwia
wypróbowanie usługi bez generowanie kosztów w swoich subskrypcjach Azure. Oprogramowanie to
można zainstalować na lokalnym serwerze, aby zasymulować działanie klastra Hadoop.
15.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
16. Proces nadawania struktury danym, które są przetwarzane od-
bywa się w klastrze Hadoop. Celem jest nałożenie struktury, któ-
rej efektem niekiedy jest uzyskanie danych tabelarycznych, choć
niekoniecznie dane te muszą mieć taką postać. Do dyspozycji mamy
narzędzie Hive umożliwiające nałożenie na dane pewnej struktury,
która pozwala na odwoływanie się do nich w języku pseudo-SQL
(komendy CREATE TABLE, SELECT, CREATE VIEW itd.)
W tym momencie nasuwa się pytanie, jak HDInsight ma się do hur-
towni danych i kiedy warto wykorzystać każde z tych rozwiązań?
W wielu obszarach oba te rozwiązania są do siebie podobne.
I tu, i tu mamy dużą ilość danych. Z perspektywy analitycznej ważny
jest jednak rodzaj tych danych.
Przetwarzanie
danych
w Hadoop
HDInsight,
a hurtownia
danych
Wróćmy do naszego pliku Excel. W środku mamy dane Power Pivot, połączone sterownikiem ODBC
z serwerem. Sterownik ten jest darmowy i może zostać pobrany ze strony Microsoft. Inne opcje
podłączenia się do Hadoop/HDInsight to m.in. Power Query. Narzędzie to umożliwia pracę z danymi
pochodzącymi z innych źródeł, w tym danymi przechowywanymi w magazynie Windows Azure.
W scenariuszu biznesowym można zbudować arkusze, które korzystają bezpośrednio z danych
zgromadzonych w HDInsght. Dzięki takim narzędziom jak Power Query czy Power Pivot będzie ist-
niała możliwość odpytania o te dane w języku naturalnym (angielskim).
Jako ciekawostkę dodajmy, że jednym z dostępnych w Power Query źródeł danych jest Facebook.
To propozycja dla osób, które potrzebują pobrać relatywnie niewielką ilość danych, tutaj profili
użytkowników w serwisie społecznościowych.
Jeśli mamy hurtownie, która przez wiele lat jest rozwijana i zarządzana oraz zasilana z wewnętrz-
nych źródeł danych (np. ERP, CRM itd.), to zamiast zmieniać ten system (absolutnie nie o to chodzi),
spróbujmy wzbogacić zgromadzone dane o informacje zewnętrzne np. wpisy z Twittera.
W dużym uproszczeniu można przyjąć, że warto wybrać HDInsight, jeśli chcemy analizować dane
pochodzące z internetu. W przypadku przetwarzania danych wewnętrznych pierwszym wyborem praw-
dopodobnie będzie klasyczna hurtownia danych - data warehouse, kostki OLAP i inne tego typu rozwią-
zania. Dane te mogą być również integrowane z wykorzystaniem narzędzi self-service np. Power BI lub
Excel. Wynika z tego, że integracja ta nie musi się odbywać na poziomie SQL Server. Można to zrobić
ad-hoc wykorzystując np. Power Query, które pozwala na pobieranie danych z wielu źródeł: hurtowni
danych, HDInsight, Twittera czy Facebooka, spinając całość w formie wizualizacji Power View.
Q&A, czyli narzędzie do odpytywania danych w języku naturalnym, doskonale sprawdza się w przy-
padku informacji pochodzących z internetu (tekstowych).
16.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
17. HDInsight to kolejna usługa dostarczana w chmurze Windows Azure.
Rozwiązanie to zostało zbudowane na bazie otwartych narzędzi
Hadoop/Hortonworks. HDInsight jest w pełni zintegrowany z pozo-
stałymi narzędziami w ofercie Microsoft.
Pierwsze pytanie, jakie powstaje w głowach potencjalnych klientów
brzmi – ile to kosztuje? I czy jesteśmy w stanie zaprojektować sce-
nariusz, który będzie konkurencyjny cenowo w stosunku do rozwią-
zań obecnie stosowanych w lokalnych centrach danych.
Podsumowanie
scenariusza
Koszty
wdrożenia
Do informacji zgromadzonych w chmurze możemy się dostać za pomocą aplikacji do modelowania
i wizualizacji danych. I co ważne, widać tutaj wyraźny podział w obszarze przechowywania i prze-
twarzania danych. Raz zgromadzone dane mogą być składowane w chmurze bardzo długo
(relatywnie niski koszt przechowywania), podczas gdy klastry obliczeniowe powołujemy do życia
tylko w momencie przetwarzania tych danych.
Aby lepiej zilustrować kwestie kosztów posłużymy się przykładem jednego z klientów, który
w pewnym momencie musiał podjąć decyzję związaną z budowaniem nowej hurtowni danych
z silnym nastawieniem na przetwarzanie danych w pamięci (in memory).
Wybór padł na technologię SQL Server, przy czym rozważano różne opcje wdrożenia takiej hurtow-
ni w przedsiębiorstwie. Pierwszy wariant zakładał budowę lokalnej hurtowni danych (on premise),
drugi - przechowywanie i przetwarzanie danych w chmurze Windows Azure.
W przykładzie mowa o kilkudziesięciu gigabajtach danych, które należało przetwarzać. Na zrzu-
cie zilustrowano koszty implementacji takiego systemu. Po pierwsze mamy koszty subskrypcji
Windows Azure. Na potrzeby analizy założyliśmy, że klient prowadzi swoją działalność na terenie
Polski, że maszyna wirtualna wykorzystywana do przetwarzania danych nie musi działać cały czas
(1-2 godziny dziennie), a dostęp do nich jest potrzebny w godzinach pracy. Klientowi została zapro-
ponowana maszyna wirtualna A7 (najbardziej wydajna opcja to maszyna A8) z oprogramowaniem
Microsoft SQL Server Enterprise. Do kosztów wynajmu infrastruktury w chmurze należy doliczyć
przestrzeń dyskową, transfer danych, zestawienie sieci, itd.
Płatny jest transfer z chmury Azure do sieci lokalnej przedsiębiorstwa. Za transfer do Azure nie są
naliczane opłaty. Warto o tym przypomnieć z uwagi na fakt, że z hurtowni pobieramy zagregowane
dane (mała ilość). Nie płacimy więc za ładowanie danych do chmury.
Koszt wynajmu infrastruktury z oprogramowaniem dla takiej hurtowni danych wynosi ok. 1000 euro
miesięcznie, przy założeniu 20% upustu w przypadku półrocznej subskrypcji Windows Azure. Dla
porównania, koszty zakupu sprzętu i licencji (bez części kosztów utrzymania) wynosi ok. 45 000
euro. Wydatki te należy ponieść jednorazowo na początku inwestycji. Rachunek zysków wydaje się
być prosty.
17.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
18. Na koniec spróbujmy powiedzieć kilka słów o tym, jak zacząć
z Power BI oraz Windows Azure. Swoją przygodę z narzędziami
analitycznymi warto rozpocząć zapoznania się z zawartością strony
Power BI.com, prześledzeniem blogów branżowych poświęconych
rozwiązaniom Business Intelligence (np. blog Chrisa Webb’a ===
http://cwebbbi.wordpress.com/===) oraz innych stron, wokół któ-
rych skupia się społeczność SQL Server i Power BI.
Pisaliśmy o Windows Azure, w szczególności o maszynach wirtu-
alnych dostarczanych w modelu Infrastructure as a Service (IaaS),
które zastępują lub uzupełniają zasoby infrastruktury lokalnej
przedsiębiorstwa.
Początki
nie muszą być
trudne
Podsumowanie
eSeminarium
Azure
W omówionych scenariuszach biznesowych nie wspominaliśmy o usłudze Windows Azure SQL
Database. Jest to baza danych, na której można budować federacje złożone z kilku serwerów.
Usługę tę warto wykorzystać, jeśli na poziomie aplikacji jesteśmy w stanie zaimplementować
mechanizmy partycjonowania danych (dzielenia na kawałki) między serwery.
W ostatnim scenariuszu opowiedzieliśmy o rozwiązaniu HDInsight, czyli usłudze Hadoop w
chmurze Windows Azure. Wiele miejsca poświęciliśmy narzędziom Power BI, które umożliwia
modelowanie, prezentację i wizualizację danych, Power Query jako aplikacji ETL dla użytkownika
końcowego i portalu Q&A, który odpowiada na zapytania kierowane w języku naturalnym.
Microsoft udostępnia wersje próbne rozwiązań zaprezentowanych w niniejszym tekście. Do pobra-
nia są m.in. narzędzia Power BI, możemy również zarejestrować próbną subskrypcję usług Office
365 i Windows Azure.
18.
Webinarium Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Prowadzący: Paweł Potasiński, Microsoft