SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Webinarium Microsoft
Konrad Wypchło, Program Manager, ITMAGINATION
Włodzimierz Bielski, Architekt, ITMAGINATION
Tematem trzeciego eSeminarium firmy Microsoft z cyklu Chmura
publiczna w scenariuszach biznesowych jest wykorzystanie chmury
obliczeniowej do integracji i wizualizacji danych.
Niniejszą publikację rozpoczniemy od przedstawienia aktualnych
trendów w analizie danych. Opowiemy o problemach i wyzwaniach,
jakie stają przed nami w zakresie integracji, przetwarzania
i raportowania danych biznesowych.
Zanim przejdziemy do omawiania scenariuszy biznesowych,
poszukajmy odpowiedzi na pytanie, jakie wyzwania w zakresie
analizy danych stoją dzisiaj przed firmami różnej wielkości?
Nie ulega wątpliwości, że najważniejszym obecnie trendem na
rynku nowych technologii jest Big Data. Hasło to nierzadko pada
z ust osób związanych z branżą IT.
Prelegenci
Cykl
webinariów
Agenda
spotkania
Wyzwania
analizy
danych
1.
Prowadzący: Paweł Potasiński, Microsoft
ITMAGINATION jest partnerem Microsoft od 6 lat, czyli od początku istnienia firmy.
Główną działalnością ITMAGINATION jest budowa systemów analitycznych i raportowych
dla różnych grup odbiorców i szerokiego spektrum zastosowań.
Przedsiębiorstwa muszą zmagać się z dużą ilością danych. Bazy danych, w tym bazy operacyjne,
osiągają rozmiary już nie setek gigabajtów, tylko bardziej dziesiątek terabajtów. Mamy ogromne
hurtownie danych, coraz większe są również bazy analityczne. W branży mówi się o tym, że świat
podąża w kierunku baz danych, który rozmiar liczy się w zetabajtach, czyli w jednostkach, którymi
dzisiaj nie operujemy.
Na trzech wybranych scenariuszach biznesowych pokażemy, w jaki sposób usługi Microsoft
udostępniane w chmurze wpisują się w te zagadnienia. Na koniec spróbujemy odpowiedzieć
na pytanie, jak zacząć używać technologii chmurowych, aby przyniosły one wymierne korzyści
biznesowe?
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
2.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Z drugiej strony możemy powiedzieć, że same w sobie dane nie
mają większej wartości. Są po prostu brzydkie. Klienci bardzo
często pytają o to, w jaki sposób mogą poradzić sobie z dużą ilo-
ścią nieuporządkowanych danych, nad którymi nie panują. W wielu
przypadkach są to dane pochodzące z zewnątrz, spoza organizacji.
Szacuje się, ze ilość tych informacji sięga nawet 85% wszystkich
danych. Z perspektywy ich analizy, jest to bardzo duża ilość.
Kilka lat temu nie mówiono jeszcze, że chmura obliczeniowa
może być podstawą do tworzenia rozwiązań z zakresu analizy
danych. Spróbujmy odpowiedzieć, jak to jest dzisiaj?
Chcielibyśmy zaznaczyć, że każdy użytkownik, niezależnie czy będzie
to analityk lub kierownik, w różnych sytuacjach, na spotkaniach,
na prezentacjach, powinien mieć narzędzia, które pozwolą mu te
informacje po pierwsze analizować, a po drugie prezentować innym,
w sposób atrakcyjny wizualnie, zrozumiały i ułatwiający przekaz.
Z punktu widzenia użytkownika, nieistotne jest to, w jaki sposób
i gdzie te dane będą przechowywane. Platforma technologiczna po-
winna być w jak największym stopniu odsunięta od użytkowników.
Duża ilość
nieuporządko-
wanych danych
Chmura
w analizie danych
Narzędzia
analizy
Wreszcie, ilość tych danych jest nie tylko duża, ale i rośnie w zastraszającym tempie. Mówi się o tym,
że obecnie, w okresie 2-3 miesięcy, na świecie przybywa taka ilość informacji jak przez kilka wieków
wstecz. Największym problemem, z którym się borykamy, jest więc coraz większa ilość danych.
Faktem jest, że nie tak dawno, o chmurze jeszcze nikt nie wspominał lub dopiero zaczynało się
o niej mówić. Rozwiązania firmy ITMAGINATION skupiały się wokół przetwarzania danych stricte
poprzez systemy budowane przez działy IT. Cykl tworzenia takiego systemu był dość długi.
Dzisiaj użytkownicy i firmy chcą mieć dane dostępne jak najszybciej, a przy tym samodzielnie móc
je w różny sposób je modelować i pobierać z różnych źródeł. W kontekście Big data warto podkre-
ślić, że nie tylko wolumen, ale również różnorodność źródeł, nawet jeśli mowa o prostych skoro-
szytach Excel, jest już na tyle duża, że potrzebujemy dodatkowych rozwiązań, które będą wspierać
procesy ich przetwarzania i analizy.
Microsoft ma bogatą ofertę rozwiązań do analizy danych dostarczanych w modelu on premise.
W skład tej grupy produktów wchodzi SQL Server wraz z narzędziami analitycznymi Business
Intelligence. Nowe rozwiązania chmurowe w sposób spójny integrują się z dotychczas stosowanymi
systemami. To przesunięcie technologii ma niejako charakter wyniesienia tradycyjnych aplikacji
i serwerów do chmury. Z drugiej strony narzędzia te udostępniane są klientom w formie usług
sprzedawanych w modelu Software as a Service (SaaS).
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Korzystając z platformy Windows Azure możemy w łatwy sposób
przenosić, kopiować czy replikować bazy danych Microsoft SQL Server
uruchomione lokalnie (on premise) do chmury.
Porozmawiajmy na temat wyzwań związanych z analizą dużych zbio-
rów danych. Dzisiaj firmy stają przed koniecznością szybkiej analizy
informacji, które napływają z różnych, zmieniających się źródeł.
Integracja
systemów
Wyzwania
analizy
3.
Z perspektywy programisty i użytkownika końcowego ważne jest, że proces dostępu do tych danych
jest w pełni przezroczysty. Nie ma znaczenia, czy maszyna z bazą danych działa w lokalnym centrum
danych, czy też jest to zasób dzierżawiony w chmurze publicznej.
Z jednej strony mamy infrastrukturę utrzymywaną w lokalnym lub wynajmowanym centrum danych,
a z drugiej szeroko rozumianą chmurę, do której możemy przenosić wszystkie swoje dane, aplikacje
i serwery. Oba te byty, czyli infrastruktura lokalna (on premise) i chmura, wzajemnie się przenikają.
Wyobraźmy sobie scenariusz, w którym firma zaczyna migrować pewne zasoby do chmury. Przykła-
dowo, kopie danych są przesuwane do zewnętrznej lokalizacji, aby oddzielić je od systemu transakcyj-
nego. I odwrotnie: mając pewne rozwiązanie chmurowe, może się okazać że z jakichś powodów
(np. organizacyjnych) zechcemy przenieść je do lokalnego centrum danych. Każdy z tych scenariuszy
jest możliwy do wykonania.
Integracja systemów działa więc w obie strony, jest bardzo prosta do przeprowadzenia i przezroczysta
dla wszystkich odbiorców danych. Oprogramowanie Microsoft wspiera procesy migracji między środo-
wiskiem lokalnym i chmurą.
W jednym z przykładów integracji, który zaprezentujemy w dalszej części tekstu, zostaną pokazane
dane w arkuszu Excel, które będą pochodzić z repliki danych, znajdującej się w chmurze.
Problemem jest więc przetwarzanie danych, które mają odmienną formę i pochodzą z nieznanych
wcześniej źródeł. W każdym z tych przypadków konieczna jest zmiana samych źródeł, które
– co ważne odnotowania – zmieniają się wraz z otoczeniem.
Z tego względu coraz większą popularnością na rynku cieszą się rozwiązania samoobsługowych
systemów analitycznych (self-service BI). Wskazują na to najnowsze analizy trendów prezentowane
m.in. przez Gartnera. Microsoft doskonale wpisuje się w te trendy ze swoimi rozwiązaniami, dostar-
czając m.in. rozwiązanie Power BI, który szerzej omówimy w dalszej części tekstu.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
O systemach self-service BI mówimy głównie w kontekście użyt-
kowników biznesowych. Dzięki tego typu narzędziom pracownicy
mogą samodzielnie analizować duże ilości danych. W tym miejscu
nasuwa się pytanie o rolę działu IT w zakresie dostarczania i prze-
twarzania danych w przedsiębiorstwie.
Wszystkie przykłady zaprezentowane w niniejszym tekście są
w mniejszym lub większym stopniu oparte o rozwiązanie Power BI.
Zanim jednak przejdziemy do kwestii technicznych, spróbujmy od-
powiedzieć na pytanie, w jaki sposób dzisiaj przetwarzamy i anali-
zujemy dane.
Z jednej strony rola działu IT w zasadzie pozostaje ta sama.
Informatycy nadal są odpowiedzialni za dostarczanie i utrzymanie
zasobów IT, niezależnie od tego, czy będzie to infrastruktura lokalna,
czy w chmurze.
Rola IT
w biznesie
Power BI
Podsumowanie
części I
4.
IT pełni rolę moderatora – usługodawcy, który dostarcza ustrukturyzowane dane np. w postaci
hurtowni danych. Mamy więc tutaj tradycyjne podejście do agregacji i udostępniania użytkownikom
końcowym danych, które pochodzą z systemów informatycznych przedsiębiorstwa.
Dział IT nadal pozostaje potrzebny, jednak wszystkie te dane, które dzisiaj są agregowane przez
informatyków, np. cele sprzedażowe dostarczane w formie dokumentów Excel, będą mogły być
przygotowywane przez użytkowników końcowych. Podejście to pozwala skrócić czas potrzebny na
pozyskanie informacji z wielu dni do minut, właśnie dzięki temu, że to użytkownik generuje sam
potrzebnemu zestawienia.
Część zadań związanych z pozyskiwaniem, przetwarzaniem i analizą danych będzie mogła być jed-
nak wykonywana przez użytkowników końcowych. Dzięki temu podejściu, niektóre zadania uda się
wykonać szybciej. Do minimum ograniczona zostaje potrzeba komunikacji pomiędzy działem IT,
a użytkownikami biznesowymi. W tym kontekście dział IT otwiera przed pracownikami przedsię-
biorstwa nowe możliwości, natomiast sam proces zarządzania i utrzymania systemów informatycz-
nych pozostaje bez zmian.
Zanim zaczniemy pracować z danymi musimy je pobrać ze źródeł wewnętrznych (np. system ERP,
dokumenty Excel), bądź też źródeł zewnętrznych (np. sieci społecznościowe). Problem w tym,
że posiadając te dane, nie możemy zagwarantować ich wysokiej jakości. Wynika to z faktu,
że w wielu przypadkach są one wprowadzane przez ludzi (ryzyko pomyłek) lub pochodzą z niezna-
nych nam systemów.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
5.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Ważnym krokiem jest więc proces oczyszczania danych. Na tym
etapie wymagane jest, aby używana przez nas platforma BI wspie-
rała te zadania. Jak się później przekonamy, w oprogramowaniu
Power BI mamy do tego odpowiednie narzędzia.
Zobaczmy, jak przekłada się to na komponenty Power BI. Do pobie-
rania i oczyszczania danych możemy użyć narzędzia Power Query.
Power BI stanowi element usługi Office 365. Jest to jeden z dodat-
ków (add-ons), które można dodać do subskrypcji narzędzi i usług
biurowych dostarczanych w chmurze Microsoft.
Oczyszczanie
danych
i raportowanie
Elementy
Power BI
Kolejny krok polega na łączeniu danych pochodzących z różnych źródeł, spinając je w przyjętym
modelu analitycznym. Połączone dane warto wzbogacić o informacje referencyjne pochodzące
z zewnątrz np. z chmury.
Zebrane i przygotowane dane musimy lepiej zrozumieć (poczuć je), aby móc w kolejnym kroku zbu-
dować proste, wiarygodne oraz czytelne dla użytkowników biznesowych wizualizacje. Pamiętajmy,
że odbiorcą tych danych może być również osoba zarządzająca przedsiębiorstwem, która ma bardzo
mało czasu. Narzędzie, które oddajemy w ręce użytkownika musi być więc intuicyjne w obsłudze.
Zestawienia i wizualizacje możemy udostępnić w portalu intranetowym, aby zapewnić wygodny
dostęp do nich pozostałym osobom.
Zwróćmy uwagę, że platforma analityczna firmy Microsoft pozwala wykonać te same czynności na wiele
sposobów. Pokazujemy ścieżkę bazującą na oprogramowaniu Power BI, która nie wyklucza możliwości
użycia klasycznych narzędzi do analizy danych np. PowerPivot obecnego na rynku już ponad 5-6 lat.
Najlepszym narzędziem do eksploracji danych pozostaje bez wątpienia dobrze znany wszystkim pro-
gram jakim jest Microsoft Excel. W temacie naszej publikacji cały czas poruszamy się w obrębie Excela
wzbogaconego o pewne dodatki. Pół żartem można dodać, że część danych będzie pochodziła z na-
rzędzia, które w dalszej części wykorzystamy do analizy tych danych przy użyciu rozwiązań Power BI.
Wynika to z faktu, że w wielu scenariuszach chcemy podłączyć się pod istniejący proces i go ulepszyć,
a niekoniecznie zamieniać.
Jeśli chodzi o wizualizację danych do dyspozycji mamy stosunkowo nowe narzędzie Power View, dostęp-
ne również dla urządzeń mobilnych. Power Map umożliwia prezentację danych i wykresów na trójwy-
miarowej mapie Ziemi. Gwarantuje niespotykane wrażenia wizualne. Z kolei współdzielenie danych,
zestawień i raportów odbywa się z wykorzystaniem platformy SharePoint w chmurze Windows Azure.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
6.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
W trakcie omawiania pierwszego scenariusza spróbujemy pokazać
kawałek Power BI w ujęciu praktycznym. Konrad wcieli się w rolę
menedżera sprzedaży w firmie z branży FMCG. Przedsiębiorstwo to
dostarcza klientom detalicznym szeroki asortyment wody mineralnej.
System analityczny ma pomóc w mierzeniu wydajności pracowni-
ków. Zadaniem kierownika jest śledzenie, jak wizyty przedstawicieli
handlowych u klientów przekładają się na sprzedaż (efektywność).
Scenariusz 1:
Menedżer
sprzedaży
Wydajność
pracowników
Z perspektywy menedżera sprzedaży, Konrad spotyka się z kilkoma problemami, które chciał-
by rozwiązać za pomocą narzędzia BI. Pierwszym z nich jest brak rzetelnych informacji na temat
sprzedaży. System analityczny ma zapewnić mu podstawowe dane i wskaźniki sprzedaży w różnych
przekrojach – z podziałem na regiony, przedstawicieli handlowych czy produkty. Konrad chciałby
mieć również większą kontrolę nad sposobem prezentacji tych danych. Odpowiedzią na problemy
Konrada jest program Excel, który integruje wszystkie komponenty Power BI.
Zacznijmy od przedstawienia rozwiązania, czyli pokazania tego co trzeba zrobić, aby uzyskać pożą-
dany efekt końcowy. W tym celu przygotowaliśmy zestaw interaktywnych raportów Power View, któ-
re pozwalają za pomocą kilku kliknięć zmieniać zakres i sposób prezentacji danych. Na przykład,
za pomocą jednego kliknięcia wybieramy region sprzedaży, aby zawęzić (przefiltrować) zakres wy-
świetlanych danych do wskazanego obszaru. Tak pozyskane dane pozwoliły nam wzmocnić działa-
nia w regionie w celu zwiększenia wyników sprzedaży.
W tym celu przygotowaliśmy raport, który pokazuje liczbę wizyt w zadanym okresie (tutaj: jest to
rok) oraz poziom realizacji planów sprzedaży, rozumianą tutaj przez wartość sprzedaży brutto.
Na wykresie można zauważyć, że w ciągu ostatnich kilku okresów, liczba wizyt u klientów była zna-
cząca, a mimo to wartość sprzedaży pozostała na tym samym poziomie. Trend ten jest szczególnie
widoczny pod koniec roku, kiedy dynamika sprzedaży nie była już tak duża, jak na początku okresu.
Drugim wnioskiem, który można wyciągnąć z analizy jest to, że rynek już nasycił się po wprowadze-
niu nowego produktu. Powodem mniejszej dynamiki sprzedaży może być również fakt, że sprzedaż
wody mineralnej jest sezonowa, ze szczytem w okresie letnim.
Aby to potwierdzić, wybierzmy jeden kluczowy produkt (Wodospad smaku), a następnie przeanali-
zujmy jego sprzedaż. Wyraźnie widać, że w miesiącach letnich sprzedaż jest najwyższa. Mamy więc
do czynienia z klasyczną sezonowością sprzedaży dla wybranego asortymentu.
Model ten warto rozszerzyć o elementy systemu Big data, dołączając do danych sprzedażowych
informacje o średniej temperaturze miesięcznej lub dniowej w miejscach, gdzie woda (główny
produkt firmy) jest sprzedawana. Narzędzia Microsoft umożliwiają wykorzystanie danych, które są
udostępniane publicznie, tutaj: danych meteorologicznych.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
7.
Tworzenie raportów analitycznych jest bardzo proste, kiedy mamy
zdefiniowany model danych. Kryje się za tym kompletna infrastruktu-
ra, która umożliwia funkcjonowanie całego systemu analitycznego.
W kwestii licencjonowania mamy do wyboru dwie opcje.
Możemy samodzielnie zarządzać licencjami na oprogramowanie
zainstalowane w maszynie wirtualnej lub też wynająć zasoby
w chmurze Windows Azure z prawem do używania wskazanych
aplikacji Microsoft.
Analityka
w chmuzre
Licencjonowanie
i koszty
chmury
Nie chcemy, aby system analityczny dodatkowo obciążał system produkcyjny (on-premise). W tym
celu, za pomocą wbudowanych narzędzi SQL Server, wykonaliśmy replikę maszyny wirtualnej bazy
danych do chmury Windows Azure. W rezultacie otrzymaliśmy coś na wzór hurtowni danych, która
przechowuje te same informacje, co system źródłowy (baza operacyjna), ale jest używana wyłącz-
nie na potrzeby raportowania oraz pobierania danych (odpytywania) za pomocą programu Excel czy
innych narzędzi analitycznych. Tak wydzielona „hurtownia danych” może posłużyć nam także do
zbudowania bazy analitycznej.
Zbudowanie infrastruktury, która pozwoli nam odpiąć się od systemu produkcyjnego jest niezwykle
proste. Stworzenie maszyny wirtualnej lub klastra Hadoop w Windows Azure sprowadza się do kil-
ku kliknięć myszą. W galerii Azure znajdziemy gotowe do użycia maszyny wirtualne Windows i SQL
Server, co pozwala ograniczyć czas potrzebny na instalację tych systemów od podstaw.
Drugi model oznacza nieco wyższy koszt wynajęcia maszyny wirtualnej, z drugiej - daje nam więk-
szą swobodę w zamawianiu serwerów, szczególnie jeśli potrzebujemy ich na krótki okres. W tym
przypadku nie musimy zajmować się kwestią licencjonowania oprogramowania.
Chmura Windows Azure pozwala wynajmować zasoby na tak długo, jak ich potrzebujemy. Istnie-
je możliwość uruchomienia dodatkowych maszyn wirtualnych np. w przypadku nagłego wzrostu
zapytań do bazy czy prowadzenia projektów integracji danych, tak aby zwiększyć wydajność całego
systemu i odciążyć serwery produkcyjne. Maszyna wirtualna może zostać wyłączona, kiedy nie ma
dalszej potrzeby jej używania. Od tego momentu klient nie płaci za niewykorzystywane zasoby.
Nie utrzymuje również niepotrzebnych licencji, które w przypadku wdrożenia on-premise, pozostały
by bezużyteczne.
Mamy więc raporty i system monitorujący. Ważne jest (i dotyczy to wszystkich komponentów Azure),
że wszystkie czynności w chmurze możemy wykonywać z poziomu graficznego interfejsu (GUI).
Do dyspozycji mamy również Windows PowerShell, jeśli chcemy te procesy automatyzować.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
8.
Wróćmy do narzędzia Power Pivot. Mamy wykres z danymi sprze-
dażowymi (ilość produktów sprzedawanych w danym dniu miesią-
ca), do którego chcemy dołączyć dodatkowe informacje o kategorii
produktu lub jego producencie. Czynność ta jest bardzo prosta, jeśli
umiemy posługiwać się tabelami przestawnymi, czyli znane nam są
takie pojęcia jak wymiar, kalkulacja itd.
Power
Pivot
Model danych został zaprojektowany tak, aby prezentować relacje biznesowe. Dane wyświetlane
w Power Pivot wyglądają tak samo, jak w tabelach przestawnych. Praca z Power Pivot nie różni się
więc znacząco od korzystania z arkusza Excel.
W demonstracji chcielibyśmy zwrócić uwagę na jeszcze jedną kwestię. Power Pivot umożliwia wizu-
alizację danych na mapach. Narzędzie to pozwala na dodawanie hierarchii, dzięki czemu dane geo-
graficzne mogą być prezentowane w formie graficznej, w ujęciu kraju, regionu czy miasta. Informacja
o lokalizacji kojarzona jest z danymi sprzedażowymi na podstawie adresu klienta lub koordynat GPS.
Oprogramowanie Microsoft dostarczane jest z dokładną mapą Polski w formie komponentu Power View.
Warstwa raportowa jest tym elementem modelu danych, którą
można tworzyć bardzo prosto. Przykładowo, za pomocą jednego
kliknięcia myszą, można dodać kolejny poziom hierarchii w analizo-
wanych danych.
Na potrzeby tej publikacji przygotowaliśmy dwie proste demon-
stracje. Załóżmy, że firma produkcyjna wprowadza na rynek nowy
produkt. Chcemy zobaczyć, jak rozszerzanie dystrybucji na cały kraj
przekłada się na wzrost sprzedaży. Zaczynamy od Warszawy, w któ-
rej przedsiębiorstwo ma swoją siedzibę. Na wykresie zobaczymy jak
rozkłada się ta sprzedaż na obszarze całego kraju. Nie będziemy
tutaj omawiać interfejsu programu, bo jest on bardzo prosty. W tym
miejscu wspomnijmy jak wygląda wiązanie danych sprzedażowych
z informacjami geograficznymi.
Power
Map
Nowy
produkt
na rynek
Na rynku dostępny jest również produkt Project GeoFlow (Power Map), który umożliwia prezenta-
cję danych na mapach wraz z upływem czasu. Narzędzie to wykorzystamy do przygotowania inte-
raktywnej wizualizacji pokazującej np. jak zmienia się pokrycie produktami na obszarze kraju lub
regionu. Power Map pozwala przedstawić te zmiany w atrakcyjnej formie „opowiadania o danych”.
W narzędziu mamy szerokie spektrum możliwości mapowania tych danych. Odbywa się to na pod-
stawie atrybutów takich jak adres, miejscowość, kraj, kod pocztowy, a nawet szerokość geograficz-
na. Wiele firm, zamiast na koordynatach GPS, opiera się po prostu na adresach.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
9.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Przygotowana animacja prezentuje zmianę obszaru dystrybucji produktu na przestrzeni kolejnych
miesięcy. Wraz z rozwojem sieci dystrybucji widok mapy przechodzi płynnie z obszaru Warszawy na
pozostałe regiony kraju. Animacja może być w dowolnym momencie zatrzymywana, a wyświetlane
mapy skalowane, obracane, przybliżane. Oprogramowanie pozwala na dodawanie adnotacji. Istnieje
możliwość zapisania animacji w formie pliku wideo.
Power Map dostępny jest dla komputerów biurkowych (desktop). Narzędzie to wykorzystuje moc
współczesnych komputerów do renderowania trójwymiarowych map. Z kolei mapy Power View są
dwuwymiarowe i można uzyskiwać do nich dostęp przez przeglądarkę internetową. W przypadku
Power Map wygenerowane animacje możemy zapisać w formie nagrania wideo i odtwarzać je rów-
nież na urządzeniach mobilnych.
Wspomnieliśmy wcześniej o możliwości umieszczania różnych da-
nych, poza Power Map, na portalu internetowym. Sam portal można
uruchomić mając subskrypcję na usługę Office 365 wraz z kompo-
nentem Power BI. Wystarczy wgrać pliki raportów do portalu, aby
móc je w trybie interaktywnym przeglądać i analizować z poziomu
przeglądarki internetowej.
Dużo się mówi o tym, że portal Power BI oferuje dużo więcej funkcji,
niż tylko współdzielenie raportów i praca z danymi w oknie przeglą-
darki. Jedną z nich jest rozwiązanie Q&A.
Publikowanie
raportów
Q&A i zapytania
w języku
naturalnym
Funkcja ta pozwala samodzielnie zadać pytanie dotyczące danych w sposób bardzo ogólny. Inny-
mi słowy, tylko w przybliżeniu wiemy, o co chcemy zapytać, a z drugiej strony nie mamy czasu,
ani umiejętności w budowaniu i modyfikacji tabel przestawnych. Power BI umożliwia eksploracje
danych w sposób dynamiczny, który będzie zrozumiały także dla osób zarządczych.
W kontekście tłumaczenia języka mówionego (w tej chwili angielskiego) na rozumienie danych
w systemie Power BI Q&A największe znaczenie ma sam model danych, a nie sposób w jaki zorga-
nizujemy raporty. Wrzucając model Power Pivot na serwer do narzędzia Power BI dostaniemy pew-
ne wyniki, natomiast mamy też dostęp do narzędzi i dokumentacji, które pozwolą usprawnić model
danych w taki sposób, aby zapytania kierowane do Q&A były w większym stopniu zrozumiałe.
W tym celu stosuje się synonimy. Przykładem może być tutaj wprowadzenie synonimów dla nazw,
kategorii itd. w modelu danych dla polskiego producenta wody mineralnej, przygotowanego
z użyciem narzędzia Power BI w języku angielskim (polska wersja pojawi się pewnie w niedługim
czasie). Power BI umożliwia śledzenie zadawanych pytań. Analitycy widzą więc, o jakie informacje
pytają pracownicy i jakich danych używają.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
10.
Zwróćmy uwagę, że narzędzia analityczne rozwijane są bardzo
dynamicznie. Kolejne wersje Power Query wydawane są niemal co
miesiąc. Najnowsza wersja tego narzędzia przynosi m.in. obsługę
nowego źródła danych - SAP Business Objects. Cykl wydawniczy
narzędzi Power BI, które w rzeczywistości są bardziej usługami niż
typowymi produktami, został skrócony z 18 miesięcy do mniej niż
miesiąca. Usługi te rozwijane są w trybie ciągłym.
W pierwszym scenariuszu przedstawiono technologię Power Pivot
służącą do wielowymiarowego modelowania danych. Analiza ta doty-
czyła dużej ilości (ponad 2 miliony rekordów) danych sprzedażowych.
Silnik Power Pivot działa w pamięci RAM (in memory) i umożliwia pracę z danymi pochodzącymi
z różnych źródeł. Narzędzie Power View umożliwia wizualizację tych danych przez tworzenie ani-
mowanych wykresów i zestawień. Wizualizacje te tworzone są w czasie rzeczywistymi (online), tak
więc zmiana układu lub zakresu danych wpływa natychmiast na to, co widzimy na ekranie. Z kolei
Power Map umożliwia prezentację zebranych informacji na mapach.
Pierwszym jego zadaniem jest zarządzanie celami sprzedaży. W wielu firmach system stawiania
celów (targety) oparty jest wyłącznie o arkusze kalkulacyjne Excel. Problemem, z którym się spo-
tykamy, jest konieczność weryfikacji danych sprzedażowych, pochodzących z systemu informatycz-
nego przedsiębiorstwa, z celami sprzedażowymi, zapisanymi właśnie w plikach Excel. Dodatkowo,
kierownik widzi cele sprzedaży przypisane dla pracownika, bez planów odnoszących się do po-
szczególnych produktów. Co z tym możemy zrobić?
Z perspektywy menedżera sprzedaży patrzyliśmy na firmę global-
nie, zwracając uwagę na wyniki sprzedaży według produktu, regio-
nu itd. W drugim scenariuszu wcielimy się w kierownika regionu,
którego zadania i problemy są nieco odmienne. Kierownik danego
obszaru ma pod sobą pracowników, których musi rozliczyć z pracy
w terenie (salesforce).
Rozwój
narzędzi
Power BI
Podsumowanie
scenariusza
Scenariusz 2:
Kierownik
regionu
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
11.
W publikacji tej chcemy pokazać możliwość wykorzystania usługi
SharePoint Online do agregowania informacji o planach i wynikach
sprzedaży. Kierownicy regionów wgrywają tutaj pliki, jeśli cel zo-
stanie osiągnięty. W rezultacie mamy zestaw 20-30 arkuszy Excel
utworzonych przez poszczególnych kierowników regionu. Dane te
można w prosty sposób dołożyć do przedstawionego w poprzednim
scenariuszu modelu sprzedaży. Sprawdźmy, jak to zrobić.
Przypomnijmy, że raport z wykonania sprzedaży został umieszczo-
ny w portalu SharePoint przez kierowników regionu. W tym celu
wykorzystywane jest oprogramowanie Power Query. Jest to narzę-
dzie klasy ETL służące do czyszczenia i integracji danych. Zwróćmy
uwagę, że Power Query jest integralną częścią Power BI, w odróż-
nieniu od Power Pivot, który jest dodatkiem do Excela w wersji 2010
i 2013. Obróbka danych z wykorzystaniem Power Query wykonywa-
na jest przez użytkownika. W przeciwieństwie od innych systemów
ETL, Power Query nie jest narzędziem serwerowym.
Agregacja
danych
w SharePoint
Power
Query
Pierwsze, co przychodzi nam na myśl to zastosowanie złożonego procesu ETL. Zadanie to ma być
wykonywane przez użytkowników końcowych, a nie programistów i analityków zatrudnionych w
działach IT. Na ekranie widzimy wygenerowany raport, który porównuje cele sprzedażowe (targety)
z wynikami sprzedaży. Dane te są wizualizowane z wykorzystaniem wskaźników KPI, semaforów,
grafik i kolorów. Co ważne, cele zostały rozbite po produktach. Zwróćmy uwagę, że cała wizualiza-
cja została przygotowana wyłącznie z programie Excel w formie tabeli przestawnej.
Wróćmy do naszego przykładu. Za pomocą Power Query umieściliśmy w witrynie SharePoint jeden
z plików z wynikami sprzedaży. Power Query ma swój język operacji, jednak jeśli jesteśmy użytkow-
nikami biznesowymi, wszystkie operacje wykonywane w tym narzędziu możemy wykonać za pomo-
cą myszy.
Power Query pozwala obrabiać załadowane dane. Na początek z tabeli danych usuwamy zbędny na-
główek. Wprowadzone przez kierowników dane mają postać tabeli przestawnej. Przetwarzanie tych
danych przez narzędzia analityczne jest niewygodne, dlatego za pomocą Power Query zamienimy je
na znormalizowane dane tabelaryczne. W Power Query czynność ta wymaga jednego kliknięcia
w przeciwieństwie do wielu linijek kodu SQL, które należałoby napisać korzystając z innego narzędzia.
Jako ciekawostkę dodajmy, że w oknie Power Query widoczny jest skrypt, który powstaje w trakcie
wykonania operacji przekształcania danych. Zapisywane są kolejne kroki związane z ich modyfika-
cją, tak więc sam skrypt, jeśli zachodzi taka potrzeba, można przy odrobinie umiejętności zoptyma-
lizować i w jeszcze większym stopniu dostosować do własnych wymagań.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Spróbujmy odpowiedzieć na pytanie, jak to się dzieje, że mając
z góry ustalony cel sprzedażowy (target) możemy rozbić go na pro-
dukty? W ujęciu biznesowym czynność ta wykonywana jest według
kluczy podziałowych ustalonych na podstawie danych historycznych.
To wszystko dzieje się w Power Pivot.
Alokacja
sprzedaży na
produkty
Uruchamiamy edytor Power Pivot. Mamy tutaj tabele, czyli surowe dane o planowanej sprzedaży,
które zostały wcześniej zaimportowane przez Power Query. Nie znajdziemy tu jednak informacji
o produktach.
Obok mamy proste kalkulacje w języku DAX, którego składnia została zaprojektowana tak, aby być jak
najbardziej zbliżona do formuł Microsoft Excel, ale jednocześnie zaoferować funkcjonalność podobną
do języka MDX. Mamy więc pojedynczy wiersz kodu (formułę), która liczy nam współczynnik udziału
produktu w całości sprzedaży. Mechanizm ten można zastosować również w scenariuszu, w którym
cele sprzedażowe narzucone są z góry.
Wiele rzeczy, które pracownicy firmy wykonują teraz w Excelu, możemy zamodelować przy użyciu
Power Query. W jednym pliku istnieje możliwość integracji danych z programu Excel, Power View
oraz Power Map.
Zaprezentowaliśmy wizualizację wyświetloną w oknie programu Excel. Z powodzeniem może być ona
dostępna również w sieci. Niezależnie od tego, jakie technologie analizy danych zastosujemy (Excel,
Power BI) dane, raporty i zestawienia przenoszone są do portalu internetowego. Za każdym razem,
dzięki Excel Services, wizualizacje te wyświetlane są dokładnie w takiej samej formie w jakiej zostały
przygotowane i udostępnione.
12.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
W celu scalenia danych pochodzących z różnych źródeł (wielu plików) wykorzystano mechanizmy
automatyzacji zadań Power Query. Każdy z plików został załadowany i przetworzony w pętli. Zapyta-
nie Power Query może zostać udostępnione innym osobom. Jest to zadaniem „data stewarda”, czyli
osoby, która w przyszłości będzie nadzorowała zapytania użytkowników.
Dane i raporty przechowywane są w chmurze Azure. Dostęp do tych obiektów możliwy jest po zalo-
gowaniu się do usługi Office 365. Power Query umożliwia bezpośrednie logowanie do konta przed-
siębiorstwa w chmurze.
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Power Query jest narzędziem, które umożliwia łatwiejsze i bardziej
efektywne wykonywanie zadań, które dotychczas były realizowane
wyłącznie w programie Excel. Chodzi tutaj głównie o pobieranie da-
nych z kilku źródeł oraz ich przetwarzanie i agregowanie w formie
tabel przestawnych.
W trzecim scenariuszu biznesowym spróbujemy postawić się w roli
szefa marketingu, który chce dowiedzieć się, w jaki sposób zarzą-
dzana przez niego marka jest postrzegana w internecie, w sieciach
społecznościowych oraz widziana w wynikach wyszukiwarek.
Wszyscy doskonale wiemy, że tego typu informacje są potrzebne
w prowadzeniu działań marketingowych. Chcemy wiedzieć, jak
postrzegają nas klienci oraz użytkownicy – teraz oraz w przeszłości
(dane historyczne).
Podsumowanie
scenariusza
Scenariusz 3:
Szef
marketingu
W sytuacji kiedy mamy do czynienia z analitycznymi rozwiązaniami klasy korporacyjnej, czyli hur-
townią danych z warstwą gotowych raportów i narzędzi BI, wdrożenie podobnych scenariuszy bizne-
sowych wymagałoby interakcji między użytkownikiem biznesowym, a działem IT.
W wielu przypadkach działy IT nie są w stanie odpowiednio szybko reagować na zgłoszenia napły-
wające od użytkowników. Jeśli modyfikacja danych i raportów, np. przez dołożenie planów sprze-
daży, nie mogłaby być szybko zrealizowana, wielu pracowników zdecydowałoby się na zrzut danych
z systemu BI i dalszą samodzielną obróbkę tych informacji. Tak przygotowane zestawienia trudno
byłoby jednak dalej dystrybuować.
Dane wygenerowane przez Power Pivot można publikować na SQL Server w bardzo prosty spo-
sób. Ponownie da się tutaj zauważyć pełną integrację między Power Pivot, w którym tworzymy
modele, a SQL Server. Ma to sens w przypadku dużej ilości danych, które mogą zostać wyniesione
do bazy analitycznej.
Faktem jest, że tych danych nie można pobrać. Z jednej strony mamy więc problem z ich dostępno-
ścią. Po drugie – danych o firmie i marce może być tak dużo oraz mogą być one w takiej formie,
że ciężko będzie je przetwarzać i analizować. Problem ten jest tak trudny do rozwiązania, że de
facto dział IT przy użyciu klasycznych narzędzi nie jest tego w stanie wykonać. Nie do końca bowiem
wiadomo nawet, jak do prostych modeli powinniśmy „włożyć” te dane.
13.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Analiza sieci społecznościowych (social analytics) to jeden
z najgorętszych tematów w obszarze Big data. Scenariusz, który
pokażemy jest bardzo prosty, ale pokazuje kierunek w jakim mo-
żemy pójść stając przed zadaniem analizy dużej ilości nieustruk-
turyzowanych lub słabo ustrukturyzowanych danych.
W tym momencie spróbujmy zastanowić się, w jaki sposób doszli-
śmy do tych wniosków. W pierwszym kroku zebraliśmy potrzebne
dane za pomocą otwartego narzędzia Flume. Za chwilę zauważy-
my, że Microsoft, udostępniając swoją platformę Big Data o nazwie
HDInsight oparł się wyłącznie na otwartych rozwiązaniach Open
Source. Dla Microsoft nie jest to nowość. W Windows Azure znaj-
dziemy maszyny wirtualne z oprogramowaniem Oracle czy obrazy
dystrybucji Linuksa itd.
Analiza
sieci
społecznościowych
Dane
wejściowe
Zaczniemy od pokazania wyniku, aby w kolejnej części tekstu opowiedzieć, jak do niego doszliśmy.
Na slajdzie widzimy grafikę prezentującą postrzeganie marki, rozumiane jako liczbę wystąpień
(faktów) na temat firmy np. wpisy w serwisie Twitter.
Na początek informacja o tym, jak powstaje taki zbiór danych. Informacje pobierane są za pomocą
interfejsu programistycznego (API) udostępnionego przez sieć społecznościową, choć należy jasno
powiedzieć, ze nie wszystkie serwisy tego typu pozwalają na ekstrakcję dużej ilości danych. Na ryn-
ku znajdziemy również dostawców, którzy komercyjnie pomagają w pozyskiwaniu takich informacji.
Wróćmy do naszego przykładu. Analiza jest dość prosta, bowiem ilość informacji zawartych
w pojedynczym wpisie na Twitterze jest niewielka. W zaprezentowanym przykładzie można zauwa-
żyć, który kraj jest do naszej firmy najbardziej negatywnie nastawiony. Tutaj dochodzimy do kon-
kluzji, iż w obszarze social analytics raczej chodzi o wyłapywanie negatywnych opinii, które mają
znacznie mocniejszy przekaz, niż te pozytywne.
Dane wejściowe używane do analizy nie są w pełni ustrukturyzowane. Opisowo mówiąc, dane te
nie są zupełnie bez struktury, natomiast tabele SQL nie do końca nadają się do przechowywania
informacji pozyskiwanych z internetu i sieci społecznościowych. To co widzimy na prezentacji to
wpisy Twittera składające się z dużej ilości tekstu i metadanych. Warto odnotować, że mocną stroną
Hadoop HDInsight jest właśnie praca z tekstem.
W tym scenariuszu interesuje nas wyłącznie tekst zawarty we wpisie Twittera. Mamy słownik
kilkuset słów angielskich o wydźwięku negatywnym, neutralnym i pozytywnym, które umożliwiają
skategoryzowanie treści pojawiających się na Twitterze.
14.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Tym co odróżnia HDInsight od konkurencyjnych rozwiązań jest szyb-
kość i łatwość uruchamiania oraz używania systemów analitycznych
w chmurze Microsoft. W tym celu kupujemy subskrypcje Windows
Azure z usługą HDInsight.
Jest to możliwe, bowiem postawienie klastra HDInsight trwa
ok.15 minut. Cała ta operacja wymaga wskazania jedynie kilku
informacji o tworzonym klastrze np. ilość potrzebnych węzłów.
Dla osób znających Hadoop, Microsoft udostępnia kilka wersji
HDInsight.
HDInsight
Uruchamianie
klastra
HDInsight
W HDInsight wyraźnie rozdzielono obszary związane z przechowywaniem oraz przetwarzaniem
informacji.
Dane przechowywane są w magazynie (storage) Windows Azure. Kiedy załadujemy do chmury
wszystkie potrzebne pliki i obiekty (mogą to być gigabajty lub nawet terabajty danych) dopiero wte-
dy powołujemy do życia klaster HDInsight.
Klaster ten jest nam niezbędny wyłącznie do tego, aby te dane przetwarzać. Podobnie jak w przy-
padku maszyn wirtualnych, gdzie czas życia maszyny z perspektywy kosztowej ma znacznie, zada-
nia w chmurze związane z przetwarzaniem danych rozliczane są wyłącznie za czas (godziny) korzy-
stania z klastra HDInsight.
Nie ukrywajmy faktu, że rozwiązania te nie są dostarczane za darmo. Hadoop składa się z wie-
lu rozproszonych węzłów, które oferują potężną moc obliczeniową. Konkluzja nasuwa się jedna
- trwałe dane przechowujemy w relatywnie tanim magazynie w chmurze, podczas gdy instancje
obliczeniowe wynajmujemy wyłącznie na czas przetwarzania tych danych.
Technologicznie HDInsight jest bardzo zbieżny produktami dostarczanymi przez firmę Hortonworks
(jeden z liderów rozwiązań Hadoop), która jest partnerem Microsoftu w zakresie przetwarzania
dużych ilości danych. HDInsight stanowi więc kolejne miejsce, gdzie zauważyć można przecięcie
technologii Microsoft z oprogramowaniem Open Source.
Microsoft udostępnia HDInsight Emulator (wcześniejsza nazwa HDInsight Server), który umożliwia
wypróbowanie usługi bez generowanie kosztów w swoich subskrypcjach Azure. Oprogramowanie to
można zainstalować na lokalnym serwerze, aby zasymulować działanie klastra Hadoop.
15.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Proces nadawania struktury danym, które są przetwarzane od-
bywa się w klastrze Hadoop. Celem jest nałożenie struktury, któ-
rej efektem niekiedy jest uzyskanie danych tabelarycznych, choć
niekoniecznie dane te muszą mieć taką postać. Do dyspozycji mamy
narzędzie Hive umożliwiające nałożenie na dane pewnej struktury,
która pozwala na odwoływanie się do nich w języku pseudo-SQL
(komendy CREATE TABLE, SELECT, CREATE VIEW itd.)
W tym momencie nasuwa się pytanie, jak HDInsight ma się do hur-
towni danych i kiedy warto wykorzystać każde z tych rozwiązań?
W wielu obszarach oba te rozwiązania są do siebie podobne.
I tu, i tu mamy dużą ilość danych. Z perspektywy analitycznej ważny
jest jednak rodzaj tych danych.
Przetwarzanie
danych
w Hadoop
HDInsight,
a hurtownia
danych
Wróćmy do naszego pliku Excel. W środku mamy dane Power Pivot, połączone sterownikiem ODBC
z serwerem. Sterownik ten jest darmowy i może zostać pobrany ze strony Microsoft. Inne opcje
podłączenia się do Hadoop/HDInsight to m.in. Power Query. Narzędzie to umożliwia pracę z danymi
pochodzącymi z innych źródeł, w tym danymi przechowywanymi w magazynie Windows Azure.
W scenariuszu biznesowym można zbudować arkusze, które korzystają bezpośrednio z danych
zgromadzonych w HDInsght. Dzięki takim narzędziom jak Power Query czy Power Pivot będzie ist-
niała możliwość odpytania o te dane w języku naturalnym (angielskim).
Jako ciekawostkę dodajmy, że jednym z dostępnych w Power Query źródeł danych jest Facebook.
To propozycja dla osób, które potrzebują pobrać relatywnie niewielką ilość danych, tutaj profili
użytkowników w serwisie społecznościowych.
Jeśli mamy hurtownie, która przez wiele lat jest rozwijana i zarządzana oraz zasilana z wewnętrz-
nych źródeł danych (np. ERP, CRM itd.), to zamiast zmieniać ten system (absolutnie nie o to chodzi),
spróbujmy wzbogacić zgromadzone dane o informacje zewnętrzne np. wpisy z Twittera.
W dużym uproszczeniu można przyjąć, że warto wybrać HDInsight, jeśli chcemy analizować dane
pochodzące z internetu. W przypadku przetwarzania danych wewnętrznych pierwszym wyborem praw-
dopodobnie będzie klasyczna hurtownia danych - data warehouse, kostki OLAP i inne tego typu rozwią-
zania. Dane te mogą być również integrowane z wykorzystaniem narzędzi self-service np. Power BI lub
Excel. Wynika z tego, że integracja ta nie musi się odbywać na poziomie SQL Server. Można to zrobić
ad-hoc wykorzystując np. Power Query, które pozwala na pobieranie danych z wielu źródeł: hurtowni
danych, HDInsight, Twittera czy Facebooka, spinając całość w formie wizualizacji Power View.
Q&A, czyli narzędzie do odpytywania danych w języku naturalnym, doskonale sprawdza się w przy-
padku informacji pochodzących z internetu (tekstowych).
16.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
HDInsight to kolejna usługa dostarczana w chmurze Windows Azure.
Rozwiązanie to zostało zbudowane na bazie otwartych narzędzi
Hadoop/Hortonworks. HDInsight jest w pełni zintegrowany z pozo-
stałymi narzędziami w ofercie Microsoft.
Pierwsze pytanie, jakie powstaje w głowach potencjalnych klientów
brzmi – ile to kosztuje? I czy jesteśmy w stanie zaprojektować sce-
nariusz, który będzie konkurencyjny cenowo w stosunku do rozwią-
zań obecnie stosowanych w lokalnych centrach danych.
Podsumowanie
scenariusza
Koszty
wdrożenia
Do informacji zgromadzonych w chmurze możemy się dostać za pomocą aplikacji do modelowania
i wizualizacji danych. I co ważne, widać tutaj wyraźny podział w obszarze przechowywania i prze-
twarzania danych. Raz zgromadzone dane mogą być składowane w chmurze bardzo długo
(relatywnie niski koszt przechowywania), podczas gdy klastry obliczeniowe powołujemy do życia
tylko w momencie przetwarzania tych danych.
Aby lepiej zilustrować kwestie kosztów posłużymy się przykładem jednego z klientów, który
w pewnym momencie musiał podjąć decyzję związaną z budowaniem nowej hurtowni danych
z silnym nastawieniem na przetwarzanie danych w pamięci (in memory).
Wybór padł na technologię SQL Server, przy czym rozważano różne opcje wdrożenia takiej hurtow-
ni w przedsiębiorstwie. Pierwszy wariant zakładał budowę lokalnej hurtowni danych (on premise),
drugi - przechowywanie i przetwarzanie danych w chmurze Windows Azure.
W przykładzie mowa o kilkudziesięciu gigabajtach danych, które należało przetwarzać. Na zrzu-
cie zilustrowano koszty implementacji takiego systemu. Po pierwsze mamy koszty subskrypcji
Windows Azure. Na potrzeby analizy założyliśmy, że klient prowadzi swoją działalność na terenie
Polski, że maszyna wirtualna wykorzystywana do przetwarzania danych nie musi działać cały czas
(1-2 godziny dziennie), a dostęp do nich jest potrzebny w godzinach pracy. Klientowi została zapro-
ponowana maszyna wirtualna A7 (najbardziej wydajna opcja to maszyna A8) z oprogramowaniem
Microsoft SQL Server Enterprise. Do kosztów wynajmu infrastruktury w chmurze należy doliczyć
przestrzeń dyskową, transfer danych, zestawienie sieci, itd.
Płatny jest transfer z chmury Azure do sieci lokalnej przedsiębiorstwa. Za transfer do Azure nie są
naliczane opłaty. Warto o tym przypomnieć z uwagi na fakt, że z hurtowni pobieramy zagregowane
dane (mała ilość). Nie płacimy więc za ładowanie danych do chmury.
Koszt wynajmu infrastruktury z oprogramowaniem dla takiej hurtowni danych wynosi ok. 1000 euro
miesięcznie, przy założeniu 20% upustu w przypadku półrocznej subskrypcji Windows Azure. Dla
porównania, koszty zakupu sprzętu i licencji (bez części kosztów utrzymania) wynosi ok. 45 000
euro. Wydatki te należy ponieść jednorazowo na początku inwestycji. Rachunek zysków wydaje się
być prosty.
17.
Webinarium Microsoft
Prowadzący: Paweł Potasiński, Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Na koniec spróbujmy powiedzieć kilka słów o tym, jak zacząć
z Power BI oraz Windows Azure. Swoją przygodę z narzędziami
analitycznymi warto rozpocząć zapoznania się z zawartością strony
Power BI.com, prześledzeniem blogów branżowych poświęconych
rozwiązaniom Business Intelligence (np. blog Chrisa Webb’a ===
http://cwebbbi.wordpress.com/===) oraz innych stron, wokół któ-
rych skupia się społeczność SQL Server i Power BI.
Pisaliśmy o Windows Azure, w szczególności o maszynach wirtu-
alnych dostarczanych w modelu Infrastructure as a Service (IaaS),
które zastępują lub uzupełniają zasoby infrastruktury lokalnej
przedsiębiorstwa.
Początki
nie muszą być
trudne
Podsumowanie
eSeminarium
Azure
W omówionych scenariuszach biznesowych nie wspominaliśmy o usłudze Windows Azure SQL
Database. Jest to baza danych, na której można budować federacje złożone z kilku serwerów.
Usługę tę warto wykorzystać, jeśli na poziomie aplikacji jesteśmy w stanie zaimplementować
mechanizmy partycjonowania danych (dzielenia na kawałki) między serwery.
W ostatnim scenariuszu opowiedzieliśmy o rozwiązaniu HDInsight, czyli usłudze Hadoop w
chmurze Windows Azure. Wiele miejsca poświęciliśmy narzędziom Power BI, które umożliwia
modelowanie, prezentację i wizualizację danych, Power Query jako aplikacji ETL dla użytkownika
końcowego i portalu Q&A, który odpowiada na zapytania kierowane w języku naturalnym.
Microsoft udostępnia wersje próbne rozwiązań zaprezentowanych w niniejszym tekście. Do pobra-
nia są m.in. narzędzia Power BI, możemy również zarejestrować próbną subskrypcję usług Office
365 i Windows Azure.
18.
Webinarium Microsoft
Spotkanie trzecie:
Integracja danych
i raportowanie
w chmurze obliczeniowej
Windows Azure
Prowadzący: Paweł Potasiński, Microsoft

Weitere ähnliche Inhalte

Andere mochten auch

200904 Sunset, New Mexico
200904 Sunset, New Mexico200904 Sunset, New Mexico
200904 Sunset, New Mexico
Eugene Louie
 
Barrett CSE11 Conference the getting of sales wisdom 2011 v4
Barrett CSE11 Conference the getting of sales wisdom 2011 v4Barrett CSE11 Conference the getting of sales wisdom 2011 v4
Barrett CSE11 Conference the getting of sales wisdom 2011 v4
kelly_rothwell
 
Media project news website
Media project news websiteMedia project news website
Media project news website
Terri-Ann Macro
 
Compumatrix marketing
Compumatrix marketingCompumatrix marketing
Compumatrix marketing
Compumatrix
 
Peace Symbol, Unity Church, Dallas, TX
Peace Symbol, Unity Church, Dallas, TXPeace Symbol, Unity Church, Dallas, TX
Peace Symbol, Unity Church, Dallas, TX
Eugene Louie
 
Backup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDG
Backup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDGBackup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDG
Backup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDG
Jarek Sokolnicki
 

Andere mochten auch (18)

NYS Tech Forum 2008
NYS Tech Forum 2008NYS Tech Forum 2008
NYS Tech Forum 2008
 
Can You Improve your Municipal Waste Collection Program? Think Automation! 0...
Can You Improve your Municipal Waste Collection Program?  Think Automation! 0...Can You Improve your Municipal Waste Collection Program?  Think Automation! 0...
Can You Improve your Municipal Waste Collection Program? Think Automation! 0...
 
200904 Sunset, New Mexico
200904 Sunset, New Mexico200904 Sunset, New Mexico
200904 Sunset, New Mexico
 
Barrett CSE11 Conference the getting of sales wisdom 2011 v4
Barrett CSE11 Conference the getting of sales wisdom 2011 v4Barrett CSE11 Conference the getting of sales wisdom 2011 v4
Barrett CSE11 Conference the getting of sales wisdom 2011 v4
 
Media project news website
Media project news websiteMedia project news website
Media project news website
 
Dennis Webb
Dennis WebbDennis Webb
Dennis Webb
 
Jm financial mutual fund common application form with kim
Jm financial mutual fund common application form with kimJm financial mutual fund common application form with kim
Jm financial mutual fund common application form with kim
 
Roditelji-partneri škole: letak za nastavnike
Roditelji-partneri škole: letak za nastavnikeRoditelji-partneri škole: letak za nastavnike
Roditelji-partneri škole: letak za nastavnike
 
Riesgos Laborales
Riesgos LaboralesRiesgos Laborales
Riesgos Laborales
 
faltan 7 días
faltan 7 díasfaltan 7 días
faltan 7 días
 
Pomeranian e a4
Pomeranian e a4Pomeranian e a4
Pomeranian e a4
 
Daiwa mutual fund common application form with kim
Daiwa mutual fund common application form with kimDaiwa mutual fund common application form with kim
Daiwa mutual fund common application form with kim
 
Europako mapa
Europako mapaEuropako mapa
Europako mapa
 
"Dealing with the New Normal" - Making the Most of Reduced Resurfacing Budgets
"Dealing with the New Normal" - Making the Most of Reduced Resurfacing Budgets"Dealing with the New Normal" - Making the Most of Reduced Resurfacing Budgets
"Dealing with the New Normal" - Making the Most of Reduced Resurfacing Budgets
 
Compumatrix marketing
Compumatrix marketingCompumatrix marketing
Compumatrix marketing
 
Peace Symbol, Unity Church, Dallas, TX
Peace Symbol, Unity Church, Dallas, TXPeace Symbol, Unity Church, Dallas, TX
Peace Symbol, Unity Church, Dallas, TX
 
Exempel på Uppdrag Aspling Konsult Ab
Exempel på Uppdrag Aspling Konsult AbExempel på Uppdrag Aspling Konsult Ab
Exempel på Uppdrag Aspling Konsult Ab
 
Backup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDG
Backup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDGBackup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDG
Backup i Disaster Recovery w chmurze Windows Azure - transkrypt webinarium IDG
 

Ähnlich wie Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Aplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDG
Aplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDGAplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDG
Aplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDG
Jarek Sokolnicki
 
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
cieszak
 
Zarządzanie urządzeniami mobilnymi - transkrypcja webinarium
Zarządzanie urządzeniami mobilnymi - transkrypcja webinariumZarządzanie urządzeniami mobilnymi - transkrypcja webinarium
Zarządzanie urządzeniami mobilnymi - transkrypcja webinarium
Jarek Sokolnicki
 
Perspektywy Rozwoju NarzęDzi Informatycznych ZarząDzania
Perspektywy Rozwoju NarzęDzi Informatycznych ZarząDzaniaPerspektywy Rozwoju NarzęDzi Informatycznych ZarząDzania
Perspektywy Rozwoju NarzęDzi Informatycznych ZarząDzania
guestcbb224
 
Biznes zerka na Sieć
Biznes zerka na SiećBiznes zerka na Sieć
Biznes zerka na Sieć
Bogdan Miś
 

Ähnlich wie Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG (20)

ERP jako system systemów
ERP jako system systemówERP jako system systemów
ERP jako system systemów
 
Aplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDG
Aplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDGAplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDG
Aplikacje i serwisy intranetowe w chmurze publicznej - transkrypt webinarium IDG
 
Czy czeka nas los gotowanej żaby - czyli co mówi robonomika o nadejściu ery r...
Czy czeka nas los gotowanej żaby - czyli co mówi robonomika o nadejściu ery r...Czy czeka nas los gotowanej żaby - czyli co mówi robonomika o nadejściu ery r...
Czy czeka nas los gotowanej żaby - czyli co mówi robonomika o nadejściu ery r...
 
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
 
Elektroniczny Obieg Dokumentów [smartBusiness]
Elektroniczny Obieg Dokumentów [smartBusiness]Elektroniczny Obieg Dokumentów [smartBusiness]
Elektroniczny Obieg Dokumentów [smartBusiness]
 
Droga Rozwoju Digitalnego
Droga Rozwoju Digitalnego Droga Rozwoju Digitalnego
Droga Rozwoju Digitalnego
 
Ład danych w czasach automatyzacji i robotyzacji
Ład danych w czasach automatyzacji i robotyzacjiŁad danych w czasach automatyzacji i robotyzacji
Ład danych w czasach automatyzacji i robotyzacji
 
5
55
5
 
SMAC.PDF
SMAC.PDFSMAC.PDF
SMAC.PDF
 
Zarządzanie urządzeniami mobilnymi - transkrypcja webinarium
Zarządzanie urządzeniami mobilnymi - transkrypcja webinariumZarządzanie urządzeniami mobilnymi - transkrypcja webinarium
Zarządzanie urządzeniami mobilnymi - transkrypcja webinarium
 
Big Data +
Big Data +Big Data +
Big Data +
 
Afc module 5 pl
Afc module 5 plAfc module 5 pl
Afc module 5 pl
 
IT Breakafst for FIN 28 sierpnia 2014, Warszawa, Pałac Sobańskich
IT Breakafst for FIN 28 sierpnia 2014, Warszawa, Pałac SobańskichIT Breakafst for FIN 28 sierpnia 2014, Warszawa, Pałac Sobańskich
IT Breakafst for FIN 28 sierpnia 2014, Warszawa, Pałac Sobańskich
 
Perspektywy Rozwoju NarzęDzi Informatycznych ZarząDzania
Perspektywy Rozwoju NarzęDzi Informatycznych ZarząDzaniaPerspektywy Rozwoju NarzęDzi Informatycznych ZarząDzania
Perspektywy Rozwoju NarzęDzi Informatycznych ZarząDzania
 
Summit EOIF GigaCon 2017 - katalog
Summit EOIF GigaCon 2017 - katalogSummit EOIF GigaCon 2017 - katalog
Summit EOIF GigaCon 2017 - katalog
 
Ireneusz_Tarnowski
Ireneusz_TarnowskiIreneusz_Tarnowski
Ireneusz_Tarnowski
 
Biznes zerka na Sieć
Biznes zerka na SiećBiznes zerka na Sieć
Biznes zerka na Sieć
 
Prezentacja Ifs
Prezentacja IfsPrezentacja Ifs
Prezentacja Ifs
 
Prezentacja Ifs
Prezentacja IfsPrezentacja Ifs
Prezentacja Ifs
 
Big data w strategii marketingowej
Big data w strategii marketingowejBig data w strategii marketingowej
Big data w strategii marketingowej
 

Mehr von Jarek Sokolnicki

Idc successful cloud partners e book
Idc   successful cloud partners e bookIdc   successful cloud partners e book
Idc successful cloud partners e book
Jarek Sokolnicki
 
Microsoft Cloud Partnership
Microsoft Cloud PartnershipMicrosoft Cloud Partnership
Microsoft Cloud Partnership
Jarek Sokolnicki
 
Successful cloud partners idc (en)
Successful cloud partners   idc (en)Successful cloud partners   idc (en)
Successful cloud partners idc (en)
Jarek Sokolnicki
 

Mehr von Jarek Sokolnicki (12)

Retail & Consumer Goods Digital Transformation
Retail & Consumer Goods Digital TransformationRetail & Consumer Goods Digital Transformation
Retail & Consumer Goods Digital Transformation
 
Microsoft StaffHub
Microsoft StaffHub Microsoft StaffHub
Microsoft StaffHub
 
Scenariusze Azure
Scenariusze AzureScenariusze Azure
Scenariusze Azure
 
Wykorzystanie chmury Microsoft Azure w scenariuszach dev&test
Wykorzystanie chmury Microsoft Azure w scenariuszach dev&testWykorzystanie chmury Microsoft Azure w scenariuszach dev&test
Wykorzystanie chmury Microsoft Azure w scenariuszach dev&test
 
Cloud platform scenarios
Cloud platform scenariosCloud platform scenarios
Cloud platform scenarios
 
Stor simple presentation customers
 Stor simple presentation customers Stor simple presentation customers
Stor simple presentation customers
 
Enterprise Mobility Suite
Enterprise Mobility SuiteEnterprise Mobility Suite
Enterprise Mobility Suite
 
Hybrid cloud sample architectures
Hybrid cloud sample architecturesHybrid cloud sample architectures
Hybrid cloud sample architectures
 
Cloud Identity and Access Management
Cloud Identity and Access ManagementCloud Identity and Access Management
Cloud Identity and Access Management
 
Idc successful cloud partners e book
Idc   successful cloud partners e bookIdc   successful cloud partners e book
Idc successful cloud partners e book
 
Microsoft Cloud Partnership
Microsoft Cloud PartnershipMicrosoft Cloud Partnership
Microsoft Cloud Partnership
 
Successful cloud partners idc (en)
Successful cloud partners   idc (en)Successful cloud partners   idc (en)
Successful cloud partners idc (en)
 

Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

  • 1. Webinarium Microsoft Konrad Wypchło, Program Manager, ITMAGINATION Włodzimierz Bielski, Architekt, ITMAGINATION Tematem trzeciego eSeminarium firmy Microsoft z cyklu Chmura publiczna w scenariuszach biznesowych jest wykorzystanie chmury obliczeniowej do integracji i wizualizacji danych. Niniejszą publikację rozpoczniemy od przedstawienia aktualnych trendów w analizie danych. Opowiemy o problemach i wyzwaniach, jakie stają przed nami w zakresie integracji, przetwarzania i raportowania danych biznesowych. Zanim przejdziemy do omawiania scenariuszy biznesowych, poszukajmy odpowiedzi na pytanie, jakie wyzwania w zakresie analizy danych stoją dzisiaj przed firmami różnej wielkości? Nie ulega wątpliwości, że najważniejszym obecnie trendem na rynku nowych technologii jest Big Data. Hasło to nierzadko pada z ust osób związanych z branżą IT. Prelegenci Cykl webinariów Agenda spotkania Wyzwania analizy danych 1. Prowadzący: Paweł Potasiński, Microsoft ITMAGINATION jest partnerem Microsoft od 6 lat, czyli od początku istnienia firmy. Główną działalnością ITMAGINATION jest budowa systemów analitycznych i raportowych dla różnych grup odbiorców i szerokiego spektrum zastosowań. Przedsiębiorstwa muszą zmagać się z dużą ilością danych. Bazy danych, w tym bazy operacyjne, osiągają rozmiary już nie setek gigabajtów, tylko bardziej dziesiątek terabajtów. Mamy ogromne hurtownie danych, coraz większe są również bazy analityczne. W branży mówi się o tym, że świat podąża w kierunku baz danych, który rozmiar liczy się w zetabajtach, czyli w jednostkach, którymi dzisiaj nie operujemy. Na trzech wybranych scenariuszach biznesowych pokażemy, w jaki sposób usługi Microsoft udostępniane w chmurze wpisują się w te zagadnienia. Na koniec spróbujemy odpowiedzieć na pytanie, jak zacząć używać technologii chmurowych, aby przyniosły one wymierne korzyści biznesowe? Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 2. 2. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Z drugiej strony możemy powiedzieć, że same w sobie dane nie mają większej wartości. Są po prostu brzydkie. Klienci bardzo często pytają o to, w jaki sposób mogą poradzić sobie z dużą ilo- ścią nieuporządkowanych danych, nad którymi nie panują. W wielu przypadkach są to dane pochodzące z zewnątrz, spoza organizacji. Szacuje się, ze ilość tych informacji sięga nawet 85% wszystkich danych. Z perspektywy ich analizy, jest to bardzo duża ilość. Kilka lat temu nie mówiono jeszcze, że chmura obliczeniowa może być podstawą do tworzenia rozwiązań z zakresu analizy danych. Spróbujmy odpowiedzieć, jak to jest dzisiaj? Chcielibyśmy zaznaczyć, że każdy użytkownik, niezależnie czy będzie to analityk lub kierownik, w różnych sytuacjach, na spotkaniach, na prezentacjach, powinien mieć narzędzia, które pozwolą mu te informacje po pierwsze analizować, a po drugie prezentować innym, w sposób atrakcyjny wizualnie, zrozumiały i ułatwiający przekaz. Z punktu widzenia użytkownika, nieistotne jest to, w jaki sposób i gdzie te dane będą przechowywane. Platforma technologiczna po- winna być w jak największym stopniu odsunięta od użytkowników. Duża ilość nieuporządko- wanych danych Chmura w analizie danych Narzędzia analizy Wreszcie, ilość tych danych jest nie tylko duża, ale i rośnie w zastraszającym tempie. Mówi się o tym, że obecnie, w okresie 2-3 miesięcy, na świecie przybywa taka ilość informacji jak przez kilka wieków wstecz. Największym problemem, z którym się borykamy, jest więc coraz większa ilość danych. Faktem jest, że nie tak dawno, o chmurze jeszcze nikt nie wspominał lub dopiero zaczynało się o niej mówić. Rozwiązania firmy ITMAGINATION skupiały się wokół przetwarzania danych stricte poprzez systemy budowane przez działy IT. Cykl tworzenia takiego systemu był dość długi. Dzisiaj użytkownicy i firmy chcą mieć dane dostępne jak najszybciej, a przy tym samodzielnie móc je w różny sposób je modelować i pobierać z różnych źródeł. W kontekście Big data warto podkre- ślić, że nie tylko wolumen, ale również różnorodność źródeł, nawet jeśli mowa o prostych skoro- szytach Excel, jest już na tyle duża, że potrzebujemy dodatkowych rozwiązań, które będą wspierać procesy ich przetwarzania i analizy. Microsoft ma bogatą ofertę rozwiązań do analizy danych dostarczanych w modelu on premise. W skład tej grupy produktów wchodzi SQL Server wraz z narzędziami analitycznymi Business Intelligence. Nowe rozwiązania chmurowe w sposób spójny integrują się z dotychczas stosowanymi systemami. To przesunięcie technologii ma niejako charakter wyniesienia tradycyjnych aplikacji i serwerów do chmury. Z drugiej strony narzędzia te udostępniane są klientom w formie usług sprzedawanych w modelu Software as a Service (SaaS). Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 3. Korzystając z platformy Windows Azure możemy w łatwy sposób przenosić, kopiować czy replikować bazy danych Microsoft SQL Server uruchomione lokalnie (on premise) do chmury. Porozmawiajmy na temat wyzwań związanych z analizą dużych zbio- rów danych. Dzisiaj firmy stają przed koniecznością szybkiej analizy informacji, które napływają z różnych, zmieniających się źródeł. Integracja systemów Wyzwania analizy 3. Z perspektywy programisty i użytkownika końcowego ważne jest, że proces dostępu do tych danych jest w pełni przezroczysty. Nie ma znaczenia, czy maszyna z bazą danych działa w lokalnym centrum danych, czy też jest to zasób dzierżawiony w chmurze publicznej. Z jednej strony mamy infrastrukturę utrzymywaną w lokalnym lub wynajmowanym centrum danych, a z drugiej szeroko rozumianą chmurę, do której możemy przenosić wszystkie swoje dane, aplikacje i serwery. Oba te byty, czyli infrastruktura lokalna (on premise) i chmura, wzajemnie się przenikają. Wyobraźmy sobie scenariusz, w którym firma zaczyna migrować pewne zasoby do chmury. Przykła- dowo, kopie danych są przesuwane do zewnętrznej lokalizacji, aby oddzielić je od systemu transakcyj- nego. I odwrotnie: mając pewne rozwiązanie chmurowe, może się okazać że z jakichś powodów (np. organizacyjnych) zechcemy przenieść je do lokalnego centrum danych. Każdy z tych scenariuszy jest możliwy do wykonania. Integracja systemów działa więc w obie strony, jest bardzo prosta do przeprowadzenia i przezroczysta dla wszystkich odbiorców danych. Oprogramowanie Microsoft wspiera procesy migracji między środo- wiskiem lokalnym i chmurą. W jednym z przykładów integracji, który zaprezentujemy w dalszej części tekstu, zostaną pokazane dane w arkuszu Excel, które będą pochodzić z repliki danych, znajdującej się w chmurze. Problemem jest więc przetwarzanie danych, które mają odmienną formę i pochodzą z nieznanych wcześniej źródeł. W każdym z tych przypadków konieczna jest zmiana samych źródeł, które – co ważne odnotowania – zmieniają się wraz z otoczeniem. Z tego względu coraz większą popularnością na rynku cieszą się rozwiązania samoobsługowych systemów analitycznych (self-service BI). Wskazują na to najnowsze analizy trendów prezentowane m.in. przez Gartnera. Microsoft doskonale wpisuje się w te trendy ze swoimi rozwiązaniami, dostar- czając m.in. rozwiązanie Power BI, który szerzej omówimy w dalszej części tekstu. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 4. O systemach self-service BI mówimy głównie w kontekście użyt- kowników biznesowych. Dzięki tego typu narzędziom pracownicy mogą samodzielnie analizować duże ilości danych. W tym miejscu nasuwa się pytanie o rolę działu IT w zakresie dostarczania i prze- twarzania danych w przedsiębiorstwie. Wszystkie przykłady zaprezentowane w niniejszym tekście są w mniejszym lub większym stopniu oparte o rozwiązanie Power BI. Zanim jednak przejdziemy do kwestii technicznych, spróbujmy od- powiedzieć na pytanie, w jaki sposób dzisiaj przetwarzamy i anali- zujemy dane. Z jednej strony rola działu IT w zasadzie pozostaje ta sama. Informatycy nadal są odpowiedzialni za dostarczanie i utrzymanie zasobów IT, niezależnie od tego, czy będzie to infrastruktura lokalna, czy w chmurze. Rola IT w biznesie Power BI Podsumowanie części I 4. IT pełni rolę moderatora – usługodawcy, który dostarcza ustrukturyzowane dane np. w postaci hurtowni danych. Mamy więc tutaj tradycyjne podejście do agregacji i udostępniania użytkownikom końcowym danych, które pochodzą z systemów informatycznych przedsiębiorstwa. Dział IT nadal pozostaje potrzebny, jednak wszystkie te dane, które dzisiaj są agregowane przez informatyków, np. cele sprzedażowe dostarczane w formie dokumentów Excel, będą mogły być przygotowywane przez użytkowników końcowych. Podejście to pozwala skrócić czas potrzebny na pozyskanie informacji z wielu dni do minut, właśnie dzięki temu, że to użytkownik generuje sam potrzebnemu zestawienia. Część zadań związanych z pozyskiwaniem, przetwarzaniem i analizą danych będzie mogła być jed- nak wykonywana przez użytkowników końcowych. Dzięki temu podejściu, niektóre zadania uda się wykonać szybciej. Do minimum ograniczona zostaje potrzeba komunikacji pomiędzy działem IT, a użytkownikami biznesowymi. W tym kontekście dział IT otwiera przed pracownikami przedsię- biorstwa nowe możliwości, natomiast sam proces zarządzania i utrzymania systemów informatycz- nych pozostaje bez zmian. Zanim zaczniemy pracować z danymi musimy je pobrać ze źródeł wewnętrznych (np. system ERP, dokumenty Excel), bądź też źródeł zewnętrznych (np. sieci społecznościowe). Problem w tym, że posiadając te dane, nie możemy zagwarantować ich wysokiej jakości. Wynika to z faktu, że w wielu przypadkach są one wprowadzane przez ludzi (ryzyko pomyłek) lub pochodzą z niezna- nych nam systemów. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 5. 5. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Ważnym krokiem jest więc proces oczyszczania danych. Na tym etapie wymagane jest, aby używana przez nas platforma BI wspie- rała te zadania. Jak się później przekonamy, w oprogramowaniu Power BI mamy do tego odpowiednie narzędzia. Zobaczmy, jak przekłada się to na komponenty Power BI. Do pobie- rania i oczyszczania danych możemy użyć narzędzia Power Query. Power BI stanowi element usługi Office 365. Jest to jeden z dodat- ków (add-ons), które można dodać do subskrypcji narzędzi i usług biurowych dostarczanych w chmurze Microsoft. Oczyszczanie danych i raportowanie Elementy Power BI Kolejny krok polega na łączeniu danych pochodzących z różnych źródeł, spinając je w przyjętym modelu analitycznym. Połączone dane warto wzbogacić o informacje referencyjne pochodzące z zewnątrz np. z chmury. Zebrane i przygotowane dane musimy lepiej zrozumieć (poczuć je), aby móc w kolejnym kroku zbu- dować proste, wiarygodne oraz czytelne dla użytkowników biznesowych wizualizacje. Pamiętajmy, że odbiorcą tych danych może być również osoba zarządzająca przedsiębiorstwem, która ma bardzo mało czasu. Narzędzie, które oddajemy w ręce użytkownika musi być więc intuicyjne w obsłudze. Zestawienia i wizualizacje możemy udostępnić w portalu intranetowym, aby zapewnić wygodny dostęp do nich pozostałym osobom. Zwróćmy uwagę, że platforma analityczna firmy Microsoft pozwala wykonać te same czynności na wiele sposobów. Pokazujemy ścieżkę bazującą na oprogramowaniu Power BI, która nie wyklucza możliwości użycia klasycznych narzędzi do analizy danych np. PowerPivot obecnego na rynku już ponad 5-6 lat. Najlepszym narzędziem do eksploracji danych pozostaje bez wątpienia dobrze znany wszystkim pro- gram jakim jest Microsoft Excel. W temacie naszej publikacji cały czas poruszamy się w obrębie Excela wzbogaconego o pewne dodatki. Pół żartem można dodać, że część danych będzie pochodziła z na- rzędzia, które w dalszej części wykorzystamy do analizy tych danych przy użyciu rozwiązań Power BI. Wynika to z faktu, że w wielu scenariuszach chcemy podłączyć się pod istniejący proces i go ulepszyć, a niekoniecznie zamieniać. Jeśli chodzi o wizualizację danych do dyspozycji mamy stosunkowo nowe narzędzie Power View, dostęp- ne również dla urządzeń mobilnych. Power Map umożliwia prezentację danych i wykresów na trójwy- miarowej mapie Ziemi. Gwarantuje niespotykane wrażenia wizualne. Z kolei współdzielenie danych, zestawień i raportów odbywa się z wykorzystaniem platformy SharePoint w chmurze Windows Azure. Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 6. 6. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft W trakcie omawiania pierwszego scenariusza spróbujemy pokazać kawałek Power BI w ujęciu praktycznym. Konrad wcieli się w rolę menedżera sprzedaży w firmie z branży FMCG. Przedsiębiorstwo to dostarcza klientom detalicznym szeroki asortyment wody mineralnej. System analityczny ma pomóc w mierzeniu wydajności pracowni- ków. Zadaniem kierownika jest śledzenie, jak wizyty przedstawicieli handlowych u klientów przekładają się na sprzedaż (efektywność). Scenariusz 1: Menedżer sprzedaży Wydajność pracowników Z perspektywy menedżera sprzedaży, Konrad spotyka się z kilkoma problemami, które chciał- by rozwiązać za pomocą narzędzia BI. Pierwszym z nich jest brak rzetelnych informacji na temat sprzedaży. System analityczny ma zapewnić mu podstawowe dane i wskaźniki sprzedaży w różnych przekrojach – z podziałem na regiony, przedstawicieli handlowych czy produkty. Konrad chciałby mieć również większą kontrolę nad sposobem prezentacji tych danych. Odpowiedzią na problemy Konrada jest program Excel, który integruje wszystkie komponenty Power BI. Zacznijmy od przedstawienia rozwiązania, czyli pokazania tego co trzeba zrobić, aby uzyskać pożą- dany efekt końcowy. W tym celu przygotowaliśmy zestaw interaktywnych raportów Power View, któ- re pozwalają za pomocą kilku kliknięć zmieniać zakres i sposób prezentacji danych. Na przykład, za pomocą jednego kliknięcia wybieramy region sprzedaży, aby zawęzić (przefiltrować) zakres wy- świetlanych danych do wskazanego obszaru. Tak pozyskane dane pozwoliły nam wzmocnić działa- nia w regionie w celu zwiększenia wyników sprzedaży. W tym celu przygotowaliśmy raport, który pokazuje liczbę wizyt w zadanym okresie (tutaj: jest to rok) oraz poziom realizacji planów sprzedaży, rozumianą tutaj przez wartość sprzedaży brutto. Na wykresie można zauważyć, że w ciągu ostatnich kilku okresów, liczba wizyt u klientów była zna- cząca, a mimo to wartość sprzedaży pozostała na tym samym poziomie. Trend ten jest szczególnie widoczny pod koniec roku, kiedy dynamika sprzedaży nie była już tak duża, jak na początku okresu. Drugim wnioskiem, który można wyciągnąć z analizy jest to, że rynek już nasycił się po wprowadze- niu nowego produktu. Powodem mniejszej dynamiki sprzedaży może być również fakt, że sprzedaż wody mineralnej jest sezonowa, ze szczytem w okresie letnim. Aby to potwierdzić, wybierzmy jeden kluczowy produkt (Wodospad smaku), a następnie przeanali- zujmy jego sprzedaż. Wyraźnie widać, że w miesiącach letnich sprzedaż jest najwyższa. Mamy więc do czynienia z klasyczną sezonowością sprzedaży dla wybranego asortymentu. Model ten warto rozszerzyć o elementy systemu Big data, dołączając do danych sprzedażowych informacje o średniej temperaturze miesięcznej lub dniowej w miejscach, gdzie woda (główny produkt firmy) jest sprzedawana. Narzędzia Microsoft umożliwiają wykorzystanie danych, które są udostępniane publicznie, tutaj: danych meteorologicznych. Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 7. 7. Tworzenie raportów analitycznych jest bardzo proste, kiedy mamy zdefiniowany model danych. Kryje się za tym kompletna infrastruktu- ra, która umożliwia funkcjonowanie całego systemu analitycznego. W kwestii licencjonowania mamy do wyboru dwie opcje. Możemy samodzielnie zarządzać licencjami na oprogramowanie zainstalowane w maszynie wirtualnej lub też wynająć zasoby w chmurze Windows Azure z prawem do używania wskazanych aplikacji Microsoft. Analityka w chmuzre Licencjonowanie i koszty chmury Nie chcemy, aby system analityczny dodatkowo obciążał system produkcyjny (on-premise). W tym celu, za pomocą wbudowanych narzędzi SQL Server, wykonaliśmy replikę maszyny wirtualnej bazy danych do chmury Windows Azure. W rezultacie otrzymaliśmy coś na wzór hurtowni danych, która przechowuje te same informacje, co system źródłowy (baza operacyjna), ale jest używana wyłącz- nie na potrzeby raportowania oraz pobierania danych (odpytywania) za pomocą programu Excel czy innych narzędzi analitycznych. Tak wydzielona „hurtownia danych” może posłużyć nam także do zbudowania bazy analitycznej. Zbudowanie infrastruktury, która pozwoli nam odpiąć się od systemu produkcyjnego jest niezwykle proste. Stworzenie maszyny wirtualnej lub klastra Hadoop w Windows Azure sprowadza się do kil- ku kliknięć myszą. W galerii Azure znajdziemy gotowe do użycia maszyny wirtualne Windows i SQL Server, co pozwala ograniczyć czas potrzebny na instalację tych systemów od podstaw. Drugi model oznacza nieco wyższy koszt wynajęcia maszyny wirtualnej, z drugiej - daje nam więk- szą swobodę w zamawianiu serwerów, szczególnie jeśli potrzebujemy ich na krótki okres. W tym przypadku nie musimy zajmować się kwestią licencjonowania oprogramowania. Chmura Windows Azure pozwala wynajmować zasoby na tak długo, jak ich potrzebujemy. Istnie- je możliwość uruchomienia dodatkowych maszyn wirtualnych np. w przypadku nagłego wzrostu zapytań do bazy czy prowadzenia projektów integracji danych, tak aby zwiększyć wydajność całego systemu i odciążyć serwery produkcyjne. Maszyna wirtualna może zostać wyłączona, kiedy nie ma dalszej potrzeby jej używania. Od tego momentu klient nie płaci za niewykorzystywane zasoby. Nie utrzymuje również niepotrzebnych licencji, które w przypadku wdrożenia on-premise, pozostały by bezużyteczne. Mamy więc raporty i system monitorujący. Ważne jest (i dotyczy to wszystkich komponentów Azure), że wszystkie czynności w chmurze możemy wykonywać z poziomu graficznego interfejsu (GUI). Do dyspozycji mamy również Windows PowerShell, jeśli chcemy te procesy automatyzować. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 8. 8. Wróćmy do narzędzia Power Pivot. Mamy wykres z danymi sprze- dażowymi (ilość produktów sprzedawanych w danym dniu miesią- ca), do którego chcemy dołączyć dodatkowe informacje o kategorii produktu lub jego producencie. Czynność ta jest bardzo prosta, jeśli umiemy posługiwać się tabelami przestawnymi, czyli znane nam są takie pojęcia jak wymiar, kalkulacja itd. Power Pivot Model danych został zaprojektowany tak, aby prezentować relacje biznesowe. Dane wyświetlane w Power Pivot wyglądają tak samo, jak w tabelach przestawnych. Praca z Power Pivot nie różni się więc znacząco od korzystania z arkusza Excel. W demonstracji chcielibyśmy zwrócić uwagę na jeszcze jedną kwestię. Power Pivot umożliwia wizu- alizację danych na mapach. Narzędzie to pozwala na dodawanie hierarchii, dzięki czemu dane geo- graficzne mogą być prezentowane w formie graficznej, w ujęciu kraju, regionu czy miasta. Informacja o lokalizacji kojarzona jest z danymi sprzedażowymi na podstawie adresu klienta lub koordynat GPS. Oprogramowanie Microsoft dostarczane jest z dokładną mapą Polski w formie komponentu Power View. Warstwa raportowa jest tym elementem modelu danych, którą można tworzyć bardzo prosto. Przykładowo, za pomocą jednego kliknięcia myszą, można dodać kolejny poziom hierarchii w analizo- wanych danych. Na potrzeby tej publikacji przygotowaliśmy dwie proste demon- stracje. Załóżmy, że firma produkcyjna wprowadza na rynek nowy produkt. Chcemy zobaczyć, jak rozszerzanie dystrybucji na cały kraj przekłada się na wzrost sprzedaży. Zaczynamy od Warszawy, w któ- rej przedsiębiorstwo ma swoją siedzibę. Na wykresie zobaczymy jak rozkłada się ta sprzedaż na obszarze całego kraju. Nie będziemy tutaj omawiać interfejsu programu, bo jest on bardzo prosty. W tym miejscu wspomnijmy jak wygląda wiązanie danych sprzedażowych z informacjami geograficznymi. Power Map Nowy produkt na rynek Na rynku dostępny jest również produkt Project GeoFlow (Power Map), który umożliwia prezenta- cję danych na mapach wraz z upływem czasu. Narzędzie to wykorzystamy do przygotowania inte- raktywnej wizualizacji pokazującej np. jak zmienia się pokrycie produktami na obszarze kraju lub regionu. Power Map pozwala przedstawić te zmiany w atrakcyjnej formie „opowiadania o danych”. W narzędziu mamy szerokie spektrum możliwości mapowania tych danych. Odbywa się to na pod- stawie atrybutów takich jak adres, miejscowość, kraj, kod pocztowy, a nawet szerokość geograficz- na. Wiele firm, zamiast na koordynatach GPS, opiera się po prostu na adresach. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 9. 9. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Przygotowana animacja prezentuje zmianę obszaru dystrybucji produktu na przestrzeni kolejnych miesięcy. Wraz z rozwojem sieci dystrybucji widok mapy przechodzi płynnie z obszaru Warszawy na pozostałe regiony kraju. Animacja może być w dowolnym momencie zatrzymywana, a wyświetlane mapy skalowane, obracane, przybliżane. Oprogramowanie pozwala na dodawanie adnotacji. Istnieje możliwość zapisania animacji w formie pliku wideo. Power Map dostępny jest dla komputerów biurkowych (desktop). Narzędzie to wykorzystuje moc współczesnych komputerów do renderowania trójwymiarowych map. Z kolei mapy Power View są dwuwymiarowe i można uzyskiwać do nich dostęp przez przeglądarkę internetową. W przypadku Power Map wygenerowane animacje możemy zapisać w formie nagrania wideo i odtwarzać je rów- nież na urządzeniach mobilnych. Wspomnieliśmy wcześniej o możliwości umieszczania różnych da- nych, poza Power Map, na portalu internetowym. Sam portal można uruchomić mając subskrypcję na usługę Office 365 wraz z kompo- nentem Power BI. Wystarczy wgrać pliki raportów do portalu, aby móc je w trybie interaktywnym przeglądać i analizować z poziomu przeglądarki internetowej. Dużo się mówi o tym, że portal Power BI oferuje dużo więcej funkcji, niż tylko współdzielenie raportów i praca z danymi w oknie przeglą- darki. Jedną z nich jest rozwiązanie Q&A. Publikowanie raportów Q&A i zapytania w języku naturalnym Funkcja ta pozwala samodzielnie zadać pytanie dotyczące danych w sposób bardzo ogólny. Inny- mi słowy, tylko w przybliżeniu wiemy, o co chcemy zapytać, a z drugiej strony nie mamy czasu, ani umiejętności w budowaniu i modyfikacji tabel przestawnych. Power BI umożliwia eksploracje danych w sposób dynamiczny, który będzie zrozumiały także dla osób zarządczych. W kontekście tłumaczenia języka mówionego (w tej chwili angielskiego) na rozumienie danych w systemie Power BI Q&A największe znaczenie ma sam model danych, a nie sposób w jaki zorga- nizujemy raporty. Wrzucając model Power Pivot na serwer do narzędzia Power BI dostaniemy pew- ne wyniki, natomiast mamy też dostęp do narzędzi i dokumentacji, które pozwolą usprawnić model danych w taki sposób, aby zapytania kierowane do Q&A były w większym stopniu zrozumiałe. W tym celu stosuje się synonimy. Przykładem może być tutaj wprowadzenie synonimów dla nazw, kategorii itd. w modelu danych dla polskiego producenta wody mineralnej, przygotowanego z użyciem narzędzia Power BI w języku angielskim (polska wersja pojawi się pewnie w niedługim czasie). Power BI umożliwia śledzenie zadawanych pytań. Analitycy widzą więc, o jakie informacje pytają pracownicy i jakich danych używają. Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 10. 10. Zwróćmy uwagę, że narzędzia analityczne rozwijane są bardzo dynamicznie. Kolejne wersje Power Query wydawane są niemal co miesiąc. Najnowsza wersja tego narzędzia przynosi m.in. obsługę nowego źródła danych - SAP Business Objects. Cykl wydawniczy narzędzi Power BI, które w rzeczywistości są bardziej usługami niż typowymi produktami, został skrócony z 18 miesięcy do mniej niż miesiąca. Usługi te rozwijane są w trybie ciągłym. W pierwszym scenariuszu przedstawiono technologię Power Pivot służącą do wielowymiarowego modelowania danych. Analiza ta doty- czyła dużej ilości (ponad 2 miliony rekordów) danych sprzedażowych. Silnik Power Pivot działa w pamięci RAM (in memory) i umożliwia pracę z danymi pochodzącymi z różnych źródeł. Narzędzie Power View umożliwia wizualizację tych danych przez tworzenie ani- mowanych wykresów i zestawień. Wizualizacje te tworzone są w czasie rzeczywistymi (online), tak więc zmiana układu lub zakresu danych wpływa natychmiast na to, co widzimy na ekranie. Z kolei Power Map umożliwia prezentację zebranych informacji na mapach. Pierwszym jego zadaniem jest zarządzanie celami sprzedaży. W wielu firmach system stawiania celów (targety) oparty jest wyłącznie o arkusze kalkulacyjne Excel. Problemem, z którym się spo- tykamy, jest konieczność weryfikacji danych sprzedażowych, pochodzących z systemu informatycz- nego przedsiębiorstwa, z celami sprzedażowymi, zapisanymi właśnie w plikach Excel. Dodatkowo, kierownik widzi cele sprzedaży przypisane dla pracownika, bez planów odnoszących się do po- szczególnych produktów. Co z tym możemy zrobić? Z perspektywy menedżera sprzedaży patrzyliśmy na firmę global- nie, zwracając uwagę na wyniki sprzedaży według produktu, regio- nu itd. W drugim scenariuszu wcielimy się w kierownika regionu, którego zadania i problemy są nieco odmienne. Kierownik danego obszaru ma pod sobą pracowników, których musi rozliczyć z pracy w terenie (salesforce). Rozwój narzędzi Power BI Podsumowanie scenariusza Scenariusz 2: Kierownik regionu Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 11. 11. W publikacji tej chcemy pokazać możliwość wykorzystania usługi SharePoint Online do agregowania informacji o planach i wynikach sprzedaży. Kierownicy regionów wgrywają tutaj pliki, jeśli cel zo- stanie osiągnięty. W rezultacie mamy zestaw 20-30 arkuszy Excel utworzonych przez poszczególnych kierowników regionu. Dane te można w prosty sposób dołożyć do przedstawionego w poprzednim scenariuszu modelu sprzedaży. Sprawdźmy, jak to zrobić. Przypomnijmy, że raport z wykonania sprzedaży został umieszczo- ny w portalu SharePoint przez kierowników regionu. W tym celu wykorzystywane jest oprogramowanie Power Query. Jest to narzę- dzie klasy ETL służące do czyszczenia i integracji danych. Zwróćmy uwagę, że Power Query jest integralną częścią Power BI, w odróż- nieniu od Power Pivot, który jest dodatkiem do Excela w wersji 2010 i 2013. Obróbka danych z wykorzystaniem Power Query wykonywa- na jest przez użytkownika. W przeciwieństwie od innych systemów ETL, Power Query nie jest narzędziem serwerowym. Agregacja danych w SharePoint Power Query Pierwsze, co przychodzi nam na myśl to zastosowanie złożonego procesu ETL. Zadanie to ma być wykonywane przez użytkowników końcowych, a nie programistów i analityków zatrudnionych w działach IT. Na ekranie widzimy wygenerowany raport, który porównuje cele sprzedażowe (targety) z wynikami sprzedaży. Dane te są wizualizowane z wykorzystaniem wskaźników KPI, semaforów, grafik i kolorów. Co ważne, cele zostały rozbite po produktach. Zwróćmy uwagę, że cała wizualiza- cja została przygotowana wyłącznie z programie Excel w formie tabeli przestawnej. Wróćmy do naszego przykładu. Za pomocą Power Query umieściliśmy w witrynie SharePoint jeden z plików z wynikami sprzedaży. Power Query ma swój język operacji, jednak jeśli jesteśmy użytkow- nikami biznesowymi, wszystkie operacje wykonywane w tym narzędziu możemy wykonać za pomo- cą myszy. Power Query pozwala obrabiać załadowane dane. Na początek z tabeli danych usuwamy zbędny na- główek. Wprowadzone przez kierowników dane mają postać tabeli przestawnej. Przetwarzanie tych danych przez narzędzia analityczne jest niewygodne, dlatego za pomocą Power Query zamienimy je na znormalizowane dane tabelaryczne. W Power Query czynność ta wymaga jednego kliknięcia w przeciwieństwie do wielu linijek kodu SQL, które należałoby napisać korzystając z innego narzędzia. Jako ciekawostkę dodajmy, że w oknie Power Query widoczny jest skrypt, który powstaje w trakcie wykonania operacji przekształcania danych. Zapisywane są kolejne kroki związane z ich modyfika- cją, tak więc sam skrypt, jeśli zachodzi taka potrzeba, można przy odrobinie umiejętności zoptyma- lizować i w jeszcze większym stopniu dostosować do własnych wymagań. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 12. Spróbujmy odpowiedzieć na pytanie, jak to się dzieje, że mając z góry ustalony cel sprzedażowy (target) możemy rozbić go na pro- dukty? W ujęciu biznesowym czynność ta wykonywana jest według kluczy podziałowych ustalonych na podstawie danych historycznych. To wszystko dzieje się w Power Pivot. Alokacja sprzedaży na produkty Uruchamiamy edytor Power Pivot. Mamy tutaj tabele, czyli surowe dane o planowanej sprzedaży, które zostały wcześniej zaimportowane przez Power Query. Nie znajdziemy tu jednak informacji o produktach. Obok mamy proste kalkulacje w języku DAX, którego składnia została zaprojektowana tak, aby być jak najbardziej zbliżona do formuł Microsoft Excel, ale jednocześnie zaoferować funkcjonalność podobną do języka MDX. Mamy więc pojedynczy wiersz kodu (formułę), która liczy nam współczynnik udziału produktu w całości sprzedaży. Mechanizm ten można zastosować również w scenariuszu, w którym cele sprzedażowe narzucone są z góry. Wiele rzeczy, które pracownicy firmy wykonują teraz w Excelu, możemy zamodelować przy użyciu Power Query. W jednym pliku istnieje możliwość integracji danych z programu Excel, Power View oraz Power Map. Zaprezentowaliśmy wizualizację wyświetloną w oknie programu Excel. Z powodzeniem może być ona dostępna również w sieci. Niezależnie od tego, jakie technologie analizy danych zastosujemy (Excel, Power BI) dane, raporty i zestawienia przenoszone są do portalu internetowego. Za każdym razem, dzięki Excel Services, wizualizacje te wyświetlane są dokładnie w takiej samej formie w jakiej zostały przygotowane i udostępnione. 12. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft W celu scalenia danych pochodzących z różnych źródeł (wielu plików) wykorzystano mechanizmy automatyzacji zadań Power Query. Każdy z plików został załadowany i przetworzony w pętli. Zapyta- nie Power Query może zostać udostępnione innym osobom. Jest to zadaniem „data stewarda”, czyli osoby, która w przyszłości będzie nadzorowała zapytania użytkowników. Dane i raporty przechowywane są w chmurze Azure. Dostęp do tych obiektów możliwy jest po zalo- gowaniu się do usługi Office 365. Power Query umożliwia bezpośrednie logowanie do konta przed- siębiorstwa w chmurze. Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 13. Power Query jest narzędziem, które umożliwia łatwiejsze i bardziej efektywne wykonywanie zadań, które dotychczas były realizowane wyłącznie w programie Excel. Chodzi tutaj głównie o pobieranie da- nych z kilku źródeł oraz ich przetwarzanie i agregowanie w formie tabel przestawnych. W trzecim scenariuszu biznesowym spróbujemy postawić się w roli szefa marketingu, który chce dowiedzieć się, w jaki sposób zarzą- dzana przez niego marka jest postrzegana w internecie, w sieciach społecznościowych oraz widziana w wynikach wyszukiwarek. Wszyscy doskonale wiemy, że tego typu informacje są potrzebne w prowadzeniu działań marketingowych. Chcemy wiedzieć, jak postrzegają nas klienci oraz użytkownicy – teraz oraz w przeszłości (dane historyczne). Podsumowanie scenariusza Scenariusz 3: Szef marketingu W sytuacji kiedy mamy do czynienia z analitycznymi rozwiązaniami klasy korporacyjnej, czyli hur- townią danych z warstwą gotowych raportów i narzędzi BI, wdrożenie podobnych scenariuszy bizne- sowych wymagałoby interakcji między użytkownikiem biznesowym, a działem IT. W wielu przypadkach działy IT nie są w stanie odpowiednio szybko reagować na zgłoszenia napły- wające od użytkowników. Jeśli modyfikacja danych i raportów, np. przez dołożenie planów sprze- daży, nie mogłaby być szybko zrealizowana, wielu pracowników zdecydowałoby się na zrzut danych z systemu BI i dalszą samodzielną obróbkę tych informacji. Tak przygotowane zestawienia trudno byłoby jednak dalej dystrybuować. Dane wygenerowane przez Power Pivot można publikować na SQL Server w bardzo prosty spo- sób. Ponownie da się tutaj zauważyć pełną integrację między Power Pivot, w którym tworzymy modele, a SQL Server. Ma to sens w przypadku dużej ilości danych, które mogą zostać wyniesione do bazy analitycznej. Faktem jest, że tych danych nie można pobrać. Z jednej strony mamy więc problem z ich dostępno- ścią. Po drugie – danych o firmie i marce może być tak dużo oraz mogą być one w takiej formie, że ciężko będzie je przetwarzać i analizować. Problem ten jest tak trudny do rozwiązania, że de facto dział IT przy użyciu klasycznych narzędzi nie jest tego w stanie wykonać. Nie do końca bowiem wiadomo nawet, jak do prostych modeli powinniśmy „włożyć” te dane. 13. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 14. Analiza sieci społecznościowych (social analytics) to jeden z najgorętszych tematów w obszarze Big data. Scenariusz, który pokażemy jest bardzo prosty, ale pokazuje kierunek w jakim mo- żemy pójść stając przed zadaniem analizy dużej ilości nieustruk- turyzowanych lub słabo ustrukturyzowanych danych. W tym momencie spróbujmy zastanowić się, w jaki sposób doszli- śmy do tych wniosków. W pierwszym kroku zebraliśmy potrzebne dane za pomocą otwartego narzędzia Flume. Za chwilę zauważy- my, że Microsoft, udostępniając swoją platformę Big Data o nazwie HDInsight oparł się wyłącznie na otwartych rozwiązaniach Open Source. Dla Microsoft nie jest to nowość. W Windows Azure znaj- dziemy maszyny wirtualne z oprogramowaniem Oracle czy obrazy dystrybucji Linuksa itd. Analiza sieci społecznościowych Dane wejściowe Zaczniemy od pokazania wyniku, aby w kolejnej części tekstu opowiedzieć, jak do niego doszliśmy. Na slajdzie widzimy grafikę prezentującą postrzeganie marki, rozumiane jako liczbę wystąpień (faktów) na temat firmy np. wpisy w serwisie Twitter. Na początek informacja o tym, jak powstaje taki zbiór danych. Informacje pobierane są za pomocą interfejsu programistycznego (API) udostępnionego przez sieć społecznościową, choć należy jasno powiedzieć, ze nie wszystkie serwisy tego typu pozwalają na ekstrakcję dużej ilości danych. Na ryn- ku znajdziemy również dostawców, którzy komercyjnie pomagają w pozyskiwaniu takich informacji. Wróćmy do naszego przykładu. Analiza jest dość prosta, bowiem ilość informacji zawartych w pojedynczym wpisie na Twitterze jest niewielka. W zaprezentowanym przykładzie można zauwa- żyć, który kraj jest do naszej firmy najbardziej negatywnie nastawiony. Tutaj dochodzimy do kon- kluzji, iż w obszarze social analytics raczej chodzi o wyłapywanie negatywnych opinii, które mają znacznie mocniejszy przekaz, niż te pozytywne. Dane wejściowe używane do analizy nie są w pełni ustrukturyzowane. Opisowo mówiąc, dane te nie są zupełnie bez struktury, natomiast tabele SQL nie do końca nadają się do przechowywania informacji pozyskiwanych z internetu i sieci społecznościowych. To co widzimy na prezentacji to wpisy Twittera składające się z dużej ilości tekstu i metadanych. Warto odnotować, że mocną stroną Hadoop HDInsight jest właśnie praca z tekstem. W tym scenariuszu interesuje nas wyłącznie tekst zawarty we wpisie Twittera. Mamy słownik kilkuset słów angielskich o wydźwięku negatywnym, neutralnym i pozytywnym, które umożliwiają skategoryzowanie treści pojawiających się na Twitterze. 14. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 15. Tym co odróżnia HDInsight od konkurencyjnych rozwiązań jest szyb- kość i łatwość uruchamiania oraz używania systemów analitycznych w chmurze Microsoft. W tym celu kupujemy subskrypcje Windows Azure z usługą HDInsight. Jest to możliwe, bowiem postawienie klastra HDInsight trwa ok.15 minut. Cała ta operacja wymaga wskazania jedynie kilku informacji o tworzonym klastrze np. ilość potrzebnych węzłów. Dla osób znających Hadoop, Microsoft udostępnia kilka wersji HDInsight. HDInsight Uruchamianie klastra HDInsight W HDInsight wyraźnie rozdzielono obszary związane z przechowywaniem oraz przetwarzaniem informacji. Dane przechowywane są w magazynie (storage) Windows Azure. Kiedy załadujemy do chmury wszystkie potrzebne pliki i obiekty (mogą to być gigabajty lub nawet terabajty danych) dopiero wte- dy powołujemy do życia klaster HDInsight. Klaster ten jest nam niezbędny wyłącznie do tego, aby te dane przetwarzać. Podobnie jak w przy- padku maszyn wirtualnych, gdzie czas życia maszyny z perspektywy kosztowej ma znacznie, zada- nia w chmurze związane z przetwarzaniem danych rozliczane są wyłącznie za czas (godziny) korzy- stania z klastra HDInsight. Nie ukrywajmy faktu, że rozwiązania te nie są dostarczane za darmo. Hadoop składa się z wie- lu rozproszonych węzłów, które oferują potężną moc obliczeniową. Konkluzja nasuwa się jedna - trwałe dane przechowujemy w relatywnie tanim magazynie w chmurze, podczas gdy instancje obliczeniowe wynajmujemy wyłącznie na czas przetwarzania tych danych. Technologicznie HDInsight jest bardzo zbieżny produktami dostarczanymi przez firmę Hortonworks (jeden z liderów rozwiązań Hadoop), która jest partnerem Microsoftu w zakresie przetwarzania dużych ilości danych. HDInsight stanowi więc kolejne miejsce, gdzie zauważyć można przecięcie technologii Microsoft z oprogramowaniem Open Source. Microsoft udostępnia HDInsight Emulator (wcześniejsza nazwa HDInsight Server), który umożliwia wypróbowanie usługi bez generowanie kosztów w swoich subskrypcjach Azure. Oprogramowanie to można zainstalować na lokalnym serwerze, aby zasymulować działanie klastra Hadoop. 15. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 16. Proces nadawania struktury danym, które są przetwarzane od- bywa się w klastrze Hadoop. Celem jest nałożenie struktury, któ- rej efektem niekiedy jest uzyskanie danych tabelarycznych, choć niekoniecznie dane te muszą mieć taką postać. Do dyspozycji mamy narzędzie Hive umożliwiające nałożenie na dane pewnej struktury, która pozwala na odwoływanie się do nich w języku pseudo-SQL (komendy CREATE TABLE, SELECT, CREATE VIEW itd.) W tym momencie nasuwa się pytanie, jak HDInsight ma się do hur- towni danych i kiedy warto wykorzystać każde z tych rozwiązań? W wielu obszarach oba te rozwiązania są do siebie podobne. I tu, i tu mamy dużą ilość danych. Z perspektywy analitycznej ważny jest jednak rodzaj tych danych. Przetwarzanie danych w Hadoop HDInsight, a hurtownia danych Wróćmy do naszego pliku Excel. W środku mamy dane Power Pivot, połączone sterownikiem ODBC z serwerem. Sterownik ten jest darmowy i może zostać pobrany ze strony Microsoft. Inne opcje podłączenia się do Hadoop/HDInsight to m.in. Power Query. Narzędzie to umożliwia pracę z danymi pochodzącymi z innych źródeł, w tym danymi przechowywanymi w magazynie Windows Azure. W scenariuszu biznesowym można zbudować arkusze, które korzystają bezpośrednio z danych zgromadzonych w HDInsght. Dzięki takim narzędziom jak Power Query czy Power Pivot będzie ist- niała możliwość odpytania o te dane w języku naturalnym (angielskim). Jako ciekawostkę dodajmy, że jednym z dostępnych w Power Query źródeł danych jest Facebook. To propozycja dla osób, które potrzebują pobrać relatywnie niewielką ilość danych, tutaj profili użytkowników w serwisie społecznościowych. Jeśli mamy hurtownie, która przez wiele lat jest rozwijana i zarządzana oraz zasilana z wewnętrz- nych źródeł danych (np. ERP, CRM itd.), to zamiast zmieniać ten system (absolutnie nie o to chodzi), spróbujmy wzbogacić zgromadzone dane o informacje zewnętrzne np. wpisy z Twittera. W dużym uproszczeniu można przyjąć, że warto wybrać HDInsight, jeśli chcemy analizować dane pochodzące z internetu. W przypadku przetwarzania danych wewnętrznych pierwszym wyborem praw- dopodobnie będzie klasyczna hurtownia danych - data warehouse, kostki OLAP i inne tego typu rozwią- zania. Dane te mogą być również integrowane z wykorzystaniem narzędzi self-service np. Power BI lub Excel. Wynika z tego, że integracja ta nie musi się odbywać na poziomie SQL Server. Można to zrobić ad-hoc wykorzystując np. Power Query, które pozwala na pobieranie danych z wielu źródeł: hurtowni danych, HDInsight, Twittera czy Facebooka, spinając całość w formie wizualizacji Power View. Q&A, czyli narzędzie do odpytywania danych w języku naturalnym, doskonale sprawdza się w przy- padku informacji pochodzących z internetu (tekstowych). 16. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 17. HDInsight to kolejna usługa dostarczana w chmurze Windows Azure. Rozwiązanie to zostało zbudowane na bazie otwartych narzędzi Hadoop/Hortonworks. HDInsight jest w pełni zintegrowany z pozo- stałymi narzędziami w ofercie Microsoft. Pierwsze pytanie, jakie powstaje w głowach potencjalnych klientów brzmi – ile to kosztuje? I czy jesteśmy w stanie zaprojektować sce- nariusz, który będzie konkurencyjny cenowo w stosunku do rozwią- zań obecnie stosowanych w lokalnych centrach danych. Podsumowanie scenariusza Koszty wdrożenia Do informacji zgromadzonych w chmurze możemy się dostać za pomocą aplikacji do modelowania i wizualizacji danych. I co ważne, widać tutaj wyraźny podział w obszarze przechowywania i prze- twarzania danych. Raz zgromadzone dane mogą być składowane w chmurze bardzo długo (relatywnie niski koszt przechowywania), podczas gdy klastry obliczeniowe powołujemy do życia tylko w momencie przetwarzania tych danych. Aby lepiej zilustrować kwestie kosztów posłużymy się przykładem jednego z klientów, który w pewnym momencie musiał podjąć decyzję związaną z budowaniem nowej hurtowni danych z silnym nastawieniem na przetwarzanie danych w pamięci (in memory). Wybór padł na technologię SQL Server, przy czym rozważano różne opcje wdrożenia takiej hurtow- ni w przedsiębiorstwie. Pierwszy wariant zakładał budowę lokalnej hurtowni danych (on premise), drugi - przechowywanie i przetwarzanie danych w chmurze Windows Azure. W przykładzie mowa o kilkudziesięciu gigabajtach danych, które należało przetwarzać. Na zrzu- cie zilustrowano koszty implementacji takiego systemu. Po pierwsze mamy koszty subskrypcji Windows Azure. Na potrzeby analizy założyliśmy, że klient prowadzi swoją działalność na terenie Polski, że maszyna wirtualna wykorzystywana do przetwarzania danych nie musi działać cały czas (1-2 godziny dziennie), a dostęp do nich jest potrzebny w godzinach pracy. Klientowi została zapro- ponowana maszyna wirtualna A7 (najbardziej wydajna opcja to maszyna A8) z oprogramowaniem Microsoft SQL Server Enterprise. Do kosztów wynajmu infrastruktury w chmurze należy doliczyć przestrzeń dyskową, transfer danych, zestawienie sieci, itd. Płatny jest transfer z chmury Azure do sieci lokalnej przedsiębiorstwa. Za transfer do Azure nie są naliczane opłaty. Warto o tym przypomnieć z uwagi na fakt, że z hurtowni pobieramy zagregowane dane (mała ilość). Nie płacimy więc za ładowanie danych do chmury. Koszt wynajmu infrastruktury z oprogramowaniem dla takiej hurtowni danych wynosi ok. 1000 euro miesięcznie, przy założeniu 20% upustu w przypadku półrocznej subskrypcji Windows Azure. Dla porównania, koszty zakupu sprzętu i licencji (bez części kosztów utrzymania) wynosi ok. 45 000 euro. Wydatki te należy ponieść jednorazowo na początku inwestycji. Rachunek zysków wydaje się być prosty. 17. Webinarium Microsoft Prowadzący: Paweł Potasiński, Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure
  • 18. Na koniec spróbujmy powiedzieć kilka słów o tym, jak zacząć z Power BI oraz Windows Azure. Swoją przygodę z narzędziami analitycznymi warto rozpocząć zapoznania się z zawartością strony Power BI.com, prześledzeniem blogów branżowych poświęconych rozwiązaniom Business Intelligence (np. blog Chrisa Webb’a === http://cwebbbi.wordpress.com/===) oraz innych stron, wokół któ- rych skupia się społeczność SQL Server i Power BI. Pisaliśmy o Windows Azure, w szczególności o maszynach wirtu- alnych dostarczanych w modelu Infrastructure as a Service (IaaS), które zastępują lub uzupełniają zasoby infrastruktury lokalnej przedsiębiorstwa. Początki nie muszą być trudne Podsumowanie eSeminarium Azure W omówionych scenariuszach biznesowych nie wspominaliśmy o usłudze Windows Azure SQL Database. Jest to baza danych, na której można budować federacje złożone z kilku serwerów. Usługę tę warto wykorzystać, jeśli na poziomie aplikacji jesteśmy w stanie zaimplementować mechanizmy partycjonowania danych (dzielenia na kawałki) między serwery. W ostatnim scenariuszu opowiedzieliśmy o rozwiązaniu HDInsight, czyli usłudze Hadoop w chmurze Windows Azure. Wiele miejsca poświęciliśmy narzędziom Power BI, które umożliwia modelowanie, prezentację i wizualizację danych, Power Query jako aplikacji ETL dla użytkownika końcowego i portalu Q&A, który odpowiada na zapytania kierowane w języku naturalnym. Microsoft udostępnia wersje próbne rozwiązań zaprezentowanych w niniejszym tekście. Do pobra- nia są m.in. narzędzia Power BI, możemy również zarejestrować próbną subskrypcję usług Office 365 i Windows Azure. 18. Webinarium Microsoft Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure Prowadzący: Paweł Potasiński, Microsoft