Dotazování nad proudy dat

Dotazování nad proudy dat
NDBI001 10.12.2013, Bc. Jan Drozen

O čem bude řeč


Úvod



Motivace



Dotazování



Algoritmy



Shrnutí

Systém řízení proudu dat


DBMS > DSMS



DSMS je nadmnožina DBMS



Dají se simulovat pomocí procedurálních
prostředků v DBMS

Rozdíly DBMS oproti DSMS
DBMS

DSMS



Data trvale uložená



Proudy jsou dočasné



Možnost náhodného
přístupu



Pouze sekvenční
zpracování



Jednorázové dotazy



Dlouhotrvající dotazy



Velká sekundární
paměť (TB)



Omezená primární
paměť (GB)

Rozdíly DBMS oproti DSMS - pokračování
DBMS
 Data v přesně
definovaném známém
stavu

DSMS
 Data závislá na pořadí na
vstupu


Velmi velmi častý zápis



Relativně statická povaha



Rychlost velmi důležitá



Menší nároky na rychlost





Očekáváme přesné
deterministické výsledky

Mohou (musí) stačit pouze
aproximované výsledky

Příklady


Tradebot – webový finanční vyhledávač, vyhodnocuje
dotazy vůči aktuálním datům
 Dnes



už neaktivní

iPolicyNetworks – uplatňování různých pravidel ve velkých
sítích
 Také

nedostupné



Synchronizace distribuovaných systémů – Yahoo



Monitorování senzorů

Sledování síťového provozu - příklad


Podrobnější motivační příklad



Mějme poskytovatele připojení k Internetu (ISP)
 Disponuje



rozsáhlou páteřní sítí

Požadavek na trasování paketů a monitorování
provozu

Sledování síťového provozu – pokr.


Řešení
 Specializovaný
 Vlastní

systém pouze pro danou úlohu

řešení

 Logování

a zpětné offline vyhodnocování



Model sítě:
 Linka

C propojuje páteřní síť ISP se sítí
koncového zákazníka

 Linka

B propojuje dva routery uvnitř páteřní
sítě ISP



B a C označíme proudy trasovacích dat
odpovídající provozu na těchto linkách



Trasovací data obsahují hlavičku formátu:
 zdroj–
 cil–

IP adresa odesilatele

IP adresa příjemce

– identifikační číslo generované odesilatelem, aby
příjemce mohl jednoznačně identifikovat paket

 id

 delka

– délka daného paketu

– informace o tom, kdy byl daný paket
zaznamenán

 cas



Chceme umět formulovat dotaz Q1 takový, že:
 Spočítá

vytížení linky B průměrovaný po
minutových intervalech

 Pokud

vytížení překročí určitou míru t, tak
informuje operátora



Q1:
 SELECT

upozorniOperatora(SUM(delka))
FROM
B
GROUP BY minuta(cas)
HAVING
SUM(delka) > t



Možno simulovat pomocí triggerů
 Pokud

by byl provoz velký (např. optická linka), mohlo
by dojít k problémům



Chceme umět formulovat dotaz takový, že:
 Filtruje

provoz pouze v páteřní síti

 Rozdělí

provoz na jednotlivé proudy

 Určí


intenzitu provozu v každém proudu

Proud definujeme jako sekvence paketů mezi
určitým zdrojem a cílem



Q2:


SELECT idProudu, zdroj, cil, SUM(delka) AS delkaProudu
FROM (SELECT
zdroj, cil, delka, cas
FROM
B
ORDER BY cas)
GROUP BY
zdroj, cil, ziskejIdProudu(zdroj, cil, cas) AS
idProudu



ziskejIdProudu vrací identifikátor proudu na základě zdroje, cíle a
času



GROUP BY a ORDER BY klauzule



Chceme umět formulovat dotaz takový, že:
 Zjistíme,

jakou část provozu páteřní linky
můžeme přiřadit síti zákazníka



Q4:


SELECT
(SELECT COUNT(*)
FROM C,B
WHERE
C.zdroj = B.zdroj AND C.cil = B.cil AND
C.id = B.id)
/
(SELECT COUNT(*)
FROM B)



Operace spojení



Nad proudy dat nemusí stačit paměť



Chceme umět (naposledy) formulovat dotaz
takový, že:
 Bude
V

monitorovat páry zdroj – cíl

páteřní síti

 Pouze

pro 5 procent s nejvyšším vytížením



Q4:


WITH vytizeni AS (
SELECT
zdroj, cil, SUM(delka) AS provoz
FROM
B
GROUP BY zdroj, cil
)
SELECT
zdroj, cil, provoz
FROM
vytizeni AS L1
WHERE (
SELECT COUNT(*)
FROM
vytizeni AS L2
WHERE
L2.provoz < L1.provoz) > (SELECT 0.95 * COUNT(*)
FROM
vytizeni)
)
ORDER BY provoz

Problémy při dotazování


Prvky proudu dat přicházejí online



Systém nemá kontrolu nad pořadím, v jakém data
přicházejí



Potenciálně neomezená velikost



Jakmile je prvek proudu dat zpracován, je
archivován nebo zahozen
 Pokud

chceme jinak, musíme to explicitně
vyjádřit

Typy dotazů


V klasickém DBMS spustíme dotaz a ten po
vykonání vrací výsledky, které zpracujeme



To lze v DSMS samozřejmě také
 Jednorázové
 Zahrnují



dotazy (one-time queries)

i zmiňované DBMS dotazy

Rozlišujeme, protože existují i jiné dotazy
 Dlouhotrvající
 Přidaná

dotazy (continuous queries)

hodnota DSMS

Dělení dotazů




Podle zpracování
 Jednorázové
 Dlouhotrvající
Podle pokládání
 Předdefinované
 Známé

před začátkem proudu

 Jednoúčelové
 Vytvořené

(ad-hoc)

v průběhu

Problémy s pamětí


Proudy dat jsou potenciálně neomezené -> proto i dotazy
pro zpracování mohou požadovat neomezeně velkou
paměť



DBMS pracují s externí (sekundární) pamětí –
optimalizované algoritmy



Pro DSMS nemusí být použitelné
 Nejsou
 Pro

navržené na dlouhotrvající dotazy

vyhodnocování v reálném čase velká latence

 DSMS

typicky pro takové aplikace

Problémy s rychlostí


V DBMS dotazování nad známými daty



V DSMS při vykonávání dotazu přicházejí nová
data



Rychlost zpracování musí být dostatečně vysoká
 Jinak

velká latence

Hrozí,

že budou data zahozena ještě před
zpracováním



Dále se omezíme pouze na práci s primární
pamětí

Řešení problémů - aproximace


Pokud upustíme od požadavku na exaktní
odpověď, můžeme se zbavit problémů



Ale omezíme si i výrazovou sílu dotazovacího
jazyka



Dotazy vykonávány v omezeně velké paměti



Odpovědi aproximované
 Kvalitní

aproximace může pro většinu aplikací
bez problémů dostačovat

Aproximace - pokračování


Různé techniky pro aproximace:
 Sketch
 Náhodné

vzorkování

 Histogramy
 Vlnky

(wavelets)

 Předmětem

výzkumu

Klouzavá okna


Základní myšlenka aproximovaných odpovědí



Nebudeme se dotazovat nad kompletními daty
(celá historie proudu), ale pouze nad nějakým
aktuálním úsekem
 Např.



data za poslední hodinu, týden,...

Řada výhod:
 Dobře

definovaná

 Jednoduchá

sémantika

Klouzavá okna - pokračování
 Deterministická
 Upřednostňují
Typické


aktuální data

pro reálné nasazení

Použitelné nejen pro aproximaci, ale i explicitně
pro sémantiku
 Právě

omezení na určitý časový úsek

Klouzavá okna - pokračování


Ale i zde přetrvávají problémy:
 Co

když se ani okno nevejde do paměti?

 Náročná

implementace

Rozšíření


SQL a relační algebry o práci s okny

Předmětem výzkumu

Dávkové zpracování, vzorkování,
synopse






(batch processing, sampling, synopses)
Další techniky pro aproximativní dotazování
Budeme uvažovat datovou strukturu, do které
můžeme zapisovat (inkrementálně se zvětšuje)
Potřebujeme operace:
 update(n-tice)
 Aktualizuje

strukturu, když přijdou nová data

 computeAnswer()
 Vrátí

nové nebo aktualizované výsledky dotazu

Operace


Jaká je rychlost update a computeAnswer ?



Pokud je jedna z nich pomalejší (obě), než je
průměrná doba mezi příchozími daty, nastává
problém



Zpracování „neudrží krok“ s proudem



Není možné vrátit přesnou odpověď (relativně k
uvažované podmnožině proudu)

Dávkové zpracování


Update je rychlá, computeAnswer pomalá
 Přirozeným

řešením je zpracovávat data v

dávkách
 Data

jsou ukládána do mezipaměti (buffering)

 Odpovědi


jsou spočteny jednou za určitou dobu

Aproximativní v tom ohledu, že odpovědi nejsou v
reálném čase

Vzorkování


Update pomalá, computeAnswer rychlá
 Není

možné pro výpočet odpovědi použít
všechna potřebná data – přicházejí rychleji,
než jsou zpracovávána

 Některé

příchozí n-tice jsou přeskočeny



Pouze omezená kvalita výsledků



Pro některé aplikace nevyhovující

Synopse


Chceme update i computeAnswer rychlé



Aproximativní datová struktura
 Synopse



Typicky malá
 Menší



nebo sketch (skica)

než přesná reprezentace

Opět předmětem výzkumů

Blokující operace


Blokující operátor je pro dotaz takový operátor,
který potřebuje pro svůj výpočet znát všechna
data, dříve než vydá jakýkoli výstup.



Např. třídění, COUNT, SUM, MIN, MAX, AVG,...



Záleží na pozici ve stromě dotazu
 List
Pro

DSMS nepoužitelné

 Vnitřní
V

uzel

DSMS možné

Blokující operace - pokračování
Jako

kořen může vracet průběžné výsledky
dalším operátorům
Pokud je odpovědí jedna hodnota nebo je
dostatečně malá - odpovídá jako proud
dat – pokud se agregovaná hodnota změní,
vrátí ji jako další prvek proudu
Pokud je odpověď delší, je vhodné
udržovat datovou strukturu s „aktuálním
stavem odpovědi“

Blokující operátory - řešení


Namísto blokujících operátorů jako vnitřních uzlů
použít neblokující alternativy, které fungují
stejně (ale aproximativně)



Např. JUGGLE operátor
 Neblokující

verze třídění

 Přerovnává

lokálně data

 Negarantuje

správný výsledek

Blokující operace – řešení pokračování


Punctuation
 Rozhodnutí,

že s některými daty se již nebude
pracovat a mohou být poslána na výstup

 Např.

den >= 10

„všechny

další atributy den budou mít
hodnotu alespoň 10“

Data

s menší hodnotou mohou být
zpracována a odeslána

Dotazování na starší data


Data nejsou persistentně ukládána



Problém pro jednoúčelové dotazy – některá data
již mohla být zahozena – nemožné odpovědět na
dotaz přesně



Omezení dotazů pouze do budoucnosti
 Omezující,



ale v praxi použitelné

Možné udržovat agregované informace o proudu
ve specializované struktuře
 Zdroj

dalších problémů

DSMS Stanford STREAM


Stanford StREam DatA Manager



Prototyp implementace DSMS



Dotazovacím jazykem je rozšíření SQL
 Umožňuje

FROM klauzulí referencovat relace i
proudy dat

 Podpora

dotazů nad klouzavými okny

STREAM – klouzavá okna - pokračování


Časovou známkou může být čas (nečekaně), ale i identifikátor
pořadí




Požadavkem je totálně uspořádaná doména s metrikou

Rozšíření SQL o volitelnou specifikaci okna ve FROM klauzuli


Pomocí hranatých závorek

1.

Klauzule rozdělující proud do skupin – okno pro každou skupinu

2.

Velikost okna



3.

Ve „fyzických“ jednotkách – např. počet prvků okna
V „logických“ jednotkách – např. počet dní

predikát pro filtrování

STREAM – klouzavá okna - pokračování


Fyzická okna
 klíčové



slovo ROWS (ROWS 50 PRECEDING)

Logická okna
 klíčové

slovo RANGE (RANGE 15 MINUTES
PRECEDING)

STREAM - příklady


Pro následující příklady uvažujme schéma:
 záznamy

o telefonních hovorech

 atributy:

id_zakaznika, typ, minut, cas

atribut

pořadí

cas je časovou známkou určující

STREAM – příklad I


Chceme spočítat průměrnou délku hovoru,
uvažujíc pouze 10 posledních meziměstských
hovorů pro každého zákazníka



SELECT AVG(S.minut)
FROM
hovory AS S [PARTITION BY
S.id_zakaznika
ROWS 10 PRECEDING
WHERE S.typ = ‘Mezimesto‘]

STREAM – příklad II


Chceme spočítat průměrnou délku hovoru,
uvažujíc pouze meziměstské z deseti posledních
hovorů pro každého zákazníka



SELECT AVG(S.minut)
FROM
hovory AS S [PARTITION BY
S.id_zakaznika
ROWS 10 PRECEDING]
WHERE S.typ = ‘Mezimesto‘

STREAM – příklad III


Chceme zjistit průměrnou délku posledních 1000
hovorů, které uskutečnili zákazníci z kategorie
„Gold“



SELECT AVG(V.minut)
FROM
(SELECT S.minut
FROM hovory AS S, zakaznici AS T
WHERE S.id_zakaznika =
T.id_zakaznika
AND T.kategorie = ‘Gold‘)
AS V [ROWS 1000 PRECEDING]

Časové známky


Jsou velmi důležité



V předchozích příkladech jsme používali implcitní



Co se stane, když jsou n-tice původem z různých proudů?
 Např.

použití operátorů spojení – jakou známku má
dostat výsledek?



Explicitní známky mají jiný problém
 Data

nemusejí přijít v pořadí podle známek (např.
vlivem stavu sítě)

Časové známky - pokračování


Problém s explicitními známkami prakticky
znemožňuje použití s klouzavými okny



Pokud je proud „téměř“ setříděný, menší
odchylky lze jednoduše řešit pomocí mezipamětí

Časové známky - přidělování


Binární operátory vytvářejí nové prvky – je potřeba jim
určit známky.



Neřešit pořadí
 Pštrosí

taktika

 Předpoklad,

že dříve příchozí prvky operátor také dříve

opustí
 Implicitní



Pořadí určí uživatel explicitně


Pořadí odpovídající pořadí proudů ve FROM klauzuli
 Může

vzniknout více prvků se stejnou známkou

Časové známky – příklad






SELECT *
FROM
S1 [ROWS 1000 PRECEDING],
S2 [ROWS 100 PRECEDING]
WHERE S1.A = S2.B
Výstupní n-tice budou setřídění podle známek S1.
Uspořádání vůči S2 je ztraceno
Potenciálně nutnost udržovat data v mezipaměti
 Pro

zajištění správného pořadí
 Může se stát, že přijdou další data v S2, která se spojí s
daty v S1, která mají menší známky a patří do
současného okna

Časové známky - problém


Tento problém se může propagovat stromem
dotazu



Použití 1. nebo 2. způsobu přidělování závisí na
konkrétní aplikaci
 1.

způsob pro zvýšení výkonu – použití oken pro
aproximaci
 2. způsob pro explicitní sémantiku oken

Časové známky – rozlišení přidělování


STREAM umožňuje v dotazu určit způsob přidělování známek



Definuje klíčová slova:


PRECEDING
 odpovídá



2. způsobu

RECENT
 nové

klíčové slovo

 odpovídá
 DSMS

si může sám určit pořadí n-tic

 možno

okna

1. způsobu

použít pouze s fyzickou specifikací velikosti

STREAM – vykonání dotazu


Exekuční plán (podobně jako v DBMS)



Skládá se z prvků:
 Operátory
 Fronty

(spojují operátory)

 Synopse

(používají je operátory jako pomocné
datové struktury)



Existují i implementace se sdílenou frontou pro
všechny operátory (Aurora, Eddies)

STREAM – vykonání dotazu – pokrač.
Operátory plánuje centrální plánovač
 Během vykonávání dotazu operátor čte data z
fronty, aktualizuje synopsi, která mu náleží a
zapíše výsledek do výstupní fronty
 Operátor pracuje po dobu, kterou mu určí
plánovač
 Po vypršení této doby předá řízení zpět
plánovači


STREAM – vykonání dotazu – pokrač.


Protože uvažujeme i dlouhotrvající dotazy, je
potřeba zohlednit měnící se stav systému
 Např.

počet konkurentních proudů, množství
dotazů, dostupná paměť



Operátory musí být adaptivní

Metriky srovnání algoritmů


Náhodné vzorkování


Předpokládá se použití v systému, kdy malý
vzorek dat zachycuje jejich charakteristiku



V závislosti na požadovaných vlastnostech se
používají různé algoritmy pro vzorkování (např
stratified sampling)

Sketch


Vytváří malý vzorek proudu (v malé paměti)



Používají se hašovací funkce pro výpočty
distribuce prvků v proudu

Histogramy


Struktura používaná pro sumarizaci dat



Znázorňuje distribuci dat v množině



Dají se použít na odhad velikosti dotazu,
aproximativní odpovědi, data mining...



V-Optimální histogram



Rovnoměrný histogram



End-Biased histogram
Zdroj: Wikipedia

V-Optimální histogram


Zdroj:http://www.mathcs.emory.edu/~cheun
g/Courses/584-StreamDB/Syllabus/06Histograms/v-opt1.html

Vlnky (wavelets)


Technika pro sumarizaci dat



Používá projekci hodnot na ortogonální bázový
vektor



Je možné data zpět lehce rekonstruovat

Shrnutí


Viděli jsme množství vlastností a problémů, které
s sebou přináší zpracování proudů dat



Položme si na závěr otázky, které souvisejí s
motivací:
 Je

efektinější DSMS nebo DBMS s podporou
triggerů, dočasných objektů,...?

 Je

potřeba vyvíjet univerzální systém nebo je
lepší řešit každý problém speciálně?

 Existují

nějaké „killer apps“ pro DSMS?

Shrnutí


Pokud si odpovíme ano, znamená to řešit všechny
problémy, se kterými jsme se setkali
 Časové

známky, klouzavá okna, blokující
operátory,...



i nesetkali
 Distribuované



DSMS

Z pohledu dotazovacího jazyka
 je

lepší rozšířit SQL nebo použít něco úplně
jiného?

Zdroje


B. Babcock, S. Babu, M. Datar, R. Motwani, J.
Widom:
Models and Issues in Data Stream Systems,
Stanford University



Data stream management systems na Wikipedii

Prostor pro otázky?
„Ptejte se mě na co chcete, já na co chci odpovím.“

Dotazování nad proudy dat

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Dotazování nad proudy dat

Ähnlich wie Dotazování nad proudy dat (20)

Dotazování nad proudy dat