4. SISTEMA DE RECOMANACIÓ DE CONTINGUTS
+ BIG DATA + CLOUD COMPUTING
Partim amb 20786 Notícies any 2013, incrementant dia a dia
Es volen els resultats en temps real < 1min
Es vol que el temps no augmenti exponencialment en relació
amb l'increment de les dades
Possibles extensions futures
9. INTEGRACIÓ EN NODE DE BIGDATA
La taula on es guarden els resultats i l'algorimte de recomanació
són utilitzats en els nodes de Storm com veurem més endavant
25. FREELING
És un software creat pel grup de recerca de llenguatge natural de
l’UPC, el qual s’ha utilitzat per millorar la qualitat de la
recomanació de les notícies, ja que permet reduir cada paraula a
la seva base comuna.
26. EXEMPLE SENSE FREELING
Són totalment diferents si analitzem la distribució de les paraules
1. El cotxe verd
2. Els cotxes verds
27. EXEMPLE AMB FREELING
Són idèntiques si analitzem la distribució de les paraules
1. El cotxe verd
2. Els cotxes verds -> (freeling) -> El cotxe verd
30. TEMPS D'EXECUCIÓ TOTAL
Temps en generar les recomanacions de les 20.786 notícies.
Sense Clustering
en Local
Amb Clustering
en Local
Amb Clustering a
Amazon EC2
Temps 2 dies 22 hores i
30 minuts
1 hora 30 min
Sense Clustering es realitzen 20786 * 20786 / 2 =
216.028.898 Comparacions
Amb Clustering log(base 2) 20786 = 14. Es realitzen 14
comparacions per recorre l'arbre binari (Les primeres notícies
l'arbre es menor!)
Llavors a les 14 comparacions li sumen el tamany màxim del
clúster (30) i tenim un total de 44 comparacions * les 20786
notícies = 914.584
31. TEMPS D'EXECUCIÓ AL INSERIR
Temps en generar la recomanació d'una notíca nova amb les
20.786 ja generades.
Sense Clustering
en Local
Amb Clustering
en Local
Amb Clustering a
Amazon EC2
Temps 2 minuts 9 segons 2 segons
33. PROJECTE GUTENBERG I
Adventures of Huckleberry Finn by Mark Twain
The Major Operations of the Navies in the War of American
Independence by Mahan
The Adventures of Tom Sawyer by Mark Twain
3 capítols per llibre
34. PROJECTE GUTENBERG II
Adventures of Huckleberry Finn by Mark Twain
The Major Operations of the Navies in the War of American
Independence by Mahan
The Adventures of Tom Sawyer by Mark Twain
56 capítols, 49 capítols i 33 capítols respectivament
49. COSTOS TOTAL DEL PROJECTE
Concepte Preu
Costos de hardware 600€
Costos de software 238,99€
Costos de personal 19,800€
Costos fixes 175€
Total 20.813,99€
51. OBJECTIUS ACONSEGUITS
S'ha disminuit el cost temporal en funció de l'escalabilitat de
les dades gràcies al clustering jerarquic i la computació al
cloud.
L'espai ocupat per les esctructres de Lupa es molt menor que
les propies notícies.
Obtenir les recomanacions en menys d'un minut.
A nivell de recomanació s'han obtingut bones sensacions, pero
cal esperar als marcartges per tenir un resultat final.
S'ha implementat les funcionalitats de forma independent
(objectiu d'extensibilitat).
Tolerància a errors i capacitat de recuperació s'han tingut en
compte durant tota la implementació.