4. pseudo distribuit ruleaza pe o singura masina cu diferiti demoni Handoop rulati ca procese java diferite
5. distribuit complet sau modul cluster o masina din cluster este NameNod(are grija de namespace, ) ul si alta este JobTraker - ul
6. implementează paradigma map reduce, care se bazeaza pe faptul ca aplicaţia este divizată în mici fragmente fiecare din ele putand fi executată sau reexecutată pe fiecare nod din cluster. Map Reduce este o combinatie a funcţiilor map() şi reduce()
7. Map: ofera functionalitate pentru procesare datelor de tip cheie valoare pentru a genera perechi de tip cheie valoare pentru output
8. Reduce: include functionalitate pentru colecatrea output ului de la map - uri de procesare paralele si crearea otputului din datele colectate.
9.
10. se foloseste de variabile de predictie care pot fi numerice sau de alt tip
14. în timpul invatarii se incearca sa se gaseasca un hiperplan ce separa elementele true de cele false.
15. cum uneori este imposibil să se facă acest lucru, se va găsi hiperplanul care cauzeaza cele mai putine eroriPerceptron şi Winnow ambii algoritmi sunt clasificatori simpli comparabili . Fiind date informaţii de antrenament într un spatiu n-dimensional ce e adnotat cu etichete binare, ei garantează gasirea unui hiperplan separator dacă există In contrast cu Perceptron, Winnow lucrează doar pe vectori binari Desi algoritmii sunt simpli merg foarte bine pentru clasificare de text si sunt rapid de antrenat chiar pentru dat seturi uriase. Spre deosebire de Naive Bayes nu se bazeaza pe presupunerea ca toate atributele sunt independente Retele neuronale sunt folosite pentru clasificarea obiectelor multi dimensionale;acestea sunt capabile sa invete nu numai hiperplane separatoare liniare ci si legaturi de decizie arbitrare Random Forests este nevoie de cross validare sau un test separat pt a estima erorile, acestea fiind estimate intern in timpul rulării pasii algoritmului: adunarea paginilor web asignarea de etichete: “in tema” sau “in afara temei” generarea de vectori de proprietati a paginilor web(parsarea textului si imbunatatirea vectorilor cu ajutorul cuvintelor gasite) antrenarea unor algoritmi aplicarea algoritmilor antrenati unor date noi zXyFiecare pagina web este un punct intr – un spatiu multi dimensional Figura 1: spaţiul multidimensional al paginilor web Pros si Cons Mahout Pros Mahout scaleaza sesiunile de training cu implementarea handoop Mahout este Open Source Cons: nu scaleaza conform asteptarilor scalabilitatea este obtinuta folosind o panta panta standard pe recomandare nu este foarte exactă(exemple: Netflix test: succes -3% (0.98RMSE)), comparat cu alti algoritmi ce nu sunt inclusi in Mahout Factorizarea Matricilor (Netflix test: suces: 8.4% (0.87 RMSE)) implementare ineficienta consum de memorie si resurse enorm doar filtrare colaborativa doar algoritmi standard Referinte http://en.wikipedia.org/wiki/Hadoop http://jeffeastman.blogspot.com/2008/03/what-is-mahout.html http://isabel-drost.de/hadoop/slides/google.pdf http://ml-site.grantingersoll.com/index.php?title=Incubator_proposal http://people.csail.mit.edu/jrennie/papers/icml03-nb.pdf http://denizoktar.wordpress.com/2009/08/03/mahout-review-by-iletken/ http://cwiki.apache.org/MAHOUT/bookstutorialstalks.data/froscon.pdf http://www.eu.apachecon.com/page_attachments/0000/0179/PG_20090313.pdf http://lucene.apache.org/mahout http://www.ibm.com/developerworks/java/library/j-mahout/index.html http://www.javaworld.com/javaworld/jw-09-2008/jw-09-hadoop.html?page=4