Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
2. Pranešimo struktūra
Ø Temos aktualumas
Ø Tyrimo tikslas ir uždavinys
Ø Modernių didelės apimties duomenų
apdorojimo platformų apžvalga
Ø Išvados
Ø Literatūra
2015-09-19 Vilniaus universitetas
3. Temos aktualumas
2015-09-19 Vilniaus universitetas
Ø Duomenų analizės svarba pasireiškia įvairiose
srityse: ekonomikoje, medicinoje,
sociologijoje, biologijoje ir t.t.
Ø Duomenų analizės tikslas – duomenis
apdoroti ir pateikti kuo suprantamesne forma,
padedančia geriau juos suvokti: nustatyti
struktūrą, tarpusavio ryšius, susidariusias
grupes, prognozuojamus įverčius ir pan.
Ø Pasaulyje duomenų kiekiai auga
eksponentiškai, todėl iškyla daug ir įvairių
problemų, kuomet norima išanalizuoti šiuos
duomenis.
5. Tyrimo tikslas ir uždavinys
Ø Tyrimo tikslas
Atlikti modernių debesų kompiuterijos technologijomis pagrįstų
lygiagrečių skaičiavimo priemonių paslaugų apžvalgą.
Ø Tyrimo uždavinys
Pagal būdingus kriterijus atlikti klasifikavimo algoritmų
realizuojančių skaičiavimo priemonių apžvalgą, lyginamąją analizę,
nustatyti jų skirtumus, privalumus ir trūkumus.
Ø Problema
Daugiamačių duomenų (angl. Multidimensional data), didelės apimties
duomenų (angl. Big data) apdorojimas naudojantis klasifikavimo
algoritmais debesų kompiuterijos technologijomis paremtuose
sprendimuose.
2015-09-19 Vilniaus universitetas
6. Debesų kompiuterija
Ø Debesų kompiuterijos paslaugos
• Programinė įranga kaip paslauga (angl. software as a service).
• Platforma kaip paslauga (angl. platform as a service).
• Infrastruktūra kaip paslauga (angl. infrastructure as a service).
• Įranga kaip paslauga (angl. hardware as service).
Ø Debesų kompiuterijos charakteristikos
• Savitarnos paslaugos pagal poreikį (angl. on-demand self-
service).
• Plati tinklo prieiga (angl. broad network access).
• Išteklių telkimas (angl. resource pooling).
• Greitas elastingumas ir išmatuojamos paslaugos (angl. rapid
elasticity and measured service ).
2015-09-19 Vilniaus universitetas
7. Didelės apimties duomenų
apdorojimo architektūrinis modelis
Debesų kompiuterijos
technologija
Duomenų apdorojimo sprendimai,
paskirstytiems/lygiagretiems
skaičiavimams atlikti
Klasifikavimo ir
vizualizavimo algoritmai
2015-09-19 Vilniaus universitetas
9. Apache Hadoop
Apache Hadoop - tai atviro kodo programinė
įranga skirta paskirstytos atminties skaičiavimams
atlikti, kuomet naudojami didelės apimties
duomenys. Turi šiuos modulius:
2015-09-19 Vilniaus universitetas
Apache Hadoop
Hadoop
Common
Hadoop
Distributed File
System (HDFS)
Hadoop YARN MapReduce
10. Apache Spark
Apache Spark - tai atviro kodo programinė įranga
skirta paskirstytos atminties lygiagretiems
skaičiavimams atlikti su didelės apimties
duomenimis. Turi šiuos modulius:
2015-09-19 Vilniaus universitetas
Apache Spark
Shark
SQL
Spark
Streaming
MLlib
GraphX
graph
11. H2O
H2O - tai atviro kodo programinė įranga skirta darbui su
didelės apimties duomenimis, gali būti pritaikyta integruoti
į debesų kompiuterijos technologijos sprendimus ir HDFS
sistemą. Suderinama su Linux, Microsoft Windows ir Mac.
2015-09-19 Vilniaus universitetas
H2O
MapReduce Spark MLlib SQL HDFS H2ORDD
12. Paslaugos projektinis modelis
Debesų kompiuterijos technologijų lygiagrečių
skaičiavimo priemonių paslaugų realizuojančių
daugiamačius duomenų tyrybos metodus koncepcinis
modelis
2015-09-19 Vilniaus universitetas
GRAPHICAL USER INTERFACE
DATA AND STREAMING
MACHINE LEARNING ALGORITHMS
H2O / SPARK / HADOOP FRAMEWORK
CLOUD COMPUTING TECHNOLOGY RESOURCES
13. Spark Hadoop MapReduce H2O
Supported API and interoperability
R, Scala, JavaScript, Java and Python,
Spark SQL (Shark)
R, Scala, JavaScript, Java, Python, Hive
SQL
R, Java, Scala, Python, JSON,
Hadoop, Spark
Operations
Map, filter, Group By, count, collect,
reduce, save
Map, filter, Group By, count, collect,
reduce, save
Map, filter, Group By, count,
collect, reduce, save
Data processing architecture
In-memory Two-stage disk-based In-memory
Deployment possibilities
Commodity servers
Cloud computing
Single computer
Commodity servers
Cloud computing
Single computer
Commodity servers
Cloud computing
Single computer
Hardware provisioning
Cores 8-16 Cores 4 Cores 8-16
Memory 8 GB to hundreds of gigabytes Memory 24 GB Memory 8 GB to hundreds of
gigabytes
Disks 4-8 one TB disks Disks 4-6 one TB disks Disks 4-8 one TB disks
Network 10 GB or more Network 1 GB Ethernet all-to-all Network 10 GB or more
Graphical user interface
Yes No Yes
Supported file systems
HDFS HDFS HDFS
Documentation
Yes Yes Yes
Fault-tolerance
Yes Yes Yes
14. Išvados
Ø Tyrimas parodė, kad daugiamačių duomenų tyrybos metodai, gali
būti sėkmingai perkelti į debesų technologija paremtus didelės
apimties duomenų apdorojimo platformas, o skaičiavimai
teikiami kaip paslaugos.
Ø Egzistuojančių lygiagretiems skaičiavimais pritaikytų didelės
apimties duomenų analizės algoritmų pasirinkimas didėja bei
formuojasi juos realizuojančių sprendimų pasiūla, tačiau kol kas
duomenų analizės algoritmų perkėlimas yra lėtas ir sudėtingas
procesas.
2015-09-19 Vilniaus universitetas
15. Literatūra
1. Apache Software Foundation.Apache Spark. [Online] [Cited:March 5,2015.] https://spark.apache.org/.—.Hadoop.[Online] [Cited:February 1,
2015.] www.hadoop.apache.org.—. Mahout 0.10.0 Features.
2. Barney,Blaise.2012. Introduction to Parallel Computing.LawrenceLivermoreNationalLaboratory.[Online] 06 12,2012. [Cited:06 18, 2012.]
https://computing.llnl.gov/tutorials/parallel_comp/.
3. Čiegis,R. 2005. Lygiagretieji algoritmai ir tinklinės technologijos.Vilnius :Technika,2005.
4. Cloud computing:state-of-the-art and research challanges.Qi Zhang,Lu Cheng,Rouf Boutaba. 2010. s.l. : The Brazilian Computer Society,2010,
Internet Service Applications,pp.7-18.
5. Electronic Privacy Information Center.2015.Types of Cloud Computing Services.[Online] 2015.[Cited:May 20, 2015.]
http://epic.org/privacy/cloudcomputing/.
6. Gerald.J. Popek, Robert P.Goldberg.1974. Formal Requirements for Virtualizable ThirdGeneration Architectures.1974.
7. Hortonworks.Apache Hadoop YARN – Concepts and Applications.[Online] [Cited:February 25,2015.] http://hortonworks.com/blog/apache-
hadoop-yarn-concepts-and-applications/.—.Cluster planningguide.s.l.:Hortonworks.
8. IBM. 2011. DeepQA Project:FAQ. 2011.Jackson, Joab.2011. IBM Watson Vanquishes Human Jeopardy Foes.s.l.: PC World,IDG News, 2011.
9. JessicaLanford,Tomas Nykodym,Ariel Rao, Amy Wang. 2015. Generalized Linear Modeling with H2O’s R. s.l. : H2O.ai, 2015.
10. Lei Gu, Huan Li. 2013. Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark. Zhangjiajie :Institute of Electrical
and Electronics Engineers ( IEEE ), 2013. 978-0-7695-5088-6.
11. Ni, Ze. 2013. Comparative Evaluation of Spark and Stratosphere.s.l.: KTH Information and Communication Technlogy,2013.
12. Parallel Implementation of Classification Algorithms Based on Cloud Computing Environment.Lijuan Zhou,Hui Wang, Wenbo Wang.2012. 2012,
TELKOMNIKA, Vol. 10, pp. 1087-1092.Parkhill, Douglas. 1966. The challenge of the computer utility. s.l.:Addison-Wesley,1966.
13. The NIST Definition of Cloud Computing.Peter Mell,Timothy Grance.2011.s.l. : U.S. Department of Commerce, 2011, Computer security:Special
Publication 800-145.
14. ValentinaDagienė, Gintautas Grigas, Tatjana Jevsikova.2009.
15. Anglų–lietuviųkalbųkompiuterijos žodynėlis,Matematikos ir informatikos institutas.LIKIT. [Tinkle] 2009 m. [Cituota: 2012 m. 06 17 d.]
http://www.likit.lt/term/enc.html.
16. White,Tom. 2012. Hadoop:The Definitive Guide.s.l.: O'REILLY, 2012.Yukiya Aoyama, Jun Nakano. 1999. RS/6000 SP: Practical MPI
Programming. www.redbooks.ibm.com.[Online] August 1999. [Cited:Rugsėjis 8 d., 2012.]
http://www.redbooks.ibm.com/redbooks/pdfs/sg245380.pdf.