SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Downloaden Sie, um offline zu lesen
R-Akademie 2014
R-Akademie
Die eoda R-Akademie - Wissen, was bewegt
Die R-Akademie von eoda ist ein modulares Trainingsprogramm für R, das praxisorientiert und umfassend die vielfältigen
Möglichkeiten der Statistiksprache R behandelt. Mit dem R-Training von eoda stellen Sie sicher, dass Sie die richtigen
Kenntnisse erwerben, um den maximalen Nutzen in der Anwendung von R zu erzielen.
Unsere Trainer arbeiten seit über 10 Jahre in der statistischen Datenanalyse. Unsere R-Trainings für Unternehmen,
Universitäten und Graduiertenzentren werden regelmäßig evaluiert und sehr gut bewertet. Eine Auswahl unserer
Referenzen:
R-Akademie
Über R
R ist eine Open Source Programmiersprache für statistische Datenanalyse und -visualisierung.
Mittlerweile hat sich R, neben den kommerziellen Softwarelösungen SPSS®, Stata® und SAS®, als
Standardsoftware für Datenanalyse sowohl in der Wissenschaft als auch in der freien Wirtschaft
etabliert. In vielen Bereichen ist R den kommerziellen Softwarelösungen bereits überlegen. Die
Entwicklung deutet darauf hin, dass sich R auf absehbare Zeit zum führenden System für
softwaregestützte Datenanalyse entwickeln wird.
R besteht aus einer Basisumgebung und einer Vielzahl freier Zusatzpakete, mit denen sich
praktisch alle Problemstellungen, die im weitesten Sinne mit Datenanalyse zu tun haben, lösen
lassen.
Traffic auf Email Listen
Jahr
TrafficaufE-MailListen
Anzahl an R-Paketen
Zeit
AnzahlanverfügbarenR-Paketen
R-Akademie
Die Vorteile von R
• Investitionssicherheit: Das Involvement der wissenschaftlichen Community in Verbindung mit dem zunehmenden
Engagement großer Unternehmen wie IBM®, SAS® und Revolution Analytics® für R bestätigt die Vehemenz mit der sich R in
den letzten Jahren in der Datenanalyse durchgesetzt hat und lässt eine weitere sehr positive Entwicklung für die
Marktakzeptanz erwarten.
• Grafik: R verfügt über eine enorm leistungsfähige Grafikengine, mit der Sie publikationsreife Grafiken automatisiert
erstellen können. Größe, Format und Auflösungen der Grafiken können direkt in R eingestellt werden, so dass eine
Weiterbearbeitung in anderen Programmen entfällt. Selbst Geodaten und Karten lassen sich ohne Weiteres visualisieren.
• Flexibilität: R kann verschiedenste Daten und Datenquellen nutzen. Von klassischen Dateien wie .sav-, .sas-, .xls- oder .txt-
Dokumenten bis hin zu Datenbanken und Internetressourcen lassen sich alle Datenquellen direkt in R einlesen und
weiterverarbeiten. Mit dem gleichen Code, den gleichen Tools und dem gleichen Know-how können sowohl Big Data als
auch kleinere Studien analysiert werden.
• Kosten: Es fallen keinerlei Lizenzkosten an.
• Analyseumfang: Mit R lassen sich alle gängigen und bekannten Analyseverfahren umsetzen. Darüber hinaus kann noch auf
unzählige weitere Verfahren zurückgegriffen werden. Selbst neueste Analyseverfahren stehen zeitnah zur Verfügung.
• Migration: R kann an alle gängigen Statistikprogramme, Microsoft Office® und Programmiersprachen angebunden werden.
Ein kompletter Umstieg auf R ist nicht zwingend, sondern Ihre bestehende Analyseumgebung kann – um ein vielfaches an
Funktionsumfang erweitert – weiterhin verwendet werden.
• Qualität: Das Kernentwicklerteam rund um R setzt sich aus weltweit renommierten Experten fürDatenanalyse zusammen.
Eine Auswahl an R-Usern
R-Akademie
Der Aufbau der eoda R-Akademie
R-Akademie
Kursangebot
Einführung in R
• Einstieg in R
Das Programm R, CRAN-Mirror, verschiedene
Umgebungen/Editoren von R, Nutzung der
internen Hilfe-Funktionen, Hilfen im Internet
• Konzept und Philosophie von R
Die Programmiersprache, Objekte und
Objektorientierung, Wertezuweisung,
Funktionen
• Variablentypen
Vektoren, Dataframes, Listen,…
• Einlesen von Daten
.txt-, .csv-, .xls-, .sav-Dateien, Internetquellen
etc.
• Datenmanagement
Bildung neuer Variablen, bedingtes
Umkodieren, einfache Berechnungen,
fehlende Werte
• Auswertungen mit R
Statistische Kennzahlen, einfache Tabellen und
Grafiken
Data Mining mit R
• Einführung in das Data Mining
• Modell-Evaluation
Modellauswahl und Datenbasis, Fehlermatrix,
Risk-Charts, ROC, Sensitivität, Präzision, Lift,
Prognose und Beobachtung
• Explorative Analyse
tabellarische Analyse, visuelle Analyse
(metrisch, kategorial), Korrelationsanalyse,
Missing-Values Korrelation
• Assoziationsanalyse
Support, Konfidenz, Lift, Interpretation
• Decision- und Regressiontrees
Algorithmus, Interpretation, grafische
Interpretation
• Neuronale Netze
Theorie, Lernprozess im KNN, nnet
• Random Forest
Theorie, Interpretation, erweiterte Optionen,
Conditional inference trees
Grafikerstellung mit R
• Grafik Pakete
base, grid, ggplot2, lattice, plot
• ggplot
Data, Mapping
• High-Level Grafik Elemente
Balkendiagramm, Punktdiagramm,
Tortendiagramm, Mosaikdiagramm, Histo-
gramme, Dichtediagramme, Scatterplots
• Low-Level Grafik Elemente
Pfeile, Achsen, Legenden, Gitter,
Überschriften
• Layer Komponenten
Geoms, Stats, Coord, Facet, Opts
R-Akademie
Kursangebot
Multivariate Statistik mit R
• Regressionsanalyse
Modell und Ausgangspunkt
Interpretation und Güte
Mögliche Probleme
• Faktorenanalyse
Theorie der Faktorenanalyse
Eignungsprüfung
Anzahl der Faktoren
Anzahl der zu extrahierenden Dimensionen
• Clusteranalyse
Ausgangspunkt und Theorie
Unterschiedliche Abstandsmaße
Interpretation
Visualisierung
Statistische Testverfahren
• Überblick über statistische Testverfahren
• Normalverteilung
Kolmogorov-Smirnov-Anpassungstest
• Unabhängigkeit
Chi-Quadrat-Test, Cramers V
• Homogenität
Kolmogorov-Smirnov-Z-Test, Kruskal-Wallis-H-
Test
• Korrelation
Pearsons Korrelationskoeffizient, Kendall Tau-
b, Spearmans Rangkorrelationskoeffitient
• Varianztest
t-test, ANOVA
• Post-Hoc-Tests
Varianzhomogenität, Multiple Vergleiche
• Kontraste
Qualitative Analysen mit R
• Überblick über Text Mining
• Einlesen von unstrukturierten Daten
• Klassifikation von Dokumenten
• Clustering
• Assoziationsanalyse
R-Akademie
Kursangebot
Programmieren mit R (I)
• Einstieg
Vektoren, Dataframes, Funktionen,
Indizieren, Logische Operatoren
• Funktionen definieren
• Bedingte Anweisungen
if, else, ifelse
• Schleifen
Indizieren, Abbrechen, Wiederholen
• Apply-Funktionen
lapply, sapply, tapply
• S3-Klassensystem
Theorie, eigene Klassen erstellen,
generische Funktionen erstellen, Vererbung
• Metaprogrammierung
Calls, Expressions, Zeichenketten
• Einbindung in Betriebssysteme
• Parallelisierung
Programmieren mit R (II)
• Parallelverarbeitung
Multicore, snow, snowfall, doParallel
• Compiling Funktionen
Cmpfun, just-in-time compiling
• Benchmarking
Microbenchmarking, autoplot
• Profiling
Rprof-Funktionen, trace, memory profiling
• Code Optimierung
Vektorisierung, Pre-allocating memory, Suche
nach hilfreichen Paketen
• Debugging
U.a. Visual debugging
Zeitreihenanalyse mit R
• Einführung in Zeitreihenverfahren
• Visualisieren von Zeitreihen
• Dekomposition
• Testverfahren
• Exponentielles Glätten
• ARIMA Modelle
• Forecasting
• Einführung in die Eventhistory-Analyse
• Kaplan Meier Modell
• Cox-Regression
R-Akademie
Kursangebot
Angewandte Statistik im
Qualitätsmanagement mit R
• Grundlagen im Umgang mit R
• Einführung in die Konzepte des
statistischen Testens
Ermittlung der optimalen Stichprobengröße
Auswahl des richtigen Testverfahrens
Interpretation von Kennziffern
Aussage über die Sicherheit der Ergebnisse
Definition von zulässigen Abweichungen
AQL Normwerttabellierungen nach ISO 2859
und DIN ISO 3951
• Praxisbezogener Einsatz von R im
Qualitätsmanagement
Interaktive Grafiken mit R
Interaktive Grafiken sind ein flexibler und
effizienter Weg um Daten zu analysieren und
um Analyseergebnisse zu präsentieren.
Interaktive grafische Anwendungen bieten
Abfragen, Selektionen, Highlighting oder die
Modifikation von Grafikparametern. Im
Umfeld von R gibt es verschiedene Konzepte,
die die Erstellung von interaktiven Grafiken
und Anwendungen direkt aus R heraus
möglich machen. Erwähnt seien hier IPlots,
googleVis oder shiny. Der Kurs gibt einen
ersten Überblick über die Erstellung
interaktiver Grafiken mit R und liefert das
Rüstzeug, um selbst interaktive
Visualisierungen in R zu realisieren.
Reproducible ResearchReproducible Research
• Einlesen von Daten aus verschiedenen
Quellen
Z. B. aus Excel, SPSS
• Analyse der eingelesenen Daten
Pan doc, knitR
• Anfertigen von statischen
Reportvorlagen und variablen
Stylesheets
Z. B. Latex, HTML, CSS
• Ausgabe dynamischer Reports
R-Akademie
Kursangebot
Big Data mit R
Vielfältige Initiativen haben verschiedene
Konzepte zum Umgang mit großen
Datenmengen in R hervorgebracht. Unter
anderem wurden verschiedene Parser und
Pakete entwickelt, die den Umgang mit Big
Data in R vereinfachen. Der Kurs gibt einen
einführenden Überblick über folgende
Aspekte:
• Verbindungen zu Datenquellen wie
Datenbanken oder File Systemen wie
Hadoop,
• Anbindung an Cloud Umgebungen wie
WindowsAzure oder Amazon Web
Services,
• Chunking – Aufteilen der Daten in
Teilbereiche,
• Parallelisierung von Jobs zur Berechnung,
• Überblick über die verschiedenen
Konzepte der verschiedenen Parser
(Revolution Analytics, Oracle R
Enterprise, Renjin, …)
• Visualisierung von Big Data.
Hadoop mit R
Daten in verteilten Systeme wie Hadoop-
Clustern erfordern im Vergleich zu nicht
verteilt vorliegenden Daten andere Verfahren
zur Analyse der Daten als MapReduce. Das
Prinzip von MapReduce besteht darin, ein
Problem in kleine Aufgaben einzuteilen, die
dann auf einem kleinen Teil der Daten gelöst
werden. Ein typisches Einsatzszenario für
Daten, die in einem Hadoop-System
gespeichert sind, ist das Auszählen von
Wörtern in Textdateien. Während bei
herkömmlichen Techniken die gesamte
Textmenge en bloc zeitaufwendig
durchgearbeitet wird, zerlegt man mit
MapReduce die Texte auf den einzelnen
Knoten in kleine Blöcke. Mit dem Reduce-Teil
werden dann die Ergebnisse wieder
zusammengefasst. Auf diese Art lassen sich
auch komplexere Such-, Vergleichs- und
Analyseoperationen parallelisieren und
dadurch schneller berechnen. Der Kurs
vermittelt die Entwicklung von Skripten für
MapReduce Jobs an konkreten Beispielen.
Ort
Die Kurse finden in unseren Schulungsräumen
in der Ludwig-Erhard-Straße 8 in Kassel statt. Es
besteht sowohl eine gute Anbindung mit dem
Auto als auch mit öffentlichen Verkehrsmitteln.
In der unmittelbaren Umgebung zum
Veranstaltungsort sind verschiedene
Übernachtungsmöglichkeiten gegeben. Wir
helfen Ihnen gerne bei der Suche.
Voraussetzungen
Die Kurse richten sich vornehmlich an
Personen, die bereits Grundlagenkenntnisse
mit Statistiksoftwarepaketen bzw. Excel
gemacht haben. Grundlegende R-Kenntnisse
sind für alle Kurse außer „Einführung in R“
vorausgesetzt. Für die Kurse wird ein eigener
Laptop mit Administrationsrechten benötigt.
R-Akademie
eoda
Wir bei eoda lieben Daten und Analysen. Wir
sind Data Scientists, Softwareentwickler,
Unternehmensberater und Personal Trainer in
einem. Auf der Basis reichhaltiger Erfahrung in
Data Mining und Predictive Analytics
generieren wir strategische
Wettbewerbsvorteile aus Daten.
Unser Team entwickelt Handlungs-
empfehlungen und Lösungen, die Ihnen helfen,
sich bestmöglich an kommende Trends oder
anstehende Marktveränderungen anzupassen.
Wir sind als erstes deutsches Unternehmen
Mitglied der R-Community und gehören zu den
Vorreitern in der unternehmerischen
Verwendung von R im deutschsprachigen
Raum. Dieses Wissen und die Begeisterung für
die nahezu unbegrenzten Möglichkeiten von R
teilen wir auch gerne mit Ihnen – In unserer R-
Akademie bieten wir Ihnen die Möglichkeit zu
erlernen, wie Sie selbst sinnvoll mit
statistischen Methoden und den anfallenden
Daten in Ihrem Umfeld umgehen.
Anmeldung
Das Anmeldeformular, eine und weitere Informationen zu Terminen
und Preisen finden Sie auf unserer Homepage
Ludwig-Erhard-Straße 8
34131 Kassel
Tel. +49 (0)561 202 724 40
Fax. +49 (0)561 202 724 30
info@eoda.de
www.eoda.de
Was wir bieten
• Kurse in Kleingruppen bis maximal 8 Teilnehmer
• Hohe Praxisorientierung durch erfahrene Trainer aus der Praxis
• Ausreichend Übungsphasen, in denen das Gelernte direkt umgesetzt werden kann
• Hochwertige Kursmaterialien und einheitliche Übungsdatensätze
• Überprüfung der Lernziele

Weitere ähnliche Inhalte

Andere mochten auch

Real-Time Text Analytics at Predictive Analytics World berlin 2014
Real-Time Text Analytics at Predictive Analytics World berlin 2014Real-Time Text Analytics at Predictive Analytics World berlin 2014
Real-Time Text Analytics at Predictive Analytics World berlin 2014
Clueda AG
 
Predictive Maintenance with R
Predictive Maintenance with RPredictive Maintenance with R
Predictive Maintenance with R
eoda GmbH
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
Marcel Franke
 

Andere mochten auch (18)

SpagoBI 5 Demo Day and Workshop : Business Applications and Uses
SpagoBI 5 Demo Day and Workshop : Business Applications and UsesSpagoBI 5 Demo Day and Workshop : Business Applications and Uses
SpagoBI 5 Demo Day and Workshop : Business Applications and Uses
 
Implementierung von R im Mittelstand
Implementierung von R im MittelstandImplementierung von R im Mittelstand
Implementierung von R im Mittelstand
 
eoda | R-Support
eoda | R-Support eoda | R-Support
eoda | R-Support
 
Implementing R in the old economy
Implementing R in the old economyImplementing R in the old economy
Implementing R in the old economy
 
SpagoBI 5 official presentation in Paris
SpagoBI 5 official presentation in ParisSpagoBI 5 official presentation in Paris
SpagoBI 5 official presentation in Paris
 
In Memory Computing for Agile Business Intelligence
In Memory Computing for Agile Business IntelligenceIn Memory Computing for Agile Business Intelligence
In Memory Computing for Agile Business Intelligence
 
Facebook Gewinnspiel-Richtlinien
Facebook Gewinnspiel-RichtlinienFacebook Gewinnspiel-Richtlinien
Facebook Gewinnspiel-Richtlinien
 
Best PowerPoint Presentation Ever
Best PowerPoint Presentation EverBest PowerPoint Presentation Ever
Best PowerPoint Presentation Ever
 
Real-Time Text Analytics at Predictive Analytics World berlin 2014
Real-Time Text Analytics at Predictive Analytics World berlin 2014Real-Time Text Analytics at Predictive Analytics World berlin 2014
Real-Time Text Analytics at Predictive Analytics World berlin 2014
 
Predictive Maintenance with R
Predictive Maintenance with RPredictive Maintenance with R
Predictive Maintenance with R
 
IBM SPSS Fruehwarnsystem der ergebnis- und wirkungsorientierten Steuerung im...
IBM SPSS Fruehwarnsystem der ergebnis-  und wirkungsorientierten Steuerung im...IBM SPSS Fruehwarnsystem der ergebnis-  und wirkungsorientierten Steuerung im...
IBM SPSS Fruehwarnsystem der ergebnis- und wirkungsorientierten Steuerung im...
 
NeXTBSD aka FreeBSD X
NeXTBSD aka FreeBSD XNeXTBSD aka FreeBSD X
NeXTBSD aka FreeBSD X
 
FreeBSD: The Next 10 Years (MeetBSD 2014)
FreeBSD: The Next 10 Years (MeetBSD 2014)FreeBSD: The Next 10 Years (MeetBSD 2014)
FreeBSD: The Next 10 Years (MeetBSD 2014)
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im VergleichSAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
 
Prüfen Sie Ihre ABAP SQL Abfragen auf SAP HANA Tauglichkeit
Prüfen Sie Ihre ABAP SQL Abfragen auf SAP HANA TauglichkeitPrüfen Sie Ihre ABAP SQL Abfragen auf SAP HANA Tauglichkeit
Prüfen Sie Ihre ABAP SQL Abfragen auf SAP HANA Tauglichkeit
 
Die Agentur der Zukunft
Die Agentur der ZukunftDie Agentur der Zukunft
Die Agentur der Zukunft
 
Agenturen der Zukunft
Agenturen der ZukunftAgenturen der Zukunft
Agenturen der Zukunft
 

Ähnlich wie eoda R-Akademie 2014

Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Spark Summit
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 

Ähnlich wie eoda R-Akademie 2014 (20)

Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen
 
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
MongoDB: Entwurfsmuster für das NoSQL-Schema-Design
MongoDB: Entwurfsmuster für das NoSQL-Schema-DesignMongoDB: Entwurfsmuster für das NoSQL-Schema-Design
MongoDB: Entwurfsmuster für das NoSQL-Schema-Design
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessmenttech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
 
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
Cv wagener harald_20170830
Cv wagener harald_20170830Cv wagener harald_20170830
Cv wagener harald_20170830
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real Time
 
Jetzt DataLion noch besser nutzen
Jetzt DataLion noch besser nutzenJetzt DataLion noch besser nutzen
Jetzt DataLion noch besser nutzen
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache Spark
 
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 

Mehr von eoda GmbH

The use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbH
The use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbHThe use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbH
The use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbH
eoda GmbH
 
Data Science outside the box: Developing a generic scoring algorithm for cust...
Data Science outside the box: Developing a generic scoring algorithm for cust...Data Science outside the box: Developing a generic scoring algorithm for cust...
Data Science outside the box: Developing a generic scoring algorithm for cust...
eoda GmbH
 

Mehr von eoda GmbH (8)

YUNA - Data Science Plattform für Unternehmen
YUNA - Data Science Plattform für UnternehmenYUNA - Data Science Plattform für Unternehmen
YUNA - Data Science Plattform für Unternehmen
 
Beyond prototyping: Best practice for R in critical enterprise environments
Beyond prototyping: Best practice for R in critical enterprise environmentsBeyond prototyping: Best practice for R in critical enterprise environments
Beyond prototyping: Best practice for R in critical enterprise environments
 
The use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbH
The use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbHThe use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbH
The use of R in Predictive Maintenance: A use case with TRUMPF Laser GmbH
 
Erfolgsfaktoren von Data Science
Erfolgsfaktoren von Data ScienceErfolgsfaktoren von Data Science
Erfolgsfaktoren von Data Science
 
R in the Mittelstand: Bringing Data Science to small and mid-size companies.
R in the Mittelstand: Bringing Data Science to small and mid-size companies. R in the Mittelstand: Bringing Data Science to small and mid-size companies.
R in the Mittelstand: Bringing Data Science to small and mid-size companies.
 
Data Science outside the box: Developing a generic scoring algorithm for cust...
Data Science outside the box: Developing a generic scoring algorithm for cust...Data Science outside the box: Developing a generic scoring algorithm for cust...
Data Science outside the box: Developing a generic scoring algorithm for cust...
 
Application fields of R in classical industrial analytics
Application fields of R in classical industrial analyticsApplication fields of R in classical industrial analytics
Application fields of R in classical industrial analytics
 
Aargh! I have to teach R (Experiences in the teaching of R)
Aargh! I have to teach R (Experiences in the teaching of R)Aargh! I have to teach R (Experiences in the teaching of R)
Aargh! I have to teach R (Experiences in the teaching of R)
 

eoda R-Akademie 2014

  • 2. R-Akademie Die eoda R-Akademie - Wissen, was bewegt Die R-Akademie von eoda ist ein modulares Trainingsprogramm für R, das praxisorientiert und umfassend die vielfältigen Möglichkeiten der Statistiksprache R behandelt. Mit dem R-Training von eoda stellen Sie sicher, dass Sie die richtigen Kenntnisse erwerben, um den maximalen Nutzen in der Anwendung von R zu erzielen. Unsere Trainer arbeiten seit über 10 Jahre in der statistischen Datenanalyse. Unsere R-Trainings für Unternehmen, Universitäten und Graduiertenzentren werden regelmäßig evaluiert und sehr gut bewertet. Eine Auswahl unserer Referenzen:
  • 3. R-Akademie Über R R ist eine Open Source Programmiersprache für statistische Datenanalyse und -visualisierung. Mittlerweile hat sich R, neben den kommerziellen Softwarelösungen SPSS®, Stata® und SAS®, als Standardsoftware für Datenanalyse sowohl in der Wissenschaft als auch in der freien Wirtschaft etabliert. In vielen Bereichen ist R den kommerziellen Softwarelösungen bereits überlegen. Die Entwicklung deutet darauf hin, dass sich R auf absehbare Zeit zum führenden System für softwaregestützte Datenanalyse entwickeln wird. R besteht aus einer Basisumgebung und einer Vielzahl freier Zusatzpakete, mit denen sich praktisch alle Problemstellungen, die im weitesten Sinne mit Datenanalyse zu tun haben, lösen lassen. Traffic auf Email Listen Jahr TrafficaufE-MailListen Anzahl an R-Paketen Zeit AnzahlanverfügbarenR-Paketen
  • 4. R-Akademie Die Vorteile von R • Investitionssicherheit: Das Involvement der wissenschaftlichen Community in Verbindung mit dem zunehmenden Engagement großer Unternehmen wie IBM®, SAS® und Revolution Analytics® für R bestätigt die Vehemenz mit der sich R in den letzten Jahren in der Datenanalyse durchgesetzt hat und lässt eine weitere sehr positive Entwicklung für die Marktakzeptanz erwarten. • Grafik: R verfügt über eine enorm leistungsfähige Grafikengine, mit der Sie publikationsreife Grafiken automatisiert erstellen können. Größe, Format und Auflösungen der Grafiken können direkt in R eingestellt werden, so dass eine Weiterbearbeitung in anderen Programmen entfällt. Selbst Geodaten und Karten lassen sich ohne Weiteres visualisieren. • Flexibilität: R kann verschiedenste Daten und Datenquellen nutzen. Von klassischen Dateien wie .sav-, .sas-, .xls- oder .txt- Dokumenten bis hin zu Datenbanken und Internetressourcen lassen sich alle Datenquellen direkt in R einlesen und weiterverarbeiten. Mit dem gleichen Code, den gleichen Tools und dem gleichen Know-how können sowohl Big Data als auch kleinere Studien analysiert werden. • Kosten: Es fallen keinerlei Lizenzkosten an. • Analyseumfang: Mit R lassen sich alle gängigen und bekannten Analyseverfahren umsetzen. Darüber hinaus kann noch auf unzählige weitere Verfahren zurückgegriffen werden. Selbst neueste Analyseverfahren stehen zeitnah zur Verfügung. • Migration: R kann an alle gängigen Statistikprogramme, Microsoft Office® und Programmiersprachen angebunden werden. Ein kompletter Umstieg auf R ist nicht zwingend, sondern Ihre bestehende Analyseumgebung kann – um ein vielfaches an Funktionsumfang erweitert – weiterhin verwendet werden. • Qualität: Das Kernentwicklerteam rund um R setzt sich aus weltweit renommierten Experten fürDatenanalyse zusammen. Eine Auswahl an R-Usern
  • 5. R-Akademie Der Aufbau der eoda R-Akademie
  • 6. R-Akademie Kursangebot Einführung in R • Einstieg in R Das Programm R, CRAN-Mirror, verschiedene Umgebungen/Editoren von R, Nutzung der internen Hilfe-Funktionen, Hilfen im Internet • Konzept und Philosophie von R Die Programmiersprache, Objekte und Objektorientierung, Wertezuweisung, Funktionen • Variablentypen Vektoren, Dataframes, Listen,… • Einlesen von Daten .txt-, .csv-, .xls-, .sav-Dateien, Internetquellen etc. • Datenmanagement Bildung neuer Variablen, bedingtes Umkodieren, einfache Berechnungen, fehlende Werte • Auswertungen mit R Statistische Kennzahlen, einfache Tabellen und Grafiken Data Mining mit R • Einführung in das Data Mining • Modell-Evaluation Modellauswahl und Datenbasis, Fehlermatrix, Risk-Charts, ROC, Sensitivität, Präzision, Lift, Prognose und Beobachtung • Explorative Analyse tabellarische Analyse, visuelle Analyse (metrisch, kategorial), Korrelationsanalyse, Missing-Values Korrelation • Assoziationsanalyse Support, Konfidenz, Lift, Interpretation • Decision- und Regressiontrees Algorithmus, Interpretation, grafische Interpretation • Neuronale Netze Theorie, Lernprozess im KNN, nnet • Random Forest Theorie, Interpretation, erweiterte Optionen, Conditional inference trees Grafikerstellung mit R • Grafik Pakete base, grid, ggplot2, lattice, plot • ggplot Data, Mapping • High-Level Grafik Elemente Balkendiagramm, Punktdiagramm, Tortendiagramm, Mosaikdiagramm, Histo- gramme, Dichtediagramme, Scatterplots • Low-Level Grafik Elemente Pfeile, Achsen, Legenden, Gitter, Überschriften • Layer Komponenten Geoms, Stats, Coord, Facet, Opts
  • 7. R-Akademie Kursangebot Multivariate Statistik mit R • Regressionsanalyse Modell und Ausgangspunkt Interpretation und Güte Mögliche Probleme • Faktorenanalyse Theorie der Faktorenanalyse Eignungsprüfung Anzahl der Faktoren Anzahl der zu extrahierenden Dimensionen • Clusteranalyse Ausgangspunkt und Theorie Unterschiedliche Abstandsmaße Interpretation Visualisierung Statistische Testverfahren • Überblick über statistische Testverfahren • Normalverteilung Kolmogorov-Smirnov-Anpassungstest • Unabhängigkeit Chi-Quadrat-Test, Cramers V • Homogenität Kolmogorov-Smirnov-Z-Test, Kruskal-Wallis-H- Test • Korrelation Pearsons Korrelationskoeffizient, Kendall Tau- b, Spearmans Rangkorrelationskoeffitient • Varianztest t-test, ANOVA • Post-Hoc-Tests Varianzhomogenität, Multiple Vergleiche • Kontraste Qualitative Analysen mit R • Überblick über Text Mining • Einlesen von unstrukturierten Daten • Klassifikation von Dokumenten • Clustering • Assoziationsanalyse
  • 8. R-Akademie Kursangebot Programmieren mit R (I) • Einstieg Vektoren, Dataframes, Funktionen, Indizieren, Logische Operatoren • Funktionen definieren • Bedingte Anweisungen if, else, ifelse • Schleifen Indizieren, Abbrechen, Wiederholen • Apply-Funktionen lapply, sapply, tapply • S3-Klassensystem Theorie, eigene Klassen erstellen, generische Funktionen erstellen, Vererbung • Metaprogrammierung Calls, Expressions, Zeichenketten • Einbindung in Betriebssysteme • Parallelisierung Programmieren mit R (II) • Parallelverarbeitung Multicore, snow, snowfall, doParallel • Compiling Funktionen Cmpfun, just-in-time compiling • Benchmarking Microbenchmarking, autoplot • Profiling Rprof-Funktionen, trace, memory profiling • Code Optimierung Vektorisierung, Pre-allocating memory, Suche nach hilfreichen Paketen • Debugging U.a. Visual debugging Zeitreihenanalyse mit R • Einführung in Zeitreihenverfahren • Visualisieren von Zeitreihen • Dekomposition • Testverfahren • Exponentielles Glätten • ARIMA Modelle • Forecasting • Einführung in die Eventhistory-Analyse • Kaplan Meier Modell • Cox-Regression
  • 9. R-Akademie Kursangebot Angewandte Statistik im Qualitätsmanagement mit R • Grundlagen im Umgang mit R • Einführung in die Konzepte des statistischen Testens Ermittlung der optimalen Stichprobengröße Auswahl des richtigen Testverfahrens Interpretation von Kennziffern Aussage über die Sicherheit der Ergebnisse Definition von zulässigen Abweichungen AQL Normwerttabellierungen nach ISO 2859 und DIN ISO 3951 • Praxisbezogener Einsatz von R im Qualitätsmanagement Interaktive Grafiken mit R Interaktive Grafiken sind ein flexibler und effizienter Weg um Daten zu analysieren und um Analyseergebnisse zu präsentieren. Interaktive grafische Anwendungen bieten Abfragen, Selektionen, Highlighting oder die Modifikation von Grafikparametern. Im Umfeld von R gibt es verschiedene Konzepte, die die Erstellung von interaktiven Grafiken und Anwendungen direkt aus R heraus möglich machen. Erwähnt seien hier IPlots, googleVis oder shiny. Der Kurs gibt einen ersten Überblick über die Erstellung interaktiver Grafiken mit R und liefert das Rüstzeug, um selbst interaktive Visualisierungen in R zu realisieren. Reproducible ResearchReproducible Research • Einlesen von Daten aus verschiedenen Quellen Z. B. aus Excel, SPSS • Analyse der eingelesenen Daten Pan doc, knitR • Anfertigen von statischen Reportvorlagen und variablen Stylesheets Z. B. Latex, HTML, CSS • Ausgabe dynamischer Reports
  • 10. R-Akademie Kursangebot Big Data mit R Vielfältige Initiativen haben verschiedene Konzepte zum Umgang mit großen Datenmengen in R hervorgebracht. Unter anderem wurden verschiedene Parser und Pakete entwickelt, die den Umgang mit Big Data in R vereinfachen. Der Kurs gibt einen einführenden Überblick über folgende Aspekte: • Verbindungen zu Datenquellen wie Datenbanken oder File Systemen wie Hadoop, • Anbindung an Cloud Umgebungen wie WindowsAzure oder Amazon Web Services, • Chunking – Aufteilen der Daten in Teilbereiche, • Parallelisierung von Jobs zur Berechnung, • Überblick über die verschiedenen Konzepte der verschiedenen Parser (Revolution Analytics, Oracle R Enterprise, Renjin, …) • Visualisierung von Big Data. Hadoop mit R Daten in verteilten Systeme wie Hadoop- Clustern erfordern im Vergleich zu nicht verteilt vorliegenden Daten andere Verfahren zur Analyse der Daten als MapReduce. Das Prinzip von MapReduce besteht darin, ein Problem in kleine Aufgaben einzuteilen, die dann auf einem kleinen Teil der Daten gelöst werden. Ein typisches Einsatzszenario für Daten, die in einem Hadoop-System gespeichert sind, ist das Auszählen von Wörtern in Textdateien. Während bei herkömmlichen Techniken die gesamte Textmenge en bloc zeitaufwendig durchgearbeitet wird, zerlegt man mit MapReduce die Texte auf den einzelnen Knoten in kleine Blöcke. Mit dem Reduce-Teil werden dann die Ergebnisse wieder zusammengefasst. Auf diese Art lassen sich auch komplexere Such-, Vergleichs- und Analyseoperationen parallelisieren und dadurch schneller berechnen. Der Kurs vermittelt die Entwicklung von Skripten für MapReduce Jobs an konkreten Beispielen. Ort Die Kurse finden in unseren Schulungsräumen in der Ludwig-Erhard-Straße 8 in Kassel statt. Es besteht sowohl eine gute Anbindung mit dem Auto als auch mit öffentlichen Verkehrsmitteln. In der unmittelbaren Umgebung zum Veranstaltungsort sind verschiedene Übernachtungsmöglichkeiten gegeben. Wir helfen Ihnen gerne bei der Suche. Voraussetzungen Die Kurse richten sich vornehmlich an Personen, die bereits Grundlagenkenntnisse mit Statistiksoftwarepaketen bzw. Excel gemacht haben. Grundlegende R-Kenntnisse sind für alle Kurse außer „Einführung in R“ vorausgesetzt. Für die Kurse wird ein eigener Laptop mit Administrationsrechten benötigt.
  • 11. R-Akademie eoda Wir bei eoda lieben Daten und Analysen. Wir sind Data Scientists, Softwareentwickler, Unternehmensberater und Personal Trainer in einem. Auf der Basis reichhaltiger Erfahrung in Data Mining und Predictive Analytics generieren wir strategische Wettbewerbsvorteile aus Daten. Unser Team entwickelt Handlungs- empfehlungen und Lösungen, die Ihnen helfen, sich bestmöglich an kommende Trends oder anstehende Marktveränderungen anzupassen. Wir sind als erstes deutsches Unternehmen Mitglied der R-Community und gehören zu den Vorreitern in der unternehmerischen Verwendung von R im deutschsprachigen Raum. Dieses Wissen und die Begeisterung für die nahezu unbegrenzten Möglichkeiten von R teilen wir auch gerne mit Ihnen – In unserer R- Akademie bieten wir Ihnen die Möglichkeit zu erlernen, wie Sie selbst sinnvoll mit statistischen Methoden und den anfallenden Daten in Ihrem Umfeld umgehen. Anmeldung Das Anmeldeformular, eine und weitere Informationen zu Terminen und Preisen finden Sie auf unserer Homepage Ludwig-Erhard-Straße 8 34131 Kassel Tel. +49 (0)561 202 724 40 Fax. +49 (0)561 202 724 30 info@eoda.de www.eoda.de Was wir bieten • Kurse in Kleingruppen bis maximal 8 Teilnehmer • Hohe Praxisorientierung durch erfahrene Trainer aus der Praxis • Ausreichend Übungsphasen, in denen das Gelernte direkt umgesetzt werden kann • Hochwertige Kursmaterialien und einheitliche Übungsdatensätze • Überprüfung der Lernziele