Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Using R to Determine a Getting Started on Hadoop

21.198 Aufrufe

Veröffentlicht am

Using R to Determine a Threshold…

data <- read.csv("thresh.tsv", sep='t', header=F)
t_data <- data[,3]
print(summary(t_data))

# pass through values for 80+ percentile
qntile <- .8
t_thresh <- quantile(t_data, qntile)

# CDF plot
title <- "CDF threshold max(tfidf)"
xtitle <- paste("thresh:", t_thresh)
par(mfrow=c(2, 1))
plot(ecdf(t_data), xlab=xtitle, main=title)
abline(v=t_thresh, col="red")
abline(h=qtile, col="yellow")

# box-and-whisker plot
boxplot(t_data, horizontal=TRUE)
rug(t_data, side=1)

Veröffentlicht in: Technologie

×