Intro data mining lingkup

Introduction to Data Mining

Informatika
1 Diambil dari © Copyright 2007, Natash

Outline
 Motivation: Why Data Mining?
 What is Data Mining?
 Data Mining Applications
 Issues in Data Mining

2 Diambil dari © Copyrigh

Data vs. Information

 Society produces massive amounts of data
 business, science, medicine, economics, sports, …
 Potentially valuable resource
 Raw data is useless
 need techniques to automatically extract information
 Data: recorded facts
 Information: patterns underlying the data


Multidisciplinary Field
Database
Statistics
Technology

Machine
Learning
Data Mining Visualization

Artificial Intelligence Other
(Machine Learning – Neural Network) Disciplines


Terminology

 Gold Mining
 Knowledge mining from databases
 Knowledge extraction
 Data/pattern analysis
 Knowledge Discovery Databases or KDD
 Information harvesting
 Business intelligence


KDD Process

Database

Selection Data Training Data Model,
Transformation Preparation Data Mining Patterns

Evaluation,
Verification


Data Mining Tasks

 Exploratory Data Analysis
 Predictive Modeling: Classification and Regression
 Descriptive Modeling
 Cluster analysis/segmentation

 Discovering Patterns and Rules
 Association/Dependency rules
 Sequential patterns
 Temporal sequences
 Deviation detection

Data Mining Tasks

 Concept/Class description: Characterization
and discrimination
 Generalize, summarize, and contrast data
characteristics, e.g., dry vs. wet regions
 Association (correlation and causality)
 Multi-dimensional or single-dimensional association
age(X, “20-29”) ^ income(X, “60-90K”)  buys(X, “TV”)


Data Mining Tasks

 Classification and Prediction
 Finding models (functions) that describe and
distinguish classes or concepts for future prediction
 Example: classify countries based on climate, or
classify cars based on gas mileage
 Presentation:
 If-THENrules, decision-tree, classification rule,
neural network
 Prediction: Predict some unknown or missing
9 numerical values Diambil dari © Copyrigh

Data Mining Tasks

 Cluster analysis
 Class label is unknown: Group data to form
new classes,
 Example: cluster houses to find distribution
patterns
 Clustering based on the principle: maximizing
the intra-class similarity and minimizing the
interclass similarity


Data Mining Applications

 Science: Chemistry, Physics, Medicine
 Biochemical analysis
 Remote sensors on a satellite
 Telescopes – star galaxy classification
 Medical Image analysis



 Bioscience
 Sequence-based analysis
 Protein structure and function prediction
 Protein family classification
 Microarray gene expression


 Pharmaceutical companies, Insurance
and Health care, Medicine
 Drug development
 Identify successful medical therapies
 Claims analysis, fraudulent behavior
 Medical diagnostic tools
 Predict office visits



 Financial Industry, Banks, Businesses, E-
commerce
 Stock and investment analysis
 Identify loyal customers vs. risky customer
 Predict customer spending
 Risk management
 Sales forecasting



 Retail and Marketing
 Customer buying patterns/demographic
characteristics
 Mailing campaigns
 Market basket analysis
 Trend analysis



 Database analysis and decision support
 Market analysis and management
 target marketing, customer relation management, market
basket analysis, cross selling, market segmentation
 Risk analysis and management
 Forecasting, customer retention, improved underwriting,
quality control, competitive analysis
 Fraud detection and management


 Sports and Entertainment
 IBM Advanced Scout analyzed NBA game
statistics (shots blocked, assists, and fouls) to
gain competitive advantage for New York
Knicks and Miami Heat
 Astronomy
 JPL and the Palomar Observatory discovered
22 quasars with the help of data mining


DATA MINING EXAMPLES
 Grocery store
 NBA
 Banking and Credit Card scoring
 Fraud detection
 Personalization & Customer Profiling
 Campaign Management and Database
Marketing


Data Mining Challenges

 Computationally expensive to investigate all
possibilities
 Dealing with noise/missing information and
errors in data
 Choosing appropriate attributes/input
representation
 Finding the minimal attribute space
 Finding adequate evaluation function(s)
 Extracting meaningful information

19
Not overfitting Diambil dari © Copyrigh

Summary

 Data mining: discovering interesting patterns
from large amounts of data
 A KDD process includes data cleaning, data
integration, data selection, transformation, data
mining, pattern evaluation, and knowledge
presentation


Summary
 Mining can be performed in a variety of
information repositories
 Data mining functionalities: characterization,
association, classification, clustering, outlier
and trend analysis, etc.
 Classification of data mining systems
 Major issues in data mining

Kinds of Data Mining
 Decision Tree Learning
 Clustering
 Neural Networks
 Association Rules
 Support Vector Machines
 Genetic Algorithms
 Nearest Neighbor Method


DECISION TREE FOR THE CONCEPT

“Play Tennis”
Day Outlook Temp Humidity Wind PlayTennis

D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rain Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14
Mitchell, 1997 Rain Mild High Strong No


DECISION TREE FOR THE CONCEPT

“Play Tennis”

[Mitchell,1997]


Intro data mining lingkup

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie Intro data mining lingkup

Ähnlich wie Intro data mining lingkup (20)

Intro data mining lingkup

Hinweis der Redaktion