Unveiling the Patterns: A Cluster Analysis of NYC Shootings

DATA SCIENCE
PROJECT
NYC SHOOTINGS CLUSTER ANALYSIS

• OBJECTIVE
• DATAPREPROCESSING
• DATACLEANING &FORMATTING
• DROPPING COLUMNS
• FEATUREENGINEERING
• CREATINGDUMMY VARIABLES
• DATASUMMARIZATION/ DESCRIPTIVESTATISTICS
• FINDINGKVALUE
• CLUSTERINGMODEL DEVELOPMENT
• VISUALIZATION
• CONCLUSION
AGENDA:

OBJECTIVE:
• THEGOALOFTHISPROJECTISTODEVELOPAMACHINELEARNINGMODEL
THATCANCLUSTERSHOOTINGINCIDENTSINNEWYORKCITYBASEDON
RELEVANTATTRIBUTESSUCHASOCCURRENCEDATEANDTIME,LOCATION,
DEMOGRAPHICINFORMATIONOFPERPETRATORSANDVICTIMS,AND
JURISDICTION.
• BYIDENTIFYINGCLUSTERSOFSIMILARINCIDENTS,LAWENFORCEMENT
AGENCIESCANBETTERUNDERSTANDTHEUNDERLYINGDYNAMICSOFGUN
VIOLENCEANDTAILORTHEIR INTERVENTIONSACCORDINGLY.

DATA PREPROCESSING
• DATAPREPROCESSINGINVOLVESCLEANING,FORMATTING,AND
TRANSFORMINGRAWDATAINTOA MORESUITABLEFORMATFORANALYSISAND
MODELING.
• COMMONTASKSINDATAPREPROCESSINGINCLUDEHANDLINGMISSING
VALUES,DEALINGWITHOUTLIERS,SCALINGFEATURES,ENCODINGCATEGORICAL
VARIABLES,ANDSPLITTINGTHEDATAINTOTRAININGANDTESTINGSETS.
• THEGOALOFDATAPREPROCESSINGISTOMAKETHEDATAREADYFOR
ANALYSISANDMODELING BYENSURINGITSQUALITY,CONSISTENCY,AND
COMPATIBILITYWITHTHEMACHINELEARNINGALGORITHMS.

DATA CLEANING & FORMATTING
• FIRSTICREATEDACOPY OFTHEGIVENDATAINORDER TOPERFORMTHE
CLEANING PROCESSBYHAVING THE ORGINALDATAUNALTERED
• THENIIMPORTEDTHE DATAANDCHECKED FORTHEREQUIREDCOLUMNS
• THEN IDROPPEDTHE COLUMNS THATARENOTREQUIREDANDTHE
COLUMNS THATCONTAINEDMOREBLANKVALUES
• THENINTHEGIVEN DATASETICHANGEDTHE “NULL” AND“UNIDENTIFIED”
VALUESINTO“UNKNOWN”FOREASYIDENTIFICATION

DROPPING COLUMNS
• THESE WERE THELISTOF THECOLUMNS THATIHAVEDROPPED
• THESE COLUMNSWERE DROPPEDBECAUSE THESE COLUMNSCONTAINED EITHERLESS
DATANORUNWANTED DATA

DROPPING COLUMNS
• DROPPING COLUMNS REFERS TOTHEPROCESS OF REMOVING CERTAIN COLUMNS OR
VARIABLES FROMADATASET. THISISOFTEN DONEDURINGTHEDATAPREPROCESSING PHASE
WHENSOME COLUMNS AREDEEMED UNNECESSARY ORREDUNDANT FORTHEANALYSIS OR
MODELING TASK ATHAND.HERE ARESOME COMMON SCENARIOS WHERE DROPPING COLUMNS
MIGHTBENECESSARY:
• IRRELEVANT FEATURES: SOME COLUMNS MAYNOTCONTRIBUTE RELEVANTINFORMATION TO
THEANALYSIS ORPREDICTION TASK
• HIGHLYCORRELATED FEATURES: IFTWOORMORECOLUMNS AREHIGHLYCORRELATED,
MEANINGTHEY CONTAIN SIMILARINFORMATION, DROPPING ONEOFTHEMCAN REDUCE
REDUNDANCY ANDMULTICOLLINEARITYINTHE DATASET. THISCAN IMPROVE THESTABILITY
AND INTERPRETABILITYOF THEMODELS.

• MISSING VALUES: IFACOLUMNHAS AHIGHPERCENTAGE OFMISSING VALUESANDIMPUTATION
ISN'TFEASIBLE ORAPPROPRIATE, DROPPING THECOLUMN MIGHTBENECESSARY TOMAINTAIN
THEINTEGRITY OFTHEDATASET.
• DATA LEAKAGE: COLUMNS THATCONTAIN INFORMATIONABOUTTHE TARGETVARIABLE ORARE
DERIVED FROM THETARGETVARIABLE SHOULDBEREMOVED TOPREVENT DATALEAKAGE,
WHICHCOULD ARTIFICIALLYINFLATETHEMODEL'SPERFORMANCE DURING TRAINING.
• COMPUTATIONAL EFFICIENCY: LARGEDATASETS WITHALARGENUMBEROF COLUMNS CAN BE
COMPUTATIONALLY EXPENSIVE TOPROCESS ANDTRAINMODELSON. DROPPING IRRELEVANT
ORREDUNDANT COLUMNS CANHELPREDUCE THEDIMENSIONALITY OF THEDATASET AND
IMPROVE COMPUTATIONAL EFFICIENCY

FEATURE ENGINEERING
• FEATURE ENGINEERING FOCUSES ONCREATING NEW FEATURES ORMODIFYING EXISTING
ONES TOIMPROVE THEPERFORMANCE OFMACHINE LEARNING MODELS. THIS PROCESS
INVOLVES SELECTING, TRANSFORMING, ORCOMBINING FEATURES TOEXTRACT USEFUL
INFORMATION AND REPRESENT THE DATAMORE EFFECTIVELY.
• FEATURE ENGINEERING TECHNIQUES INCLUDECREATING POLYNOMIALFEATURES,
BINNING, DISCRETIZATION, DIMENSIONALITY REDUCTION (E.G., PCA), FEATURE SCALING,
AND CREATING INTERACTION TERMS.
• THEGOALOFFEATURE ENGINEERING ISTOENHANCE THEPREDICTIVE POWEROFTHE
MODEL BYPROVIDING ITWITHMOREINFORMATIVE ANDDISCRIMINATIVE FEATURES,
ULTIMATELYIMPROVING ITSACCURACY AND GENERALIZATIONABILITY.

CREATING DUMMY VARIABLES
• CREATINGDUMMYVARIABLESREFERSTOTHEPROCESSOFCONVERTING
CATEGORICALVARIABLESINTOASETOFBINARYVARIABLES,ALSOKNOWN
ASDUMMIES,THATREPRESENTTHEDIFFERENTCATEGORIESORLEVELSOF
THEORIGINALVARIABLE.
• INSUMMARY,CREATINGDUMMYVARIABLESISATECHNIQUEUSEDTO
ENCODECATEGORICALVARIABLESINTOAFORMATTHATCANBEUTILIZEDBY
MACHINELEARNINGALGORITHMS.

• BY USING THEABOVE CODE I’VECREATED DUMMYVARIABLES FORCERTAIN
COLUMNS.
• SINCE THESE COLUMNS PLAYAMAJOR ROLEINDEVELOPING AMODELTHESE
SHOULD NOTBEDROPPED BUTCANNOT BEINSTRING FORMATEITHER.
• THUSDUMMYVARIABLES ARE CREATED.

• HERE INTHECOLOUMN“BORO”THE VALUES ARESTRING SINCE ITHASTO BE IN
NUMERICALFORMATTHEDUMMYVARIABLES ARE CREATED
• THESTRING VALUES BECOMES ACOLUMNAND THENTHE VALUE ARE GIVEN IN0 AND1
FORMAT BASED ONTRUEORFALSE

DATA SUMMARIZATION / DESCRIPTIVE
STATISTICS
• DATASUMMARIZATION ISUSEDTODESCRIBE THEPROCESSOFCONDENSING AND PRESENTING KEY
CHARACTERISTICSORINSIGHTSFROMADATASET. ITINVOLVESVARIOUSTECHNIQUESFOR
SUMMARIZING AND ANALYZING DATATOGAINABETTERUNDERSTANDING OFITSSTRUCTURE,
PATTERNS, ANDRELATIONSHIPS.
• THEDF.DESCRIBE() FUNCTIONISCOMMONLYUSEDINPYTHON WITHLIBRARIES LIKEPANDAS TO
GENERATE DESCRIPTIVESTATISTICSOFADATAFRAME. ITPROVIDESSUMMARY STATISTICSFOR
NUMERICAL COLUMNSINTHEDATAFRAME SUCHASCOUNT,MEAN, STANDARD DEVIATION,MINIMUM,
MAXIMUM, AND QUARTILE VALUES.
• USING DF.DESCRIBE() ISAQUICKWAYTOGETANOVERVIEWOFTHEDISTRIBUTIONAND CENTRAL
TENDENCY OFNUMERICAL DATAINADATA FRAME. ITHELPS INUNDERSTANDING THERANGE OF
VALUES, PRESENCE OFOUTLIERS,AND OVERALL SHAPE OFTHEDATA.

DATA SUMMARIZATION / DESCRIPTIVE
STATISTICS
HERE'S WHATEACHSTATISTICREPRESENTS :
• COUNT:NUMBER OFNON-NULL VALUES INEACHCOLUMN.
• MEAN: AVERAGE VALUE OFEACHCOLUMN.
• STD:STANDARD DEVIATION,AMEASURE OFTHE DISPERSION OFVALUES AROUNDTHEMEAN.
• MIN:MINIMUMVALUE INEACHCOLUMN.
• 25%:FIRSTQUARTILE, OR25THPERCENTILE.
• 50%:MEDIAN, OR50THPERCENTILE.
• 75%:THIRDQUARTILE, OR75THPERCENTILE.
• MAX: MAXIMUM VALUE INEACHCOLUMN.

FINDING K VALUE
• IMPORT LIBRARIES:"FROMSKLEARN.CLUSTER IMPORTKMEANS" THISLINEIMPORTSTHE KMEANS
CLUSTERINGALGORITHM FROM THESCIKIT-LEARN LIBRARY, WHICHISAWIDELYUSED MACHINE
LEARNING LIBRARY INPYTHON.
• INITIALIZEANEMPTY LIST:"WCSS=[]"THISLINEINITIALIZESAN EMPTYLISTCALLEDWCSS.ITWILLBE
USEDTOSTORE THEWITHIN-CLUSTERSUMOFSQUARES (WCSS) FORDIFFERENTVALUES OFK.
• LOOPOVERKVALUES: THISLOOPITERATESOVERARANGE OFVALUES FORKFROM1TO10.
• INSTANTIATEKMEANS MODEL:"KMEANS =KMEANS(N_CLUSTERS=K, INIT="K-MEANS++")"INSIDE THE
LOOP,AKMEANS MODEL ISINSTANTIATED WITHN_CLUSTERS=K, WHERE KISTHE CURRENT VALUE OFK.
• THENSPECIFYTHEINITIALIZATIONMETHODFORCENTROIDS,WHICHIS "K-MEANS++". THIS
INITIALIZATIONMETHODHELPSINCHOOSINGINITIALCLUSTERCENTROIDSINAWAYTHATSPEEDS UP
CONVERGENCE.

FINDING K VALUE
• FITKMEANS MODEL:THEKMEANS MODEL ISFITTEDTOTHEDATA USINGTHE FITMETHOD.THE DATA
USEDFORCLUSTERINGISOBTAINEDFROMTHEDATAFRAME DFBYEXCLUDINGTHE FIRSTCOLUMN.
THISASSUMES THATTHEFIRSTCOLUMNCONTAINSLABELSORIDENTIFIERSAND THEREMAINING
COLUMNS AREFEATURES USED FORCLUSTERING.
• COMPUTEWCSS:THE WITHIN-CLUSTERSUM OFSQUARES (WCSS)IS COMPUTED.WCSSREPRESENTS
THESUM OFSQUARED DISTANCESOFSAMPLES TOTHEIRCLOSESTCLUSTERCENTER.
• AFTERCOMPUTINGWCSSFORALL VALUES OFK,ALINEPLOTIS CREATED.
• THEX-AXIS REPRESENTS THE VALUES OFK(FROM1TO10), AND THEY-AXIS REPRESENTS THE
CORRESPONDING WCSSVALUES.THE PLOTVISUALIZESTHERELATIONSHIP BETWEENKVALUESAND
WCSS..
• FINALLY, THEPLOTISDISPLAYED.

1. KMEANS CLUSTERING:
• STARTWITHINITIALIZINGAKMEANS CLUSTERINGMODELWITH2CLUSTERS.
• THENTHEFIT_PREDICTMETHODISUSEDTOBOTHFITTHEMODEL TOTHEDATAAND PREDICTTHE
CLUSTERLABELSFOREACH DATAPOINT. THECLUSTERLABELSARE ASSIGNED TOTHEDATAFRAME DF
ASANEWCOLUMNNAMED "LABEL".
2.3DSCATTERPLOTVISUALIZATION:
• FOR3DSCATTERPLOTVISUALIZATIONCREATE ANEW FIGURE WITHASPECIFIEDSIZEFORTHEPLOT.
• THENCREATEA3DSUBPLOTWITHINTHE FIGURE.
• SCATTERPLOTSARECREATEDFOREACHCLUSTER LABEL.
CLUSTERING MODEL DEVELOPMENT

CLUSTERING MODEL DEVELOPMENT
• THENCREATEASCATTERPLOTFORDATAPOINTSBELONGING TOCLUSTERLABEL 0.THEX,Y,AND Z
COORDINATESARESPECIFIEDASOCCUR_YEAR,LONGITUDE, ANDLATITUDE, RESPECTIVELY.
• DATA POINTSBELONGING TOTHISCLUSTERARE PLOTTEDINBLUE. SIMILAR SCATTERPLOTS ARE
CREATEDFOROTHERCLUSTERLABELS(E.G., CLUSTER1)WITHDIFFERENTCOLORS(E.G., RED).
• THENADJUSTTHE VIEWANGLE OFTHE3DPLOT.
• THENDISPLAYALEGEND SHOWINGTHECLUSTER LABELS.
• THUS THE3DSCATTERPLOTTINGISSUCESSFULLY COMPLETED

VISUALIZATION
• DATAEXPLORATIONAND PREPROCESSING INVOLVEUTILIZINGVISUALIZATIONTECHNIQUES SUCHAS
HISTOGRAMS, SCATTERPLOTS, BOXPLOTS, AND HEATMAPS. THESE VISUALIZATIONSAIDIN
UNDERSTANDING THEDISTRIBUTION,RELATIONSHIPS, AND POTENTIALOUTLIERSINTHEDATA. THEY
ARECRUCIALFORMAKING DECISIONSABOUTPREPROCESSING STEPS SUCHAS FEATURE SCALING,
OUTLIERREMOVAL, ANDFEATURE ENGINEERING.
• INTHIS PROJECTIHAVE VISUALIZEDTHE GIVENDATAINPOWERBI.THELINKFORMY POWERBI
REPRESENTATION ISGIVEN BELOW
• LINK:
https://app.powerbi.com/view?r=eyJrIjoiYzU2MGMzMGEtZGYwZS00MDY2LWI0YTItOTI4MGY2ZGNhN
WI0IiwidCI6IjUzODhhOWI3LWUzOWQtNDZhMS1hZDQ5LTRiMjMwMjg5MzYzYiJ9

CONCLUSION
• THUSACLUSTERING MODELWAS DEVELOPED ANDTHESE STEPS PLAYED A SIGNIFICANT
ROLE INDEVELOPING ACLUSTERING MODEL
• DATAPREPROCESSING
• FEATURE ENGINEERING
• CLUSTERING MODELDEVELOPMENT
• VISUALIZATION

Unveiling the Patterns: A Cluster Analysis of NYC Shootings

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Unveiling the Patterns: A Cluster Analysis of NYC Shootings

Ähnlich wie Unveiling the Patterns: A Cluster Analysis of NYC Shootings (15)

Mehr von Boston Institute of Analytics

Mehr von Boston Institute of Analytics (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Unveiling the Patterns: A Cluster Analysis of NYC Shootings