Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Teoría de redes
 y
detección de fraude
2015.07.07! Massimiliano Zanin!
1. Redes complejas: ¿porqué?
Teoría de redes y detección de fraude!
2. Aplicación a fraude en
tarjetas
3. Trabajos futuros
¿Que son las redes?!
Representación de la estructura
creada por las interacciones de
un sistema complejo
Sistema complejo
Multiplicidad de elementos

Importancia de las interacciones entre ellos
Sistema complejo
Multiplicidad de elementos

Importancia de las interacciones entre ellos
Solo interacciones entre element...
Métricas estructurales
Describen cuantitativamente
la estructura
Solo interacciones entre elementos

Ningún elemento innec...
Más detalle
Más belleza
Más detalle
Más belleza
Mapa del Greater Khorasan, por el geógrafo persa Ibrahim Al-
Istakhri, 980 AC.
Departamento de manuscritos orientales, Bib...
Redes genéticas
Red de contactos sexuales
Redes financieras
Redes de transporte
¿Por que redes en seguridad?!
Las relaciones pueden ser
más importantes que los
elementos individuales
Un ejemplo: InfoSec
Sistema normal
Un ejemplo: InfoSec
Ataque simple
Un ejemplo: InfoSec
Ataque coordinado
Un ejemplo: InfoSec
Ataque coordinado
Detección de fraudes en tarjetas
Cantidad de la transacción

Tiempo desde la última transacción

Ubicación geográfica

…
Ni...
¿Como reconstruir redes?!
1. No hay conexiones físicas
2. Queremos detectar anomalías
Importancia de las relaciones entre elementos


e.g. colesterol y trigliceridos
En personas sanas,
colesterol y trigliceridos suelen
estar correlacionados
Colesterol
Trigliceridos
Límites aceptables
Colesterol
Trigliceridos
Límites aceptables
Relación anormal
i.e. alejada de la regresión esperada
Colesterol
Trigliceridos
Límites aceptables
Distancia esperada desde la regresión
Distancia anormal
Tri.
Col.
Creamos un link cuando la
relación es anormal
Tri.
Col.
Una red para cada persona
Links representan relaciones anormales

Por lo tanto, la red representa la
condición d...
Tri.
Col.
Datos cuantitativos de la red
pueden ser utilizados para una
tarea de clasificación
Los datos originales también
...
Resumiendo …
Resumiendo …
Transacciones con tarjetas!
¿Pueden las redes mejorar nuestra
capacidad para detectar
transacciones fraudulentas?
Objetivos del proyecto
Validar las hipótesis:
•  La información acerca de la legalidad de una transacción
está codificada e...
Objetivos del proyecto
Comparación con sistemas estándar de detección de fraude


Limitación:
Ninguna eurística incluída
S...
Datos reales utilizados
Todas las transacciones con tarjetas de crédito / débito del
BBVA, años 2011 y 2012.

Volumen de d...
Datos
iniciales
Creación de
las redes
(pesadas)
 Creación de
las redes
(binarias)
 Extracción
de métricas
Clasificación
Datos iniciales Features
Redes
Métricas
estructurales
Clasificación
Comportamiento
esperado
Parámetros del
modelo
Aprendiza...
Preparación de los datos
Feature Tipo!
Cantidad de dinero
 Int
Tiempo desde última transacción
 Int
Cantidad de la última ...
Grado	
  máximo	
  de	
  los	
  nodos	
  
	
  
Entropía	
  de	
  la	
  distribución	
  de	
  grado	
  
	
  	
  
Correlació...
0
5
10
15
20
25
Classificationerror(%)
Classification algorithm
Bayes
MLP
DT
KNN
Mejor resultado: MLP

Hay relaciones no
l...
Referencia
Link density
Clustering
Max degree
Eficiencia IC
0
5
10
15
20
25
30
Errordeclasificación(%)
Ninguna feature
pue...
19.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.262
42.061
38.675
37.923
35.226
37.2065
35.38735.558
...
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
TruePositiveratio(%)
False Positive ratio (%)
Parenclitic networks
Lin...
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
TruePositiveratio(%)
False Positive ratio (%)
Parenclitic networks
Par...
All
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
TruePositiveratio(%)
False Positive ratio (%)
0.00 0.02 0.04 0.06 ...
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
TruePositiveratio(%)
False Positive ratio (%)
Parenclitic networks
Lin...
Resumen de resultados
Resultados obtenidos: muy buenos, si consideramos que
•  No se utiliza eurística
•  No hemos ido refi...
Dos grupos de eventos
Cada uno está asociado a una
relación positiva entre f1 y f2
Feature 1
Feature2
Paradoja de Simpson
Feature 1
Feature2
Una relación “falsa” aparece
cuando los dos grupos son
considerados a la vez
Dos grupos de eventos
Cada...
C. R. Charig et al.!
Comparison of treatment of renal calculi by open surgery, percutaneous
nephrolithotomy, and extracorp...
Tratamiento A
 Tratamiento B
Piedras pequeñas
 93%! 87%
Piedras grandes
 73%! 69%
Total
 78%
 83%!
C. R. Charig et al.!
Co...
C. R. Charig et al.!
Comparison of treatment of renal calculi by open surgery, percutaneous
nephrolithotomy, and extracorp...
Coste computacional
Fase del cálculo! Tiempo!
Preparación de las features
 7.0 ms.
Creación de redes y análisis
 3.8 ms.
C...
Mirando al futuro!
¿Como podemos mejorar los
resultados?
Después de la validación …
Implementar el algoritmo en un entorno operacional
•  Retos técnicos de velocidad
•  Integració...
… volver al InfoSec
Falta de buenas bases de
datos, con información sobre
la dinámica normal
… y al análisis del cerebro
Intra-subject Inter-subject
0.0
0.3
0.6
Intra-subject Inter-subject
0.0
0.3
0.6
Intra-subject ...
Bibliografía
Zanin, M. et al. (2014). Parenclitic networks: uncovering new functions in
biological data. Scientific report...
Teoría de redes y detección de fraude // Theory of networks and fraud detection
Nächste SlideShare
Wird geladen in …5
×

Teoría de redes y detección de fraude // Theory of networks and fraud detection

627 Aufrufe

Veröffentlicht am

Teoría de redes y detección de fraude
Por Massimiliano Zanin.
Universidad Rey Juan Carlos.

Curso de Verano 'Innovación en ciberseguridad aplicada a la protección de la identidad digital #CIGTR2015'.
http://es.cigtr.info/2015/06/curso-de-verano-innovacion-en-seguridad.html (ES)

Theory of networks and fraud detection
Massimiliano Zanin.
Universidad Rey Juan Carlos.

Summer Course 'Innovation in security applied to the protection of digital identity #CIGTR2015'.
http://www.cigtr.info/2015/06/summer-course-innovation-in-security.html#.ViXv337hDb2 (EN)

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Teoría de redes y detección de fraude // Theory of networks and fraud detection

  1. 1. Teoría de redes y detección de fraude 2015.07.07! Massimiliano Zanin!
  2. 2. 1. Redes complejas: ¿porqué? Teoría de redes y detección de fraude! 2. Aplicación a fraude en tarjetas 3. Trabajos futuros
  3. 3. ¿Que son las redes?! Representación de la estructura creada por las interacciones de un sistema complejo
  4. 4. Sistema complejo Multiplicidad de elementos Importancia de las interacciones entre ellos
  5. 5. Sistema complejo Multiplicidad de elementos Importancia de las interacciones entre ellos Solo interacciones entre elementos Ningún elemento innecesario Red compleja
  6. 6. Métricas estructurales Describen cuantitativamente la estructura Solo interacciones entre elementos Ningún elemento innecesario Red compleja Sistema complejo
  7. 7. Más detalle Más belleza
  8. 8. Más detalle Más belleza
  9. 9. Mapa del Greater Khorasan, por el geógrafo persa Ibrahim Al- Istakhri, 980 AC. Departamento de manuscritos orientales, Bibliothèque National de France.
  10. 10. Redes genéticas Red de contactos sexuales Redes financieras Redes de transporte
  11. 11. ¿Por que redes en seguridad?! Las relaciones pueden ser más importantes que los elementos individuales
  12. 12. Un ejemplo: InfoSec Sistema normal
  13. 13. Un ejemplo: InfoSec Ataque simple
  14. 14. Un ejemplo: InfoSec Ataque coordinado
  15. 15. Un ejemplo: InfoSec Ataque coordinado
  16. 16. Detección de fraudes en tarjetas Cantidad de la transacción Tiempo desde la última transacción Ubicación geográfica … Ningún elemento es significativo por si solo
  17. 17. ¿Como reconstruir redes?! 1. No hay conexiones físicas 2. Queremos detectar anomalías
  18. 18. Importancia de las relaciones entre elementos e.g. colesterol y trigliceridos
  19. 19. En personas sanas, colesterol y trigliceridos suelen estar correlacionados Colesterol Trigliceridos Límites aceptables
  20. 20. Colesterol Trigliceridos Límites aceptables Relación anormal i.e. alejada de la regresión esperada
  21. 21. Colesterol Trigliceridos Límites aceptables Distancia esperada desde la regresión Distancia anormal
  22. 22. Tri. Col. Creamos un link cuando la relación es anormal
  23. 23. Tri. Col. Una red para cada persona Links representan relaciones anormales Por lo tanto, la red representa la condición del sujeto
  24. 24. Tri. Col. Datos cuantitativos de la red pueden ser utilizados para una tarea de clasificación Los datos originales también tienen que ser incluídos
  25. 25. Resumiendo …
  26. 26. Resumiendo …
  27. 27. Transacciones con tarjetas! ¿Pueden las redes mejorar nuestra capacidad para detectar transacciones fraudulentas?
  28. 28. Objetivos del proyecto Validar las hipótesis: •  La información acerca de la legalidad de una transacción está codificada en las relaciones entre elementos •  Las redes pueden ayudar a detectar transacciones fraudulentas Validación basada en datos reales Comparación con sistemas estándar de detección de fraude
  29. 29. Objetivos del proyecto Comparación con sistemas estándar de detección de fraude Limitación: Ninguna eurística incluída Solo análisis de datos basado en redes
  30. 30. Datos reales utilizados Todas las transacciones con tarjetas de crédito / débito del BBVA, años 2011 y 2012. Volumen de datos: 3 M. tarjetas / mes 38 M. operaciones / mes 400k fraudes / mes
  31. 31. Datos iniciales Creación de las redes (pesadas) Creación de las redes (binarias) Extracción de métricas Clasificación
  32. 32. Datos iniciales Features Redes Métricas estructurales Clasificación Comportamiento esperado Parámetros del modelo Aprendizaje
  33. 33. Preparación de los datos Feature Tipo! Cantidad de dinero Int Tiempo desde última transacción Int Cantidad de la última transacción Int Transacción media Float Tiempo medio entre operaciones Float Misma tienda Boolean Hora del día Int Ratio de fraudes (5k transacciones) Float
  34. 34. Grado  máximo  de  los  nodos     Entropía  de  la  distribución  de  grado       Correlación  entre  grados  de  los  nodos     Coeficiente  de  Clustering     Distancia  geodésica  media  entre  nodos     Eficiencia     Informa>on  Content       Métricas topológicas consideradas
  35. 35. 0 5 10 15 20 25 Classificationerror(%) Classification algorithm Bayes MLP DT KNN Mejor resultado: MLP Hay relaciones no lineales entre las distintas features
  36. 36. Referencia Link density Clustering Max degree Eficiencia IC 0 5 10 15 20 25 30 Errordeclasificación(%) Ninguna feature puede ser descartada prima facie
  37. 37. 19.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.262 42.061 38.675 37.923 35.226 37.2065 35.38735.558 32.557 30.566 28.428 31.237 36.245 16.009 15.016 14.07813.73113.53913.43713.059512.3635 11.76211.55512.230512.45 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 10 20 30 40 50 Classificationerror(%) Link density Raw features Parenclitic All Las redes aportan una visión distinta al problema, y permiten mejorar el resultado.
  38. 38. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) Parenclitic networks Linx UPV 0.00 0.02 0.04 0.0 0.1 0.2 0.3 0.4
  39. 39. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) Parenclitic networks Parenclitic only Raw features 0.00 0.02 0.04 0.0 0.1 0.2 0.3 0.4
  40. 40. All 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) 0.00 0.02 0.04 0.06 0.08 0.10 0.0 0.1 0.2 0.3 0.4
  41. 41. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) Parenclitic networks Linx 0.00 0.02 0.04 0.0 0.1 0.2 0.3 0.4
  42. 42. Resumen de resultados Resultados obtenidos: muy buenos, si consideramos que •  No se utiliza eurística •  No hemos ido refinando el modelo durante años! Resultados positivos para bajos falsos positivos Mejor rendimiento para ciertos nichos de transacción: •  Riesgo de over-fitting y Paradoja de Simpson
  43. 43. Dos grupos de eventos Cada uno está asociado a una relación positiva entre f1 y f2 Feature 1 Feature2 Paradoja de Simpson
  44. 44. Feature 1 Feature2 Una relación “falsa” aparece cuando los dos grupos son considerados a la vez Dos grupos de eventos Cada uno está asociado a una relación positiva entre f1 y f2 Paradoja de Simpson
  45. 45. C. R. Charig et al.! Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy 2 tratamientos: A – Tratamiento invasivo cirurgico B - Percutaneous nephrolithotomy 2 grupos: Piedras pequeñas Piedras grandes
  46. 46. Tratamiento A Tratamiento B Piedras pequeñas 93%! 87% Piedras grandes 73%! 69% Total 78% 83%! C. R. Charig et al.! Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy
  47. 47. C. R. Charig et al.! Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy Tratamiento A Tratamiento B Piedras pequeñas 81/87 234/270 Piedras grandes 192/263 55/80 Total 273/350 289/350
  48. 48. Coste computacional Fase del cálculo! Tiempo! Preparación de las features 7.0 ms. Creación de redes y análisis 3.8 ms. Clasificación 2.6 ms. Proceso completo! 13.4 ms.! Xeon E5335 2GHz, 1 core, 1.2GB RAM utilizada
  49. 49. Mirando al futuro! ¿Como podemos mejorar los resultados?
  50. 50. Después de la validación … Implementar el algoritmo en un entorno operacional •  Retos técnicos de velocidad •  Integración con otros algoritmos Identificación y explotación de nichos Inclusión de eurística y conocimiento experto
  51. 51. … volver al InfoSec Falta de buenas bases de datos, con información sobre la dinámica normal
  52. 52. … y al análisis del cerebro Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Subject4Subject3Subject2Subject1 Subject 4Subject 3Subject 2Subject 1 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Identity assurance basada en el análisis de la actividad cerebral
  53. 53. Bibliografía Zanin, M. et al. (2014). Parenclitic networks: uncovering new functions in biological data. Scientific reports, 4. Zanin, M., Sousa, P. A., & Menasalvas, E. (2014). Information content: Assessing meso-scale structures in complex networks. EPL, 106 (3), 30001. Zanin, M., & Papo, D. (2014). Characterizing Motif Dynamics of Electric Brain Activity Using Symbolic Analysis. Entropy, 16 (11), 5654-5667. Zanin, M. & Papo, D. Information systems as functional networks. In publication. Zanin, M. & Papo, D. Identity assurance through EEG recordings. In publication.

×