SlideShare ist ein Scribd-Unternehmen logo
1 von 3
Downloaden Sie, um offline zu lesen
marzo 2023, No 64
CyTe - Infosec Technology Newsletter
En este artículo hablaremos del uso de al-
goritmos de clasificación en machine lear-
ning para detectar y clasificar distintos ti-
pos de malware y de cómo se desempeñan
al compararlos con el juicio de humanos
expertos.
Clasificación de malware: Humanos vs máqui-
nas
por José Darío Flórez Gómez
Una de las últimas tendencias en ciberseguridad ha sido
el uso creciente de algoritmos de inteligencia artificial (IA)
para detectar y prevenir ataques cibernéticos. La IA ha de-
mostrado ser efectiva en la detección de amenazas y en la
prevención de ataques, gracias a su capacidad para analizar
grandes cantidades de datos y patrones de comportamiento.
Los algoritmos de IA también pueden detectar patrones de
actividad maliciosa y alertar a los expertos en seguridad para
que puedan tomar medidas preventivas antes de que ocurra
un ataque.
Entre estos modelos de clasificación, encontramos cier-
to tipo de modelos que tienen como objetivo clasificar si un
archivo o programa es o no malicioso. Para lograr esto, los al-
goritmos discriminan las características fundamentales y las
no tan importante para detectar si un archivo es malicioso o
no; una gran cantidad de investigación se ha realizado sobre
modelos de clasificación para malware con resultados muy
prometedores como 2 y 3.
Sin embargo, uno de los principales problemas que se han
detectado en el momento de clasificar malware con respecto
a otras aplicaciones como reconocimiento de lenguaje o de
texto, es que mientras que el texto se mantiene relativamente
constante a lo largo del tiempo y tiene una estructura simi-
lar, el malware continua variando de manera significativa a
lo largo del tiempo por lo que resulta interesante realizar la
comparación entre el desempeño de los algoritmos de clasifi-
cación de malware y expertos humanos.
Comparación entre clasificación por humanos
y modelos de clasificación
En 1 se realizó un estudio para identificar la diferencia
sobre las características en las que se basan los expertos hu-
manos para clasificar un archivo que tenga el potencial de
ser malware, contra las características que tienen mayor peso
en modelos de clasificación. Esto con el objetivo de entender
las diferencias en las decisiones que toman los expertos y las
máquinas y poder comparar si las decisiones de los expertos
o las decisiones de las máquinas son más acertadas.
Para lograr esto, pidieron a 110 humanos que clasificaran
distintos tipos de malware (72 novatos y 32 expertos) y lo
compararon contra varios de los algoritmos en estado del ar-
te de clasificación. Además, a cada uno de los integrantes les
pidieron que clasificaran 20 archivos sospechosos basados en
ciertos reportes y que especificaran que características habían
utilizado para ofrecer su veredicto.
Las características a considerar para detectar si un archi-
vo es malware se dividen en estáticas y dinámicas. Entre las
estáticas encontramos las siguientes: la firma de integridad
del archivo (que en este caso se realizó con authenticode), los
metadatos y el header del archivo, el análisis de los archivos
que se encuentran en el ejecutable y las funciones que llama,
los recursos que utiliza el programa, las subcadenas de strings
que se encuentran dentro de los programas y los resultados
de escaneos de diferentes herramientas de antivirus. Por otro
lado, entre las características dinámicas se encuentran ca-
CyTe - Infosec Technology Newsletter
m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 1
racterísticas que consisten en el resultado de la ejecución de
estos programas en entornos controlados; entre estas carac-
terísticas tenemos los resúmenes del tráfico UDP, TCP, HTTP
después de ejecutar el programa, los procesos que se crearon
y que se modificaron y las operaciones que se realizaron den-
tro del sistema de archivos.
A partir de estas características los expertos y los algorit-
mos de clasificación debían poder clasificar un archivo como
malicioso o no malicioso. Entre el malware que se utilizó pa-
ra este experimento se encuentran familias de malware como
hermalite, kryptic, zbot, doomjuice entre otros que contienen
spyware, troyanos, ransomware, gusanos, entre otros.
Resultados
Entre los resultados que se pudieron observar, los algo-
ritmos de clasificación tuvieron un desempeño muy similar
al de los expertos. Los expertos tuvieron un promedio de 16
correctas sobre 20, mientras que el modelo de clasificación ba-
sado en Random Forest tuvo el mismo promedio de respuestas
correctas (16/20) y el modelo basado en redes neuronales con-
volucionales tuvo un promedio de 17 respuestas correctas. Sin
embargo, se observó que los errores cometidos por el modelo
de redes convolucionales fueron muy diferentes a los errores
cometidos por los candidatos humanos.
Por otro lado, los candidatos humanos clasifican los archi-
vos utilizando menos de 1/3 de las características disponibles
teniendo una clara preferencia por los atributos dinámicos.
Esto es, ya que recientemente hay una tendencia a analizar
los atributos de comportamiento en lugar de los atributos es-
táticos, ya que los atributos dinámicos nos permiten detectar
ejemplos de malware que aún no han sido documentados.
Además de esto, los candidatos humanos pueden consolidar
su decisión investigando más información que no está inclui-
da en las características, cosa que los modelos de clasificación
no pueden hacer. Profundizando, se reintentó clasificar los
mismos archivos con los modelos de clasificación utilizando
solo las características que habían escogido los candidatos
humanos y el resultado fue mucho peor(4/8 con random fo-
rest y 3/8 con redes neuronales) lo que quiere decir que los
algoritmos de clasificación si necesitan todas las característi-
cas para obtener una buena precisión, características que no
siempre se tienen en un entorno real.
Por último, es importante notar que los candidatos hu-
manos cometieron más errores con Falsos Positivos, mientras
que ninguno de los expertos cometió un error clasificando un
archivo como un Falso Negativo. En el caso del malware, esto
es más deseable, ya que es preferible rechazar un archivo que
no tiene problemas a admitir un archivo que puede contener
malware.
Figura 1: Características priorizadas por los expertos y los al-
goritmos de clasificación
Conclusión
Gracias a este estudio podemos evidenciar cuales son las
características principales que priorizan los expertos para
analizar malware contra las categorías que priorizan los al-
goritmos de clasificación. Por otro lado, este estudio nos ayu-
da a entender que estos modelos de inteligencia artificial no
se deben tomar como un reemplazo a los conocimientos del
usuario experto, sino que deben dar un apoyo para que una
persona pueda tomar una decisión.
Fuentes:
[1] Humans vs. Machines in Malware Classification
[2] Mansour Ahmadi, Dmitry Ulyanov, Stanislav Semenov, Mikhail Trofimov, and Giorgio Giacinto. Novel feature extrac-
tion, selection and fusion for effective malware family classification. In Proceedings of the Sixth ACM Conference on Data
CyTe - Infosec Technology Newsletter
m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 2
and Application Security and Privacy, CODASPY ’16, page 183–194. Association for Computing Machinery, 2016.
[3] Blake Anderson Anderson, Daniel Quist, Joshua Neil, Curtis Storlie, and Terran Lane. Graph-based malware detection
using dynamic analysis. Journal in Computer Virology, 7:247–258, 2011.
Consúltenos en B info@cyte.co acerca de las preguntas que pueda tener acerca de los planteamientos de este artículo y
de los productos de criptografía tradicional y criptografía post-cuántica que hemos desarrollado. Para más artículos similares
síganos en nuestro blog en https://www.cyte.co/blog
La imagen inicial usada en esta nota fue tomada de tomada de https://www.optical.pe/blog/malware-futurista-impulsa
do-por-ia/.
CyTe - Infosec Technology Newsletter
m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 3

Más contenido relacionado

Ähnlich wie Clasificación de malware: Humanos vs máquinas

Ähnlich wie Clasificación de malware: Humanos vs máquinas (20)

(Auditoria de sistemas) elementos de evaluacion en el desarrollo de sistemas
(Auditoria de sistemas) elementos de evaluacion en el desarrollo de sistemas(Auditoria de sistemas) elementos de evaluacion en el desarrollo de sistemas
(Auditoria de sistemas) elementos de evaluacion en el desarrollo de sistemas
 
Diferenciar funciones del sistema operativo.
Diferenciar funciones del sistema operativo.Diferenciar funciones del sistema operativo.
Diferenciar funciones del sistema operativo.
 
Sistemas de información y ciclos de vida
Sistemas de información y ciclos de vidaSistemas de información y ciclos de vida
Sistemas de información y ciclos de vida
 
Ethical hacking
Ethical hackingEthical hacking
Ethical hacking
 
Qué es un dato
Qué es un datoQué es un dato
Qué es un dato
 
Qué es un dato
Qué es un datoQué es un dato
Qué es un dato
 
Clasico
ClasicoClasico
Clasico
 
ANTIVIRUS
ANTIVIRUSANTIVIRUS
ANTIVIRUS
 
Analisis vulnera
Analisis vulneraAnalisis vulnera
Analisis vulnera
 
Auditoriasistemas
AuditoriasistemasAuditoriasistemas
Auditoriasistemas
 
Tic.ec 04 pinto
Tic.ec 04 pintoTic.ec 04 pinto
Tic.ec 04 pinto
 
Electiva 5, Seguridad Informatica
Electiva 5, Seguridad InformaticaElectiva 5, Seguridad Informatica
Electiva 5, Seguridad Informatica
 
Ciberseguridad: CAso Alma Technologies
Ciberseguridad: CAso Alma TechnologiesCiberseguridad: CAso Alma Technologies
Ciberseguridad: CAso Alma Technologies
 
Los hackers con ética
Los hackers con éticaLos hackers con ética
Los hackers con ética
 
Evaluacion de sistemas
Evaluacion de sistemasEvaluacion de sistemas
Evaluacion de sistemas
 
Sistema de información
Sistema de informaciónSistema de información
Sistema de información
 
Evaluación de sistemas
Evaluación de sistemasEvaluación de sistemas
Evaluación de sistemas
 
Dsei_acd_alzr
Dsei_acd_alzrDsei_acd_alzr
Dsei_acd_alzr
 
Sistema de información2
Sistema de información2Sistema de información2
Sistema de información2
 
Lexi herrera fundamentos del diseno de software
Lexi herrera  fundamentos del diseno de softwareLexi herrera  fundamentos del diseno de software
Lexi herrera fundamentos del diseno de software
 

Último

TareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptxTareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptxANDREADELCARMENGARCI
 
Segunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptx
Segunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptxSegunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptx
Segunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptxsergioagudo4
 
Verde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdf
Verde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdfVerde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdf
Verde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdfmiriamsarahihm2008
 
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosTrabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosJuanCamilomurillo2
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docxwalterdanielcortes08
 
Taller De La Electricidad Y Electrónica 10-4.pdf
Taller De La Electricidad Y Electrónica  10-4.pdfTaller De La Electricidad Y Electrónica  10-4.pdf
Taller De La Electricidad Y Electrónica 10-4.pdfAnaSofiaRodriguezzap
 
Garcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptxGarcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptxANDREADELCARMENGARCI
 
Lista de datos (tecnología) combinación de...
Lista de datos (tecnología) combinación de...Lista de datos (tecnología) combinación de...
Lista de datos (tecnología) combinación de...NicolleAndrade7
 
El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)Alfredo Vela Zancada
 
Texto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docxTexto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docxlucianavillotalozano
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdfssuser337a5e
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfIsabellaLugo3
 
Estadistica , excel avanzado estudios estadisticos
Estadistica , excel avanzado  estudios estadisticosEstadistica , excel avanzado  estudios estadisticos
Estadistica , excel avanzado estudios estadisticosElizabethAcostaQuinc
 
INFORME DE LA ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdf
INFORME DE LA  ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdfINFORME DE LA  ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdf
INFORME DE LA ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdfGabrielHernndez206156
 
Basisschulung zum Datenschutz DE_SPA.pptx
Basisschulung zum Datenschutz  DE_SPA.pptxBasisschulung zum Datenschutz  DE_SPA.pptx
Basisschulung zum Datenschutz DE_SPA.pptxsergioagudo4
 
¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya
¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya
¿Cómo preguntar a la IA?_ Universitat Oberta de CatalunyaRichard Canabate
 
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptxcuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptxange07u
 
Tarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptxTarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptxVICTORMANUELBEASAGUI
 
IA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diariaIA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diariaEducática
 
Hernandez_Hernandez_Practica web de la sesion 8.pptx
Hernandez_Hernandez_Practica web de la sesion 8.pptxHernandez_Hernandez_Practica web de la sesion 8.pptx
Hernandez_Hernandez_Practica web de la sesion 8.pptxJOSEMANUELHERNANDEZH11
 

Último (20)

TareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptxTareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptx
 
Segunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptx
Segunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptxSegunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptx
Segunda_P_Wahrnehmung der Betroffenenrechte DE_SPA.pptx
 
Verde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdf
Verde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdfVerde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdf
Verde Ilustrado Moderno Redes Sociales Informe de Marketing Presentación (1).pdf
 
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosTrabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticos
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
 
Taller De La Electricidad Y Electrónica 10-4.pdf
Taller De La Electricidad Y Electrónica  10-4.pdfTaller De La Electricidad Y Electrónica  10-4.pdf
Taller De La Electricidad Y Electrónica 10-4.pdf
 
Garcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptxGarcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptx
 
Lista de datos (tecnología) combinación de...
Lista de datos (tecnología) combinación de...Lista de datos (tecnología) combinación de...
Lista de datos (tecnología) combinación de...
 
El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)
 
Texto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docxTexto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docx
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
Estadistica , excel avanzado estudios estadisticos
Estadistica , excel avanzado  estudios estadisticosEstadistica , excel avanzado  estudios estadisticos
Estadistica , excel avanzado estudios estadisticos
 
INFORME DE LA ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdf
INFORME DE LA  ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdfINFORME DE LA  ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdf
INFORME DE LA ACTIVIDAD GRUPAL; EXCEL AVANZADO Y MÉTODOS ESTADÍSTICO.pdf
 
Basisschulung zum Datenschutz DE_SPA.pptx
Basisschulung zum Datenschutz  DE_SPA.pptxBasisschulung zum Datenschutz  DE_SPA.pptx
Basisschulung zum Datenschutz DE_SPA.pptx
 
¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya
¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya
¿Cómo preguntar a la IA?_ Universitat Oberta de Catalunya
 
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptxcuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
 
Tarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptxTarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptx
 
IA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diariaIA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diaria
 
Hernandez_Hernandez_Practica web de la sesion 8.pptx
Hernandez_Hernandez_Practica web de la sesion 8.pptxHernandez_Hernandez_Practica web de la sesion 8.pptx
Hernandez_Hernandez_Practica web de la sesion 8.pptx
 

Clasificación de malware: Humanos vs máquinas

  • 1. marzo 2023, No 64 CyTe - Infosec Technology Newsletter En este artículo hablaremos del uso de al- goritmos de clasificación en machine lear- ning para detectar y clasificar distintos ti- pos de malware y de cómo se desempeñan al compararlos con el juicio de humanos expertos. Clasificación de malware: Humanos vs máqui- nas por José Darío Flórez Gómez Una de las últimas tendencias en ciberseguridad ha sido el uso creciente de algoritmos de inteligencia artificial (IA) para detectar y prevenir ataques cibernéticos. La IA ha de- mostrado ser efectiva en la detección de amenazas y en la prevención de ataques, gracias a su capacidad para analizar grandes cantidades de datos y patrones de comportamiento. Los algoritmos de IA también pueden detectar patrones de actividad maliciosa y alertar a los expertos en seguridad para que puedan tomar medidas preventivas antes de que ocurra un ataque. Entre estos modelos de clasificación, encontramos cier- to tipo de modelos que tienen como objetivo clasificar si un archivo o programa es o no malicioso. Para lograr esto, los al- goritmos discriminan las características fundamentales y las no tan importante para detectar si un archivo es malicioso o no; una gran cantidad de investigación se ha realizado sobre modelos de clasificación para malware con resultados muy prometedores como 2 y 3. Sin embargo, uno de los principales problemas que se han detectado en el momento de clasificar malware con respecto a otras aplicaciones como reconocimiento de lenguaje o de texto, es que mientras que el texto se mantiene relativamente constante a lo largo del tiempo y tiene una estructura simi- lar, el malware continua variando de manera significativa a lo largo del tiempo por lo que resulta interesante realizar la comparación entre el desempeño de los algoritmos de clasifi- cación de malware y expertos humanos. Comparación entre clasificación por humanos y modelos de clasificación En 1 se realizó un estudio para identificar la diferencia sobre las características en las que se basan los expertos hu- manos para clasificar un archivo que tenga el potencial de ser malware, contra las características que tienen mayor peso en modelos de clasificación. Esto con el objetivo de entender las diferencias en las decisiones que toman los expertos y las máquinas y poder comparar si las decisiones de los expertos o las decisiones de las máquinas son más acertadas. Para lograr esto, pidieron a 110 humanos que clasificaran distintos tipos de malware (72 novatos y 32 expertos) y lo compararon contra varios de los algoritmos en estado del ar- te de clasificación. Además, a cada uno de los integrantes les pidieron que clasificaran 20 archivos sospechosos basados en ciertos reportes y que especificaran que características habían utilizado para ofrecer su veredicto. Las características a considerar para detectar si un archi- vo es malware se dividen en estáticas y dinámicas. Entre las estáticas encontramos las siguientes: la firma de integridad del archivo (que en este caso se realizó con authenticode), los metadatos y el header del archivo, el análisis de los archivos que se encuentran en el ejecutable y las funciones que llama, los recursos que utiliza el programa, las subcadenas de strings que se encuentran dentro de los programas y los resultados de escaneos de diferentes herramientas de antivirus. Por otro lado, entre las características dinámicas se encuentran ca- CyTe - Infosec Technology Newsletter m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 1
  • 2. racterísticas que consisten en el resultado de la ejecución de estos programas en entornos controlados; entre estas carac- terísticas tenemos los resúmenes del tráfico UDP, TCP, HTTP después de ejecutar el programa, los procesos que se crearon y que se modificaron y las operaciones que se realizaron den- tro del sistema de archivos. A partir de estas características los expertos y los algorit- mos de clasificación debían poder clasificar un archivo como malicioso o no malicioso. Entre el malware que se utilizó pa- ra este experimento se encuentran familias de malware como hermalite, kryptic, zbot, doomjuice entre otros que contienen spyware, troyanos, ransomware, gusanos, entre otros. Resultados Entre los resultados que se pudieron observar, los algo- ritmos de clasificación tuvieron un desempeño muy similar al de los expertos. Los expertos tuvieron un promedio de 16 correctas sobre 20, mientras que el modelo de clasificación ba- sado en Random Forest tuvo el mismo promedio de respuestas correctas (16/20) y el modelo basado en redes neuronales con- volucionales tuvo un promedio de 17 respuestas correctas. Sin embargo, se observó que los errores cometidos por el modelo de redes convolucionales fueron muy diferentes a los errores cometidos por los candidatos humanos. Por otro lado, los candidatos humanos clasifican los archi- vos utilizando menos de 1/3 de las características disponibles teniendo una clara preferencia por los atributos dinámicos. Esto es, ya que recientemente hay una tendencia a analizar los atributos de comportamiento en lugar de los atributos es- táticos, ya que los atributos dinámicos nos permiten detectar ejemplos de malware que aún no han sido documentados. Además de esto, los candidatos humanos pueden consolidar su decisión investigando más información que no está inclui- da en las características, cosa que los modelos de clasificación no pueden hacer. Profundizando, se reintentó clasificar los mismos archivos con los modelos de clasificación utilizando solo las características que habían escogido los candidatos humanos y el resultado fue mucho peor(4/8 con random fo- rest y 3/8 con redes neuronales) lo que quiere decir que los algoritmos de clasificación si necesitan todas las característi- cas para obtener una buena precisión, características que no siempre se tienen en un entorno real. Por último, es importante notar que los candidatos hu- manos cometieron más errores con Falsos Positivos, mientras que ninguno de los expertos cometió un error clasificando un archivo como un Falso Negativo. En el caso del malware, esto es más deseable, ya que es preferible rechazar un archivo que no tiene problemas a admitir un archivo que puede contener malware. Figura 1: Características priorizadas por los expertos y los al- goritmos de clasificación Conclusión Gracias a este estudio podemos evidenciar cuales son las características principales que priorizan los expertos para analizar malware contra las categorías que priorizan los al- goritmos de clasificación. Por otro lado, este estudio nos ayu- da a entender que estos modelos de inteligencia artificial no se deben tomar como un reemplazo a los conocimientos del usuario experto, sino que deben dar un apoyo para que una persona pueda tomar una decisión. Fuentes: [1] Humans vs. Machines in Malware Classification [2] Mansour Ahmadi, Dmitry Ulyanov, Stanislav Semenov, Mikhail Trofimov, and Giorgio Giacinto. Novel feature extrac- tion, selection and fusion for effective malware family classification. In Proceedings of the Sixth ACM Conference on Data CyTe - Infosec Technology Newsletter m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 2
  • 3. and Application Security and Privacy, CODASPY ’16, page 183–194. Association for Computing Machinery, 2016. [3] Blake Anderson Anderson, Daniel Quist, Joshua Neil, Curtis Storlie, and Terran Lane. Graph-based malware detection using dynamic analysis. Journal in Computer Virology, 7:247–258, 2011. Consúltenos en B info@cyte.co acerca de las preguntas que pueda tener acerca de los planteamientos de este artículo y de los productos de criptografía tradicional y criptografía post-cuántica que hemos desarrollado. Para más artículos similares síganos en nuestro blog en https://www.cyte.co/blog La imagen inicial usada en esta nota fue tomada de tomada de https://www.optical.pe/blog/malware-futurista-impulsa do-por-ia/. CyTe - Infosec Technology Newsletter m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 3