Este estudio buscó reducir la variabilidad entre observadores en la evaluación de embriones mediante una sesión de consenso entre expertos. Cinco expertos evaluaron imágenes de embriones en día 2 y 3 antes y después de una sesión grupal. Los resultados mostraron que el acuerdo en la clasificación y decisión clínica aumentó significativamente después de la sesión, pasando de 36% a 74% de acuerdo. Esto demuestra que las sesiones de consenso entre expertos pueden disminuir la variabilidad interobservador en
Reducción de la variabilidad interobservador en la evaluación embrionaria tras sesión de consenso
1. A R T I C U L O I I
Rafael Ruiz. et al. Reducción de la variabilidad interobservador en la evaluación embrionaria.
10
REDUCCIÓN DE LA VARIABILIDAD INTEROBSERVADOR EN
LA EVALUACIÓN EMBRIONARIA TRAS SESIÓN DE CONSENSO
ENTRE EXPERTOS
Reduction of the inter-observer variability in the embryo evaluation after
consensus session among experts
Rafael Ruiz de Assín (1), Maria del Carmen Gonzalvo (1), Ana Clavero (1), Sandra Zamora (1), Ana Fernández (1), María Roldán (1), Belén Rabelo
(1), Juan Pablo Ramírez (2)(3), Juan Manuel Moreno (4), José Antonio Castilla (1)(2)(3). (1) Unidad de Reproducción Humana, Hospital
Universitario “Virgen de las Nieves”, Granada. (2) Banco de Semen CEIFER, Granada. (3) Programa de Control de Calidad Externo para el
Laboratorio de Reproducción de la Asociación para el Estudio de la Biología de la Reproducción (ASEBIR), Madrid. (4) Unidad de Reproducción,
Clínica Vistahermosa, Alicante. Para contacto: José Antonio Castilla Alcalá: Unidad de Reproducción. C/ Dr. Azpitarte S/N Edificio de consultas
externas Hospital Materno- Infantil CP.18014 • josea.castilla.sspa@juntadeandalucia
RESUMEN
La variabilidad interobservador es muy importante cuando pretendemos hablar de calidad embrionaria, diversos autores han
demostrado que existen diferencias entre distintos laboratorios al evaluar videos de embriones, la participación en programas
de control de calidad externo puede disminuir estas diferencias. Por otro lado se presenta la necesidad de que las imágenes
enviadas sean evaluadas por un consenso de expertos para compararlo con los resultados de los laboratorios.
El objetivo de este estudio es ver si tras una sesión de consenso aumenta el acuerdo entre expertos en la evaluación de
embriones.
Para ello empleamos imágenes de embriones en Día 2 y Día 3, que son evaluadas por un grupo de cinco expertos, antes y
después de una sesión de consenso. Nuestros resultados demuestran que las sesiones de consenso entre expertos son útiles
para disminuir la variabilidad entre observadores en la clasificación embrionaria y decisión clínica, y que podrían ser utilizadas
para asignar valores de referencia a las imágenes de embriones que se envían en programas de control de calidad externa de
evaluación embrionaria.
Palabras clave: Evaluación embrionaria, sesión de consenso, fecundación in vitro.
SUMMARY
The inter-observer variability is very important when we talk about embryo quality, various authors have demonstrated that
a difference exists between distinct laboratories upon evaluation of the embryonic videos; participation in quality control
programs can reduce these differences. On the other hand the need arises to send the images to a consensus of experts to be
evaluated to compare laboratory results.
The objective of the study is to see if a consensus meeting will increase agreement between experts of embryo evaluation.
To facilitate this we use images of embryos in the 2nd and 3rd day, which are evaluated by a group of 5 experts, before and after
a consensus session. Our results demonstrate that the consensus sessions of experts are useful to diminish the variability
between embryo classification and clinical decision. Also, could be utilized to assign values of reference to the embryonic
images that are sent to an external quality control program of embryo evaluation.
Key words: Embryo evaluation, session of consensus, in vitro fertilization.
INTRODUCCIÓN embrionaria (Sharpe-Timms et al., 2000; valoración de la calidad embrionaria, se
Fisch et al., 2001; De Placido et al., 2002; encuentran los diferentes sistemas de
La capacidad de implantación de un Holte et al., 2007), por lo que la clasificación de embriones y las
embrión, y por tanto, la consecución de valoración de ésta es una parte clave en diferencias intra e interobservador (Keck
un embarazo está relacionada con los tratamientos de FIV/ICSI. Entre los et al., 2004; Arce et al., 2006; Baxter et
diversos factores, entre otros la calidad factores que pueden afectar la al., 2006).
2. A R T I C U L O I I
Diciembre 2008 Vol. 13 · Nº 2
11
La variabilidad interobservador es la Timms et al., 2000, Baxter et al., 2006). La segunda parte de la reunión consistió
variación a la hora de asignar un grado Estas discrepancias hacen que sea en una sesión de consenso, en la que en
a un mismo embrión cuando es controvertido estableces valores de primer lugar se mostraron los resultados
evaluado por varios embriólogos, la referencia en los programas de control de obtenidos durante el test pre-sesión, así
variabilidad intraobservador es la calidad externo de evaluación embrionaria como los videos, que fueron discutidos
variación al establecer el grado de un que utiliza imágenes de embriones. por los cinco expertos. Tras esto se
embrión cuando es evaluado por un incluyó la evaluación de 19 bloques de 5
mismo embriólogo en más de una El objetivo de este estudio fue investigar embriones cada uno, sumando un
ocasión. El problema de la variabilidad el efecto de una reunión de consenso total de 95 embriones. Estos 95
inter e intraobservador ha sido descrito entre expertos en las diferencias embriones fueron evaluados de manera
ya en muchas disciplinas (Miglior et al., interobservador para la clasificación de consensuada, discutiendo uno por uno
2004; Al-Aynati et al., 2003). En el embriones y la posible utilidad de sobre su calidad y de cada uno de los 19
contexto de la reproducción ha sido estas reuniones en programas de control bloques, decidir qué dos embriones
descrito ampliamente por diferentes de calidad externo de evaluación mantener en cultivo (en el caso de los
investigadores, en lo que al análisis de embrionaria. cigotos) o transferir (en el caso de los
semen se refiere (Álvarez et al., 2005), embriones en Día 2 y 3), y de los otros 3
y diversos estudios han demostrado MATERIAL Y MÉTODOS embriones del bloque decidir cuales se
cómo tras sesiones de entrenamiento se congelarían y cuales se desecharían.
pueden disminuir mucho estas Para esta experiencia se utilizaron 140 Durante esta fase de la reunión, los
diferencias (Björndahl et al., 2002; videos de embriones en diferentes expertos pudieron consultar las
Franken and Kruger, 2006). En cuanto a estadíos (cigotos, embriones en Día 2 y recomendaciones del II Cuaderno de
la evaluación embrionaria se ha embriones en Día 3) divididas en 28 Embriología Clínica de ASEBIR (ASEBIR,
observado una importante variabilidad bloques de 5 vídeos cada uno. 2008).
entre observadores, tanto a la hora de
clasificar un embrión (Arce et al. 2006; Los cinco miembros participantes fueron Por último, la tercera parte de la reunión
Baxter et al. 2006) como de decidir que escogidos debido a su calidad de consistió en un test post-sesión, en el que
hacer con él (Matson, 1998); pero no expertos en el ámbito de la embriología se evaluaron 4 bloques de cinco
tanto dentro de un mismo observador, humana en España, y son miembros del embriones cada uno (dos bloques de
la cual es relativamente baja (Arce et al. grupo de trabajo de calidad embrionaria embriones en Día 2 y dos bloques de
2006; Baxter et al. 2006). Varios de la Asociación para el Estudio de la embriones en Día 3). Los vídeos de estos
autores han acentuado la importancia Biología de la Reproducción (ASEBIR). 20 embriones no fueron mostrados
del correcto entrenamiento de los Estos cinco expertos fueron reunidos en durante el test pre-sesión ni durante la
miembros del equipo para disminuir las Madrid en el Hospital Gregorio Marañón, sesión de consenso para que no se viera
diferencias dentro de un mismo y esta reunión se dividió en tres partes. afectada tanto a la clasificación como a la
laboratorio (Keck et al., 2004). decisión clínica tomada sobre los mismos.
En primer lugar se les realizó un test pre-
La participación en programas de sesión en el que tenían que evaluar cinco En los resultados fueron evaluadas de
control de calidad externo para la bloques con cinco videos de embriones manera separada la clasificación y la
evaluación embrionaria es recomendado cada uno en diferentes estadíos de decisión clínica de cada uno de los
por diversas sociedades científicas (The división, en el primer bloque se incluían embriones.
Practice Committee of the ASRM and cinco videos de cigotos, el segundo y
the Practice Committee of the SART, tercer bloque se componía de cinco Fue considerado que había acuerdo
2006; Magli et al., 2008; ASEBIR, 2008); videos cada uno con embriones en Día 2, sobre un embrión en su clasificación o
habiéndose demostrado que la y el cuarto y quinto bloque se decisión clínica cuando los cinco
incorporación de los centros en este tipo correspondía con cinco videos cada uno miembros participantes realizaban la
de programas disminuye las diferencias con embriones en Día 3. De cada uno de misma elección, y fue considerado como
entre laboratorios (Castilla et al., 2003; los bloques debían decidir de manera desacuerdo cuando al menos uno de los
Hurtado de Mendoza et al., 2008). individual cual era la calidad de cada uno participantes discrepaba del resto.
de los embriones (Buena, Regular, Mala)
La falta general de la estandardización y decidir que decisión clínica tomar con Para la comparación de las diferentes
de criterios de evaluación es otro de los esos embriones, suponiendo que cada variables analizadas se utilizó el test de
grandes problemas con los que se bloque perteneciera a una punción 2 con una significación del 5%.
enfrenta un embriólogo a la hora de diferente y que las parejas quisieran que
decidir si un embrión es de buena o mala se mantuviesen tan solo dos cigotos en RESULTADOS
calidad. Diferentes autores defienden el cultivo (en el caso de los cigotos) y que
sistema de scoring (Desai et al., 2000; se transfirieran dos embriones (en el De los 20 embriones evaluados durante
Sharpe-Timms et al., 2000; Fisch et al., caso de los embriones en Día 2 y 3), con el post-training test hubo uno (en Día 3)
2001; De Placido et al., 2002; Holte et el resto de cigotos y embriones en Día 2 que no se pudo evaluar debido a la mala
al., 2007), mientras que otros prefieren y 3 se debería decidir si congelarlos o calidad del video mostrado, por lo que lo
clasificarlos en categorías (Sharpe- desecharlos. excluimos de los resultados.
3. A R T I C U L O I I
Rafael Ruiz. et al. Reducción de la variabilidad interobservador en la evaluación embrionaria.
12
CLASIFICACIÓN EMBRIONARIA de Día 2, y 9/9 (100%) fue en embriones un ambiente artificial en el que el
de Día 3. embriólogo no tiene el control. Sin
En la Tabla I se observan los resultados embargo Arce et al. (2006) han
de la clasificación embrionaria del test DISCUSIÓN demostrado la validez de un sistema de
pre-sesión comparada con los resultados imagen digital similar al nuestro para la
de la clasificación del test post- De estos resultados se deriva que tras comparación entre embriólogos.
consenso, observando diferencias una sesión de consenso y puesta en Tampoco sabemos si este aumento en el
significativas (p<0.05) en el porcentaje común, se produce un aumento acuerdo entre los cinco expertos tras
de embriones en los que se obtenían significativo del acuerdo entre expertos, sesión de consenso se mantendrá en el
acuerdo antes y después de la sesión de tanto en la clasificación como en la tiempo o cada cuanto tiempo habría que
consenso (36.0% vs. 73.7%). decisión clínica tomada, al observar realizar nuevas sesiones de consenso
videos de embriones en diferentes para disminuir las diferencias entre
En el test pre-sesión se alcanzó acuerdo estadíos. Resultados similares se han embriólogos a la hora de evaluar un
en 9/25 (36.0%) embriones, de los observado en la evaluación de semen embrión. Por otro lado este estudio se
cuales 2/5 (40.0%) fue en estadío de (Björndahl et al., 2002; Franken and ha realizado con expertos, y
cigoto, 4/10 (40.0%) fue en embriones Kruger, 2006). desconocemos si estos resultados
en Día 2, y 3/10 (30.0%) fue en podrían ser extrapolados a grupos de
embriones de Día 3. De los 9 videos en Aunque no se alcanzan diferencias embriólogos que no posean este nivel de
los que se alcanzó acuerdo, 3 fueron significativas, es de destacar que el experiencia. Estudios previos de nuestro
clasificados como Buenos, 3 como grado de acuerdo se incrementó más en grupo (Castilla et al., 2003; Hurtado de
Regular y 3 como Malos. embriones de Día 3 que de Día 2, tanto Mendoza et al., 2008), demuestran que
en clasificación embrionaria como en en programas de control de calidad
En el test post-sesión se observó decisión clínica. Esto nos sugiere que los externa donde participan laboratorios
acuerdo en 14/19 (73.7%), de los cuales embriólogos pueden asimilar más con diferentes niveles de actividad,
6/10 (60.0%) fue en embriones de fácilmente las modificaciones de existe una tendencia al aumento en el
Día 2, y 8/9 (88.9%) fue en embriones criterios de Día 3 que Día 2, grado de acuerdo entre laboratorios,
de Día 3. De los 14 videos en los que se manteniéndose más firmes en sus cuando se participa en programas de
alcanzó acuerdo, 8 fueron clasificados criterios de Día 2. Dado que Arce et al. control de calidad externo en los que
como Buenos, 5 como Regular y 1 como (2006) observan mayor variabilidad se incluye evaluación de embriones
Malo. interobservador en la evaluación en Día mediante videos.
Tabla I: Porcentaje de embriones sobre los que existió acuerdo entre los embriólogos expertos antes y
después de la sesión de consenso.
Nuestros resultados demuestran que las
sesiones de consenso entre expertos son
útiles para disminuir la variabilidad
entre observadores en la clasificación
embrionaria y decisión clínica, y que
podrían ser utilizadas para asignar
valores de referencia a las imágenes de
embriones que se envían en programas
DECISIÓN CLÍNICA 3 que en Día 2, consideramos este de control de calidad externa de
hallazgo significativo, pues supone que evaluación embrionaria.
En la Tabla I se observan los resultados las reuniones de consenso tienen más
de la decisión clínica del test pre-sesión efecto sobre el día en que más AGRADECIMIENTOS
comparada con los resultados de la variabilidad interobservador se ha
clasificación del test post-sesión, descrito. Los autores de este trabajo agradecen a
observando diferencias significativas los miembros del grupo de trabajo de
(p<0.005) en el acuerdo antes y Se observa un mayor aumento del calidad embrionaria de la Asociación
después de la sesión de consenso acuerdo en la decisión clínica (de 36.0% para el Estudio de la Biología de la
(36.0% vs. 84.2%). a 84.2%) que en la evaluación Reproducción (ASEBIR): Manuel Ardoy
embrionaria (de 36.0% a 73.7%), lo cual (U Reproducción, Hospital Gregorio
En el test pre-consenso se alcanzó creemos de mucha utilidad, pues es la Marañón, Madrid), Jorge Cuadros (FIV
acuerdo en 9/25 (36.0%) embriones, de decisión clínica la que realmente Madrid, Madrid), María José Torelló
los cuales 3/5 (60.0%) fue en estadío de afectará al resultado de la técnica. (Clínica Quirón, Barcelona), Gema
cigoto, 4/10 (40.0%) fue en embriones Arroyo (IU Dexeus, Barcelona) y Luz
en Día 2, y 2/10 (20.0%) fue en Está claro que este estudio presenta una Rodríguez (Fundación Jiménez Díaz,
embriones de Día 3. serie de limitaciones como la utilización Madrid) la confianza depositada en los
de un video, que cuenta con un tiempo autores y su colaboración en este
En el test post-sesión se observó limitado de grabación y los embriones trabajo, sin la cual no hubiera sido
acuerdo en 16/19 (84.2%), de los no fueron rodados para observarlos posible su realización.
cuales 7/10 (70.0%) fue en embriones desde diferentes ángulos, presentando
4. A R T I C U L O I I
Diciembre 2008 Vol. 13 · Nº 2
13
BIBLIOGRAFÍA Nacional de Control de Calidad Externo de Keck C, Fischer R, Baukloh V, Alper M. Quality
Laboratorio de FIV. ASEBIR 2003;8:40-45. management in reproductive medicine. In:
Al-Aynati M, Chen V, Salama S, Shuhaibar H, Gadner DK, Weissman A, Howles CM, Shohan
Treleaven D, Vincic L. Interobserver and Desai NN, Goldstein J, Rowland DY, Goldfarb Z. Textbook of Assisted Reproductive
intraobserver variability using the Furman JM. Morphological evaluation of human Techniques. Laboratory and clinical
grading system for renal cell carcinoma. embryos and derivation of an embryo perspectives. 2nd edition. London and New
Arch Pathol Lab Med 2003;127:593–596. quality scoring system specific for day 3 Cork: Taylor and Francis 2004;477-494.
embryos: a preliminary study. Hum Reprod Magli MC, Van den Abbeel E, Lundin K,
Álvarez C, Castilla JA, Ramírez JP, Vergara F, 2000;15:2190-2196. Royere D, Van der Elst J, Gianaroli L;
Yoldi A, Fernández A, et al. External quality Committee of the Special Interest Group on
control program for semen analysis: Spanish De Placido G, Wilding M, Strina I, Alviggi E, Embryology. Revised guidelines for good
experience. J Assist Reprod Genet. Alviggi C, Mollo A, et al. High outcome practice in IVF laboratories. Hum Reprod
2005;22:379-387. predictability alter IVF using a combined store 2008;23:1256-1262.
for zygote and embryo morphology and growth
Arce JC, Ziebe S, Lundin K, Janssens R, rate. Hum Reprod 2002;17:2402-2409. Matson PL. Internal and external quality
Helmgaard L, Sorensen P. Interobserver assurance in the IVF laboratory. Hum Reprod
agreement and intraobserver reproducibility Fisch JD, Rodriguez H, Ross R, Overby G, Sher 1998;13:156-165.
of embryo quality assessments. Hum Reprod G. The graduated embryo score (GES)
2006;21:2141-2148. predicts blastocyst formation and Miglior S, Albe E, Guareschi M, Mandelli G,
pregnancy rate from cleavage-stage Gomarasco S, Orzales N. Intraobserver and
ASEBIR, II. Criterios de valoración embryos. Hum Reprod 2001;16:1970-1975. interobserver reproducibility in the
morfológicos de oocitos, embriones evaluation of ultrasonic pachymetry
tempranos y blastocistos humanos. Franken DR, Kruger TF. Lessons learned from measurements of central corneal thickness.
Cuadernos de Embriología Clínica. 2007. a sperm morphology quality control Br J Ophthalmol 2004;88:174 –177.
programme. Andrología 2006;38:225-229.
Baxter AE, Mayer JF, Shipley SK, Catherino Sharpe-Timms KL, Zimmer RL. Oocyte and
WH. Interobserver and intraobserver Holte J, Berglund L, Milton K, Garello C, pre-embryo classification. In: Kal BA, May
variation in day 3 embryo grading. Fértil Gennarelli G, Revelli A, et al. Construction of JV, De Jonge CI. Handbook of the assisted
Steril 2006;86:1608-1615. an evidence-based integrated morphology reproduction laboratory. 1st edition. United
cleavage embryo score for implantation Stated of America: CRC; 2000;179-196.
Björndahl L, Barratt CLR, Fraser LR, Kvist U, potential of embryos scored and transferred
Mortimer D. ESHRE basic semen analysis on day 2 after oocyte retrieval. Hum Reprod The Practice Committee of the American
courses 1995-1999: immediate beneficial 2007;22:548-557. Society for Reproductive Medicine and the
effects of standardized training. Hum Practice Committee of the Society for
Reprod 2002;17:1299-1305. Hurtado de Mendoza V, Ruiz de Assín R, Assisted Reproductive Technology. Revised
Vergara F, Moyano C, Gonzalvo MC, Clavero A, guidelines for human embryology and
Castilla JA, Ortiz A, Magán R, Ortiz-Galisteo et al. Five years of external quality control for andrology laboratories. Fertil Steril
JR, González E, Aguilar J, et al. Resultados embryology laboratory: Spanish experience. 2006;86(Suppl 4):57-72.
de un ensayo piloto para un Programa Hum Reprod 2008;23(Suppl1):160.