O documento discute o potencial do Centro de Integração de Dados e Conhecimentos para Saúde (CIDACS) para integrar grandes bases de dados de saúde no Brasil e permitir novas pesquisas. O CIDACS planeja construir plataformas para estudos longitudinais em saúde pública, vigilância de doenças como Zika, e avaliação de programas sociais usando os dados do Cadastro Único. No entanto, existem desafios como acesso, integração e privacidade de dados que precisam ser superados.
2. Na Busca por Conhecimentos e Inovações:
Potencialidades e Desafios do Uso de Dados para a
Pesquisa em Saúde no CIDACS
(Centro de Integração de Dados e Conhecimentos para Saúde)
SEMINÁRIO CIDACS-IPEA
PRIVACIDADE E TRATAMENTO DE DADOS PESSOAIS
EM PESQUISAS E GESTÃO EM SAÚDE
Salvador, 5 de Setembro de 2017
Mauricio L. Barreto
3. SISTEMA ÚNICO DE SAÚDE - SUS
SS universal, equânime e integral
Cria Demandas em C&T&I
Enfatiza a importância combinada das
tecnologias e dos determinantes sociais na
superação dos problemas de saúde
4. AS CONDIÇÕES DE SAÚDE
SITUAÇÃO ATUAL E TENDÊNCIAS
A Fome e a desnutrição
As doenças infecciosas e suas epidemias
A doenças crônicas e a “epidemia” de
obesidade
As diversas formas de violência
As doenças mentais e as demências
5. AS TRANSFORMAÇÕES AMBIENTAIS E
TECNOLÓGICAS E OS RISCOS PERSISTENTES E
NOVOS SOBRE A SAÚDE
Os riscos do Local ao Global
Persistem Riscos reconhecidos – o caso do fumo
Os Riscos entram pela boca - A industrialização e os
alimentos superprocessados
A revolução tecnológica e a emergência de novos riscos
- O que cura mata - efeitos adversos de medicamentos e
tecnologias médicas
- A intensificação da resistência antimicrobiana
- As mudanças climáticas e as incertezas do futuro
6. PRODUÇÃO DO CONHECIMENTO CIENTÍFICO EM
CIÊNCIAS DA SAÚDE: MUITOS DESAFIOS
1- A necessidade de produção continuada de evidências
2- Reducionismo dominante
3- Dificuldades na Integração dos dados e
conhecimentos, produzidos por diferentes disciplinas
e sub-disciplinas
4- Dificuldade de integração dos diferentes níveis de
conhecimento: básica, pré-clinica, clínica e
populacional
5- Dilemas entre “testar hipóteses” (hypothesis-driven
research) ou “explorar dados” (exploratory research)?
7. Crescente tomada de consciência de que o uso das
grandes bases de dados individuais existentes,
sejam dados de pesquisas ou dados
administrativos, são vitais para avançar a pesquisa
aplicada em saúde
8. Estes dados se tornam ainda mais utéis quando
podem ser integrados. A integração de dados pode
ajudar a responder a questões científicas e
gerenciais em tempo relativamente curto, a baixo
custo e que pode superar limites impostos por
outras abordagens.
9. TRANSFORMATION OF “BIG DATA” INTO
KNOWLEDGE
Big Data analyses should be embedded in epidemiologically well-
characterised and representative populations.
Data-driven science will be multi-disciplinary, collaborative and less
competitive than classical science and focussed on specific problems.
Thus, an integrated approach are of crucial importance
to the transformation of Big Data into knowledge.
10. MANY CHALLENGES
Data heterogeneity (accuracy, format);
Data fragmentation (multiple databases, multiple
owners/stakeholders);
Data availability (protection for commercial or cultural reasons,
or related to personal privacy);
Data handling (data management, data access, data quality,
data querying, data sharing);
Data privacy and integrity (prevention of
corruption and hacking);
Data conceptualisation (ontologies).
11.
12.
13.
14.
15.
16.
17.
18. CIDACS - MISSÃO
Realizar estudos e pesquisas interdisciplinares, desenvolver
novas metodologias científicas e promover capacitação
profissional, mediante a integração de grandes bases de dados
(big data) e de conhecimentos, recorrendo a recursos
computacionais de alto desempenho em ambiente seguro, com a
finalidade de ampliar o campo de atuação das ciências da saúde
e de apoiar tomadas de decisões em politicas públicas, em
benefício da sociedade.
19. CIDACS: A VISÃO
Associar produção de conhecimentos científicos com
conhecimento para políticas e gestão pública
Usar todo o potencial dos dados existentes para produção de
conhecimentos
Ativo no desenvolvimento e transferência de métodos e
conhecimentos científicos
Altos Padrões Éticos e Legais
Governança compatível com os conceitos de “Dados Abertos”
Fundado em Cooperação e Colaboração
Plano Estratégico de Desenvolvimento e Sustentabilidade
20. CIDACS – A OPERAÇÃO
Ambiente com alto nível de segurança – física
e virtual
Capacidade para Manter e Atualizar com alta
segurança e privacidade Bases de Dados
Identificadas
Capacidade para realizar Linkage de diferentes
bases de dados
Produção de bases de dados desidentificadas
para análises específicas a serem usadas por
pesquisadores e gestores
21. O Centro de Dados - Centro de Computação de Alto Desempenho do SENAI -CIMATEC – que
abriga Cluster computacional adquirido pela FIOCRUZ- CT-INFRA-FINEP
Escritório (incluindo sala segura) localizado no TECNOCENTRO
22.
23. AREAS ESTRUTURANTES
I. Coorte Virtual de 100 milhões de brasileiros - Plataforma de
estudos e avaliações contínuas dos efeitos do Programa Bolsa
Família e outros Programas de Proteção Social sobre a saúde
II. Plataforma de Vigilância de longo prazo para síndrome de
Zika e microcefalia no âmbito do SUS
III. Plataforma de bioinformática de alta transferência de dados
de biologia
IV. EPIGEN - Epidemiologia Genômica de Coortes Brasileiras
V. Plataforma de Incorporação de Tecnologias e Inovações em
Sistemas de Informação para apoiar os programas e ações do
SUS
VI. Plataforma de Estudos de Equidade e Sustentabilidade
Urbana e seus efeitos sobre a saúde
24.
25. PLATAFORMA PARA ESTUDO DOS EFEITOS DOS PROGRAMAS
SOCIAIS NA POPULAÇÃO BRASILEIRA:
COORTE DE 100 MILHÕES DE BRASILEIROS
Estabelecer uma plataforma que utilize o CadÚnico (BIG
DATA) como a linha de base de uma COORTE, que possa
ser utilizada para estudos e pesquisas que monitorem e
avalie os efeitos dos Programas e Políticas sociais sobre
a saúde da população brasileira.
26.
27. The 100 Million Brazilians Cohort
18 programas utilizam o Cadastro Único
Social Protection Programs using Cadastro Unico
CADASTRO ÚNICO – CADU
(Unified Registry for Social programs) (From
2004)
Cadastro Unico - FORMS
30. Record linkage pipeline
100M cohort
SIH
(hospitalization)
SINAN
(notifiable
diseases)
SIM
(mortality)
SINASC
(live
births)
Output of
each stage
Data quality assessment
Data conditioning
Record linkage
Accuracy assessment
Cohort baseline + SUS files
Metrics for qualitative analysis
Candidate attributes for linkage
ETL-based routines (cleansing,
standardization)
Anonymization (Bloom filter)
Blocking routines
Comparison blocks
Linkage parameters
Linkage routines (deterministic
and probabilistic)
Data marts
Assessment metrics (sensitivity,
specificity, PPV etc)
Un/Controlled scenarios
Accuracy results + validated
data marts
A Spark-based workflow for probabilistic record linkage of healthcare data
PITA, R.; PINTO, C.; MELO, P.; SILVA, M.; BARRETO, M.; RASELLA, D. (BeyondMR - EDBT/ICDT 2015)
ATYIMO
Probabilistic linkage
31. 0.000.250.500.751.00
Sensitivity
0.00 0.25 0.50 0.75 1.00
1 - Specificity
Area under ROC curve = 0.9842
Linkage SINAN-TB x CADU
Area under the curve :
0,984 [CI(95%): 0,980 –
0,988]
Cutoff: 9200
Sensitivity = 95,7%
Specificity = 94,8%
Acuracy = 95,5%
0.000.250.500.751.00
Sensitivity
0.00 0.25 0.50 0.75 1.00
1 - Specificity
Area under ROC curve = 0.9930
Linkage Deaths 1-4ys x CADU –
Area under the curve:
0,993 [CI(95%): 0,986 – 0,999]
Cutoff: 9100
Sensitivity = 99,0%
Specificity = 92,0%
Acuracy = 96,1%
32.
33. ZIKA E SÍNDROME DE ZIKA CONGÊNITA:
PLATAFORMA DE ESTUDOS LONGITUDINAIS A LONGO PRAZO
Objetivo
Construir uma plataforma integrada de
diferentes bases de dados sociais (saúde,
previdência, desenvolvimento social, educação
e outras) que possibilite desenvolver estudos e
pesquisas longitudinais de longo prazo para
definir o espectro completo da Síndrome de
Zika Congênita, seu impacto epidemiológico e
condições de vida dos indivíduos e populações
acometidas por microcefalia/SZC e pela Zika.
35. DESAFIOS
Acessos as Bases de Dados
Integração das bases de dados
Curadoria de Dados
Segurança e Privacidade
Éticos e Legais
Infraestrutura Computacional
Pessoal qualificado nos vários aspectos
necessários para o desenvolvimento da “ciência
de dados em saúde”
36. CONCLUSÕES
A estratégia aqui proposta, se implementada em sua totalidade, pode
constituir uma importante inovação em relação à utilização de grandes
bases de dados para a pesquisa em saúde
A integração de bases da dados e sua disponibilização pode ajudar a
responder a questões científicas e gerenciais em tempo relativamente
curto, a baixo custo e que pode superar limites impostos por outras
abordagens de investigação
Pode estimular o desenvolvimento de novos métodos e estratégias no uso
de grandes bases de dados para a avaliação e pesquisa em saúde