2. Региональный индекс пациентов - что это?
Региональный индекс пациентов…
Enterprise master patient index…
“is a database that is used across a healthcare organization to maintain consistent, accurate and
current demographic and essential medical data on the patients seen and managed within its
various departments.”
… база данных, используемая медицинскими организациями для ведения полных, точных и
корректных демографических и некоторых медицинских данных пациентов, доступных для
просмотра и управления различными учреждениями.
4. Цель и основная задача
Цель:
Информационное обеспечение процессов, связанных с
оказанием медицинских услуг населению.
Основная задача:
Необходимо интегрировать медицинские и иные данные
в привязке к субъекту оказания медицинской помощи -
пациенту!
6. Задачи
● Разработать алгоритм идентификации карточек пациентов;
● Выбрать состав, структуру и формат обмена персональными данными
пациентов;
● Разработать сервис (микросервис);
● Интегрировать сервис в существующее решение.
7. Проблемы идентификации
● Неоднородность данных в интегрированных системах.
● Низкое качество первичных данных.
○ Опечатки
○ Дубли
○ Повторное использование карточек
○ и т.д.
● Отсутствие достоверного и общедоступного источника мастер-данных.
● Отсутствие общепринятого идентификатора пациента.
● Сложность применяемых стандартов обмена медицинскими данными.
8. Анализ предметной области
● Отечественные решения отсутствуют*;
● Зарубежные продукты ориентированы на использование Мастер-
данных.
● Имеющиеся решения не поддерживают работу с отечественными
идентификаторами (например, СНИЛС);
● Интерфейс взаимодействия сложен - стандарт HL7 версий 2 и 3.
* В 2015 году российское подразделение InterSystems предложило свое
решение для отечественного рынка.
9. Статистика на начало проекта
● всего 30 млн. карточек
○ из них 18 млн. уникальных карточек
○ из них 7% повторно использованных карточек (идентификаторов)
10. Обзор методов связывания
Алгоритмы сравнение строк:
● Детерминированные - основаны на полном совпадении атрибутов
записей;
● Вероятностные - используют предположение о наличии связи атрибутов
и весовые коэффициентов для вычисления оценки связи двух записей.
Оценка набранных баллов вероятностного алгоритма:
● выше порога связывания - автоматическое связывание карточек;
● ниже порога связывания - присвоение нового идентификатораразделение;
● между порогами - ручной разбор инцидента идентификации.
11. Детерминированные алгоритмы
Детерминировнные алгоритмы возможно применять тогда, когда в обработку
передаются четко структурированные (стандартизированные ) наборы
данных и имеется выверенный эталонный набор мастер-данных.
Пример
№ Имя Пол Дата рождения Идентификатор
1 Александр Пушкин М 06.06.1799 112233
2 Михаил Лермонтов М 15.10.1814 2345
3 Лермонтов М
4 А.С. Пушкин М 112233
5 М.Ю. Лермонтов 15.10.1814
12. Вероятностные алгоритмы
Метрики похожести атрибутов
Пример использования метрики Jaro-Winkler для определения соответствия
атрибутов.
Пример:
Строка 1 Строка 2 Метрика
Гусенко Гусенков 98%
Гусенко Кузенко 81%
Песков Лесков 83%
Геращенко Гирасченко 86%
13. Фонетическое кодирование
Для оценки схожести звучания строк применяется фонетическое
кодирование.
Пример применения алгоритма Daitch-Mokotoff.
Строка Фонетический код
Геращенко 594650
Гирасченко 594650
Песков 745700
Лесков 845700
Гусенко 546500
Кузенко 546500
Гусенков 546570
14. Вероятностные алгоритмы
Весовые коэффициенты
Пример
Гусенко Александр Гусенков Александр 98% * 3 + 0 + 100% * 2 = 4,94
Гусенко Александр Кусенко Александр 81% * 3 + 1+ 100% * 2 = 5,43
Гусенко Александр Кусенко А 81% * 3 + 1 + 0 * 2 = 3,43
15. Алгоритм идентификации
Подбор карточек-
кандидатов
Вероятностный
анализ имен
Смешанный анализ
атрибутов карточек
Оценка
набранных
баллов
● Фонетическое
кодирование;
● Вероятностный
анализ.
● Детерминированный
и вероятностный
анализ атрибутов;
● Вычисление
контрольных сумм
идентификаторов
(СНИЛС)
16. Компоненты решения
Хранилище карточек
Хранилище связей
карточек
WEB-сервис
Анализатор
Графический
интерфейс оператора
● Полученные данные не трансформируются.
● Связь данных с карточкой не разрывается.
17. Результат
● Разработан алгоритм оценки схожести карточек;
● Результат работы первой версии алгоритма:
18 млн. карточек породили 6 млн. глобальных идентификаторов.
○ 87% карточек оказались выше порога связывания
○ 10% карточек оказались ниже порога связывания
○ 3% карточек требуют ручного разбора инцидентов идентификации
● Выбран стандарт обмена данными - FHIR (новый стандарт HL7);
● Разработан сервис по обработке персональных данных пациентов;
региональный индекс пациентов- это БД, содержащая реестр (список, перечень) всех пациентов региона.
is a database that is used across a healthcare organization to maintain consistent, accurate and current demographic and essential medical data on the patients seen and managed within its various departments.
https://en.wikipedia.org/wiki/Enterprise_master_patient_index
Тут показать исходные данные
http://asecuritysite.com/forensics/simstring
что обрабатывает фонетический подбор - только фамилию или все вместе (ФИО)?