La revolución de los datos Descubriendo un mundo ...
Transcript of La revolución de los datos Descubriendo un mundo ...
0
La revolución de los datos
Descubriendo un mundo jerárquico: del caos de los
datos a un mundo de grafos
1
Estado del Arte en IA
2
¿Por qué el avance de IA en Salud?
Cambio en el paradigma de
interacción Usuario-Sistemas
El conocimiento: un nuevo mundo
jerárquico a explorar desde los
datos.
3
MEDICAL INTERFACE Human – Computers interaction
Tables – Fields
Relational Structure
Slow and Tedious
CLASSICAL REPORT
Codificación
Agregación
Calidad del Dato
4
MEDICAL INTERFACE New Human –Compute interaction
Tables – Fields
Relational Structure
Slow and Tedious
CLASSICAL REPORT
Codificación
Agregación
Calidad del Dato
5
El Problema del Preprocesado
Text Mining / Process Mining / Object Mining
Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica
6
Problemas en la Anotación
¿Solución?
-¿Se anotan correctamente los Diagnósticos, Tratamientos, y Propiedades?
-¿Se anotan todos los conceptos relevantes?
-¿Es suficiente la información de dichos conceptos para codificarlos bajo un estándar, o se
necesita más información?
-¿Cuántos acrónimos existen, y están correctamente codificados?
-¿Cómo podemos contrastar dicha calidad de los datos de una manera objetiva y cuantificable?
-¿Existen términos incompletos, o ambiguos?
-¿Tienen todos los pacientes todo lo necesario para su clasificación?
La Calidad de los Datos
7
PROBLEMAS DE ETL Y CALIDAD DE LOS DATOS Calidad
Origen
-11.104 pacientes, 4.313 datos DNA
-2.485 Pacientes con Datos clínicos
88% En la Calidad de los Datos.
ClinicData2.0
TCGA_COD2
TCGA_LNC2
hypermutatedGenes
,020,040,060,080,0
100,0120,0140,0
ftcn
com
dbir
d_fn
dg
ba
cs_d
iap_ft
cn
hlc
a_q
lco
aa
pp_
bacs_p…
bir
d_ft
cn
_lb
pr
cell_
inp
r_lb
trdsyn_ft
cn
_m
…ftcn_
gen
f_id
cn
ge
nf_
gng
m_…
inbe
_org
a_t…
me
dd_
mn
ob…
pa
tf_p
odg
in documents
total
20 40 60 80 100 120
CompletitudProductiva
Consistencia
ValoresNulos
Atipicos
Extremos
CompletitudPaciente
IndicadorDeLaCalidadDelDato
8
TEXT ETL: CODIFICATION
PROBLEMS. Key: The Corpus Analysis. Example.
Inicial Revisados
Términos MAMA 90,5 92,1
Términos COLON 90,0 91,4
Términos Asociados 83,6 90,6
Conceptos Asociados 95,9 98,7
TNM (Conceptos) 42,2
TNM (Variaciones) 30,0
Nombres Cáncer (Conceptos) 78,0
Nombres Cáncer (Variaciones) 77,0
Accurancy 75(%)
0
10
20
30
40
50
60
70
80
90
100
Térm
ino
s M
AM
A
Térm
ino
s C
OL
ON
Térm
ino
s A
socia
dos
Co
ncepto
s A
socia
dos
TN
M (
Vari
acio
nes)
TN
M (
Concep
tos)
No
mbre
s C
áncer…
No
mbre
s C
áncer
(Con
ce
pto
s)
Inicial
Revisados
•Por proceso de expresiones regulares
(Empieza con M y termina en un
número)
Mg 10
Mg 8 •Error en tipo de concepto
(Tipo semántico incorrecto)
GII
RE + (100%
Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica
9
Metodología de Implantación proyectos IA Calidad de los Datos Estructurados: Matriz Paciente vs Indicadores
76 Indicadores (39% Completitud, 35% Consistencia)
6.2
58 p
acie
nte
s
Reducimos nuestro conjunto de datos al “n”% de Pacientes
con el 80 % de indicadores relevantes completos
Antes del Análisis de la Calidad de los Datos
La jerarquía en la información
Analítica avanzada sobre la tabla
10
EL PROBLEMA JERÁRQUICO DE LOS DATOS CLÍNICOS Semántica
La Información Clínica es Jerárquica
•Muchos campos poco informados, muy
particulares
•Pocos campos bien informados y
generales.
•Diferentes datos clínicos para cada
paciente
•La variabilidad es enorme.
486 atributos con una
distribución Zipf
11
JERARQUIA DE PERFILES Problemas ETL finales.
Jerarquía de la Información
Paciente: Propiedades Generales
(Edad, Sexo, ….) (CLINIC)
- Diagnósticos (NEOP)
Propiedades (Fecha)
- Acciones
•Tratamiento
(DRUG) •Propiedades
•Procedimiento •Propiedades
•Función Patológica •Propiedades
•Toxicidad •Propiedades
•Ocupación
Biomédica •Propiedades
Digital Model
•Dynamic / Flexible Interoperable
•Archetypes, multi-standard
(Snomed, UMLS, HL7, Mesh, Cie
...)
•Vertical in Context (semantics)
•Scalable and Immediate (Graphs,
non-sql, in-memory ...)
•Knowledge by Layers
•Pointer to other systems
12
THE SEMANTIC PROBLEM
Digital Model. Semantic Database
Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica
Modelo Digital del
Paciente
Un indexador único de la
información
•We need a Graph
model (Semantic
Database)
•The semantic
network is able to
reason
•Not a Relational
Database
13
THE SEMANTIC PROBLEM
VOLUMEN & LINKEDDATA
Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica
Knowledge is not Volumen
Knowledge is in
relationships
The Web as a Database : LinkedData
http://www.linkedlifedata.com/relfinder
Redes Convolucionales
Redes Semánticas
14
Semantic Learning Análisis directo sobre jerarquías de información
15
Redes Semánticas
PERFILADO TRATAMIENTOS
16
PERFILADO NEOP
17
PERFILADO ANALÍTICAS
18
THE SEMANTIC PROBLEM VOLUMEN & LINKEDDATA
Perfiles de
Tratamientos
Perfiles de Diagnósticos
Datos de
Radiología
Datos de
Seguimientos
Datos Generales del
Paciente
Perfiles de Analíticas Datos de DNA-Seq
Recom
endació
n d
e T
rata
mie
nto
s
Inferencia
Inferencia Inferencia
Agregación
Agregación
19
Segmentación de Pacientes II
Anomalías
Profiles (Clustering) Rules (Decision Tree)
Anomalies (LOF)
T1: Tratamientos muy largos en cirugías
/ trucut biopsia / Analgesia /Drenaje
/Anestesia
T2: Tratamientos muy largos en
procesos Tomografia Computerizada
T3: Tratamientos medios en general, y
largos respecto a Edemas y
procedimientos de exploración.
T1: Tratamientos cortos
T2: Tratamientos muy largos sólo
respecto a procedimientos de Márgenes
quirúrgicos, Disección de tejidos,
sangrados y Urología.
T3: Tratamientos muy largos sólo
respecto a tratamientos con
cyclophosphamina, procedimientos de
ileostomía, esplenectomía y amputación
Cluster0: Carcinomas con duración muy larga y neoplasmas secundarios
hepáticos largos (Principalmente Ductal_Carcinoma)
Cluster1: Diagnósticos de corta duración de todo tipo
Cluster2: Adenocarcinomas de duración larga y
neoplasmas secundarios hepáticos largos
Analítica sobre redes Semánticas
RECOMMENDATION OF THERAPEUTIC EFFICIENCY
20
Redes Convolucionadas. Deep Learning
21
Annotation
+
Semantic Relevance
+
Relationships
Profiles and Anomalies
Procesado de Lenguaje Natural en Salud Realidades. Proyecto Hedai. Servicios basados en el conocimiento
Recomendations
Summaries
Recomendaciones IA Efectivas.
Generalidad vs Especificidad.
22
IA en Salud
Process Miining
Perfilado (Clustering)
TextMining
DeepLearning
Semántica
23
www.ibermatica.com/innovacion
Aitor Moreno Fdz. de Leceta
AI Director
¡Muchas gracias!