Tecnologías del Lenguaje Natural, en el ámbito de la biomedicina más allá del inglés ~ Innovación

"Estaba una señora sentada sola en la mesa de un restaurante, y tras leer la carta decidió pedir una apetitosa sopa en la que se había fijado.

El camarero, muy amable le sirvió el plato a la mujer y siguió haciendo su trabajo. Cuando éste volvió a pasar cerca de la señora ésta le hizo un gesto y rápidamente el camarero fue hacia la mesa.

– ¿Qué desea, señora?
– Quiero que pruebe la sopa.

El camarero, sorprendido, reaccionó rápidamente con amabilidad, preguntando a la señora si la sopa no estaba rica o no le gustaba.

– No es eso, quiero que pruebe la sopa.

Tras pensarlo un poco más, en cuestión de segundos el camarero imaginó que posiblemente el problema era que la sopa estaría algo fría y no dudó en decirlo a la mujer, en parte disculpándose y en parte preguntando.

– Quizás es que esté fría señora. No se preocupe, que le cambio la sopa sin ningún problema…
– La sopa no está fría. ¿Podría probarla, por favor?

El camarero, desconcertado, dejó atrás la amabilidad y se concentró en resolver la situación. No era de recibo probar la comida de los clientes, pero la mujer insistía y a él ya no se le ocurrían más opciones. ¿Qué le pasaba a la sopa? Lanzó su último cartucho:

– Señora, dígame qué ocurre. Si la sopa no está mala y no está fría, dígame qué pasa y si es necesario, le cambio el plato.
– Por favor, discúlpeme pero he de insistir en que si quiere saber qué le pasa a la sopa, sólo tiene que probarla.

Finalmente, ante la petición tan rotunda de la señora, el camarero accedió a probar la sopa. Se sentó por un momento junto a ella en la mesa y alcanzó el plato el plato de sopa. Al ir a coger una cuchara, echó la vista a un lado y otro de la mesa, pero… no había cucharas. Antes de que pudiera reaccionar, la mujer sentenció:

– ¿Lo ve? Falta la cuchara. Eso es lo que le pasa a la sopa, que no me la puedo comer."

Este relato de Jorge Bucay, nos sirve como preámbulo para profundizar en la dificultad de la comunicación entre las personas y finaliza con la investigación en el ámbito del Codvid-19.

El lenguaje natural es “no controlado” y por lo tanto supone un gran el reto de innovación llevar este conocimiento a los procesos de computación. El objetivo es encontrar mecanismos computacionales que permitan reconocer, comprender y generar el lenguaje natural, permitiendo tratarlo automáticamente para analizarlo, interpretarlo y generarlo.

Hoy os traemos una entrevista a la Dra. Arantza del Pozo Echezarreta, Directora de Tecnologías del Habla y del Lenguaje Natural en el centro tecnológico Vicomtech.

Para ir aproximando los conceptos, ¿ Como se encuentra el estado del arte en el Procesamiento del Lenguaje Natural a nivel internacional respecto al nacional, hay mucha diferencia en las capacidades sobre el Inglés, respecto a Castellano ?

Podemos decir que es comparable. Debido a su naturaleza internacional, el inglés se emplea con mayor frecuencia en el ámbito de la investigación en Procesamiento del Lenguaje Natural, lo que hace que existan más recursos lingüísticos públicos disponibles para ese idioma. Pero el español es el segundo idioma en número de hablantes nativos, detrás del chino mandarín, lo que ha impulsado el desarrollo tanto de recursos como de herramientas de Procesamiento de Lenguaje Natural para español, debido a su mercado potencial.

Si nos adentramos en el ámbito de la Analítica de Textos Multilingües, ¿ Como de maduras se encuentran las tecnologías del lenguaje (TL) en función de que hablemos de Inglés, Castellano o lenguas autonómicas como el Euskera ?

Las técnicas que se emplean para analizar textos multilingües se basan hoy en día en el aprendizaje automático y, más recientemente, en el aprendizaje profundo o deep learning. En este contexto, las arquitecturas utilizadas son independientes del idioma, pero los datos con los que se entrenan sí que dependen del idioma que se quiera analizar. Por eso, los datos o recursos lingüísticos tienen un papel clave en el desarrollo de aplicaciones de Analítica de Textos Multilingües en la actualidad. Debido a su número de hablantes, la cantidad de recursos disponibles para inglés o español es más elevada que para el euskera, que es considerado idioma de pocos recursos. Aún así, la comunidad científica de Procesamiento de Lenguaje Natural vasca está realizando un esfuerzo importante para compilar los datos necesarios para que el euskera pueda estar al nivel de los otros idiomas. Y se están obteniendo muy buenos resultados en varios ámbitos de aplicación, como la traducción(1) o la transcripción(2) automáticas.

Cuando nos adentramos en un ámbito de aplicación concreto como es el Biomédico, ¿ Que importancia tiene disponer de sistemas adaptados y especializados en el campo en el que nos encontremos? ¿ Es necesario disponer de un sistema de terminología, en la especialidad médica de la que se trate, como puede ser los dominios de Oncología, Radioterapia, Infección Nosocomial, Alzheimer,etc...?

El concepto de “dominio” es muy importante en el ámbito del Procesamiento de Lenguaje Natural. Y es que la terminología y las estructuras lingüísticas empleadas dependen mucho del dominio de aplicación: artículos periodísticos, textos legales, notas clínicas, informes de mantenimiento, etc. contienen vocabularios y tipos de frases muy diferentes. En general, los humanos somos capaces de entender con facilidad textos de dominios más generalistas como las noticias, pero necesitamos conocimiento específico del dominio para entender textos legales o informes clínicos. Lo mismo les ocurre a las máquinas. Para poder procesar textos Biomédicos con precisión, es clave disponer de terminología y datos del dominio para poder adaptar la tecnología al ámbito de aplicación. El dominio Biomédico es además más complejo que otros dominios, ya que cada especialidad médica cuenta con su terminología y vocabulario particulares. Cuanto más se adapte la tecnología al dominio específico de aplicación, mejores resultados se obtendrán.

Dado el alcance que tiene el inglés en el campo Biomédico ¿ Hoy en día se pueden tratar textos médicos en castellano con una alto grado de fiabilidad ?

A diferencia del ámbito más generalista en el que la fiabilidad del procesamiento del inglés y el español puede considerarse comparable, en el campo Biomédico el inglés le lleva la delantera no sólo (3) o el CIE(4). El Metatesauro UMLS(5) (del inglés, Unified Medical Language System) aglutina las distintas terminologías médicas estándar disponibles y consta de 2.8 millones de términos en inglés pero solo el 12% se encuentran para español, que es el segundo idioma con mayor representación. El resto de idiomas cuenta sólo con hasta un 3% de representación, en el mejor de los casos. Por este motivo, hoy en día se requiere de un mayor esfuerzo de desarrollo y expansión terminológica a la hora de implementar tecnología de procesamiento de textos médicos en español. Sin embargo, cuando se llevan a cabo dichas tareas para los dominios de aplicación en cuestión, la fiabilidad del procesamiento de textos clínicos en español es elevada..
al español, sino al resto de idiomas en general. La comunidad médica internacional ha realizado un esfuerzo importante en la estandarización de la terminología médica, definiendo estándares que se pueden emplear para intercambiar datos clínicos con propósitos de investigación médica. Algunos de los estándares más conocidos son el SNOMED-CT

El lenguaje utilizado en la práctica clínica es complejo, en algunos casos ese un lenguaje ambiguo, muy dependiente del contexto, expresivo, se usan abreviaturas sin su forma extendida, ¿ Se pueden aplicar la tecnologías del lenguaje natural (TL) a esta casuística concreta, con efectividad ?

Las herramientas de procesamiento de textos clínicos han de tener en cuenta las características particulares del dominio: alto porcentaje de errores orto-tipográficos, número elevado de abreviaturas dependientes del contexto y especialidad de aplicación, presencia de atributos ligados a la negación o (6) o en la detección de negación en informes clínicos(7) a través de competiciones internacionales. Por lo tanto, podemos decir que se está trabajando en del desarrollo de tecnologías del lenguaje natural para procesar la complejidad de los textos clínicos con efectividad.
la especulación y, tal y como hemos mencionado antes, la terminología específica de cada especialidad clínica en cuestión. Para lidiar con estos retos, se han de implementar módulos tecnológicos capaces de gestionarlos. La comunidad científica está avanzando rápida y considerablemente en el desarrollo de técnicas de detección y desambiguación de abreviaturas

Si damos un paso más allá de los ensayos clínicos y alineamos los desarrollos tecnológicos, en el ámbito de la práctica clínica y con el Real World Data (RWD), ¿ Cómo nos ayudas la tecnologías del lenguaje? ¿ Que casos de uso son de aplicación en el contexto de RWD ?

El Real World Data es información capturada como subproducto de la atención diaria al paciente, que complementa a los ensayos clínicos randomizados para el desarrollo de fármacos. Una fuente

importante de información RWD son los registros de salud electrónicos de los pacientes, los foros o las redes sociales, en los que el 80% de la información clínica se encuentra en forma de texto libre no estructurado y difícil de explotar electrónicamente. Las tecnologías del lenguaje nos permiten estructurar dicha información, p.ej. identificando automáticamente síntomas, patologías, fármacos y/o efectos adversos, convirtiendo los textos clínicos en inteligencia procesable para tomar decisiones. Algunos casos de uso de aplicación en el contexto de RWD son: la detección de desviaciones en protocolos de ensayos clínicos, el análisis de los sentimientos de los pacientes o la identificación de la satisfacción y resultados de los tratamientos, entre otros.

Para finalizar, nos gustaría conocer ¿ Como nos encontramos respecto a la Medicina predictiva ? ¿Disponemos de la tecnología necesaria para su implementaciones basada en TL ? ¿ Cual es tu previsión de los campos Biomédicos que más van a evolucionar en el corto plazo ?

Se están dando pasos hacia la incorporación de las Tecnologías del Lenguaje en las aplicaciones de Medicina Predictiva. A pesar de que todavía estamos lejos de poder analizar cualquier tipo de texto clínico en español de forma precisa y fiable, el estado del arte permite obtener buenos resultados en nichos específicos de aplicación. Ya estamos desarrollando aplicaciones de Medicina Predictiva basadas en TL relacionadas con la investigación clínica en especialidades como la anatomía patológica o la salud mental y, en los próximos meses, esperamos poder avanzar significativamente también en la investigación y el análisis predictivo del Covid-19.

Agradecer a la Dra. Arantza del Pozo Echezarreta, Directora de Tecnologías del Habla y del Lenguaje Natural en el centro tecnológico Vicomtech. por compartir su experiencia.

Fuentes:

1 https://www.batua.eus

2 https://www.irekia.euskadi.eus/eu/web_tv/closed_captions

3 http://www.snomed.org

4 https://www.who.int/classifications/icd/en/

5 https://www.nlm.nih.gov/research/umls/index.html

6 https://temu.bsc.es/BARR2/

7 http://www.sepln.org/workshops/neges2019/index.php?lang=es