Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Computación y lenguaje# Aprendizaje automático# Sonido

Mejorando la ASR en Salud con Clinical BERTScore

Una nueva métrica mejora la evaluación del rendimiento de ASR para la precisión de la transcripción médica.

― 7 minilectura


Reinventando el ASR paraReinventando el ASR parauso médicosalud.del reconocimiento de voz en el sectorUna nueva métrica mejora la precisión
Tabla de contenidos

El Reconocimiento Automático de Voz (ASR) es una herramienta que puede ayudar a los doctores al convertir sus palabras habladas en informes escritos. Esto puede ahorrar tiempo, reducir costos, hacer que los informes sean más precisos y ayudar a evitar el agotamiento entre los médicos. Sin embargo, hacer que el ASR funcione bien en hospitales y clínicas ha sido un desafío debido a la falta de datos de voz médica. Por eso, mejorar los modelos de ASR para el campo médico es importante.

Al evaluar qué tan bien funciona el ASR, es esencial tener formas especializadas para evaluarlo que consideren las necesidades de los profesionales de la salud. Este artículo presenta un nuevo método llamado Clinical BERTScore, o CBERTScore, que mide el rendimiento del ASR en entornos médicos. Se enfoca más en errores clínicamente relevantes en comparación con medidas tradicionales como la Tasa de Error de Palabras (WER) y BLEU. Se creó un nuevo conjunto de 149 oraciones médicas y fue evaluado por 13 doctores, proporcionando un punto de referencia para futuros estudios.

Por qué el ASR es importante en la salud

Los doctores a menudo pasan mucho tiempo en papeleo, a veces igual que el tiempo que pasan con los pacientes. Esto puede llevar a estrés y agotamiento. El ASR tiene la capacidad de cambiar esto al crear rápidamente documentos de visitas y consultas de pacientes. También puede ayudar a los pacientes que tienen problemas para hablar a comunicarse mejor y ayudar en el diagnóstico de condiciones médicas usando patrones de voz.

A pesar de sus beneficios potenciales, el ASR no se ha adoptado ampliamente en el campo médico. Una razón es que los errores en la transcripción médica pueden tener consecuencias graves. Por lo tanto, es crucial tener formas efectivas de evaluar qué tan bien funcionan los sistemas de ASR en situaciones médicas reales.

Métricas tradicionales para la evaluación de ASR

La medida más común para evaluar el rendimiento del ASR es la Tasa de Error de Palabras (WER). Esta métrica cuenta cuántas palabras se han añadido, eliminado o reemplazado en la transcripción y las compara con el texto original. Sin embargo, WER trata todos los errores por igual, lo cual no funciona bien en el ámbito de la salud. Por ejemplo, confundir "tuvo resección completa" con "tuvo cesárea completa" es un error mucho peor que decir "tiene resección completa", pero WER consideraría estos errores igual de significativos.

Otras medidas como BLEU y METEOR también intentan evaluar la calidad de las transcripciones, pero se centran principalmente en cuán similares son las cadenas de texto en lugar de su significado. Estos enfoques a menudo quedan cortos en contextos médicos donde ciertas palabras tienen más peso que otras.

Introduciendo Clinical BERTScore

Clinical BERTScore combina ideas de BERTScore, un modelo más reciente que se centra en el significado detrás de las palabras en lugar de solo su disposición, con conocimientos de una base de datos médica. Al usar un modelo entrenado en textos médicos, CBERTScore mejora la evaluación de la salida del ASR, enfocándose específicamente en los términos cruciales en la atención médica.

CBERTScore funciona calculando qué tan bien una transcripción generada por ASR coincide con una oración médica adecuada, teniendo en cuenta la importancia de los términos médicos. Si ni las transcripciones de referencia ni las generadas contienen términos médicos, CBERTScore recurre al BERTScore estándar.

Creando el conjunto de datos de Preferencias de Transcripción de Clínicos (CTP)

Para crear un método de evaluación confiable, se compiló un conjunto de datos llamado Preferencias de Transcripción de Clínicos (CTP). Esto implicó enviar encuestas a clínicos para recopilar sus opiniones sobre varias oraciones médicas y posibles errores en las transcripciones. Un total de 150 oraciones fueron evaluadas, y se recogieron comentarios de 18 clínicos para determinar qué errores eran más importantes en la práctica clínica real.

La encuesta preguntó a los participantes que seleccionaran cuál de dos transcripciones era menos útil o si pensaban que eran igualmente útiles. Este feedback es invaluable para refinar y mejorar los sistemas de ASR en la atención médica.

Cómo se compara CBERTScore con otras métricas

Al comparar CBERTScore con métricas tradicionales como WER y BLEU, mostró una mayor alineación con las preferencias de los clínicos. En estudios, se encontró que CBERTScore tenía un mejor rendimiento al evaluar oraciones médicas, a veces de manera significativa. En casos donde los términos médicos tuvieron más peso, CBERTScore superó otras medidas y demostró que podía reflejar con precisión las prioridades de los clínicos.

Cuando se probó con texto no médico, CBERTScore aún tuvo un buen rendimiento, demostrando que no pierde efectividad fuera del contexto médico.

Entendiendo el impacto de los términos médicos clave

En el desarrollo de CBERTScore, se prestó atención a identificar unas 20,000 palabras relevantes médicamente utilizando una base de datos de conocimientos médicos. Este conjunto de palabras ayuda a asegurar que los términos más cruciales en la atención médica sean evaluados adecuadamente. Se descubrió que muchas de las palabras en las transcripciones que llevaron a errores también eran parte de esta lista de relevancia médica.

A partir de los datos recopilados, quedó claro que la presencia de términos médicos clave impacta enormemente en los resultados de las transcripciones de ASR. Los clínicos a menudo señalaron que las transcripciones incorrectas de estos términos podrían llevar a malentendidos o problemas graves.

Evaluando el rendimiento en el conjunto de datos CTP

El rendimiento de CBERTScore se evaluó utilizando el conjunto de datos CTP y mostró resultados prometedores que superaron las métricas convencionales de ASR. El método de evaluación implicó comparar la precisión de cada métrica basada en el feedback de los clínicos, enfocándose en dos enfoques de etiquetado específicos: uno que requería un acuerdo mayoritario y otro para aquellos con fuerte consenso.

Hallazgos importantes mostraron que CBERTScore, especialmente al enfatizar los términos médicos, a menudo tenía una mayor precisión al coincidir con los juicios de los clínicos. Este enfoque en destacar las palabras médicas relevantes mejoró significativamente su rendimiento sobre las métricas estándar.

Conclusión

La introducción de Clinical BERTScore representa un avance en la medición de la efectividad de los sistemas de reconocimiento automático de voz en la atención médica. Al priorizar términos médicamente significativos, esta nueva métrica se alinea mejor con las necesidades y preferencias de los clínicos. La publicación pública del conjunto de datos de Preferencias de Transcripción de Clínicos también fomenta más investigación y mejora en el campo del ASR.

A medida que la atención médica continúa evolucionando e integrando más tecnología, herramientas como CBERTScore serán vitales para asegurar que el reconocimiento automático de voz no solo ahorre tiempo y reduzca errores, sino que también mejore la calidad general de la atención al paciente. Al enfocarse en las demandas únicas del campo médico, esta métrica proporciona un recurso valioso para desarrollar sistemas de transcripción más efectivos que beneficien tanto a los clínicos como a sus pacientes.

Fuente original

Título: Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings

Resumen: Automatic Speech Recognition (ASR) in medical contexts has the potential to save time, cut costs, increase report accuracy, and reduce physician burnout. However, the healthcare industry has been slower to adopt this technology, in part due to the importance of avoiding medically-relevant transcription mistakes. In this work, we present the Clinical BERTScore (CBERTScore), an ASR metric that penalizes clinically-relevant mistakes more than others. We demonstrate that this metric more closely aligns with clinician preferences on medical sentences as compared to other metrics (WER, BLUE, METEOR, etc), sometimes by wide margins. We collect a benchmark of 18 clinician preferences on 149 realistic medical sentences called the Clinician Transcript Preference benchmark (CTP) and make it publicly available for the community to further develop clinically-aware ASR metrics. To our knowledge, this is the first public dataset of its kind. We demonstrate that CBERTScore more closely matches what clinicians prefer.

Autores: Joel Shor, Ruyue Agnes Bi, Subhashini Venugopalan, Steven Ibara, Roman Goldenberg, Ehud Rivlin

Última actualización: 2023-04-28 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.05737

Fuente PDF: https://arxiv.org/pdf/2303.05737

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares