Sign2Text: Transcripción automática de lenguaje de signos a nivel de palabra utilizando técnicas de inteligencia artificial

Descripción del proyecto y objetivo a conseguir

La lengua de signos es una lengua natural de expresión gestual, gracias a la cual las personas con discapacidades auditivas pueden establecer un canal de comunicación con su entorno social, sea éste conformado por otras personas con problemas auditivos o por cualquier persona que conozca la lengua de signos empleada. Dicha lengua es específica para cada idioma y además puede ser utilizada a nivel de letra (un signo diferente para cada carácter) o a nivel de palabra, caso en el que la persona utiliza un único gesto complejo desarrollado a lo largo de un periodo de tiempo para expresar un concepto o idea.

Aunque ya existen transcriptores automáticos a nivel de letra y algunas aproximaciones para hacerlo a nivel de palabra, es esta segunda forma la que los usuarios de la lengua de signos utilizan para comunicarse normalmente, y resulta muy interesante explorar más la trascripción automática de este tipo de expresión.

El Trabajo Fin de Grado consiste en la creación de un sistema de inteligencia artificial (redes neuronales, Deep Learning, procesado de imagen y vídeo) que sea capaz de interpretar una secuencia de vídeo de una persona comunicándose en lengua de signos y transcribir a texto las palabras que está utilizando.

En el caso de la lengua de signos americana a nivel de palabra (WLASL), existe un dataset muy completo con miles de secuencias cortas de vídeo disponible para su descarga. En este TFG, se podrá procesar dicho dataset (eliminar entradas no disponibles, adaptar los vídeos, asociar cada palabra a un conjunto de archivos, etc) y utilizarlo para entrenar una red neuronal que sea capaz de aprender qué gestos se asocian a cada palabra en concreto. Para esto será necesario utilizar técnicas de Deep Learning como transformers, LSTM, procesado 3D (dos dimensiones para la imagen y una para el tiempo), etc. También cabe la posibilidad de utilizar otro dataset (en otro idioma o con otras características) si así se desea.

Opcionalmente, se puede proporcionar una aplicación (línea de comandos, aplicación web, aplicación móvil, etc.) para procesar vídeos en tiempo real.

Funciones a realizar

Investigar las tecnologías que se usarán.
Desarrollar el análisis, diseño, implementación, pruebas y puesta en funcionamiento de la aplicación.

Tecnologías a utilizar

Python
PyTorch
OpenCV

Palabras clave

Sign language, Deep Learning, Video processing

Tutores

Alejandro de la Calle Negro, María Iglesias Veiga, Pablo Rubio Fernández (HP SCDS)
Raquel Blanco Aguirre (Universidad de Oviedo)

Volver al listado