Xiaomi desarrolla una tecnología de voz propia para ayudar a las personas con trastornos del habla

Xiaomi desarrolla una tecnología de voz propia para ayudar a las personas con trastornos del habla

Xiaomi ha presentado su última aplicación de algoritmos avanzados y tecnología de voz de desarrollo propio para aplicarla al campo de la accesibilidad. La tecnología Text-To-Speech, desarrollada por Xiaomi AI Lab, permite generar una voz única y personalizada para usuarios con trastornos del habla.

Gracias a estos avances, los usuarios pueden comunicarse utilizando «su propia voz», en lugar de la típica y monótona voz electrónica. El proyecto de pre investigación «Own My Voice», dirigido por el Comité Técnico de Xiaomi, este exitoso avance demuestra el compromiso de Xiaomi con «Tech for Good» y con la consecución de su misión de «ofrecer la posibilidad de que todos disfruten de una vida mejor a través de la innovación tecnológica».

Para generar la voz más adecuada y personalizada para el destinatario, el equipo del proyecto reclutó a más de 200 voluntarios de Xiaomi para que “donaran sus voces”. Utilizaron el algoritmo de coincidencia de la huella vocal para comparar las características de las voces de los voluntarios con las de la voz del receptor. De este modo, encontraron la voz más adecuada como sonido básico de referencia para el destinatario. Teniendo en cuenta la personalización y la protección de la privacidad, la voz real elegida se manipuló con una compleja modificación acústica para formar un sonido de voz nuevo y original.

Después utilizaron la tecnología Text-To-Speech para entrenar el modelo de IA, haciendo que esta nueva voz adquiriera gradualmente un ritmo y una entonación naturales que pudieran expresar con veracidad la emoción y el tono de un ser humano.

El proyecto «Own My Voice» combina los algoritmos más avanzados con la tecnología de voz desarrollada por Xiaomi para garantizar la especificidad, seguridad y autenticidad de la voz sintetizada, creando una nueva idea de síntesis de voz personalizada para los usuarios con trastornos del habla.

La tecnología Text-To-Speech de estilo espontáneo hace que la voz sintetizada se parezca a la de un humano real en su entonación, pausa, velocidad y otras características. Así se sustituye la sensación monótona y antinatural de la voz electrónica por otra más natural. Actualmente, esta tecnología se aplica a muchos dispositivos inteligentes equipados con Xiao AI, el asistente de voz de IA de Xiaomi. El proyecto «Own My Voice» demuestra que la tecnología de texto a voz de estilo espontáneo también puede adoptarse ampliamente en áreas de accesibilidad y mejorar la experiencia del usuario.

Sobre el autor