Connect with us

Hi, what are you looking for?

Tecnología

Es posible traducir idiomas perdidos del pasado

En 1886, el arquéologo británico, Arthur Evans, halló una antigua piedra con una curiosa inscripción en un idioma desconocido.

La piedra venía de la isla de Creta y Evans entonces viajó para buscar más evidencia. Rápidamente halló muchas piedras y tablas de roca con inscripciones similares, que databan del año 1400 AC.

Evans y otros determinaron que las placas de piedra encontradas se escribieron en dos diferentes idiomas. El más viejo, llamado Lineal A, era de entre 1800 y 1400 AC, cuando la isla estaba dominada por la civilización Minoan de la Era de Bronce.

La otra escritura, la Lineal B, era más reciente y aparece sólo después del año 1400 AC, cuando la isla fue conquistada por los Miceaneanos, que venían directamente de Grecia.

El arqueólogo británico, y otros, trataron por muchos años de descifrar lo que decían en esas tablas, pero los lenguajes perdidos se resistían a todos los intentos.

El problema se mantuvo sin solución hasta 1953 cuando un lingüista amateur, Michael Ventris, rompió el código para el lenguaje Lineal B.

Sin embargo, Lineal A se ha mantenido como un gran problema en lingüística hasta ahora.

En el MIT, Jiaming Luo y Regina Barzilay, así como Yuan Cao del Google AI Lab, desarrollaron un sistema de aprendizaje de máquinas capaz de descifrar lenguajes perdidos y ha demostrado poder descifrar Lineal B, haciendo esto por primera vez de forma automática.

¿Cómo funciona el sistema de traducción?

La idea principal en la traducción con máquinas es el entendimiento de que las palabras tienen una relación de unas con otras en modos similares, sin importar el tipo de idioma del que hablemos.

Así entonces, el proceso empieza mapeando esta relaciones para un lenguaje específico. Esto requiere una enorme base de datos de texto en ese particular idioma. Una máquina busca qué tan frecuente aparece cada palabra junto a otra.

Estos patrones de aparición son firmas únicas que definen una palabra en un espacio parametrizado de forma multidimensional.

Así entonces, las palabras pueden pensarse como vectores dentro de ese espacio. Y esto es la clave: cada vector actúa como un restricción poderosa sobre cómo una palabra puede aparecer en la traducción que se haga automáticamente.

Es decir, el vector restringe significativamente el uso de los símbolos asociados al mismo. Una gran idea.

Los vectores, a todo esto, obedecen a ciertas reglas matemáticas simples. Por ejemplo: rey – hombre + mujer = reina. Y la oración puede pensarse como un conjunto de vectores que se siguen unos con otros para formar un tipo de trayectoria único en este espacio.

El punto clave es que, en la traducción automática, las palabras en diferentes lenguajes ocupan los mismo puntos en sus espacios paramétricos respectivos.

Esto hace posible mapear todo un idioma a otro en una correspondencia uno a uno, es decir, a una biyección, como dirían los algebristas.

Curiosamente, con esta forma de traducción, las oraciones son un proceso de encontrar trayectorias similares a través de estos espacios. La máquina no necesita saber lo que significan las oraciones.

El problema más grande (y crucial), es que se requieren de grandes conjuntos de datos.

Sistema mejorado

Hace un par de años, un equipo de investigadores usó un enfoque similar con bases de datos más pequeñas para así traducir idiomas mucho más raros, en donde no había grandes cantidades de datos.

El truco fue entonces encontrar diferentes formas de restringir los vectores sin tener que depender de la base de datos (los textos en ese idioma que se quiere traducir).

Ahora Luo y colegas han ido más lejos, mostrando cómo la traducción de máquinas puede descifrar idiomas que se han perdido totalmente. Las restricciones que se usan son similares a las de los lenguajes conocidos que han evolucionado con el tiempo.

La idea es sencilla pero muy poderosa: todos los idiomas pueden cambiar en solamente unas formas, por ejemplo, los símbolos en los lenguajes relacionados aparecen con distribución similar.

Las palabras relacionadas tienen el mismo orden de caracteres, etcétera. Con estas reglas, la máquina puede descifrar de manera más sencilla los idiomas aunque claro, se necesita conocer un lenguaje que sea el progenitor.

Luo y colegas pusieron a prueba su técnica con dos idiomas perdidos: Lineal B y Ugaritico.

Los lingüistas ya saben que Lineal B se codificó como una versión tempranera de un griego antiguo y que el Ugaritico, descubierto en 1929, es una forma de Hébreo.

El resultado fue una traducción muy precisa: «Pudimos traducir el 67.3% de Lineal B» y agregó Luo: «Nuestro experimento es el primer intento de descifrar Lineal B automáticamente».

Un artículo al respecto puede hallarse en este enlace: Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B.

La entrada Es posible traducir idiomas perdidos del pasado se publicó primero en unocero.

Últimas noticias

Imagen representativa de la vinculación a proceso de 'El Chavo Félix' por la FGR.

Nacionales

🚨 Juan Carlos 'El Chavo Félix', yerno de 'El Mayo' Zambada, vinculado por estupefacientes y armas ⚖️💉🔫 #Justicia #México

Autobús en llamas en carretera con humo negro, reflejando inseguridad urbana. Autobús en llamas en carretera con humo negro, reflejando inseguridad urbana.

Sinaloa

🚨 Gobernador Rocha Moya Refuta Encuesta del 90% de Inseguridad y Resalta Actividad Pública 💪 #SinaloaSeguro #ConfianzaCuliacán

Dos paramédicos de la Cruz Roja Mexicana ingresando a una ambulancia en un día soleado en Sinaloa. Dos paramédicos de la Cruz Roja Mexicana ingresando a una ambulancia en un día soleado en Sinaloa.

Sinaloa

Cruz Roja Sinaloa bajo ataque 🚨💔 ¡Exigimos respeto y apoyo! #CruzRoja #Sinaloa

Selena Gómez con lágrimas en los ojos y el texto 'I'm sorry' en la imagen. Selena Gómez con lágrimas en los ojos y el texto 'I'm sorry' en la imagen.

Internacionales

😭 Selena Gómez Llora por Deportación de Niños Migrantes: "Los Tratan como Delincuentes" 🇲🇽 #Migración #Solidaridad

Jugadores de los Eagles y Chiefs en el campo durante el Super Bowl LIX Jugadores de los Eagles y Chiefs en el campo durante el Super Bowl LIX

Deportes

🔥🏆 ¡Kansas City Chiefs buscan el tricampeonato histórico en el Super Bowl LIX! 🏈✨ #SuperBowlLIX #Chiefs

Escena del crimen en Valle del Carrizo con presencia policial y cinta de acordonamiento. Escena del crimen en Valle del Carrizo con presencia policial y cinta de acordonamiento.

Sinaloa

Asesinan a joven acusado de secuestrar niños con impactante mensaje 📄🔫 #Justicia #Seguridad

Suscríbete y recibe noticias

Tendencia

Culiacán

🚨 Ayúdanos a encontrar a Iván Alfredo Cazares Peña, 37 años 🕵️‍♂️ desaparecido en Culiacán el 08/01/2025 📞 Cualquier info es valiosa #Desaparecido #Culiacán

Culiacán

🚨 Protestas en Sinaloa: Mantas contra Sheinbaum destacan la inseguridad 🔍🛡️ #SinaloaEnCrisis #Seguridad

Culiacán

Trágico Asesinato en Ambulancia: Cruz Roja Culiacán Suspende Ayuda a Víctimas de Balaceras 🚑💔 #Culiacán #Seguridad

Mazatlán

Trágico hallazgo en Mazatlán: Mujer sin vida y signos de violencia investigados 🚨🕵️‍♀️ #Mazatlán #Justicia

Escuinapa

¡Increíble hallazgo! 🦁 Militares descubren león en casa de Escuinapa tras rugido aterrador 🏠🚨 #Escuinapa #NoticiaImpactante

Actualización

🚨⚡️ Atención Mazatlán: Flamingos y Tellería sin luz el 28 de enero por mantenimiento de la CFE 🛠️ #CFE #Mazatlán

Nacionales

💀 56 cuerpos descubiertos en Chihuahua: Operativo militar desmantela La Línea del cartel de Ciudad Juárez 🇲🇽 #Justicia #Seguridad

Mazatlán

¡Triunfo de seguridad en Mazatlán! 🚔🔍 Tragamonedas incautadas y liberados detenidos 🎰🚨 #Seguridad #Mazatlán

×