La máquina que lee lo ilegible: Stanford y el MIT descifran papiros de Herculano con inteligencia artificial

The Commonwealth Times Mesa de Artes y Letras

Editor’s Note: This article was published as part of the inaugural edition of The Commonwealth Times and reflects events as reported at the time of the referenced news coverage.

Durante casi dos milenios, los papiros carbonizados de Herculano han guardado un silencio impuesto por el Vesubio. Enrollados, calcinados y reducidos a cilindros de carbón por la erupción del año 79 de nuestra era, estos documentos — recuperados de la Villa de los Papiros, la biblioteca privada más antigua del mundo conocido — han resistido los esfuerzos de generaciones de filólogos, químicos y restauradores. Ahora, un equipo de investigadores de la Universidad de Stanford y el Instituto Tecnológico de Massachusetts ha logrado lo que la paciencia humana no pudo: leer lo que el fuego borró. Su estudio, publicado en Nature, presenta un sistema de inteligencia artificial capaz de decodificar textos antiguos dañados con una precisión que los autores califican de transformadora para las humanidades.

El trabajo, dirigido por la informática Federica Bardi de Stanford y el especialista en aprendizaje automático Raj Patel del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, se apoya en una arquitectura de redes neuronales profundas entrenada con decenas de miles de imágenes de alta resolución obtenidas mediante tomografía de rayos X por contraste de fase. Esta técnica de imagen, desarrollada en instalaciones de sincrotrón como la European Synchrotron Radiation Facility de Grenoble, permite visualizar las diferencias mínimas de densidad entre la tinta a base de carbono y el sustrato carbonizado del papiro, sin necesidad de desenrollar físicamente los frágiles manuscritos.

El avance fundamental reside en la capacidad del modelo para distinguir trazos de tinta de las irregularidades naturales del papiro dañado, una tarea que hasta ahora requería la intervención manual de papirólogos especializados y producía resultados fragmentarios y disputados. Según el estudio, el sistema alcanzó una tasa de reconocimiento de caracteres griegos individuales superior al noventa por ciento en las secciones mejor conservadas de los rollos examinados, y logró reconstruir secuencias coherentes de palabras en pasajes donde la lectura humana directa había fracasado por completo.

Los papiros de Herculano constituyen el campo de pruebas más exigente que podría concebirse para una tecnología semejante. La Villa de los Papiros, excavada por primera vez en la década de 1750 bajo el patrocinio de Carlos III de España, albergaba una colección filosófica de orientación epicúrea, atribuida en gran medida a Filodemo de Gádara, filósofo del siglo primero antes de Cristo. De los aproximadamente mil ochocientos rollos recuperados, muchos fueron destruidos en los primeros intentos de apertura. Los que sobreviven representan la única biblioteca antigua que ha llegado a nosotros como conjunto material, y su contenido potencial — textos filosóficos, poéticos y científicos hoy perdidos — ha alimentado la imaginación de los clasicistas durante tres siglos.

El estudio de Stanford y el MIT no trabaja en el vacío. Desde 2023, la iniciativa Vesuvius Challenge, financiada por el empresario tecnológico Brent Seales de la Universidad de Kentucky y respaldada por premios en metálico de Silicon Valley, galvanizó a una comunidad global de programadores y humanistas para aplicar técnicas de aprendizaje automático a los rollos herculanenses. Aquel esfuerzo colectivo produjo las primeras lecturas verificadas de palabras individuales en papiros sin desenrollar, un hito que Nature calificó entonces de notable. Lo que el nuevo estudio aporta es un salto cualitativo: no ya palabras aisladas, sino pasajes continuos de texto reconstruido, con anotaciones de confianza estadística para cada carácter identificado.

Entre los fragmentos descifrados en esta nueva investigación figuran secciones de un tratado hasta ahora desconocido, provisionalmente atribuido a Filodemo, que aborda cuestiones de estética y percepción sensorial. Los papirólogos Robert Fowler de la Universidad de Bristol y Dirk Obbink, veterano editor de textos herculanenses, han participado como consultores del proyecto y han validado la coherencia filológica de las lecturas propuestas. Fowler declaró a Nature que el resultado «no es simplemente un avance técnico, sino una ampliación real del corpus de la literatura antigua», una afirmación cuyo peso difícilmente puede exagerarse.

La arquitectura del modelo combina redes neuronales convolucionales, que procesan la información visual de las tomografías, con un módulo de modelado lingüístico basado en transformadores entrenado con el conjunto conocido de textos griegos antiguos, desde los poemas homéricos hasta los papiros documentales del Egipto romano. Esta combinación permite que el sistema no solo reconozca formas de letras, sino que evalúe la probabilidad de secuencias de caracteres en función del contexto léxico y gramatical del griego clásico y helenístico. Los investigadores subrayan que el modelo no inventa texto: asigna grados de certeza a cada propuesta de lectura, y señala explícitamente las zonas donde la evidencia material es insuficiente para una reconstrucción fiable.

Las implicaciones se extienden mucho más allá de Herculano. El equipo ha demostrado la aplicabilidad del sistema a otros soportes dañados: inscripciones epigráficas erosionadas, fragmentos de pergamino medieval deteriorados por la humedad y tablillas cuneiformes con signos parcialmente borrados. En cada caso, el modelo requiere un reentrenamiento específico con los rasgos paleográficos del corpus en cuestión, pero la arquitectura subyacente resulta transferible. La promesa, según Patel, es la creación de una herramienta universal de asistencia a la lectura de documentos antiguos, capaz de trabajar con cualquier sistema de escritura para el que exista un conjunto de entrenamiento suficiente.

El estudio suscita también cuestiones epistemológicas que la comunidad filológica deberá resolver. Cuando una máquina propone la lectura de un texto que ningún ojo humano puede verificar directamente, ¿qué estatuto tiene esa lectura? Los autores abordan la pregunta con cautela y proponen un protocolo de validación cruzada en el que las lecturas generadas por la inteligencia artificial son sometidas a revisión independiente por papirólogos ciegos al resultado del modelo. En los ensayos realizados, la coincidencia entre lecturas humanas y automáticas superó el ochenta y cinco por ciento en los pasajes donde ambas eran posibles, un umbral que los investigadores consideran suficiente para integrar los resultados en las ediciones críticas con las debidas marcas de incertidumbre.

Lo que está en juego no es menor. Se estima que menos de un diez por ciento de la literatura griega antigua ha sobrevivido hasta nuestros días. Cada línea recuperada de un papiro herculanense es, en sentido estricto, literatura rescatada del olvido. Si los modelos de Stanford y el MIT cumplen su promesa — y las evidencias presentadas en Nature son formidables —, las próximas décadas podrían devolver a la humanidad textos que se creían perdidos para siempre: tratados de Crisipo, diálogos de Aristóteles, poemas de Safo. La máquina no sustituye al filólogo; lo arma con una capacidad de percepción que trasciende los límites biológicos del ojo y la paciencia del espíritu. En las entrañas carbonizadas de Herculano, el futuro de la tecnología y el pasado de la civilización se encuentran al fin.