Computación y Lingüística

Herramientas digitales para la investigación

J. P. Pérez-Tejada

¿Cómo las herramientas digitales ayudan a la investigación lingüística?

Las preguntas fundamentales sobre el lenguaje son antiguas.

No han cambiado las preguntas, sino las herramientas para responderlas.

Cuatro ejes

Objetivos de investigación

  • Analizar textos
  • Modelar el lenguaje
  • Simular el habla
  • Procesar lenguaje

Líneas de investigación

  • Humanidades digitales
  • Lingüística computacional
  • Síntesis de voz / GenAI
  • PLN (NLP)

Analizar Textos

La concordancia manual

Hugo de de Sancto Charo (1230)

Alexander Cruden (1737)

A Complete Concordance to the Holy Scriptures

  • Trabajó solo
  • 7am a 1pm cada día
  • Menos de 1 año para el trabajo principal
  • 1,340 páginas indexando cada palabra significativa

Rabino Mordecai Nathan (1448)

  • Concordancia del Tanaj (Biblia hebrea)
  • 10 años de trabajo
  • Meʾir Netiv (“Sendero de Luz”)

El salto computacional

1949: Roberto Busa + IBM

  • Index Thomisticus (11 millones de palabras)
  • Tarjetas perforadas → 30 años
  • Lo que habría tomado siglos manualmente

Modelar el Lenguaje

Gramáticas formales

Pāṇini (c. 500 a.C.)

Aṣṭādhyāyī (“Ocho Capítulos”)

  • 3,959 reglas para generar todas las oraciones posibles en sánscrito
  • Conceptos de fonema, morfema, raíz
  • Metareglas, transformaciones, recursión
  • Comparación con máquina de Turing

Manuscrito del Aṣṭādhyāyī

Pāṇini y la computación moderna

Su sistema tiene poder computacional equivalente a una máquina de Turing

Influyó en:

  • Ferdinand de Saussure
  • Leonard Bloomfield
  • Noam Chomsky
  • Backus-Naur Form (BNF)
  • Teoría de lenguajes formales

Replicar el Lenguaje

Máquinas parlantes

Wolfgang von Kempelen (1769-1791)

  • 20 años de desarrollo
  • Sistema mecánico:
    • Fuelles (pulmones)
    • Lengüeta (cuerdas vocales)
    • Embudo de goma (boca)
    • Controles manuales
  • Podía hablar francés, italiano, inglés
  • Sonaba como voz de niño

La máquina parlante

Mechanismus der menschlichen Sprache (1791)

Diagrama de la máquina

El legado de von Kempelen

Influenció a:

  • Charles Wheatstone (1835) - réplica mejorada
  • Alexander Graham Bell - vio la réplica, construyó la suya
    • Eventualmente inventó el teléfono (1876)

Hoy: De lo mecánico a lo digital

  • Síntesis de voz (TTS)
  • Asistentes virtuales (Siri, Alexa)
  • IA Generativa (ChatGPT, Claude)

La pregunta sigue siendo la misma: ¿Podemos replicar artificialmente el habla humana?

Procesamiento del Lenguaje

Antes de la computación

Los precursores

  • Diccionarios multilingües
  • Métodos de gramática-traducción
  • Lenguas universales (Esperanto, 1887)

El sueño: traducción automática

El problema: Sin las herramientas computacionales, era imposible

La Era Computacional

El salto cuántico

Línea de tiempo

Antes de la computación:

  • 500 a.C.: Pāṇini - gramática formal
  • 1230: Concordancia bíblica (500 monjes)
  • 1448: Nathan - concordancia hebrea (10 años)
  • 1737: Cruden - concordancia inglesa (1 año)
  • 1791: von Kempelen - máquina parlante (20 años)

Con computación:

  • 1949: Busa + IBM
  • 1954: Experimento Georgetown
  • 1966: ELIZA
  • 1990s: Revolución estadística
  • 2020s: LLMs (ChatGPT)

El patrón

Los pioneros pre-computacionales pasaron décadas en tareas que les tomaron vidas enteras:

  • Cruden: 1 año en un libro
  • Pāṇini: su vida formalizando un idioma
  • von Kempelen: 20 años en una máquina que hablaba como niño

Lo que cambió

La computación no cambió las preguntas

Cambió lo que es posible responder

  • Analizar textos → a escala masiva
  • Modelar lenguaje → con millones de parámetros
  • Replicar habla → indistinguible de humanos
  • Procesar lenguaje → en tiempo real

Future of linguistics

The future of linguistics is not in philosophy, from which it is emerging, but in standard science, into which it can now move with confidence. This requires that linguistics finally recognize that the true object of study of a scientific linguist is the people that speak and understand and communicate in other ways, and other relevant aspects of the real world. (Yngve, 2000, p. 69)

Por eso necesitas programación

No para hacer preguntas nuevas

Sino para finalmente responder las antiguas

Fundamentos:

  • Programación
  • Bases de datos
  • Estructuras de datos

Aplicaciones:

  • Corpus linguistics
  • PLN
  • Humanidades digitales

Futuro:

  • IA para lingüística
  • Análisis a gran escala
  • Nuevas herramientas

Referencias principales

  • Bloomfield, L. (1929). Review of Liebich: Konkordanz Pāṇini-Candra. Language, 5(4), 267-276.
  • Busa, R. (1980). The Annals of Humanities Computing. Computers and the Humanities, 14(2), 83-90.
  • Cardona, G. (1997). Pāṇini: His Work and its Traditions. Motilal Banarsidass.
  • Hockey, S. (2004). The History of Humanities Computing. In S. Schreibman et al. (Eds.), A Companion to Digital Humanities. Blackwell.
  • Jones, S. E. (2016). Roberto Busa, S.J., and the Emergence of Humanities Computing. Routledge.
  • Kiparsky, P. (2009). On the Architecture of Pāṇini’s Grammar. In Sanskrit Computational Linguistics. Springer.
  • Norvig, P. (2011). On Chomsky and the Two Cultures of Statistical Learning. http://norvig.com/chomsky.html
  • von Kempelen, W. (1791). Mechanismus der menschlichen Sprache. J. V. Degen.

¡Comencemos!

Este curso te enseñará:

Las herramientas computacionales fundamentales para participar en esta transformación