Herramientas Digitales para Lingüística

Materia Optativa

Imparte: J. P. Pérez-Tejada

Duración: 1 semestre (16 semanas)
Formato: 1 sesión semanal de 4 horas
Total: 64 horas

Descripción del Curso

Este curso introduce a los estudiantes de lingüística en el uso de herramientas digitales y computacionales aplicadas a la investigación lingüística. Los participantes aprenderán fundamentos de programación, manejo de datos y técnicas computacionales que les permitirán abordar datos lingüísticos de manera sistemática y escalable.

Más Allá de la Lingüística

Las herramientas y metodologías de este curso también serán útiles para estudiantes de otras disciplinas interesados en humanidades digitales, netnografías, análisis de documentos o cualquier otra área de investigación que requiera procesar y analizar materiales digitalizados.

📚 Antropología y Etnología

Análisis de entrevistas etnográficas, procesamiento de notas de campo, análisis de redes sociales digitales, y estudio de comunidades en línea.

🏛️ Historia y Etnohistoria

Análisis de corpus históricos, estudios diacrónicos con embeddings, minería de datos en fuentes primarias.

En todas estas disciplinas, la capacidad de procesar grandes volúmenes de información, automatizar tareas repetitivas, gestionar datos de manera sistemática y aplicar análisis computacionales representa una ventaja competitiva fundamental en la investigación del siglo XXI.

Aprende

💻 Fundamentos de Programación

Aplicar conocimientos básicos de programación en Python siguiendo buenas prácticas de codificación

🔄 Control de Versiones

Utilizar sistemas de control de versiones (Git y GitHub) para gestionar proyectos de investigación

📊 Bases de Datos

Consultar y gestionar bases de datos utilizando SQL básico y la librería Pandas

🌐 APIs y Datos Web

Obtener datos de APIs REST, específicamente WikiData y Mastodon

📖 Procesamiento de Lenguaje Natural

Aplicar técnicas de distant reading y análisis de concordancias a corpus textuales

🧠 Potenciales Usos en la Investigación

Explorar trabajos de investigación que se apoyaron en herramientas digitales.

Contenido del Curso

1 Fundamentos de Programación con Python

Semanas 1-4 (16 horas)
  • Introducción al curso y pensamiento computacional
  • Variables, tipos de datos y estructuras de control
  • Listas, tuplas, diccionarios y bucles
  • Funciones, buenas prácticas y depuración de código

2 Control de Versiones y Colaboración

Semanas 5-6 (8 horas)
  • Introducción a Git: repositorio, commit, branch
  • GitHub y colaboración remota
  • Documentación de proyectos y trabajo en equipo

3 Tipos de Datos y su Procesamiento

Semanas 7-8 (8 horas)
  • Lectura y escritura de archivos de texto
  • Encodings y expresiones regulares
  • Formatos estructurados: JSON, XML, CSV
  • Proyecto Parcial: Corpus anotado

4 Bases de Datos y Pandas

Semanas 9-10 (8 horas)
  • Introducción a SQL y bases de datos relacionales
  • Queries básicas y joins
  • Librería Pandas: DataFrames y manipulación de datos
  • Análisis estadístico y visualización

5 Obtención de Datos con APIs

Semanas 11-12 (8 horas)
  • Fundamentos de APIs REST
  • WikiData: consultas SPARQL
  • Mastodon API: recolección de textos
  • Consideraciones éticas en la recolección de datos

6 Análisis Computacional de Textos

Semanas 13-14 (8 horas)
  • Distant reading vs. close reading
  • Análisis de concordancias (KWIC)
  • Colocaciones y n-gramas
  • Comparación entre corpus y visualización

7 Introducción a Vector Embeddings

Semana 15 (4 horas)
  • ¿Qué son los vector embeddings?
  • Word2Vec y modelos de distribución semántica
  • Aplicaciones lingüísticas: similitud semántica y analogías

8 Proyecto Final e Integración

Semana 16 (4 horas)
  • Presentaciones de proyectos finales
  • Retroalimentación grupal
  • Reflexión y recursos para continuar aprendiendo

Evaluación

30%
Ejercicios Semanales

Prácticas de cada sesión en repositorio GitHub

20%
Proyecto Parcial

Análisis de corpus pequeño (semana 8)

35%
Proyecto Final

Investigación aplicada con herramientas del curso

15%
Participación

Contribuciones en clase y retroalimentación a compañeros

Asistencia mínima requerida: 80%

Metodología

🎯 Aprendizaje Basado en Proyectos

Ejercicios prácticos con datos lingüísticos reales

💪 Enfoque Práctico

Cada sesión incluye teoría (30%) y práctica (70%)

🤝 Aprendizaje Colaborativo

Uso de GitHub para compartir código y retroalimentación entre pares

📈 Avance Progresivo

Construcción gradual de habilidades desde lo básico hacia aplicaciones complejas

Más Información

¿Listo para transformar tu investigación con herramientas digitales?

Descarga el programa