Your SlideShare is downloading. ×
Corpus del Quechua
Nächste SlideShare
Wird geladen in ...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Corpus del Quechua

553
views

Published on

Qhishwa simi yuyanchanapaq

Qhishwa simi yuyanchanapaq

Published in: Bildung

0 Kommentare
0 Gefällt mir
Statistiken
Notizen
  • Hinterlassen Sie den ersten Kommentar

  • Be the first to like this

Keine Downloads
Views
Gesamtviews
553
Bei Slideshare
0
Aus Einbettungen
0
Anzahl an Einbettungen
0
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
No embeds

Inhalte melden
Als unangemessen gemeldet Als unangemessen melden
Als unangemessen melden

Wählen Sie Ihren Grund, warum Sie diese Präsentation als unangemessen melden.

Löschen
No notes for slide

Transcript

  • 1. Creación de corpus oral y escrito en la lengua quechua (Qhishwa simita chaninchasun)
  • 2. 1. Objetivos
    • Elaborar un corpus digital escrito del quechua con 50 millones de palabras considerando su representatividad y equilibrio.
    • Implementar el etiquetado y marcarje gramatical, semántico, sintáctico y pragmático.
    • Grabar, transcribir y organizar un corpus oral del quechua teniendo presente las variantes dialectales y los registros.
    • Poner a disposición de los investigadores nacionales e internacionales un corpus de referencia del quechua.
  • 3. 2. Descripción del proyecto
    • El proyecto se desarrollará durante dos años, que comprenderá la recolección, el procesamiento, organización del corpus
    • El proyecto está orientado a construir un corpus de referencia digital en quechua con 50 millones de palabra en la lengua escrita y 10 millones de la lengua oral en quechua. Los datos serán tomados del lenguaje natural considerando los dialectos que existen en el quechua, distribuidos de la siguiente manera (Torero, 1974):
  • 4. Dialectos del quechua Q- I Q-II QHISHWA CORPORA
  • 5. 3. Metodología: Uso de Recursos / Costes 02 años Concepción Recopilación textos escritos y orales Marcado, etiquetaje, Recursos informáticos. Producto: Corpus tiempo Esfuerzo
  • 6. 4. ACTIVIDADES: Tareas y subtareas
      • Planificación y organización de actividades
      • Asignación de responsabilidades
      • Lectura del marco teórico.
    FASE I Concepción del proyecto
  • 7.
    • TEXTOS ESCRITOS:
      • Localización de los textos, según zonas geográficas y países.
      • Recopilar un conjunto de textos de documentos escritos: libros, informes u otros documentos.
      • Digitalización de los textos
      • Almacenamiento los textos en archivos clasificados según géneros/ temas
      • Corrección informática y manual de los textos
    • TEXTOS ORALES
      • Localización de las zonas geográficas y países
      • Grabación en lugares de destino
      • Transcripción automática del corpus
      • Ficha técnica
      • Corrección manual de la transcripción
    FASE II: Recopilación y organización de textos en contextos naturales.
  • 8.
      • Marcaje estructural y etiquetaje
      • Preproceso (detección de fechas, números, locuciones, nombres propios...) 
      • Análisis y marcaje morfológicos de acuerdo con los etiquetarios morfológicos
      • Desambiguación lingüística y/o estadística
      • Las inferencias (analizadores automáticos),
      • Las anotaciones (actos de habla: información, opinión, aliento, etc.)
      • Las colocaciones (para Baker resulta útil porque ayuda a resumir las relaciones más importantes entre las palabras),
      • Los análisis posicionales (dependiendo de los géneros textuales),
      • Los coreferentes,
      • La estructura de la información (Mann y Thompson)
      • Los programas de concordancia
      • Análisis léxico (para el examen de los rasgos lingüísticos como los patrones de nominalización, la atribución, la modalidad, etc.),
      • Los marcados sintácticos y semánticos (Leech y Fligelstone, 1992)
    FASE III El procesamiento informático de la estructura del corpus oral y escrito
  • 9.
  • 10. Recursos del Proyecto Humanos Informática y software Equipos Materiales Finacieros Oficina/ centro de procesamiento
  • 11. RECURSOS HUMANOS: Coordinador del Proyecto - Responsabilidades
      • Integrar los esfuerzos de los miembros del equipo para alcanzar los objetivos del proyecto
      • Definir la metodología de trabajo
      • Proveer recursos
      • Evaluar progresos
      • Establecer medidas correctivas
  • 12. Equipo de Proyecto
    • Grupo de personas lideradas por el Coordinador del proyecto.
    • Representan áreas de trabajo funcional y roles específicos:
    • Coordinador de la construcción del corpus escrito
    • Coordinador de la construcción del corpus oral
    • 03 digitadores
    • 02 informáticos
    • Un especialista en lingüística del corpus
    • Un lingüista quechua
  • 13. Corpus oral y escrito del quechua CORPORA QHICHWA Registrarse Adolfo Zárate Pérez-pa ruwasqan