O secretario xeral de PolÃtica LingüÃstica, ValentÃn GarcÃa, presentou en rolda de prensa o novo Corpus Documental do Galego Actual (CORGA). A versión ampliada desta ferramenta lingüÃstica elaborada polo Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH) -dependente da ConsellerÃa de Cultura, Educación e Ordenación Universitaria- incorpora preto de 32 millóns de palabras, das que algo máis de 400.000 son formas diferentes.
Segundo sinalou o secretario xeral durante a súa intervención “a nova versión ampliada do CORGA pon a disposición da comunidade cientÃfica e da cidadanÃa en xeral novas posibilidades para o estudo e a investigación lingüÃstica nunha aposta polas tecnoloxÃas da información e da comunicación, e polos recursos tecnolóxicos en galego, tal e como sinala o Plan Xeral de Normalización da Lingua Galega”.
Participaron na presentación, amais de GarcÃa Gómez, os directores do CORGA, Guillermo Rojo e MarÃa Sol López, e os responsables da coordinación lingüÃstica e informática do proxecto, os investigadores da Universidade de Santiago de Compostela Eva DomÃnguez e Mario Barcala, respectivamente.
Corpus de Referencia do Galego Actual
O CORGA é un corpus documental desenvolvido no CRPIH e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language).
A nova versión ampliada –a 1.7, dispoñible na rede no enderezo http://corpus.cirp.es/corga consta de case 32 millóns de palabras, das que algo máis de 400.000 son formas diferentes. Sobre este conxunto de formas ortográficas é posible consultar palabras ou expresións en xeral, por tipos de texto, épocas, áreas temáticas ou calquera combinación dos parámetros anteriores. Ademais, disponse dun sistema de consulta da nómina de autores e obras que permite buscar que obras ou autores están no corpus, saber que número de palabras totais e documentos corresponde á busca realizada ou que cantidade de palabras contén o CORGA nunha certa área temática, perÃodo de tempo etc.
Ferramentas tecnolóxicas avanzadas
O CRPIH traballa tamén na mellora de varias ferramentas que posibilitan as consultas máis avanzadas e propician dar un salto cualitativo nas posibilidades de busca sorteando as limitacións impostas polas consultas por forma ortográfica. AsÃ, rematouse o subcorpus de adestramento xornalÃstico e de narrativa que utiliza o Etiquetador-Lematizador do Galego Actual (XIADA) -constituÃdo na nova versión ampliada por algo máis de 600.000 formas ortográficas (correspondentes a case 750.000 elementos gramaticais)-, que está a disposición gratuÃta da comunidade investigadora na versión 2.6 do Corpus de Referencia do Galego Actual etiquetado (CORGAetq) no enderezo http://corpus.cirp.es/corgaetq.
O CRPIH dispón tamén doutros dous recursos lingüÃsticos de especial interese para a comunidade investigadora como son a listaxe completa de formas ortográficas diferentes presentes no CORGA e o lexicón xeral utilizado polo etiquetador XIADA. Ambos os dous poden obterse cunha licenza de uso libre para facilitar e difundir o seu emprego en diferentes proxectos en http://corpus.cirp.es/corga e http://corpus.cirp.es/xiada, respectivamente.
Os sistemas e recursos relacionados con este proxecto destÃnanse ás persoas interesadas no estudo da lingua galega actual nos diferentes eidos, fornecéndoos con ferramentas que lles permitan, por unha banda, obter datos de diversa Ãndole relacionados co emprego da lingua e, pola outra, desenvolver ferramentas de análise do galego cada vez máis sofisticadas.
O Centro Ramón Piñeiro
O CRPIH é un organismo dependente da ConsellerÃa de Cultura e Educación que se ocupa de levar adiante e de difundir proxectos de investigación lingüÃstica, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüÃstica aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva dende un punto de vista antropolóxico.