Què és el Projecte Talaia

Què és el Projecte Talaia

Proyecto Talaia

Talaia project

Talaia és un observatori de terminologia de la societat del coneixement fruit d’un acord de col·laboració entre la Universitat Oberta de Catalunya (UOC) i el Centre de Terminologia TERMCAT. L’observatori recull, a partir d’un buidatge semiautomatitzat i tècniques de filtratge de tipus lingüístic i estadístic, la terminologia en català, castellà i anglès utilitzada en els articles de les revistes acadèmiques de la UOC, les quals estudien els efectes i la influència de l'ús de les tecnologies de la informació i la comunicació en les persones, les organitzacions i la societat.


El contingut terminològic de Talaia és descriptiu i els termes s’hi recullen tal com han aparegut publicats en les fonts de buidatge. Tot i això, cada fitxa incorpora un indicador de ponderació que especifica l’estat terminològic de la denominació catalana utilitzada. Cada fitxa terminològica conté els camps següents: entrada catalana, categoria gramatical de la denominació catalana, indicador de ponderació, equivalent castellà (si n'hi ha), equivalent anglès (si n'hi ha), àrea temàtica genèrica, freqüència d’ús del terme, rellevància del terme, nota (si s’ha considerat necessari) i contextos d’ús en català, castellà i anglès amb la font de procedència corresponent.

Els termes es poden consultar seguint tres procediments diferents: utilitzant l’Accés alfabètic (agrupa les denominacions alfabèticament en català, castellà o anglès), utilitzant l’Accés per ponderació (agrupa les denominacions segons que hagin estat validades pel TERMCAT, que no hagin estat validades pel TERMCAT o que es trobin encara en procés d’estudi), o bé utilitzant la Cerca (mostra totes les fitxes que continguin el mot consultat, en qualsevol dels camps de la fitxa).

Actualment l’observatori conté 168 denominacions en català i els corresponents equivalents en castellà i anglès procedents de la revista Artnodes. És previst que progressivament s’hi vagin incorporant els termes procedents d'altres publicacions de la UOC.

Talaia és un observatori de terminologia de la societat del coneixement fruit d’un acord de col·laboració entre la

Talaia és un observatori de terminologia de la societat del coneixement fruit d’un acord de col·laboració entre la Universitat Oberta de Catalunya (UOC) i el Centre de Terminologia TERMCAT. L’observatori recull, a partir d’un buidatge semiautomatitzat i tècniques de filtratge de tipus lingüístic i estadístic, la terminologia en català, castellà i anglès utilitzada en els articles de les revistes acadèmiques de la UOC, les quals estudien els efectes i la influència de l'ús de les tecnologies de la informació i la comunicació en les persones, les organitzacions i la societat.


El contingut terminològic de Talaia és descriptiu i els termes s’hi recullen tal com han aparegut publicats en les fonts de buidatge. Tot i això, cada fitxa incorpora un indicador de ponderació que especifica l’estat terminològic de la denominació catalana utilitzada. Cada fitxa terminològica conté els camps següents: entrada catalana, categoria gramatical de la denominació catalana, indicador de ponderació, equivalent castellà (si n'hi ha), equivalent anglès (si n'hi ha), àrea temàtica genèrica, freqüència d’ús del terme, rellevància del terme, nota (si s’ha considerat necessari) i contextos d’ús en català, castellà i anglès amb la font de procedència corresponent.

Els termes es poden consultar seguint tres procediments diferents: utilitzant l’Accés alfabètic (agrupa les denominacions alfabèticament en català, castellà o anglès), utilitzant l’Accés per ponderació (agrupa les denominacions segons que hagin estat validades pel TERMCAT, que no hagin estat validades pel TERMCAT o que es trobin encara en procés d’estudi), o bé utilitzant la Cerca (mostra totes les fitxes que continguin el mot consultat, en qualsevol dels camps de la fitxa).

Actualment l’observatori conté 168 denominacions en català i els corresponents equivalents en castellà i anglès procedents de la revista Artnodes. És previst que progressivament s’hi vagin incorporant els termes procedents d'altres publicacions de la UOC.

Talaia és un observatori de terminologia de la societat del coneixement fruit d’un acord de col·laboració entre la

Talaia es un observatorio de terminología de la sociedad del conocimiento fruto de un acuerdo de colaboración entre la Universitat Oberta de Catalunya (UOC) y el Centro de Terminología TERMCAT. El observatorio recoge, a partir de una extracción semiautomatizada y técnicas de filtraje de tipo lingüístico y estadístico, la terminología en catalán, castellano e inglés publicada en las revistas académicas de la UOC.

 

El contenido terminológico de Talaia es descriptivo y los términos se incluyen tal y como han aparecido publicados en las fuentes de extracción. Aun así, cada ficha incorpora un indicador de ponderación que especifica el estado terminológico de la denominación catalana utilizada. Cada ficha terminológica contiene los siguientes campos: entrada catalana, categoría gramatical de la denominación catalana, indicador de ponderación, equivalente castellano (en caso de que lo haya), equivalente inglés (en caso de que lo haya), área temática genérica, frecuencia de uso del término, relevancia como término, nota (en caso de que se haya considerado necesario) y contextos de uso en catalán, castellano e inglés, con la fuente de procedencia correspondiente.

 

Los términos pueden consultarse siguiendo tres procedimientos diferentes: utilizando el acceso alfabético, utilizando el acceso por ponderación o bien utilizando la opción Cerca (“Busca”), que muestra todas las fichas que contengan la palabra consultada, en cualquiera de los campos de la ficha.

 

Actualmente el observatorio contiene 168 denominaciones en catalán y los equivalentes correspondientes en castellano e inglés procedentes de la revista Artnodes. Se prevé que progresivamente se vayan incorporando los términos procedentes de otras publicaciones académicas de la UOC.

Talaia is a terminology observatory in the knowledge society resulting from a collaboration agreement between the Universitat Oberta de Catalunya (UOC) and TERMCAT Terminology Centre. The observatory gathers, from a semiautomated extraction and linguistic and statistical filtering techniques, the Catalan, Spanish and English terminology published in UOC academic magazines.

 

Talaia terminological content is descriptive and terms appear exactly as they have been published in the extraction text sources. However, each file adds an indicator that specifies the terminological evaluation status of the Catalan denomination. Each terminological file contains the following information: Catalan entry, Catalan  part of speech, evaluation status, Spanish equivalent (if any), English equivalent (if any), generic field, use frequency, relevance as a term, note (if necessary) and Catalan, Spanish and English use context, with the corresponding source.

 

Terms can be consulted using the alphabetical index, using the evaluation status index or using the Cerca (“Search”) option, which shows all the files that contain the word consulted, in any part of it.

 

The observatory contains now 168 Catalan denominations and the corresponding equivalents in Spanish and English from Artnodes magazine. TERMCAT and UOC have predicted the gradual inclusion of terms coming from other academic magazines.

Què és Talaia i quins objectius té?

L’objectiu de Talaia és posar a disposició pública terminologia neològica de qualitat en català, castellà i anglès, a fi de facilitar les comunicacions especialitzades i afavorir el treball multilingüe i l’elaboració d’estudis sobre neologia emergent o sobre formes que tenen un ús especialment rellevant en la comunitat d’especialistes.

Globalment, Talaia vol:
· Afavorir el treball multilingüe en l'espai europeu d'ensenyament superior.
· Aplegar un fons terminològic actual procedent de fonts especialitzades reglades (les revistes acadèmiques de la Universitat Oberta de Catalunya).
· Difondre terminologia que pugui ser útil als professionals de la llengua en un sentit ampli.
· Facilitar la detecció precoç de neologismes dels sectors més innovadors.
· Observar possibles canvis d’ús i de freqüència d’aparició dels termes.
· Reaprofitar els esforços generats al llarg dels processos editorials que hi ha al darrere de les revistes acadèmiques de la Universitat Oberta de Catalunya, i, d’aquesta manera, millorar-ne la qualitat i l’eficiència.
· Explorar i valorar nous sistemes de buidatge terminològic basats en l’extracció automàtica de terminologia.

Quina informació s’hi pot consultar?

Talaia conté terminologia de l’àmbit de la societat del coneixement en català, castellà i anglès extreta del buidatge de les revistes acadèmiques de la UOC. El contingut terminològic de Talaia és purament descriptiu, raó per la qual les fitxes terminològiques mostren els termes en context, tal com han estat utilitzats a les fonts de què provenen. Així i tot, cada fitxa incorpora un indicador de ponderació que especifica l’estat terminològic de la denominació catalana utilitzada.

Cada fitxa terminològica conté, concretament, els camps següents: entrada catalana, categoria lèxica de la denominació catalana, indicador de ponderació de la forma catalana, equivalent castellà (si n'hi ha), equivalent anglès (si n'hi ha), àrea temàtica genèrica, freqüència d’ús del terme, rellevància del terme, nota (si s’ha considerat necessari) i contextos d’ús en català, castellà i anglès amb la font de procedència corresponent.

De quines fonts prové la terminologia recollida?

En aquests moments la terminologia recollida a Talaia prové de la revista Artnodes, sobre art, ciència i tecnologia, i s’ha extret d’un corpus total de partida de 89.595 paraules. És previst, però, que progressivament s’hi vagin incorporant els termes procedents del buidatge d'altres publicacions acadèmiques de la UOC. La propera publicació que es constituirà com a corpus de buidatge és la Revista d'Internet, Dret i Política, a partir de la qual es recuperaran termes relacionats amb les tecnologies de la informació i la comunicació i els diferents camps del dret, la política i l'Administració pública.

Les revistes de buidatge que configuraran el contingut de Talaia són, concretament, les següents:
· Artnodes: publica principalment aportacions centrades en la reflexió i l'estudi de les interseccions entre l'art, la ciència i la tecnologia, tant des d'un punt de vista formal i històric com conceptual.
· IDP. Revista d’Internet, Dret i Política: vol ser una plataforma de reflexió acadèmica sobre el contingut i l’abast dels canvis que les TIC –en particular, el fenomen d’Internet– representen en el camp del dret, la política i l’administració electrònica.
· Digithum: se centra en l’anàlisi de les transformacions de les humanitats i les ciències socials en l’era digital.
· UOC Papers: és una revista multidisciplinària que té per objectiu publicar textos de divulgació científica centrats en la confluència dels àmbits temàtics propis de la Universitat amb la societat del coneixement.
· RUSC: té per objecte les transformacions de l’aprenentatge en l’ensenyament superior a partir de l’ús de les TIC.
· Mosaic: aborda el sector multimèdia per mitjà de la publicació de l’experiència de l’equip docent, els professionals del sector i els mateixos estudiants d’aquests estudis a la Universitat.

Els processos i els formats estandarditzats que segueixen cinc d’aquestes sis revistes acadèmiques es poden resumir en els punts següents:
· Estan seriades (totes sis disposen d’ISSN), són periòdiques, tenen una línia editorial i unes normes de publicació.
· Els articles passen per un procés de revisió per experts.
· Cada article inclou un títol, un resum i paraules clau en tres llengües, la data d’aprovació i publicació.
· Disposen d’un director, un consell de redacció i un consell assessor.
· Estan indexades en bases de dades.
· Els resums i les paraules clau dels articles són publicats en català, castellà i anglès i el contingut de cada revista es publica en dues d’aquestes tres llengües.

Com es fa el buidatge de les revistes?

La descripció completa del procés de buidatge de les revistes acadèmiques de la UOC per a l’observatori Talaia, que es duu a terme des del Servei Lingüístic i Publicacions a Internet de la Universitat, es pot consultar al número 6 de la revista Tradumàtica, de desembre de 2008.

La tasca de buidatge semiautomàtic de tot el corpus té com a processos de treball principals la compilació del corpus de treball, l’alineació dels continguts de la llengua d’origen amb els de la llengua de destinació, l’extracció dels candidats a terme de manera automàtica, la cerca automàtica dels equivalents de traducció dels candidats a terme i la revisió manual final de la llista dels candidats a terme i dels equivalents de traducció corresponents.

El lematitzador utilitzat en la confecció de la llista dels candidats a terme no incorpora desambiguador semàntic, per la qual cosa els homògrafs que comparteixen categoria lèxica no es distingeixen. Excepcionalment, doncs, aquestes formes consten a Talaia en una mateixa fitxa terminològica, per bé que són termes diferents i des del punt de vista terminogràfic haurien de tenir fitxes diferenciades (per exemple, el substantiu seqüenciació en genètica i en audiovisuals). Els homògrafs de categoria lèxica diferent, en canvi, consten en fitxes diferents, si bé també hi pot haver un petit marge d’error a l’hora de fer-se efectiva aquesta distinció.

També excepcionalment i per motius d’automatització, els sinònims consten en fitxes terminològiques diferents (per exemple, disseny gràfic i grafisme). La referència a la remissió s’especifica, però, al camp de Nota.

Què són els indicadors de ponderació?

Els indicadors de ponderació tenen com a objectiu valorar des del punt de vista lingüístic i terminològic les denominacions catalanes recollides a Talaia.

S’hi empren tres indicadors diferents: un indicador de color verd, que s’aplica als termes que han estat validats (és a dir, a termes normatius, normalitzats o bé sense problema lingüístic o terminològic evident); un indicador de color taronja, que s’aplica als termes en procés d’estudi (i, per tant, pendents de ponderació); i un indicador de color vermell, que s’aplica als termes no validats pel TERMCAT (és a dir, a termes no plenament concordants amb les formes normatives o normalitzades, o bé a termes terminològicament inconsistents). Aquests indicadors es complementen, quan escau, amb notes explicatives.

Quina informació contenen les notes?

Les notes consignades a les fitxes dels termes poden ser de tipus lingüístic (sobre la formació del terme, sobre la sinonímia amb un altre terme, sobre la remissió al corresponent terme normatiu o normalitzat, sobre els equivalents, etc.) o bé de tipus conceptual.

Què són els paràmetres de freqüència i de rellevància?

La freqüència mesura els cops que un terme apareix al corpus d’especialitat buidat i permet veure, per tant, quins són els termes més i menys usats. S’extreuen com a candidats els termes que tenen una freqüència mínima d’aparició al corpus de dues vegades.

La rellevància intenta mesurar, a partir d’un corpus de la llengua general d’exclusió i per mitjà d’unes fórmules matemàtiques establertes, fins a quin punt una forma lingüística determinada pot ser considerada un terme. Actualment, el contrast es fa amb un corpus actualitzat del diari Avui, per seccions temàtiques del diari. La rellevància segueix una gradació de 0 a 10. Com menys es documenta una determinada forma al corpus de contrast, més alta és la rellevància, és a dir, més possibilitats hi ha que efectivament es tracti d’una denominació d’especialitat.

És previst que a mesura que el corpus es vagi ampliant amb el buidatge de noves revistes s’incorporin a l’observatori uns gràfics amb l’historial de freqüència i de rellevància de cada terme. Aquests gràfics haurien de permetre veure l’evolució de l’ús i del grau d’especialització de cada forma.