(IT) – Corpora | parolando.it


“Un corpus è una raccolta di testi del linguaggio parlato o scritto selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi. I corpora possono essere creati su carta oppure oralmente, ma oggi si è molto diffuso l’uso dei corpora in formato elettronico attraverso l’utilizzo del computer.

L’area linguistica in cui vengono usati i corpora è anche nota come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati sono: Linguistica storica e comparativa (Italia), Comparative grammar (Stati Uniti), Comparative philology (Regno Unito).
La linguistica dei corpora è una disciplina scientifica matura con cinquant’anni di ricerca scientifica nazionale e internazionale alle spalle. Questa disciplina si serve di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio. L’obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano che possono essere tradotti in programmi eseguibili dal calcolatore e che gli consentono di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua. Si tratta di un ambito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato si intreccia con l’informatica e con l’ingegneria, per qualificare le attività rivolte allo sviluppo di applicazioni informatiche basate sulle tecnologie del linguaggio, mentre dall’altro lato essa dialoga, appunto, con la linguistica, le scienze cognitive, la psicologia, la filosofia e le scienze umane in generale, con le quali condivide l’obiettivo di indagare la struttura, il funzionamento e l’uso del linguaggio e il suo rapporto con le altre facoltà cognitive dell’uomo.
breve storia
Alla sua nascita, nella seconda metà del Novecento, i primi risultati riguardano lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze (ossia la lista delle occorrenze di una parola presente in un contesto linguistico) e la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici. In seguito, negli anni ’50, nasce uno dei primi corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo, ad opera di Roberto Busa S. J. Nello stesso periodo, parallelamente al diffondersi della grammatica generativa, in area anglosassone ha continuato a svilupparsi una tradizione di ricerca linguistica che fonda l’indagine linguistica sulla raccolta e l’analisi di corpora. Nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea, nel caso specifico l’inglese americano degli …”


See on www.parolando.it

Leave a comment

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s