(IT) – Banche dati dell’italiano scritto e parlato | Accademia della Crusca


“CORPORA UNIBO (Dipartimento studi linguistici e orientali):
– CORIS/CODIS (Corpus di Riferimento dell’Italiano Scritto e Corpus Dinamico dell’Italiano Scritto) – unibo

– DiaCORIS (Corpus Diacronico dell’Italiano Scritto) – unibo

– BoLC (Bononia Legal Corpus) – unibo – corpora giuridici paralleli e comparabili italiani e inglesi – italiano giuridico

– APHASIA Corpus

CORPORA ISTC (Istituto di Scienze e Tecnologie della Cognizione) cnr PI:

– CoLFIS (Corpus e Lessico di Frequenza dell’Italiano Scritto) – ISTC descrizione e download; interrogabile su http://www.ge.ilc.cnr.it/strumenti.php

– pvbvarless (Valori di età di acquisizione, immaginabilità e frequenza per 527 parole del Primo Vocabolario del Bambino)

– varless (Variabili lessicali e sub-lessicali: valori per 626 nomi dell’italiano)

– versione inglese di varless lexvar

CORPORA UNITO:

– Corpus VALICO Varietà Apprendimento Lingua Italiana Corpus Online – testi scritti da apprendenti di italiano L2 – italiano L2 scritto

– NUNC (Newsgroup UseNet Corpora) – indice dettagliato dei Newsgroup UseNet Corpora – italiano trasmesso – web

– Corpus Athenaeum (vari generi di testi scritti, prodotti dall’Università di Torino) – italiano scritto accademico

– Corpus Taurinense (22 testi fiorentini della seconda metà del XIII secolo) – italiano antico

– VINCA – Varietà di Italiano di Nativi Corpus Appaiato (al Corpus VALICO) – testi scritti da parlanti nativi di italiano – italiano L1 scritto

– SMS (SMS Monitor Studies) corpus in costruzione

ONLI (banca dati dell’Osservatorio neologico della lingua italiana) – ILIESI cnr Roma

Parlaritaliano.it – Corpora (portale dedicato agli studi sull’ italiano parlato con una sezione in cui sono descritti e resi disponibili diversi corpora dell’italiano parlato)
CLIPS (Corpora e Lessici dell’Italiano Parlato e Scritto) – unina
LIP Lessico di frequenza dell’Italiano Parlato interrogabile sul sito BaDIP (Banca Dati dell’Italiano Parlato)
Corpora LABLITA Laboratorio Linguistico del Dipartimento di Italianistica dell’Università di Firenze
CIT Corpus di Italiano Televisivo unibo-forlì italiano trasmesso NON ANCORA DISPONIBILE
Corpora WaCky (Web-as-Corpus kool ynitiative) fra cui itWaCky; testi scaricati con metodi automatici dal web, contiene due miliardi di parole italiano scritto – web
Corpus PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati) raccolta di testi autentici in lingua italiana tratti dal web nel sett-ott 2010 – italiano scritto – web; unibo + cnr Pisa + accad europ BZ +unitr
Lessico delle chat-line italiane da una ricerca èulogos Corpus di conversazioni da chat-line in lingua italiana da registrazioni effettuate nel primo trimestre 1998
BaDaLì (Base Dati Linguagiovanile) indagini lessicali nelle prov. di Grosseto, Livorno, Lucca”


See on www.accademiadellacrusca.it

Advertisements

Leave a comment

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s