Il corpus - Corpus CHerIDesCo

Il corpus CHerIDesCo è una raccolta bilanciata di testi descrittivi prodotti dalle istituzioni e riferiti a musei, monumenti e siti archeologici statali italiani.

È stato costruito con l’obiettivo rispondere all’esigenza di risorse linguistiche di dominio per applicazioni NLP nell’ambito dei Beni Culturali.

Si compone, nella sua versione 1.0, di 680 testi in formato plain-text, per un totale di circa 300mila token. Il corpus è stato annotato dal punto di vista morfo-sintattico utilizzando il package python Stanza.

La progettazione modulare e l’adozione di standard internazionali e “open” (xml-IMDI) per la compilazione dei metadati ne permettono l’espansione e il mantenimento nel tempo, anche attraverso contributi esterni.