Il corpus CHerIDesCo è una raccolta bilanciata di testi descrittivi prodotti dalle istituzioni e riferiti a musei, monumenti e siti archeologici statali italiani.
È stato costruito con l’obiettivo rispondere all’esigenza di risorse linguistiche di dominio per applicazioni NLP nell’ambito dei Beni Culturali.
Si compone, nella sua versione 1.0, di 680 testi in formato plain-text, per un totale di circa 300mila token. Il corpus è stato annotato dal punto di vista morfo-sintattico utilizzando il package python Stanza.
La progettazione modulare e l’adozione di standard internazionali e “open” (xml-IMDI) per la compilazione dei metadati ne permettono l’espansione e il mantenimento nel tempo, anche attraverso contributi esterni.