Hogy hívják az írott szövegek gyűjteményét?
Az írott szövegek gyűjteményét korpusznak nevezzük. Egy korpusz bármilyen méretű lehet, egy kis dokumentumgyűjteménytől a több millió szöveget tartalmazó nagy adatbázisig. A korpuszokat gyakran használják nyelvészeti kutatásokra, például a szavak gyakoriságának vagy a mondatok szerkezetének tanulmányozására. Más célokra is használhatók, például nyelvi modellek létrehozására vagy gépi tanulási algoritmusok képzésére.