LLM обучаются на больших объемах информации, включая книги, статьи и страницы на сайте. Текст разбивают на токены - кусочки, это могут быть части слов, целые слова, и малоизученные токены из нескольких слов. — Также мы обратили внимание на количественные оценки семантических свойств токенов и их соотношения с определенными давно изученными статистическими