Цели

Основната цел на проекта е създаването на инфраструктура от алгоритми и софтуер (със свободен достъп) за подбор и предварителна обработка на големи данни за български, както и на специфични за дадена компания или индустрия данни и фина настройка на подходящи свободно достъпни големи езикови модели за решаване на конкретни задачи.

За изпълнението на основната цел се предвижда постигането на следните специфични цели:

Да се разработи подробно описание за характеристиките на големите езикови модели и спецификация на критериите за тяхната оценка, сравнение и подбор. Да се оценят и подберат свободни за употреба големи езикови модели, които отговарят на предварително зададените критерии за предназначение и начин на работа.
Да се разработи компонент от Инфраструктурата, предназначен за колекциониране, филтриране, анонимизиране и редупликиране на големи разнообразни и качествени текстови данни за български език. Да се дефинира модел за структура на метаданните към текстовите единици, позволяваща извличане на тематично ориентирани или специализирани набори от данни.
Да се разработи компонент от Инфраструктурата, предназначен за фина настройка на предварително обучени големи езикови модели за български език. Да се дефинира протокол за фина настройка с ефективни съвременни техники в зависимост от предназначението и домейна.
Да се разработи компонент от Инфраструктурата за оценка на фината настройка за български език на големи езикови модели. Да се дефинира протокол за оценка на фина настройка, който включва автоматична и човешка оценка.
Да се достигне до ниво на технологична готовност 7 на Инфраструктурата за фина настройка на предварително обучени големи езикови модели, посредством интегриране на всички компоненти в прототип, демонстриращ работата на инфраструктурата за фина настройка на големи езикови модели в реална среда.