Цели

Основната цел на проекта е създаването на инфраструктура от алгоритми и софтуер (със свободен достъп) за подбор и предварителна обработка на големи данни за български, както и на специфични за дадена компания или индустрия данни и фина настройка на подходящи свободно достъпни големи езикови модели за решаване на конкретни задачи.

За изпълнението на основната цел се предвижда постигането на следните специфични цели:

  • Да се разработи подробно описание за характеристиките на големите езикови модели и спецификация на критериите за тяхната оценка, сравнение и подбор. Да се оценят и подберат свободни за употреба големи езикови модели, които отговарят на предварително зададените критерии за предназначение и начин на работа.
  • Да се разработи компонент от Инфраструктурата, предназначен за колекциониране, филтриране, анонимизиране и редупликиране на големи разнообразни и качествени текстови данни за български език. Да се дефинира модел за структура на метаданните към текстовите единици, позволяваща извличане на тематично ориентирани или специализирани набори от данни.
  • Да се разработи компонент от Инфраструктурата, предназначен за фина настройка на предварително обучени големи езикови модели за български език. Да се дефинира протокол за фина настройка с ефективни съвременни техники в зависимост от предназначението и домейна.
  • Да се разработи компонент от Инфраструктурата за оценка на фината настройка за български език на големи езикови модели. Да се дефинира протокол за оценка на фина настройка, който включва автоматична и човешка оценка.
  • Да се достигне до ниво на технологична готовност 7 на Инфраструктурата за фина настройка на предварително обучени големи езикови модели, посредством интегриране на всички компоненти в прототип, демонстриращ работата на инфраструктурата за фина настройка на големи езикови модели в реална среда.