Представяне на резултатите от проекта „Инфраструктура за фина настройка на предварително обучени големи езикови модели“

На 29 май 2026 г. в зала „Споделено работно пространство“, ул. „Ген. Гурко“ № 16, етаж 6 от 11:00 ч. се проведе представянето на резултатите от научния проект „Инфраструктура за фина настройка на предварително обучени големи езикови модели“, организирано от Секцията по компютърна лингвистика при Института за български език „Проф. Л. Андрейчин“, БАН.

Пред аудиторията от изследователи от научни институции, ИТ специалисти и други експерти ръководителят на проекта проф. д-р Светла Коева очерта целите и задачите, които си е поставил екипът: създаването на инфраструктура от алгоритми и софтуер със свободен достъп за подбор и предварителна обработка на големи данни за български, както и на специфични за дадена компания или индустрия данни и фина настройка на подходящи свободно достъпни големи езикови модели за решаване на конкретни задачи. Мисията на екипа е работата му да подпомогне развитието на изкуствения интелект, като се надгради вече съществуващия инструментариум чрез повишаването на ресурсната обезпеченост за български език.

Д-р Ивелина Стоянова представи накратко големия набор от езикови данни IfGPT, създаден в рамките на проекта, като открои нуждата не само от събиране на възможно най-големи по обем разнообразни и качествени текстови данни, но и обогатяването им чрез изработване и прилагане на процедури за усъвършенстване на съдържанието, включително чрез филтриране, анонимизиране и дедупликиране, както и чрез въвеждането на детайлна система от метаданни за тяхното описание, позволяваща извличане на информация по определени от ползвателя критерии. Всичко това е от особено значение за развитието и фината настройка на големите езикови модели за български език, тъй като съществуващите набори от данни са ограничени по обем и разнообразие, както и от гледна точка на достъпността и възможностите за извличане на информация.

Д-р Йордан Кралев продължи с представянето на разработената инфраструктура за създаване на чатбот с големи езикови модели и контекстно разширяване на инструкциите. Необходимостта от създаването на подобна система е продиктувана от липсата на достатъчна база от решения, основаващи се на големи езикови модели за български език, тяхната ограниченост, както и нуждата от работеща архитектура с достъпен хардуер. В резултат от дейностите по проекта е реализирана RAG система за български език с отворени средства. Успешно е демонстрирана ефективността ѝ при обобщаване на документи с външен контекст и е потвърдена приложимостта ѝ за решаване на различни задачи при достъпен хардуер. Д-р Кралев очерта насоките за бъдещото развитие на системата, включващо разработването на системи за отговор на въпроси, системи за класификация и фина настройка на модели по тематични области.

Д-р Валентина Стефанова представи 2 от разработените набори от данни, подходящи за оценка на големи езикови модели за български език: MMLU-BG и Reasoning-BG. Първият набор е предназначен за оценка на възможностите на големите езикови модели да „разбират“ и да прилагат знание от различни области. Създаден от експерти посредством превод и адаптация на набора от данни за английски Measuring Massive Multitask Language Understanding (MMLU). Данните са организирани в 56 тематични области и включват общо 15 000 въпроса, всеки с по четири отговора, от които един е правилен. Работата по създаването му включва комплексна терминологична и смислова адаптация; запазване на степента на трудност и логическата структура на въпросите; коректност на научната терминология; смислова и граматическа правилност на български език. Reasoning-BG представлява набор от 232 научнопопулярни текста с по 10 въпроса към всеки от тях, предназначени за оценяване на способността на езиковите модели за извършване смислов анализ, извличане на информация, откриване на логически връзки и интерпретиране на текстово съдържание. Освен процедури по подбора и обработката на текстовете процесът по създаването му включва и оценка и редакция на автоматично генерираните от свободен голям езиков модел въпроси и отговори, включително проверка на еднозначността и коректността на отговорите и оценка на смисловото съответствие между текст и въпрос.

Всеки от представящите подчерта, че проектът е задал редица насоки за работа, която ще продължи активно и в бъдеще. В рамките на последвалата дискусия проф. Коева отговори на въпроси от аудиторията, свързани с предизвикателствата пред работата на екипа и успешното им преодоляване.

Резултатите от работата по проекта „Инфраструктура за фина настройка на предварително обучени големи езикови модели“ са достъпни на уебстраницата на проекта.