Видове изкуствен интелект — практична карта с български фокус

Езикови модели (LLM)
Модели за разбиране и генериране на текст: писане, редакция, резюмиране, извличане на факти, стилова адаптация. На български дават естествени формулировки, по-добро съгласуване (род/число, пълен член) и коректни кавички „…“. Ако избирате конкретен модел за български текст, вижте и Матрица на моделите за български (линк към хъба).
Практично: при текстове с много англо термини или код работи стратегията EN генерация → BG стилова адаптация.
Генеративни изображения (дифузионни модели)
Създават и редактират изображения по текстово описание. Полезни за визуални концепции, корици, банери и илюстрации; кирилица в изображение е възможна, но качеството варира — проверявайте правописа и четимостта. Подхождат за идеи и първи варианти, а финалната типография правете с дизайнерски инструмент.
Практично: за текст върху изображение предпочитайте векторен слой/оверлей, не директно „нарисуван“ текст от модела.
Реч: разпознаване (ASR) и синтез (TTS)
ASR превръща българска реч в текст (диктовка, субтитри, стенограми), TTS чете текст на глас (озвучаване, достъпност). Добре се справят с общобългарско произношение, но проверявайте собствени имена и топоними; при силен диалект — кратка постредакция.
Практично: дефинирайте кратък речник (pronunciation/термини) за проекта и го поддържайте.
Машинен превод (NMT)
Автоматичен превод между езици. Подходящ за ориентация, резюме или чернова; за публикуване на български е желателна редакторска адаптация (стил, колокации, пунктуация). Правни/технически текстове изискват двуезична проверка.
Практично: поддържайте терминологичен глосар (термбейс) и го налагайте при постредакция.
Документна обработка: OCR и структуриране
OCR разпознава кирилица от сканирани документи/снимки; комбинирано с LLM извлича полета (дати, суми, адреси) и прилага фирмени норми. При по-сложни шаблони (фактури, договори) настройте правила и валидации за висока точност.
Практично: планирайте fallback — ако полето липсва/не е сигурно, върнете „неуверено“ вместо измислена стойност.
Компютърно зрение (CV)
Детекция/класификация на обекти, сегментация, търсене по изображение. Удобно за контрол на качество, етикетиране, модерация. Българският контекст се проявява в етикетите/термините — поддържайте консистентен речник и тестови набори с локални сцени.
Практично: измервайте на отделен BG валидационен сет; не разчитайте само на общи международни датасети.
RAG (търсене + генериране)
Комбинира търсене във вашия корпус (BG документи, уебсайт, база знания) с отговори от LLM. Така се получават по-фактологични резултати и по-малко „измисляне“. Критично: качествено индексиране на български текст, актуални източници и ясни инструкции към модела.
Практично: настройте „fail closed“ поведение — ако няма релевантни пасажи, отговор „не е намерено“ с предложени следващи стъпки.
Агенти и инструменти
Оркестрират стъпки и използват външни инструменти (таблици, търсене, калкулатори, API). Подходящи за процеси: „вземи данни → провери → обобщи → напиши чернова на български“. Ясните правила и примерни изходи (expected outputs) намаляват грешките.
Практично: сложете „guardrails“ (валидатори и стоп-условия) за числови полета, лични данни и дати.
Кой тип е правилният за моята задача?
-
Неструктуриран текст (писане/редакция/резюме): LLM.
-
PDF, сканове, формуляри: OCR → извличане → LLM.
-
Аудио/видео: ASR за текст, TTS за глас.
-
Собствена база знания: RAG върху български корпус.
-
Визуални концепции/корекции: генеративни изображения (+ ръчна типография).
-
Многостъпкови процеси: агенти с инструменти (+ валидатори).
Какво е специфично за български
-
Морфология и пълен член влияят на четимостта — LLM помага, но финалната проверка е ключова.
-
Кавички „…“, тирета (—), интервали и съкращения — следвайте фирмен стандарт/ Style Dictionary.
-
Локални формати (дати, суми, адреси) — валидирайте автоматично.
-
Собствени имена и транскрипции — поддържайте речник на проекта.
-
Нишови англо термини/код: често е по-добре EN генерация → BG стилова адаптация.

