Spausdinti

 

 

2026 m. gegužės 25 d., 13 val.

Vilnius, Akademijos g. 4, 203 kab.
Nuotoliniu būdu „MS Teams“ aplinkoje (https://bit.ly/DMSTI_2026-05-25)

 

Prof. dr. Gražina Korvel ir Gediminas Navickas

(VSAG)

 

„Projekto „Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3)“ rezultatai ir išvados“

Santrauka: DMSTI kartu su partneriais balandžio 30 d. baigė kurti du garsynus, skirtus dirbtinio intelekto vystymui ir moksliniams tyrimams. Pranešimuose bus pristatomi garsynai, jų kūrimo principai, kontekstas ir panaudojimo galimybės:

(1) Didysis lietuvių kalbos garsynas (LIEPA-3) yra skirtas šnekos atpažinimo (ASR, STT) taikymams ir moksliniams tyrimams. Bendra anotuota garsyno trukmė yra 10000 val. Garsyną sudaro garso įrašai ir juos atitinkantys anotacijų failai teksto formatu Garsyne įrašyta skaitoma šneka, spontaninė šneka ir lietuviškos tarmės. Garsynas sąlyginai sudalintas į kelis subgarsynus: spontaninės šnekos (SPON - 4900 val.), skaitomos šnekos (READ - 5000 val.), tarmių (DIAL - 100 val.) bei fonemiškai anotuotą garsyną (PHON - 500 val.). Garsynas anotuotas fonemų lygmenyje (500 valandų), žodžių (10 000 valandų) ir frazių (10 000 valandų) lygmenyse. Pristatys prof. dr. Gražina Korvel;

(2) Emocinės lietuvių kalbos garsynas (EMO) – atviras kalbos duomenų rinkinys, sukurtas kalbos sintezės tikslams. Bendra anotuota garsyno trukmė yra 300 val. Pagrindinės panaudojimo sritys: kalbos sintezė, emocinės kalbos sintezė, automatinis emocijų atpažinimas kalboje, kalbėtojų emocijų raiškos tyrimai. Garsyną sudaro garso įrašai ir juos atitinkantys anotacijų failai Praat TextGrid formatu. Garsyne įrašyta skaitoma kalba, 5 emocijos: neutrali, pyktis, džiaugsmas, nuostaba, liūdesys. Bendras garsyno dydis yra 2 288 126 žodžiai, 349 696 frazės. Garsynas anotuotas fonemų, žodžių ir frazių lygmenyse. Pristatys Gediminas Navickas.