Vaizdų aprašų generavimo modeliai

Artūr Radzivilov

doi:10.15388/LMITT.2024.16

Straipsniai

Artūr Radzivilov

Vilnius Gediminas Technical University, Lithuania

Publikuota 2024-05-14

https://doi.org/10.15388/LMITT.2024.16

PDF

Reikšminiai žodžiai

vaizdų aprašų generavimas
CNN
RNN
dėmesio mechanizmai

Kaip cituoti

Radzivilov, A. (2024) “Vaizdų aprašų generavimo modeliai”, Vilnius University Open Series, pp. 115–122. doi:10.15388/LMITT.2024.16.

Atsisiųsti citatą

Santrauka

Šiame straipsnyje yra nagrinėjami vaizdų aprašų generavimo modeliai, kurių pagalba galima automatizuoti teksto aprašymų kūrimą iš vaizdinės informacijos. Pateikiamos įvairios neuroninių tinklų struktūros, tokios kaip CNN ir RNN, kurios naudojamos vaizdų savybių išgavimui ir teksto generavimui, bei dėmesio mechanizmai ir „transformer“ tipo tinklai, leidžiantys geriau integruoti vaizdo ir tekstinę informaciją. Analizuojami pagrindiniai duomenų rinkiniai, naudojami modelių mokymui, ir aprašymų vertinimo metodai, skirti įvertinti generuotų teksto aprašymų kokybę. Taip pat aptariamos naujausios tendencijos ir iššūkiai šioje srityje, pabrėžiant būsimų tyrimų kryptis.

PDF

Šis kūrinys yra platinamas pagal Kūrybinių bendrijų Priskyrimas 4.0 tarptautinę licenciją.

Atsisiuntimai

Nėra atsisiuntimų.