[straipsnis ir santrauka lietuvių kalba; santrauka anglų kalba]
Lingvistinei analizei reikia skaitmeninių tekstų, tinkamų programiniam apdorojimui. Lietuvių kalbos instituto duomenų bazei senieji raštai skaitmeninami laikantis dokumentinio perrašo principų, nekeičiant originalo rašybos. Senoji rašyba dažnai yra variantiška, nenusistovėjusi ir gerokai skiriasi nuo dabartinės, tai trukdo pritaikyti technologijas, kuriamas dabartinei lietuvių kalbai tirti. Straipsnyje aprašomas empirinėmis taisyklėmis paremtas būdas iš žodžių formų senąja rašyba automatiškai sugeneruoti formas dabartine rašyba perraše išlaikant originalios rašybos ypatybes. Sugeneruoti atitikmenys naudojami paieškos sistemoje.