szovjet táborok magyar hadifoglyainak adatbázisa

https://adatbazisokonline.hu/adatbazis/szovjet-taborok-magyar-foglyai/

forráskód: https://github.com/dlt-rilmta/hadifogoly-adatbazis

A Magyar Nemzeti Levéltár 2019-ben közel 200 millió forintért vásárolta meg az Orosz Állami Hadilevéltártól a mintegy 682 000 magyar hadifogoly és elhurcolt civil személy alapvető adatait tartalmazó kartonok digitalizált, szkennelt képét, valamint az ebből készített adatbázist. Ez az adott személyekhez köthető legfontosabb információkat tartalmazza: a fogolyként nyilvántartott személy vezeték- és keresztnevét, orosz szokásnak megfelelően az apai keresztnevet, a rendfokozatot, a születés helyét és idejét, a fogságba esés helyét és idejét, a távozás idejét és az elbocsátó tábort, valamint – amennyiben az illető személy elhunyt – az elhalálozás időpontját.

A kartonokon természetesen minden cirill betűkkel szerepel, tehát nemcsak az orosz nyelvű, hanem a magyar nyelvű adatok is: a vezetéknév, a keresztnév, illetve a földrajzi helyek – születés és fogságba esés helye – egyes elemei. A feldolgozás során az jelentette a nyelvi problémát, hogy a magyar foglyok által bediktált magyar nyelvű személyes adatok cirill betűs formában álltak rendelkezésre, mégpedig úgy, ahogyan azt az adatokat felvevő – általában orosz – katona hallás után éppen leírta. Ráadásul az adatok tovább torzultak, amikor a 2010-es évek során az orosz kollégák a kartonok alapján elkészítették az adatbázist: ekkor a 70 évvel korábbi kézírás alapján rögzítették az általuk nem értett magyar nyelvű, de cirill betűkkel leírt szövegeket.

https://index.hu/techtud/tortenelem/2021/03/23/elerheto-az-adatbazis-a-szovjet-taborok-magyar-foglyairol/

Az adatok automatikus orosz-magyar átírását, helyreállítását a NYTK munkatársai végezték Sass Bálint vezetésével. A feladat tehát a „Ковач Йожеф – Kovács József” jellegű transzkripció megvalósítása volt. A nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást. Tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például: Цилбауер – Zielbauer, Дейло – Béla, Саотморской – Szatmár, Гонграмеде – Csongrád, vagy Кишкупфьилстьгаза – Kiskunfélegyháza. Sok esetben több egyenrangú lehetséges megoldás is adódik, amelyek közül már nem lehet vagy nem érdemes automatizált módon választani, például: Эрин – Ernő; Ervin; Erik.

Megkapjuk hatszázezer, szovjet fogságba esett magyar adatait:
https://index.hu/techtud/tortenelem/2019/10/15/megkapjuk_hatszazezer_szovjet_fogsagba_esett_magyar_katona_adatait/

Blue Box Forever