Takže Brno je plánuje letos vrátit na web a zase přeskočilo v kebuli jinému archivu? Ať v tom nařízení najdou jedinou zmínku o lhůtě 105 let... tohle mě tak deptá. Papežštější než papež.
To by se jeden ....
Tak už mám jasno - před pár dny jsem si prohlížel sčítání 1921 obcí okresu Jičín. Včera odkaz nefungoval. Dnes odkaz funguje - a sděluje MOUDRO soudruha ředitele - cituji - čtěte zejména poslední větu.
Na tomto odkazu byly v nedávné minulosti umístěny kompletní digitalizáty sčítacích operátů z roku 1921. Vzhledem k platné legislativě na ochranu osobních údajů (nařízení (EU) 2016/679 (GDPR), zákon č. 101/2000 Sb., o ochraně osobních údajů a o změně některých zákonů, ve znění pozdějších předpisů), platného archivního zákona (zákon č. 499/2004 Sb., o archivnictví a spisové službě a o změně některých zákonů, ve znění pozdějších předpisů) a rozhodnutí ředitele Státního oblastního archivu v Zámrsku jsme byli nuceni tyto digitalizáty z veřejné prezentace dočasně stáhnout. Opět je vrátíme zpět v roce 2026.
Jo, ten GitHub mě napadl taky, vlastně bych to viděl stejně až na ten standard. Tam si nejsem úplně jistý. Bylo by dobré dosáhnout toho, aby tvorbu indexů mohl dělat každý, i ten, kdo ovládá třeba jen Poznámkový blok. Žádná složitá a ukecané syntaxe. Nějaký TOML třeba.
Zjevně jsem těch pár hodin VHA prošvihl :-)
Ad Zámrsk - zatím se tam nic neaktualizovalo, ani matriky přístupné od r. 2022 neprošly na server.
S Transcribusem jsem dělal pokusy, kdy to bylo v Beta verzi a zdarma. Používal jsem jejich výchozí modely pro kurent, ale bylo znát, že zdrojem modelu byly německé texty. Místo českých slov mi to cpalo podobně vypadající německá slova i jejich diakritiku. Vytvořit vlastní model naráží na právní otázku. Skeny je potřeba nahrát na transcribus server, jenže majitelem skenů je archiv a ten podobnou operaci nepřipouští. Ideální by tedy bylo, aby toto šlo spíše cestou přes národní instituce. Archivy by si vytvořily typizované modely a proháněly jimi matriky, výstupy by sdílely na jejich webu, ideálně tak, aby veřejnost měla možnost záznamy opravovat (moderovaně).
Ale to přepisování je spíš úkol pro stroje. MyHeritage digitalizuje miliony záznamů z různých koutů Evropy a to nedělají lidi. Jsou tam chyby, jasně, ale ty systémy se neustále vylepšují. Základem je část skenů přepsat a pak nechat stroje vytvořit "model", který se pak aplikuje na zbytek. Slibné výstupy lezou třeba z tohoto https://readcoop.eu/transkribus/
V patičce stránek je zmínka, že data jsou ve formátu XLSX a HTML na https://matriky.msts.cz/
Ideální by bylo mít nějaký mezinárodní standard (XML schéma). Konverze z Excelu do XML je celkem přímočará. A pak to hrnout do veřejného repozitáře na GitHubu. Časem by se nad tím dalo asi udělat i nějaké REST API, takže data by šla využít pro různé online aplikace.
Zámrsk, teď už teda "Hradec Králové", normálně běží -
tudy.
Jak po novu budou okresní archivy ale nevím, stará verze mi taky nejde a novou nikde nevidím.
Zámrsk
... že skáču na podobné téma jako ERIC, ale do jiného archivu ... nefunguje mi "Zámrsk", ani okresní archivy (sčítání). Víte někdo - něco?
Já to jen zkouším, dlouho to nešlo, teď to předpokládám jde https://kramerius.army.cz/search/?collection=vc:55e54b4d-af39-4050-b6c6-de053dbd8a70&offset=0#intro2
Změna lhůt v MZA Brno
Poslední přírůstky matričních knih na Actapublica z 11.1.2022 mají omezení náhledu na rozdíl od dosavadní praxe MZA Brno jen standardních 100 let u narození a 75 let u sňatků. Na můj telefonický dotaz na jejich oddělení digitalizace, zda se jedná o změnu v přístupu při zveřejňování, jsem dostal odpověď, že skutečně ano s tím, že v průběhu několika dní bude kromě jiného také například zpřístupněno sčítání lidu 1921! Tak už jen doufejme, že tento přístup bude opravdu naplněn.
Že skáču na jiné téma - nemáte někdo nějaké insider informace z VHA, jestli ten jejich web, kde jsou matriky, ještě někdy poběží?
Nechci to posuzovat na první pohled, ale když to autor zabalí, co se stane s veškerou prací přispěvatelů? O to mi jde. Jestli existuje nějaký standard, který dalece přesahuje práci jednoho člověka nebo malého kolektivu, a bude tu, až mi tu nebudem.
Příklad pokusu o indexaci je např. zde: www.requiro.cz
Agregace indexů
Všiml jsem si, že existuje několik různých webů, kde jsou soustředěné dílčí matriční indexy, zpravidla nějak zpracované autorem webu, a zveřejněné, dokud autor webu tento web provozuje. Zabýval se někdo někdy nějakým řešením, které by agregovalo tyto indexy do jednoho celku, který by byl jednotný a provozně nezávislý na autorovi? Případně viděl někdo někdy takové řešení?
Je to pravda, digitalizace se z podstaty dá plánovat jen rámcově, zejména pokud to jsou různé druhy materiálů.
Jedna věc je plán, kterým se řeší připravenost všech úseků (příprava archiválií, vlastní digitalizace, kontrola snímků) v maximální míře, a druhá realita, do které vstupují nepředvídatelné aspekty - závady na dig. zařízení, zvýšená nemocnost, zvýšená chybovost, naléhavější úkoly, nově i opatření v důsledku COVID-19. Současně je pro mě měřitelným ukazatelem počet snímků, nikoli počet archiválií (např. knih, krabic). Počet digitalizovaných archiválií se navíc může v reálu měnit podle toho, kolik připadá snímků na archiválii, což se zjistí až po digitalizaci. Změny jsou tak dány silnějšími knihami, počty prázdných stran, plnějšími krabicemi apod.
Nemám přesná data u sebe, ale matriky se v r. 2021 dařilo digitalizovat z cca 2/3 a plán na r. 2022 by měl snad lépe odrážet tuto realitu (snížení celkového počtu snímků, snížení počtu stran na knihu). U konskripce došlo v r. 2021 také k nějakému snížení proti plánu, ale víceméně se daří ročně digitalizovat plánované množství.
Další věcí je zveřejnění snímků, které nenastává vždy bezprostředně po digitalizaci. Je pro něj potřeba opět další součinnost více úseků archivu, současně některé archiválie nelze nově technicky zveřejnit (např. sčítání lidu). Tuto oblast plán digitalizace vůbec neodráží a je spíše dána naléhavostí pracovních úkolů. V každém případě pro archiv není žádoucí digitalizovat "jen do šuplíku", a proto je oblast zveřejnění sledována a interně připomínána.
No na letošní rok 2021 měli v AHMP nalánováno u matrik: Navrženo 287 knih, tj. 81 970 snímků. Ještě by měli něco mít už digitalizované ale neuveřejněné.
Ale moc jim to nešlo a to ani u jiných částí, třeba Soupis pražského obyvatelstva 1830–1949, Cizí příslušníci.
Navrženo 40 krabic, tj. 18 000 snímků (orientační rozsah příjmení M–P), dostali se někam na konec písmene M
Kdyby se do zítřka na AHMP nic nevystavilo a už nic nepřevzalo, je to asi na jedenáct měsíců práce, pokud je jich celkově 364 - nebo se taky pletu?
Ad abulin - to sice ano, ale zálohovat, zálohovat, zálohovat ... :-)