Raziskovalna infrastruktura slovenskega zgodovinopisja
Šifra infrastrukturnega programa: I0-0013
Obdobje trajanja infrastrukturnega programa: 1.1.2022 -31.12.2027
Finančni vir: Javna agencija za raziskovalno dejavnost Republike Slovenije (ARRS)
Obseg programa: 6,5 FTE
Povezava SICRIS: SICRIS
Vodja: dr. Mojca Šorn
Sodelavci: Neja Blaj Hribar, Ana Cvek, Karin Konda, Marko Kupljen, Mihael Ojsteršek, dr. Andrej Pančur, Sergej Škofljanec, Darja Vipavc, dr. Marta Rendla, dr. Jure Gašparič, Ivan Smiljanić.
Infrastrukturni program Raziskovalna infrastruktura slovenskega zgodovinopisja nudi podporo raziskovalni dejavnosti na Inštitutu za novejšo zgodovino (INZ), predvsem pa je servis za nacionalno zgodovinopisje in podpora nacionalnim znanstvenim zbirkam (DARIAH-SI, SIstory) ter nosilec nacionalne digitalne infrastrukture za humanistiko in umetnost (DARIAH-SI, SI-DIH), ki je vključena v mednarodni infrastrukturni projekt ESFRI (DARIAH-EU). Infrastrukturni program v skladu z inštitutsko, nacionalno in mednarodno infrastrukturo svoje dejavnosti izvaja v različnih delovnih paketih (DP). Delovne pakete izvaja kot center za računalniško infrastrukturo (DP1), knjižnično in dokumentarno gradivo (DP2), digitalizacijo (DP3), nestrukturirane podatke (DP4), delno strukturirane podatke (DP5), strukturirane podatke (DP6), digitalne izdaje (DP7), za založniško dejavnost (DP8) ter digitalno hrambo in dostop (DP9). V okviru vseh teh dejavnosti infrastrukturni program opravlja raziskovalno-razvojno dejavnost s področja digitalne humanistike (DP10). Pri povezovanju z ostalimi infrastrukturami in raziskovalci, projekti in ustanovami imajo te dejavnosti na nacionalni ravni podporo v službi za sodelovanje, usposabljanje in promocijo (DP11) ter na mednarodni ravni v službi za mednarodno sodelovanje (DP12).
DP1: Center za računalniško infrastrukturo
Računalniška infrastruktura je osnova za vse storitve, ki jih opravlja infrastrukturni program. Svoje dejavnosti izvaja predvsem z uporabo:
- računalniškega omrežja Inštituta za novejšo zgodovino;
- infrastrukturne strojne opreme: trenutno 4 strežniki (32 procesorskih jeder, 176 GB RAM, 117 TB diskovnih polj v Raid 6 polju);
- strojne opreme investicijskega projekta (kohezijska sredstva) »Razvoj raziskovalne infrastrukture za mednarodno konkurenčnost slovenskega RRO prostora – RI-SI – DARIAH«: 4 strežniki (256 procesorskih jeder, 1024 GB RAM, 736 TB diskovnih kapacitet);
- strežnik z grafičnimi karticami: 32 jeder, 256 GB RAM, 10 TB, 4 grafične kartice NVIDIA A30;
- računalniško gručo;
- več kot 20 virtualnih strežnikov;
DP2: Center za knjižnično in dokumentarno gradivo
Čeprav je infrastrukturni program izrazito digitalno usmerjen, pa večina njenih digitalnih zbirk izhaja iz prvotno analognih zbirk kulturne in znanstvene dediščine. Kot specialna knjižnica za znanstveno-raziskovalno dejavnost tudi sama hrani več kot 50.000 enot knjižnega gradiva, mdr. tudi obsežen D-fond (več kot 15.000 enot). Nekaj tega gradiva je že digitalizirano in dostopno na portalu Zgodovina Slovenije – SIstory, ostalo pa se pospešeno digitalizirala. Pri tem si v skladu z vizijo Združenja evropskih raziskovalnih knjižnic LIBER čim bolj prizadeva slediti načelom odprtega dostopa in FAIR raziskovalnih podatkov.
Infrastrukturni program podpira tudi zbirko dokumentnega gradiva Inštituta za novejšo zgodovino, pomembne za zgodovino inštituta kot raziskovalne organizacije.
DP3: Center za digitalizacijo
Ker pa je digitalno usmerjene raziskave mogoče izvajali le s podatki v strojno berljivi obliki, je eden ključnih ciljev raziskovalne infrastrukture digitalizacija prvotno analognega gradiva. Pri tem izvaja sledeče naloge:
- digitalizacija knjižnega, dokumentnega in arhivskega analognega gradiva: dodatna obdelava posnetkov (robovi, poravnava, kontrasti), pretvorba v druge formate, v primeru digitalizacije tiskanih/tipkanih besedil še izvedba optične prepoznave znakov (OCR);
- snemanje znanstvenih in strokovnih prireditev s področja zgodovinopisja in širše humanistike (predavanja, okrogle mize, konference ipd.): obdelava in montaža slikovnega in zvočnega zapisa.
DP4: Center za nestrukturirane podatke
Zbiranje, urejanje in obdelava besedilnih, slikovnih, avdio in video zbirk nestrukturiranih podatkov. To so lahko manjše (npr. dobrih 100 slik posmrtnih mask) ali večje (več kot 350.000 slik historičnih popisov prebivalstva) zbirke slik ter še bolj pogosto manjše (npr. Zbirka 42 tiskovin o koroškem plebiscitu) ali večje (npr. zbirka Poročevalca državnega zbora, 1668 digitalnih objektov, 142.468 strani) zbirke besedil. Center za nestrukturirane podatke izvaja sledeče naloge:
- datotečno urejanje gradiva,
- dodajanje opisnih in tehničnih metapodatkov.
Zbirke nestrukturiranih podatkov so najbolj pogosti tipi zbirk, ki nastajajo v okviru dejavnosti infrastrukturnega programa. Večinoma so dostopne preko portala Zgodovina Slovenije - SIstory (glej spodaj DP8: Center za digitalno hrambo in dostop), ki trenutno vsebuje več kot 35 zbirk arhivskih in tiskanih virov, literature in dogodkov.
DP5: Center za delno strukturirane podatke
Zbiranje, urejanje, analiza in kodiranje delno strukturiranih podatkov, predvsem v XML formatu in v skladu s smernicami mednarodnega konzorcija Text Encoding Initiative (TEI). V sodelovanju z raziskovalci s področja digitalne humanistike izvaja predvsem bolj ali manj kompleksna kodiranja strukture in pomena besedil. V okviru infrastrukturnega programa se mdr. kodira sledeče zbirke podatkov in znanstvenih publikacij:
- Slovenski parlamentarni korpus: zadnja različica korpusa siParl 2.0 zajema parlamentarne razprave iz obdobja 1990-2018, 11.967 besedil in skoraj 240 milijonov besed. V okviru projekta Razvoj slovenščine v digitalnem okolju (RSDO) se bo zajelo še starejše zapisnike do leta 1947, načrtujemo pa tudi kodiranje zapisnikov parlamentarnih sej izpred prve in druge svetovne vojne.
- Zbirka politično-strankarsko življenje na Slovenskem: programi političnih strank in organizacij.
- Zbirka slovenskih pravnih besedil SI-IUS (v sodelovanju s PF UL, IJS, ZRC SAZU).
- Zbirke znanstvenih besedil: znanstvene revije Prispevki za novejšo zgodovino (trenutno 2014-danes) in monografij Založbe INZ (trenutno 8 publikacij).
- Zbirka krajevnih repertorijev (1817-1939): krajevna imena na Slovenskem, geografski in statistični podatki.
- Različne prosofografske zbirke (Judje na Slovenskem, žrtve 1. in 2. svetovne vojne, popisi prebivalstva), ki se lahko navezujejo na zbirke naslednjega delovnega paketa.
Omogočanje (prostega) dostopa do podatkov iz teh znanstvenih zbirk se lahko izvaja preko GitHub in GitLab repozitorijev, Centra za digitalne izdaje (DP7) in repozitorija CLARIN.SI.
DP6: Center za strukturirane podatke
Zbiranje, urejanje, analiza in vnašanje strukturiranih podatkov v relacijske baze podatkov. Infrastrukturni program podpira in aktivno sodeluje pri razvoju naslednjih večjih zbirk:
- Historični popisi prebivalstva Slovenije (1830-1935): trenutno v orodju za transkribiranje historičnih demografskih podatkov vnešenih 22 popisov prebivalstva, večinoma iz Ljubljane, podatki so transkribirani za več kot 265.000 oseb.
- Vojaške žrtve 1. svetovne vojne na Slovenskem: trenutno vnešeni podatki za 26.957 oseb.
- Smrtne žrtve 2. svetovne vojne med prebivalstvom na območju Republike Slovenije in neposredno po njej: trenutno vnešeni podatki za 99.911 oseb.
- Zgodovinarski indeks citiranosti (ZIC): trenutno vnešeni citati iz 5.364 del
Podatki iz vseh teh relacijskih baz raziskovalnih podatkov so prosto dostopni preko spletnih aplikacij, ki jih člani DP6 razvijajo v sodelovanju z DARIAH-SI.
DP7: Center za digitalne izdaje
Dodatno kodiranje, urejanje, izdelava, pretvorba in objava elektronskih publikacij in digitalnih znanstvenih izdaj v čim večji meri v skladu s principi projekta Endings:
- Podatki: TEI XML, Git, validacija in diagnostika podatkov.
- Spletne aplikacije: statične spletne strani, možnost dodajanja dinamične vsebine, različne verzije izdaj, ki bolj ali manj ustrezajo principom projekta Endings.
- Procesiranje: validacija procesiranja statičnih spletnih strani.
- Dokumentacija: podatkovni model, avtorske pravice.
- Pazljivo in preverjeno upravljanje novih izdaj.
Kot generator statičnih spletnih strani se uporablja SIstory TEI profil, ki ga je vsakič potrebno bolj ali manj prilagoditi potrebam konkretne digitalne izdaje (dodano preko GitHub in GitLab repozitorija dotične digitalne izdaje).
Te digitalne izdaje so večinoma dostopne preko poljubnega strežnika GitHub Pages, portala SIstory in repozitorija SI-DIH (glej DP9). Trenutno pa se poskusno digitalne izdaje publicira tudi preko orodja teiPublisher.
DP8: Center za založniško dejavnost
Nudi tehnično in strokovno podporo založniški dejavnosti Inštituta za novejšo zgodovino in tudi drugim založbam s področja zgodovinopisja, predvsem pri zagotavljanju prostega dostopa do znanstvenih publikacij. V ta namen upravlja:
- odprtokodno aplikacijo Open Journal System, ki omogoča upravljanje uredniških postopkov in publiciranje trenutno treh znanstvenih revij: Prispevki za novejšo zgodovino (trenutno več kot 2.000 člankov), Zgodovinski časopis (trenutno več kot 1.100 člankov), Kronika (trenutno skoraj 400 člankov);
- odprtokodno aplikacijo Open Monograph Press, ki bo omogočila upravljanje in publiciranje znanstvenih monografij Založbe INZ: trenutno v razvoju, digitalizirane monografije založbe pa so dostopne na portalu SIstory.
DP9: Center za digitalno hrambo in dostop
Izvajanje trajne in celovite digitalne hrambe zbirk raziskovalnih podatkov in znanstvenih publikacij ter omogočanje prostega dostopa v sledečih sistemih:
- trajnostna hramba raziskovalnih podatkov in digitalizirane kulturne dediščine v sistemu za digitalno hrambo Archivematica (ni javno dostopno, potrebno se je obrniti na člane infrastrukturnega programa);
- digitalna knjižnica portala Zgodovina Slovenije –SIstory: trenutno več kot 45.000 prosto dostopnih digitalnih objektov znanstvene in kulturne dediščine ter rezultatov raziskav slovenskega zgodovinopisja; trenutni letni obisk: 84.306 unikatnih obiskovalcev, 443.924 ogledov strani, 53.741 prenosov datotek;
- repozitorij Slovenske digitalne humanistike SI-DIH: trenutno prosto dostopne 4 zbirke in rezultati 4 projektov, 1.871 intelektualnih entitet in 4.395 datotek;
- trajna hramba besedilnih datotek in programske kode digitalnih izdaj ter raziskovalne programske opreme v Git repozitorijih za kontrolo verzij: Digitalno humanistične raziskave v Sloveniji (trenutno 46 projektov), GitHub (https://github.com/SIstory, https://github.com/DARIAH-SI, https://github.com/sidih, trenutno skupaj 50 Git repozitorijev)
DP10: Raziskovalno razvojni center za digitalno humanistiko
Člani delovnega paketa v skladu s potrebami posameznih zbirk, projektov in celotne humanistične skupnosti razvijajo in implementirajo digitalno humanistične metode, standarde, orodja in storitve. Z zunanjimi izvajalci sodelujejo pri razvoju orodij, repozitorija, portala, baz podatkov, spletnih aplikacij. DP10 deluje kot vozlišče za razvoj raziskovanega progama digitalne humanistike
DP11: Služba za sodelovanje, usposabljanje in promocijo
Sodelovanje z nacionalnimi raziskovalnimi infrastrukturami: Da bo ciklus raziskovalnih podatkov nemoten in znanstvene zbirke deležne vse potrebne podpore, DP11 intenzivno sodeluje:
- z ustanovami in posamezniki, ki hranijo kulturno in znanstveno dediščino,
- z raziskovalnimi ustanovami, ki razvijajo digitalno zgodovino in digitalno humanistiko,
- s sorodnimi nacionalnimi infrastrukturami:
- CLARIN.SI pri izdelavi in hrambi jezikovnih korpusov in digitalnih izdaj;
- CESSDA pri načrtovanju hrambe raziskovalnih podatkov;
- v konzorciju Slovenskega superračunalniškega omrežja – SLING pri povezovanju in koriščenju superračunalniškega omrežja,
- v evropskem konzorciju digitalnih infrastruktur DARIAH ERIC pri vzpostavljanju digitalne RI za umetnost in humanistiko v Evropi.
DP11 spodbuja uporabo novih digitalnih tehnologij in metod pri gradnji znanstvenih zbirk ter pri izvajanju digitalno podprtih raziskavah:
- izvaja podporo raziskovalnim projektom in programom,
- (so)organizira individualne in skupinske delavnice,
- (so)organizira znanstvene konference,
- izvaja program študijske prakse, pri čemer posebno pozornost namenja usposabljanju lastnih podatkovnih znanstvenikov, podatkovnih strokovnjakov in ostalega podpornega osebja za svetovanje, načrtovanje in izvajanje aktivnosti v sklopu RI.
DP12: Služba za mednarodno sodelovanje
Sodelovanje z evropsko mrežo za digitalno humanistiko DARIAH ERIC in ostalimi nacionalnimi DARIAH infastrukturami. Spremljanje razvoja in aktivno sodelovanje:
Infrastrukturni program Inštituta za novejšo zgodovino od 2008 sodeluje v evropskem projektu DARIAH, uvrščenem v evropske strategije raziskovalne infrastrukture - European Strategy Forum on Research Infrastructere (ESFRI Roadmap), od leta 2010 v partnerstvu z Znanstvenoraziskovalnim centrom Slovenske akademije znanosti in umetnosti. V okviru panevropskih povezav je 2013 Slovenija podpisala pristop k DARIAH-ERIC, Inštitut za novejšo zgodovino je postal koordinator DARIAH v Sloveniji.
Infrastrukturni program sledi splošnim ciljem, zajetim v ESFRI Kažipotih (ang. Roadmap), DP12 pa:
- sodeluje pri sooblikovanju razvojne politike digitalne humanistike v smislu mednarodne in meddisciplinarne interoperabilnosti ter dolgoročne vzdržnosti s poudarkom na vsebinsko-tehnološki dejavnosti oziroma sodelovanju znotraj delovnih skupin (WG) in v virtualnih kompetenčnih centrih (VCC, predvsem 1-3),
- raziskave na področju umetnosti in humanistike povezuje z modernimi tehnologijami in tehnološkim napredkom v smeri realizacije sledečih strateških usmeritev:
- Oblikovanje ter vodenje dejavnosti in storitev v okviru humanistične raziskovalne skupnosti.
- Učinkovita vključitev virov, orodij in storitev, ki imajo širšo podporo v obstoječi raziskovalni dejavnosti, v nadaljnji razvoj infrastruktur na nacionalni in globalni ravni.
- Učinkovita promocija digitalnih metod v humanističnih raziskavah za dosego trajnostnega razvoja digitalne humanistike.
- Zagotovitev celovitega dostopa do podatkov ter storitev odprto in prosto dostopne infrastrukture.
- Vzpostavljanje zaupanja vredne infrastrukture, ki vključuje partnerje, podatke, storitve in postopke.