Dodatek ke stanovisku CzADH k hodnocení a uznávání výzkumných výsledků

Problematika hodnocení v konkrétních příkladech digitálních výsledků (viz Stanovisko)

Digitální edice

Digitální edice historického pramene je nepochybně cenným akademickým počinem a ústředním výstupem mnoha DH projektů u nás i v zahraničí. Kvalitně připravená digitální vědecká edice (např. podle TEI-XML standardů) umožňuje další práci s pramenem, která předtím nebyla možná: uvažme třeba, že edice literárního díla, v níž jsou veškeré výskyty místních názvů opatřeny odkazy do geografického informačního systému, umožňuje přímočaré přenesení prostorové informace na mapu. Výstup tohoto typu však Metodika nedokáže řádně kategorizovat. Podle definice užívané v M17+ pro specializovanou veřejnou databází není „databáze obsahující známé nebo již veřejně přístupné údaje“ a její požadovanou vlastností je strukturovanost. Tato definice byla zjevně napsána tak, aby odpovídala zveřejnění tabulkových dat, která jsou výstupem měřicích přístrojů. Pojem „specializovaná veřejná databáze“ také automaticky předpokládá zpřístupnění datové sady v dedikovaném prostředí, což nemusí být vždy potřebné ani žádoucí, protože na zpracování datových sad existují specializovaná aplikační řešení a datová sada má tak hodnotu sama o sobě, bez ohledu na aplikační rozhraní, ve kterém je zveřejněna. Přestože je pro humanitní badatele odborný přínos digitální edice zřejmý (propojení geolokačních a textových dat, zpravidla vytvořený unikátním propojením existujících databází pomocí skriptů, programovacích knihoven a algoritmů natrénovaných na jazykových korpusech), úřední praxe zpochybňuje, že digitální edice již dříve známého literárního díla splňuje podmínky pro uznání výstupu jako specializované veřejné databáze. Pro nedostatečně proškolené hodnotitele, poskytovatele a představitele „kompetečně příslušných orgánů“, jejichž schválení Metodika při uznání výsledků tohoto typu vyžaduje, je obtížné rozpoznat, že textový soubor v TEI-XML formátu představuje standardizovanou datovou strukturu a je založen na netriviálním odborném vkladu autorů.

Programovací knihovny

Badatelé v oblasti DH se často podílejí na vývoji rozšiřujících knihoven (neboli balíčků či modulů) pro programovací jazyky (zejména Python či R), které mají za cíl usnadnit práci se specifickým typem dat nebo zjednodušit určitý typ analýz. Tyto nástroje rozšiřují know-how pro řešení dílčích problémů, šetří čas dalších badatelů, umožňují verifikovat dosažené výsledky výzkumu a jsou zcela klíčové pro snižování prahu obtížnosti práce s programovacími jazyky pro potřeby humanitních a sociálních věd. Podle definice výstupu „R“ (software) v rámci M17+ však softwarem není „přidání uživatelských funkcí do stávajících aplikačních programů (včetně funkčnosti základních vstupních dat)“ ani „přizpůsobení výrobku pro konkrétní použití, nejsou-li v průběhu tohoto procesu přidány poznatky, které výrazně vylepšují základní program“. To jsou charakteristiky a funkcionality, kterými se výše zmíněné knihovny zpravidla vyznačují. Tento problém postihuje i nemožnost vykazovat postupný a dlouhodobý rozvoj softwarových řešení, která jsou postupně obohacována o nové funkce a moduly. Z uživatelského hlediska je mnohem přínosnější jedno integrované řešení oproti většímu množství samostatných nástrojů. Takový postup je však z hlediska dnešních definic výstupů nepřípustný. Pokud je cílem výzkumu a vývoje kvalitativní posun stávající praxe, nelze požadovat, aby každý výstup byl budován na „zelené louce“, neboť jde o neefektivní řešení z pohledu výzkumníků/tvůrců i výzkumníků/uživatelů (problém naposledy postihl např. řadu návrhů projektů ve výzvě NAKI III MK ČR a způsobil jejich vyřazení ze soutěže i přes jinak vysoké hodnocení, což jde proti smyslu veřejné soutěže).

Speciální literární mapy

Digitální literární kartografie zažívá v posledních letech zejména v zahraničním výzkumu výrazný rozvoj. Ačkoli mezi často využívané způsoby pro tvorbu literárních digitálních map náleží různé geografické informační systémy (GIS), jejich potenciál je v literárněvědném kontextu uplatnitelný pouze pro vizuální reprezentaci např. propojenosti konkrétních geolokací s bio- či bibliografickými informacemi nebo vizualizace realizované pomocí mapových podkladů čtenářské zkušenosti (tzv. deep maps). V případě mapování fikčních topografií jakožto nedílných součástí fikčních světů literárních děl jsou GIS přístupy mnohdy zcela nevhodné, což vyplývá především z nezbytnosti definování přesných koordinátů. Fikční topografie však disponují různou mírou „nedourčenosti lokací“, nepřesnou či nejednoznačnou identifikovatelností míst či cest fikčních postav, a tedy pro ně neplatí stejné principy jako pro reálné, resp. fyzikálně možné topografie. Za účelem systematického zkoumání literárně fikčních topografií je tedy nezbytné vyvinout takové metody a způsoby mapové reprezentace, jež tyto zásadní aspekty fikčních topografií dokážou náležitě reflektovat. Speciálně vyvinuté literární kartografické modely však nenaplňují současnou definici výstupu typu Nimap, přestože se jedná o specializované mapy s odborným obsahem, kterými jsou realizovány původní výsledky výzkumu a vývoje a které umožňují v rámci specializovaných webových rozhraní zobrazovat jednotlivé překryvné topografické vrstvy. Definice Nimap je primárně formulována s ohledem na památkové, archeologické, klimatické, dopravní, biologické, stavebně-historické aj. postupy a výsledky odborné práce využívající mapových vrstev, a tudíž GIS. V případě odborných literárněvědných map, respektive digitálně přístupných mapových kolekcí ve formě databází, jež primárně nevyužívají GIS z důvodů výše uvedených, současný způsob hodnocení výsledků nenabízí adekvátní zařazení takových speciálních mapových kolekcí (databáze) pod konkrétní typ vědecky uznatelného výstupu.

Evaluační a trénovací data pro automatické nástroje zpracování textu, řeči a obrazu

Nástroje na automatickou analýzu textu a mluvené řeči fungují na základě strojového učení. Tyto systémy jsou natrénovány na datech, která obsahují správná řešení daného problému (např. rozpoznání ručně psaného textu, přepis mluvené řeči, automatický překlad, větný rozbor). Trénovací data často pocházejí z elektronicky snadno dostupných domén (např. zpravodajské weby, Wikipedie, sociální sítě). Mimo tyto tématické a stylové domény úspěšnost jazykových nástrojů dramaticky klesá – což je zásadní překážka pro použití pokročilých technik dolování textu v DH, kde se běžně zkoumají historické texty, případně drama či poezie. K podstatnému zvýšení úspěšnosti analýzy přitom často stačí vydat v oborovém repozitáři poměrně malý adaptační korpus o větších jednotkách tisíc slov, který může být hotov v řádu měsíců i při dodržení správných postupů managementu kvality, jako je částečná vícenásobná anotace s průběžným měřením shody mezi anotátory. Tvorba takových korpusů již dávno není publikačně vděčná, přesto však jde o výstup vědecky přínosný, protože následně umožní celé výzkumné komunitě dolování textu na dalších textových doménách. Pokud by tedy byl evaluační/trénovací anotovaný korpus speciální domény adekvátně ohodnocen v systému VaVaI, můžou čeští badatelé významně přispět k rozvoji celosvětové DH komunity.