Projekt

Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů

Trvání projektu: 
2018 - 2022

V posledních 25 letech internet a webové stránky výrazně změnili lidskou komunikaci. V prostředí internetu průběžně narůstá objem publikovaných dokumentů, které se však postupně mění nebo zcela mizí. Pokud by nebyly průběžně archivovány, byla by tato významná část mezilidské komunikace navždy ztracena. Úlohou webových archivů je archivovat v co nejúplnější podobě webové stránky a zachovávat tak hodnotný zdroj informací, které mohou využívat i sociální vědci.

Mezi hlavní cíle projektu patří aplikovaný výzkum a experimentální vývoj systému pro identifikaci, správu a zpracování širokého spektra dat českého webového archivu (webarchiv.cz). Hlavním účelem je umožnit široké odborné veřejnosti využívat potenciál dlouhodobě shromažďovaných dat. Ta jsou dosud z velké části nezpracovaná, a tedy vědcům nepřístupná. Projekt propojuje oblast vytěžování velkých dat, tzv. big data, z českého webového archivu a oblast výzkumu sociálněvědních oborů.

Na projektu se v rámci Sociologického ústavu AV ČR, v. v. i., podílí tato oddělení: Centrum pro výzkum veřejného mínění, Český sociálněvědní datový archiv, Lokální a regionální studia, Hodnotové orientace ve společnosti

Hlavní řešitel: 
Západočeská univerzita v Plzni
Národní knihovna ČR – Webarchiv
Témata: 
metodologie výzkumu
sociologická data
Zadavatel: 
ministerský projekt