Analyzátor uniklých datasetů
13. 9. 2022Práce si klade za cíl vytvořit analyzátor uniklých datasetů (Anonymous Leaks, Panama Papers…). Nástroj by měl umožňovat spravovat metadata, automaticky určovat kategorii dokumentů, jazyk, ve kterém jsou psány, a různé jejich vlastnosti (autor, GPS aj.) za použití existujících nástrojů pro OCR a klasifikaci textu.
Variantou je úprava stávajícího nástroje Aleph od OCCRP (https://github.com/alephdata/aleph) tak, aby podporoval chybějící části a nabídl přehledné workflow.