Zadání

Analyzátor uniklých datasetů

13. 9. 2022Práce si klade za cíl vytvořit analyzátor uniklých datasetů (Anonymous Leaks, Panama Papers…). Nástroj by měl umožňovat spravovat metadata, automaticky určovat kategorii dokumentů, jazyk, kterým jsou psány, a různé jejich vlastnosti (autor, GPS etc.) za použití existujících nástrojů pro OCR a klasifikaci textu.

Variantou je úprava stávajícího nástroje Aleph od OCCRP (https://github.com/alephdata/aleph), aby podporoval chybějící části a nabídl přehledné workflow.