Il database finale dell’inchiesta è il risultato dell’unione di due dataset precedenti: quello costruito dall’osservatorio Fortress Europe di Gabriele del Grande che contiene 1634 eventi dal 1988 al 2013 per un totale di circa 20 mila tra morti e dispersi e quello della NGO United for Intercultural Action che raccoglie circa 2666 eventi dal 1993 al 2013 per un totale di 16.264 vittime. A questi si aggiungono alcuni dati provenienti dal progetto PULS dell’Università di Helsinki in collaborazione con il Joint Research Center of the European Commission, un database di notizie del mondo dal quale sono state filtrate quelle su migrazione e traffico di esseri umani.

042558

Italy / Boat people from Libya / A boat carrying 493 fleeing migrants from Tripoli could not make it to Lampedusa because of a technical problem / UNHCR / F. NOY / May 2011

Fortress Europe – I dati originari sono pubblicati sotto forma di un’unica tabella HTML, convertita in CSV mediante DataMiner. Le colonne sono “Data”, “URL”, “Paese”, “News”, “Fonte”. La maggior parte delle informazioni rilevanti sono contenute nella colonna “News” sotto forma di testo in linguaggio naturale (per esempio “fa naufragio al largo di Alessandria un’imbarcazione diretta in Sicilia. Recuperati i corpi di 12 vittime, ancora dispersi 22 dei passeggeri“). Con OpenRefine sono state ripulite le colonne originali e identificati i dati mancanti o inconsistenti, mentre l’estrazione delle informazioni dalla descrizione (tra cui numero di morti e dispersi e luogo del naufragio) è stata fatta in parte manualmente e in parte in maniera semiautomatica (individuazione automatica di numeri e entità geografiche dal testo più verifica). Le colonne del dataset finale sono “ID”, “Data”, “URL”, “Paese”, “Città”, “Morti e dispersi”, “Latitudine”, “Longitudine”, “Notizia”, “Fonte”.

United – I dati originari sono pubblicati sotto forma di un’unica tabella in pdf, per un totale di 34 pagine, ma su richiesta sono stati forniti al progetto in un file xls. Le colonne sono “Found dead” (la data), “Month”, “Number”, “Name”, “Country of origin”, “Cause of death”, “Source”. Non si tratta quindi di un vero dataset di eventi, come quello di Del Grande, ma piuttosto di vittime (ecco il perché della colonna “Name”, quasi sempre non valorizzata). Spesso quindi un singolo evento occupa più righe, ognuna con un gruppo di vittime (nel caso siano state trovate in tempi diversi, o sia nota l’identità di alcune vittime e non di altre). La colonna “Cause of death” (causa della morte) contiene un testo descrittivo dell’evento, analogo alla colonna “News” di Fortress Europe. Anche in questo caso OpenRefine ha permesso la pulitura dei dati e un controllo sulla loro omogeneità e coerenza interna.

16968

Yemen / Exhausted survivors of the Gulf of Aden crossing wait for help on a beach in Yemen / UNHCR / J. Bjorgvinsson / March 2007

Entrambe le organizzazioni si occupano del medesimo fenomeno sostanzialmente nello stesso arco temporale (una ventina d’anni). Entrambe colmano le lacune delle statistiche e dei rapporti governativi ufficiali basandosi su fonti prevalentemente giornalistiche da parte di agenzie di stampa, giornali internazionali, nazionali e locali. Rispondono però a due esigenze diverse: censire gli eventi luttuosi piuttosto che censire le vittime di questi eventi, purché sempre legati all’immigrazione in Europa. Anche la metodologia di raccolta dei dati è diversa: United risulta molto rigorosa nel considerare accettabile un evento nel proprio censimento, limitandosi alle notizie ben documentate e ignorando per esempio gli eventuali racconti dei migranti sbarcati che riportano di morti durante la traversata. Fortress Europe invece risulta più permissiva da questo punto di vista, considerando anche questi casi come dispersi. Ci sono poi differenze di tipo linguistico e geografico: la United è una NGO che coordina più di 500 organizzazioni europee che si occupano di rifugiati e migranti, Gabriele Del Grande è un giornalista / ricercatore che ha studiato e girato le coste del Mediterraneo conoscendo anche personalmente vittime e famiglie di vittime. Evidentemente, anche per questioni linguistiche e di accesso alle fonti primarie, Del Grande si è concentrato sul Mediterraneo in senso stretto, sull’Italia, la Spagna e la Grecia, mostrando un occhio di riguardo per le tragedie in mare, quindi i naufragi. La United ha invece monitorato anche zone remote come le isole Canarie e soprattutto anche l’Europa continentale e il Mar del Nord, considerando accanto ai naufragi anche suicidi, morti nei centri di identificazione e detenzione, incidenti, ecc.

La difficoltà di recuperare le fonti primarie, quando indicate dai due dataset, per eventi di più di quindici anni fa ha portato il progetto a limitarsi a un periodo di 14 anni, dal 2000 al 2013. In questo caso morti e dispersi contati da Fortress Europe risultano 13.790 in 1272 eventi, mentre United ne considera 15.176 in circa 1900 eventi. L’unione di questi due elenchi ha richiesto un’attenta e lunga operazione di identificazione degli eventi duplicati, quindi quelli riportati in entrambi i dataset. Data la difficoltà del compito, basato sostanzialmente sul confronto di date, zone, numero di vittime e modalità di incidente, sono state messe in campo diverse strategie di controllo incrociato a posteriore per identificare eventuali errori e incongruenze.

Uno scatto rubato durante il Laboratorio di Data Journalism di Carlo Gubitosa presso l'Università di Bologna.

Uno scatto rubato durante il Laboratorio di Data Journalism di Carlo Gubitosa presso l’Università di Bologna.

Nell’ambito dell’attività formativa portata avanti da Dataninja abbiamo coinvolto l’amico e collega Carlo Gubitosa, giornalista / grafico / illustratore / fumettista e docente presso l’Università di Bologna, dove tiene un laboratorio di data journalism e giornalismo illustrato all’interno del corso di laurea in Scienze della Comunicazione. Dopo una lezione di approfondimento e di sperimentazione sui dati, sedici studenti del suo corso hanno accettato di contribuire al progetto, verificando con ricerche approfondite circa 250 eventi estratti casualmente dal database dell’inchiesta. Questo lavoro certosino ha permesso di evidenziare due importanti criticità nei dati: un discreto numero di possibili errori nelle date degli eventi, dovuto per lo più a errori di trascrizione alla fonte, e un alto numero di fonti segnalate, ma non più raggiungibili a causa di link ormai non più validi. In questo ultimo caso l’apporto dei ragazzi per gli eventi controllati è stato cruciale: molti link rotti sono stati ristabiliti grazie a una ricerca mirata nei servizi di archivio di Internet e sono state trovate e aggiunte molte fonti ulteriori, che hanno corroborato, corretto o integrato i dati presenti nel database.

Al termine di quattro mesi di lavoro, abbiamo così ottenuto un unico database comprendente tutti gli eventi noti legati alle morti di migranti nel loro viaggio verso l’Europa, dal 2000 a oggi. Si contano così 23.598 morti e dispersi in 2733 eventi, circa il 50% in più rispetto a quanto stimato dai due database originari presi separatamente. Naturalmente non esiste un numero esatto, per tutta la serie di difficoltà e le possibili fonti di errori viste in precedenza, ma quello che conta è l’ordine di grandezza: in 14 anni più di 23 mila persone, tra uomini, donne e bambini, sono morte nel tentativo di raggiungere il vecchio continente, per una media di 1600 all’anno.

Il database finale è composto da varie tabelle collegate fra loro, a differenza di quelli originari composti da una singola tabella. Ogni barcone intercettato dalla guardia costiera oppure ogni camion che trasporta di nascosto dei richiedenti asilo, infatti, può essere astratto come un evento definito da una data, una coppia di coordinate geografiche, un numero di morti e dispersi e una causa di morte. Anche ogni migrante che muore soffocato all’interno di container nel porto di Rotterdam oppure annega a pochi metri dalle coste di Lampedusa può essere descritto mediante dei dati strutturati: nome, età, genere, nazionalità, ecc. Le righe della seconda tabella possono essere collegate alle righe della prima, che a loro volta possono riferirsi a ulteriori tabelle come quella delle rotte, quella dei paesi in cui avvengono gli eventi o da cui provengono i migranti, ecc.

Un grande database solo in parte riempito, ma che in futuro potrà crescere. I dati, come detto, non sono definitivi e hanno sicuramente in sé degli errori di cui non ci siamo accorti. Grazie a questo progetto, però, sono finalmente strutturati e onnicomprensivi, nel senso che riuniscono in un unico luogo tutte le informazioni finora note, raccolte e pubblicate. Qualsiasi lavoro futuro sul tema potrà partire da qui, verificando, correggendo e arricchendo questi dati. Anche a partire dall’iniziativa di giornalisti, associazioni, enti governativi e istituzionali, fino forse ad arrivare alle famiglie, agli amici, ai conoscenti di quei migranti che non ce l’hanno fatta.

detectiveio

Tweet about this on TwitterShare on Facebook16Share on Google+0Share on LinkedIn0Email this to someone

CC BY 4.0 This work is licensed under a Creative Commons Attribution 4.0 International License.

Be the first to comment.

Leave a Reply


You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*