Negli anni scorsi si è molto dibattuto sui Big Data, focalizzandosi, in genere, sulle fantastiche opportunità fornite dalla tecnologia. L’effetto secondario di queste discussioni è che il loro impiego possa essere piuttosto preoccupante.
Concordiamo che i Big Data siano fantastici, ma come ogni altra tecnologia emergente ha delle pecche. In questo articolo, analizzeremo cosa potrebbe andare storto con le loro implementazioni.
Per voi, niente privacy!
Di solito, quando la gente pensa ai possibili problemi con i Big Data, la prima e spesso unica cosa che viene in mente è la privacy.
Il nome parla da solo: i Big Data si basano sulla raccolta di molte informazioni, e più sono private queste informazioni, più efficacemente gli algoritmi possono giungere ad alcune conclusioni non scontate. Per semplificare, i dati privati sono la polvere fatata di tutta quell’imponente Magia dei Big Data.
Questa polvere fatata tende di frequente a essere sparpagliata e a rimanere in alcuni angoli oscuri. Tuttavia, c’è dell’altro: un’intera gamma di problemi meno banali, che sono legati l’uno all’altro in maniera complicata.
For #DPD15, we look at 2014’s top data leaks on Kaspersky Daily. https://t.co/lEpy81gdBl #databreach #cybercrime pic.twitter.com/XITXMW9NLe
— Kaspersky (@kaspersky) January 28, 2015
È scienza baby (niente affatto)
La gente ritiene che le soluzioni dei Big Data siano scienza. Ma il problema è che gli algoritmi ha soprattutto a che vedere con l’ingegneria. E c’è una grossa differenza.
Rifletteteci in termini di “fisica VS razzi”. La fisica è scienza, non si discute: ogni suo aspetto è stato studiato e dimostrato teoricamente e sperimentalmente. Poi è stato verificato dalla comunità scientifica, perché è così che funziona.
Inoltre, la scienza è sempre aperta, dato che tutto può essere ricontrollato in qualsiasi momento da chiunque sia interessato. E se vengono scoperti difetti rilevanti o sono emerse nuove teorie, è sempre argomento di discussione per la comunità scientifica internazionale.
I razzi non sono altro che strutture ingegneristiche basate su certi principi fisici. E come sapete benissimo, quando si tratta di missili, se la progettazione non è buona abbastanza, le cose possono facilmente andare a rotoli. O se le condizioni sono “sfavorevoli”, che in sostanza è la stessa cosa, poiché significa che il progetto non è buono a sufficienza per queste condizioni.
The scary side of #big #data http://t.co/jka3ZJSK6R #bigdata #analytics pic.twitter.com/9beTnrKice
— Kaspersky (@kaspersky) August 21, 2015
Non potete dubitare della matematica, vero?
Una delle conseguenze di questo fraintendimento è la falsa autorità. La gente deve accettare per buone le decisioni degli algoritmi dei Big Data e non può metterle in discussione. Ad eccezione dei matematici di professione, che potrebbero potenzialmente confutare la validità di questo o quel modello di Big Data o algoritmo, se fossero in grado di investigarlo. Ma ne sono davvero capaci?
La black box è così black
Anche se siete dotati di conoscenze ed esperienze matematiche e volete esplorare come funzioni esattamente questo o quell’algoritmo, raramente ne viene concesso l’accesso. Questo perché il software è commerciale, e il suo codice sorgente è brevettato. I ricercatori sono in genere vaghi, sottolineando che non vi faranno esaminare il brevetto. Un po’ come dire: “grazie per l’interesse, buona notte.”
Nel suo intervento “Weapons of Math Destruction”, la matematica e attivista dei diritti umani Cathy O’Neil, parla del Value-added modeling, un algoritmo per la valutazione dei docenti negli USA:
“Una mia amica che dirige una scuola superiore a New York voleva capirlo [questo algoritmo]. Si trova in un istituto tecnico quindi pensava che ne sarebbe stata capace. Ha chiesto al suo Dipartimento dell’Istruzione di mandarle delle informazioni al riguardo. Hanno detto: ‘Ma è matematica, cosa vuoi saperne!’ ”
“Ha insistito e finalmente ha ottenuto un rapporto ufficiale e me l’ha mostrato. Era troppo teorico per essere utile. Per cui ho presentato una richiesta secondo la Legge sulla Libertà dell’Informazione per ottenere il codice sorgente, che è stato negato. In seguito ho scoperto che il gruppo di esperti a Madison (Wisconsin), che è responsabile di questo modello, possiede un contratto di licenza che afferma che nessuno può vederlo.”
“Nessuno nel Dipartimento dell’Istruzione di New York City comprende quel modello, nessun insegnante capisce il suo punteggio e non può migliorarlo perché non gli si dice come.”
Qualcosa dentro, tutto fuori
Poiché gli algoritmi sono oscuri, lo sono pure i dati di input. Un operatore di software Big Data non può essere sicuro di quali dati siano processati dall’algoritmo e quali no. Quindi, alcuni di essi possono colpire l’output due volte, la prima dall’algoritmo e la seconda dall’operatore. O, al contrario, alcuni dati rilevanti possono andare perduti se l’operatore pensa erroneamente che siano già inclusi nel risultato, ma che in effetti non sono stati affatto considerati dall’algoritmo.
Per esempio, la polizia entra in un quartiere ad alto tasso di criminalità. Il loro software avverte che c’è il 55% di possibilità che un uomo di fronte sia un ladro. L’uomo porta con sé una valigia sospetta ma i poliziotti non sanno se il tool dell’algoritmo abbia considerato o meno questo aspetto. Devono decidere se la valigia faccia dell’uomo un soggetto più o meno sospetto.
Per non parlare che i dati di input possono semplicemente contenere errori, o non contenere delle informazioni di vitale importanza per una corretta previsione.
Our top 10 list of the most interesting big data projects in the world http://t.co/YWMxJCTSYZ
— Kaspersky (@kaspersky) April 3, 2015
Il bicchiere è mezzo vuoto o mezzo pieno?
Neanche le informazioni output sono molto trasparenti e possono essere interpretate male. I numeri possono essere soggettivi e due persone diverse possono interpretarli in maniera completamente differente. Per esempio, cos’è una probabilità del 30%? L’interpretazione può variare da “probabilmente no” a “probabilmente sì”, a seconda di molti fattori che non si possono mai prevedere.
Peggio ancora, questo punteggio di probabilità può essere usato come discriminante: nonostante il fatto che la probabilità che una persona, per esempio, commetta un certo tipo di reato non sia abbastanza alta per essere presa seriamente in considerazione, in alcuni frangenti può essere utilizzata per rimuovere una fetta di popolazione.
Per esempio, negli USA si servono di algoritmi del genere per il nulla osta di sicurezza, cercando di prevedere che probabilità ci siano che una persona riveli delle informazioni. E poiché ci sono un sacco di persone che ambiscono a quel tipo di lavoro, non si fanno problemi a escludere persone secondo questo criterio, anche se la probabilità non è davvero significativa, ma solo un po’ superiore alla media.
Why Eugene Kaspersky has big problems with big data http://t.co/QPaWyddi via @itworldca cc: @e_kaspersky
— Kaspersky (@kaspersky) May 22, 2012
Niente errori?
Considerando tutte le pecche sopramenzionate, si può dire che uno dei vantaggi dei Big Dati più estesamente promossi, la mancanza di errori, non è del tutto corretto. Una decisione presa da un umano basata su un calcolo compiuto da un algoritmo creato da un umano, rimane una decisione presa da un umano.
Può essere errata o no. Il problema è che, con algoritmo e dati poco chiari, non si può mai dire. E non potete fare nulla perché è pre – impostato nel software.
Benvenuto nel Lato Oscuro, Anakin
Gli algoritmi di previsione sono anche vulnerabili al circuito di feedback a alle previsioni “auto-avveranti”. Per esempio, un algoritmo usato dal Chicago Police Department può segnalare un bambino come potenzialmente pericoloso. Poi i poliziotti cominciano a “tenerlo d’occhio”, a fare visite a casa sua e via dicendo. Il ragazzo osserva che la polizia lo tratta come un criminale nonostante non abbia ancora fatto niente, e comincia a comportarsi di conseguenza. E alla fine entra a far parte di una banda, solo perché è stato offeso dalla polizia.
O, come dice Whitney Merrill nel suoi intervento Predicting Crime in a Big Data World al Chaos Communication Congress 32, “Se un poliziotto è in servizio in una zona, e un algoritmo dice ‘Hai il 70% di probabilità di trovare un ladro in questa zona’, troverà il ladro perché gli è stato detto ‘Potresti trovare un ladro’?”
Nessuna rinuncia
Se un’organizzazione governativa o commerciale impiega algoritmi di Big Data, e a voi non sta bene, non potete dire semplicemente “Ne ho abbastanza, me ne vado”. Né qualcuno vi chiederà se volete essere soggetti a una ricerca sui Big Data o no. O peggio: possibilmente, neanche ve lo diranno che siete soggetti.
Beh, non fraintendetemi: non intendo dire che tutte le falle sopramenzionate siano una buona ragione perché l’umanità rifiuti gli algoritmi di previsione avanzata. Ovviamente, i Big Data sono in ascesa e certamente saranno una realtà. Ma forse è il momento giusto per preoccuparsi dei suoi errori, finché non sia troppo tardi per ripararli.
Dovremmo rendere gli algoritmi e i dati di input più trasparenti e protetti, garantire ai ricercatori indipendenti l’accesso al codice sorgente, fissare la legislazione, cominciare a informare la gente su ciò che sta davvero avvenendo con questa roba “matematica”. E di sicuro dobbiamo, dopo tutto, imparare dai nostri errori.