Un “calcolo” per l’open data

Share Button

questo articolo è la versione in italiano di libera traduzione da A “calculus” for open data di Arnaud Sahuguet e David Sangokoya

L’open data crea grandi promesse ed offre vantaggi non ancora sfruttati per i processi decisionali di singoli, pubblico e privato. Tuttavia questi benefici spesso si presentano con costi e rischi nascosti. Prendendo ispirazione dall’articolo “Una teoria del calcolo del voto“, vi presentiamo un modesto tentativo di formalizzare il “calcolo dell’open data” per aiutare i fornitori di dati a prendere questa decisione.

calculus real people

Photo by Andrés Monroy-Hernández/Flickr at http://bit.ly/1C8zvIL

 

Introduzione

Il valore, l’impatto e la promessa di rendere i dati accessibili al pubblico hanno spinto i cittadini, le agenzie governative e le imprese ad abbracciare gli open data come un modo per aumentare l’efficienza, promuovere la trasparenza e massimizzare l’utilità.

I dati aperti sono dati che possono essere liberamente utilizzati, riutilizzati e ridistribuiti da chiunque, soggetti eventualmente alla necessità di citarne la fonte e di condividerli con lo stesso tipo di licenza con cui sono stati originariamente rilasciati.[Open Data Handbook]

McKinsey stima più di 3mila miliardi di dollari di valore aggiunto a livello globale come risultato dell’open data. Studi su larga scala, come OpenData500 evidenziano un impatto attraverso tutti i settori come energia, prodotti di consumo ed assistenza sanitaria. Più di 40 paesi hanno condiviso più di un milione dataset governativi.  La condivisione di dati di aziende offre vantaggi reciproci al settore pubblico e privato. Es. la partnership di Uber con la Città di Boston, il Laboratory Social Machinese di Twitter e MIT, la Dataset Challenge di Yelp.

Mentre l’ascesa del movimento open data ha aumentato l’interesse sul tema portando un crescente entusiasmo per liberare il potenziale dei dati aperti, i fornitori di dati non hanno ancora individuato un linguaggio comune per valutare e pesare la decisione per aprirli.

Gli enti pubblici ed i loro funzionari spesso aprono i propri dati come risultato di una pressione top-down (= dall’alto verso il basso) per creare modelli di efficienza, soddisfare le richieste dei cittadini ed aumentare la trasparenza attraverso il numero di dataset rilasciati invece di valutare l’impatto che questi dati possono creare. Spesso non riescono a cogliere i costi nascosti associati all’apertura dei dati e perdono le opportunità per sfruttare le conoscenze delle comunità o di esperti esterni per ottimizzare la condivisione dei dati.

Le aziende, per la maggiore, hanno assunto un atteggiamento a in stile guarda-e-aspetta. Mentre alcune hanno cominciato a condividere dati aziendali per scopi di ricerca o per dare supporto alle decisioni di  pubblica utilità, altri stanno costruendo modelli imprenditoriali usando gli open data delle PA. Visto che i dati sono considerati come una risorsa strategica per le imprese, le aziende fanno molta attenzione a non cadere in in possibili rischi producendo vantaggio alla concorrenza e ad impegnarsi in una attività che presenta nuovi quadri giuridici e normativi.

Gli utenti finali sono motivati a condividere i loro dati. Spesso però non ne sono i veri “proprietari” in quanto i loro dati sono memorizzati e gestiti dalle aziende che ne forniscono il servizio (es. social media). Ed anche quando gli utenti sono proprietari dei dati, nasce la paura di essere spiati dal governo o di ussere al centro di pratiche di marketing delle aziende e, pertanto, questo dissuade a rendere i loro dati più accessibili al pubblico.

Storie dal campo

Cominciamo subito con alcuni selezione di esempi  per evidenziare il valore e l’impatto dell’open data e la necessità di un quadro decisionale migliore nel momento in cui si discute della possibilità di aprire i dati.

Storie di successo e di orrore

Abbiamo intorno a noi alcune storie di successo e numerosi esempi di open data. Le informazioni sul trasporto pubblico (rese spesso disponibili dalle città attraverso lo standard Google GTFS) fanno risparmiare molto tempo a milioni di persone ogni giorno. Il GPS è alla base dei servizi e prodotti di locazione mobile. Le informazione meteorologiche del National Oceanic and Atmospheric Administration (NOAA) sono utilizzate dalle aziende che si occupano di meteorologia e dalle assicurazioni come, da esempio, The Weather Channel e Climate Corporation. La natura aperta dei dati del Project Human Genome ha promosso la collaborazione su larga scala nella decodifica del genoma umano e la creazione di un ecosistema di innovazione tra ricercatori delle università e le aziende private.

Siamo però anche testimoni di storie dell’orrore. Uno dei primi esempi è stato il rilascio dei log di ricerca di AOL nel 2006  a fini accademici. I dati rilasciati contenevano alcune informazioni pubblicamente identificabili (PII – publicly-identifiable information) degli utenti di AOL che hanno così reso possibile risalire alll’identità delle persone ed allo storico delle loro ricerche su internet. Più di recente, il rilascio dei dati relative alle corse in taxi anonimizzati in modo non corretto della New York City Taxi& Limo Commission ha rivelato l’identità dei tassisti, i viaggi di alcune celebrità ed anche l’orientamento religioso di alcuni autisti.

Domande difficili

Per ciascuno di questi casi, ecco alcune domande a cui è oggi difficile dare una risposta:

  • Perché i soggetti interessati scelgono di aprire (o non aprire) i loro dati?
  • Quali incentivi avrebbero potuto essere messi in atto per incoraggiare (o scoraggiare) l’apertura e la condivisione dei dati?
  • Tra le varie leve disponibili, quale è quella da tirare in modo da convincere un fornitore ad aprire i propri dati?

Un calcolo per i dati aperti

il nostro calcolo ruota intorno ad una semplice equazione:

P x B + D> C

dove

  • P è la probabilità che l’apertura dei dati avrà qualche effetto,
  • B è il beneficio che il dataset in questione può ricevere dall’apertura,
  • D è l’impatto globale o di ecosistema, e
  • C è il costo.

Qualsiasi aumento di P,B o D ed una diminuzione di C faranno in modo che l’apertura dei dati porterà a maggiori benefici.

Ora possiamo discutere le variabili ad una ad una e individuare quali sono i fattori che la influenzano nella pratica.

P per probabilità

(P) rappresenta la probabilità che l’apertura dei dati genererà potenziali benefici per il proprietario dei dati.

I fattori che fanno salire (P) sono:

  • standard nella pubblicazione dei dati
  • una cultura guidata dai dati all’interno del settore pubblico e privato, promossa da offerte educative forti.
  • un ecosistema di consumatori di dati, con hacker/sviluppatori che creano prodotti, sistemi di memorizzazione e cura dei dati (es. Enigma), spazi online dedicati alla scienza dei dati (es. Kaggle, DataKind, Bayes Impact).
  • incentivi per i consumatori di dati ad utilizzarli. es. concorsi e sfide (NYC BigApps, Netfix Prize) o ricerca finanziata (es. Twitter Data Grants)

Fattori che fanno scendere (P) sono:

  • l’assenza o la rigidità del quadro giuridico
  • la mancanza di fiducia fra i vari attori coinvolti

B per benefici

I potenziali benefici (B) per l’apertura data includono fattori quali il miglioramento della qualità dei dati dopo essere stati rilasciati:

  • migliore precisione e meno errori a causa della potenziale revisione pubblica dei dati
  • meno lacune nei dati in termini di copertura e granularità provenienti da contributi esterni
  • una migliore interoperabilità grazie al fatto che i dati non sono più divisi in silo separati
  • sostenibilità dei dati
  • prioritizzazione dei dati, per aiutare l’identificazione dei dataset più incisivi
  • miglioramento della raccolta dei dati da altre istituzioni pubbliche (diminuzione di inutili duplicazioni e costi associati)

Scoperte interessanti fatte sui dati possono essere utili e determinare un aumento di benefici politici, sociali ed economici per il proprietario dei dati, che includono:

  • sviluppo di nuovi prodotti e servizi
  • creazione di nuove conoscenze nel settore pubblico
  • creazione di un nuovo settore aggiungendo valore per l’economia
  • creazione di nuovi dati basati sulla combinazione di dati esistenti
  • visibilità e pubblicità per il provider di dati
  • miglioramento dei servizi al cittadino

Questa categoria di benefici varia notevolmente a seconda del tipo di dato che viene aperto.

Inoltre, l’apertura dei dati potrebbe creare qualche opportunità di monetizzazione. Ad esempio, una città potrebbe vendere l’accesso in tempo reale dei propri dati (es. fondi di investimento e assicurazioni) rendendo lo stesso dataset pubblicamente accessibile sul suo portale entro una settimana.

D per dovere

Nell’articolo originale (D) sta per dovere. Nella nostra impostazione si traduce di più come “impatto sull’ecosistema” o “impatto globale” ed è specifico del settore. Questo rappresenta quindi l’impatto positivo nell’aprire dati per altri attori.

Gli enti pubblici potranno vedere il valore di aprire i dati in termini di migliore governance (trasparenza, responsabilità democratica, collaborazione, partecipazione …), il miglioramento della qualità della vita dei cittadini, una migliore interazione pubblico-a-pubblico, una parità di accesso ai dati ed un miglioramento nello sviluppo economico.

Gli enti privati potranno vedere il valore più in termini di responsabilità sociale di impresa.

Gli utenti finali vedranno il valore in termini di responsabilità sociale e comportamento pro-sociale.

C per costo

Infine (C) sta per costo, che è a sua volta influenzato da questi fattori.

  • Costi di apertura, ovvero i costi di apertura degli stessi dati. Tali costi riguardano i costi della transizione dei dati sepolti dentro sistemi legacy e la riformattazione dei dati in formato aperto.
  • Costi operativi, vale a dire i costi di pubblicazione dei dati e per il loro aggiornamento. Nonostante possano esserci offerte commerciali accattivanti e soluzioni open source, c’è sempre un costo nel mantenere un portal open data.
  • Costi di qualità, pertanto i costi per tenere i dati costantemente aggiornati.
  • Spese legali, cioè i costi di apertura dei dati nel rispetto delle varie normative. Trovare competenza giuridica in questo settore relativamente nuovo può essere difficili e quindi costoso. Ancora peggio quando si tratta di riferirsi a molteplici giurisdizioni prive di armonizzazioni sul tema (es. Europa contro Stati Uniti).
  • Costi di responsabilità e rischi, ovvero i costi a quando qualcosa va storto, come la privacy, dati errati, dati non aggiornati. Ancora una volta, la mancanza di chiarezza giuridica rende questo rischio più difficile da quantificare.
  • Costi obbligatori, ovvero quando l’apertura è un requisito legale (= diritto per i cittadini) la cui mancata apertura può comportare delle sanzioni (es. i costi nel FOIA in USA).
  • Costi competitivi (concetto valido per le aziende), ovvero il costo di condividere informazioni che possono essere utilizzate dalla concorrenza.
  • Costo di privacy (per gli individui), pertanto il costo di condividere informazioni che possono essere utilizzare da terzi per azioni che non migliorano la qualità della vita. (es. Spam, premi assicurativi ecc…).
  • Costi di pubbliche relazioni, cioè il costo dovuto dalla cattiva pubblicità o al danno di immagine dovuto da informazioni che possono essere ricavate dai dati (es. metriche di performance per una città, metriche ambientali o diversità di genere n una azienda).
  • Costi di opportunità, perché le stesse risorse (denaro, infrastrutture tecniche, risorse umane) potrebbero essere spese facendo qualcos’altro.

Ogni particolare categoria di costi (es. transazioni, privacy, opportunità) varia di settore in settore.

 

P x B + D > C

http://bit.ly/1AQEvnx

 

 

Tirando le somme

L’equazione descrive una quantità che deve essere maggiore di zero per aprire i dati in maniera sensata. In alcune situazioni pratiche, alcune variabili possono essere al di fuori del controllo del proprietario dei dati. L’equazione fornisce le linee guida in termini di come le leve possono essere attivate ed indica ulteriori decisioni da prendere in considerazione.

Focus su P: aumento della probabilità di benefici

  • Abbiamo investito sulle persone giuste? La cultura si sta spostando nella direzione di questa iniziativa?
  • Quanto sono utilizzabili questi da una comunità di hacker per costruire qualcosa di valido?

Focus su B: aumento dei benefici dai dati

  • C’è un meccanismo semplice per gli utilizzatori dei dati per fornire feedback?
  • Come interagiscono i dati dataset e sistemi collegati (es. interoperabilità) ?

Focus su D: valore del dovere e impatto all’ecosistema

  • Quale è il potenziale impatto nella catena del valore nell’apertura dei dati? A chi giova l’apertura di questi dati?
  • Quali relazioni e quanta buona disposizione nei confronti dell’apertura dei dati può nascere dal prendere questa decisione?

Focus su C: ridurre i costi

  • Quali sono i reali costi reali per trasformare e riformattare i dati in un formato usabile?
  • Quali sono i costi di manutenzione associati all’apertura dei dati?

La natura dell’equazione comporta una combinazione pesata di approcci crescenti di P, B e D e decrescenti di C. I seguenti esempi illustrano questi approcci in azione verso una condivisione più ottimale.

Rivediamo i 3 esempi

Abbiamo rivisitato 3 casi tipici di open data e guardato come la formula può aiutare ad identificare le leve che possono essere utilizzate per migliorare i risultati.

Esempio 1: API

Città (e pubbliche amministrazioni più in generale) spesso cominciano il loro processo di apertura dei dati offrendo semplicemente i dati grezzi e prendendo in considerazione le API solo successivamente. Questa è spesso una decisione miope.

Le API forzano l’uso di standard (P↑); facilitano l’organizzazione di premi e concorsi (P↑).

Le API sono per natura di hacker-friendly (P↑). API sono anche un passaggio naturale per la monetizzazione dei dati (P↑).

Le API possono essere costose da creare e mantenere (C↑); ma forniscono anche una migliore granularità dei dati che aiuta con la privacy e può ridurre le responsabilità legali (C↓).

Nel complesso, le API si presentano come una buona proposta di valore. L’accesso a strumenti semplici da usare e l’uso di standard pre-esistenti può ridurre il costo ancora di più facendo diventare questa opzione una scelta obbligata.

Esempio 2: Portali open data delle città

Il portale open data di una città è il luogo sul web dove una città decide di pubblicare i proprio dati che sta aprendo.

In primo luogo, il mantenimento di un portale di questo tipo costa in termini di acquisizione dello spazio di archiviazione e della banda (C↑). Se il portale permette di eseguire query sui dati, si introduce anche il costo delle risorse computazionali (C↑). Se il portale contiene alcune funzioni social come un forum, allora è necessario assumere un community manager (C↑) per gestire le richieste delle persone e gestire i problemi di comunicazione.

Un buon portale open data rende più facile la ricerca dei dati per gli utenti finali (P↑).

Il feedback degli utenti migliorerà la qualità dei dati (B↑) ed aumenterà il coinvolgimento degli utenti (P↑, D↑).

Di un buon portale open data beneficeranno anche gli enti che possono scoprire e moltiplicare l’ultilità dei rispettivi dati (D↑). Aprire i dati in modo proattivo è anche un buon modo per evitare numerose e costose richieste FOIA (C↓).

Data la disponibilità di buoni strumenti per creare portali open data (es. Socrata,CKAN, Github) ed il fatto che l’hosting ha costi relativamente contenuti, il costo C è spesso basso ed un portale open data è di solito una buona opzione per una città .

Esempio 3: la filantropia del cittadino digitale

I dati degli utenti possono essere molti utili per scopi di ricerca, per esempio nel settore medico o nella pianificazione urbana. Essendo io stesso un utente che vuole a contribuire al bene comune, sono interessato a donare i miei dati personali. P, B e D sono già elevati ma anche C lo è.

Nella maggior parte dei casi, i miei dati sono in realtà bloccati da alcuni fornitori di servizi che rendono in primo luogo difficile la condivisione (C↑). Inoltre, ci sono poche garanzie in merito al rispetto della mia privacy (C↑). Si aggiunge anche il rischio che i dati che aprirò non saranno utilizzati per lo stesso scopo che avevo in mente; questo viene incluso nelle nostre equazioni come un beneficio decrescente (B↓).

In questo ultimo caso d’uso, l’elemento critico sembra essere il costo. L’esistenza di istituzioni che facciano da tramite rendendo i dati anonimi e ne garantiscano un uso idoneo (per venire incontro alla richiesta voluta dall’utente) renderebbe questa forma di filantropia possibile per l’utente ridurrebbe il costo di  C. Questo caso inoltre richiede uno spazio in cui l’utente è anche  in grado di controllare i suoi dati.

Conclusione

Una semplice equazione non è in grado di rispondere a tutte le domande sull’open data. Nonostante tutti i suoi limiti, noi riteniamo che questo “calcolo” possa essere un utile modo per ancorare la conversazione, simile a quanto scritto da Anthea Watson Strong in The Three Levers of Civici Engagement.

Guardando alla formula, i decision makers possono vedere come un determinato fattore può influenzare il risultato. Internalmente, la formula potrebbe costituire la base logica per uno strumento di misurazione dei risultati e processi decisionali. All’esterno, invece potrebbe essere estremamente utile per le pubbliche amministrazioni che cercano di coinvolgere il settore privato nella condivisione di dati o per le comunità tecniche nella ricerca di soluzioni che consentano di ridurre il costo o amplificare i benefici.

Guardando alle leve offerte dalla formula, possiamo prevedere che: (1) l’esistenza di mercati di dati in cui le aziende possono scambiarsi, (2) l’esistenza di terze parte indipendenti che offrano sistemi di aggregazione e anonimizzazione dei dati per gli utenti finali  e la creazione di modelli (3) – sia legali che tecnici – che siano incorporati nelle soluzioni software dei portali open data sarebbero in grado di rendere la decisione di rendere la decisione di aprire fattibile e razionale per i fornitori di dati.

Ci auguriamo che il nostro “calcolo΅per l’open data possa offrire un inquadramento migliore sul tema e possa aiutare ad identificare le varie leve da attivare per facilitare la conversazione e la ricerca in questo settore a tutti i livelli.

Alcune letture consigliate

Per i lettori più accaniti, ecco alcune letture scelte sull’argomento.

Ricerca accademica

Impatto e opportunità

Dati per il bene pubblico

Rimanete sintonizzati per una prossima versione di questo lavoro.

Share Button

Leave a Reply