mercoledì, dicembre 01, 2010

Bonifica dei dati - Google Refine

- post<li> - Permalink

Ammetto la mia ignoranza ma non conoscevo Google Refine. Mi sono sempre chiesto però come potesse funzionare la bonifica delle grandi moli di dati, ovvero quell'operazione noiosa che molto spesso viene delegata ad un "volontario" che a manina santa corregge e alza la qualità della base di dati iniziale. Questa è un'operazione piuttosto comune quando si tenta di collegare un database alfanumerico ad un Sistema Informativo Territoriale (SIT).

Le operazioni più comuni in questo campo sono:
  1. L'armonizzazione, ovvero la possibilità di trovare "via Garibaldi" ma anche "via G. Garibaldi" oppure "giuseppe Garibaldi", informazioni che ovviamente si riferiscono alla medesima via reale ma che non consentono un trattamento informatico univoco. Bene questa è la prima funzione offerta da Google Refine ed è ben spiegata in questo video da seguire anche se non siete anglofoni ;-)


  2. La trasformazione, ovvero l'idea che i dati possano passare da una forma all'altra in modo più o meno automagico. Nel video seguente vedremo come prendendo le informazioni da una pagina di Wikipedia si possa ottenerne un database


  3. L'integrazione, o in altre parole aggiungere informazioni a quelle che abbiamo già, magari pescandole dalla rete tramite servizi web. Tipo, abbiamo una serie di indirizzi e vogliamo averne longitudine e latitudine per poterli piazzare su della cartografia? Bene anche questa è una possibilità offerta da Google Refine!


Ovviamente il prodotto  non è alla portata di tutti o comunque potrebbe essere più complicato da usare rispetto a quello mostrato nei video. Il tempo risparmiato attraverso il suo impiego potrebbe però giustificarne la fase di training iniziale necessaria.

Voi lo usate già? Ne usate altri di simili? Se si quali?


Byez


Ogni grandezza ha la sua espiazione.

Nessun commento:

Articoli correlati divisi per etichetta



Widget by Hoctro