Big Data

Staff

Aldinucci Marco (Member)
Ardissono Liliana (Member)
Boella Guido (Member)
Bosco Cristina (Member)
Botta Marco (Member)
Cancelliere Rossella (Member)
Console Luca (Member)
Damiani Ferruccio (Member)
Di Caro Luigi (Member)
Esposito Roberto (Member)
Gena Cristina (Member)
Grangetto Marco (Member)
Meo Rosa (Member)
Patti Viviana (Member)
Pensa Ruggero Gaetano (Member)
Ruffo Giancarlo Francesco (Member)
Sapino Maria Luisa (Member)
Schifanella Rossano (Member)
Sereno Matteo (Member)
Aringhieri Roberto (Member)
Pisano Paola (Member)

Contacts

Send email to members

Activity

I Big Data rappresentano oggi una tematica trasversale a molte aree di ricerca.

Per questo, al Dipartimento di Informatica dell'Università di Torino, il gruppo che si occupa di Big Data raccoglie molti sottogruppi, che affrontano problematiche diverse e collaborano per trovare sinergie:

BigData + HPC = FastData

Progettazione, sviluppo, ottimizzazione di modelli di programmazione, ambienti e linguaggi per applicazioni data-intensive e BigData.

Lo sforzo del gruppo si concentra non tanto sugli algoritmi BigData analytics, ma sui costrutti necessari a progettare questi algoritmi in modo che le applicazioni siano veloci, robuste e con ridotto costo di sviluppo e manutenzione.

Tipologia dati: Tutti i dati BigData con specifico interesse per dati streaming ad alta e altissima frequenza con vincoli di latenza.

Metodologie e tecniche usate: programmazione parallela strutturata, modelli di programmazione paralleli avanzati (data-flow, SIMT, PGAS, ibridi shared-memory/message-passing, …), C++14/17, CUDA, tecniche di compilazione staged e meta-programmazione

Risultati: Libreria open-source FastFlow (dal 2009 scaricata >50.000 volte); Pubblicazioni

Rif: Marco Aldinucci – Alpha

Mappe di comunità interattive

Contenuti geo-riferiti generati dagli utenti: grandi masse di dati relativi al territorio difficilmente fruibili dagli utenti. “OnToMap: Mappe di comunità 3.0” (Fondazione CRT, 2014-15, https://ontomap.ontomap.eu) e “MIMOSA” (Compagnia di San Paolo, 2015-17): integrazione e crowdsourcing di dati geo-riferiti eterogenei in una piattaforma online che ne faciliti la ricerca, condivisione e visualizzazione.

Tipologia di dati utilizzati: Open Data offerti dalle Città di Torino e Venaria Reale.

Metodologie e tecniche usate: analisi di query testuali, query expansion basata su integrazione di conoscenza linguistica in ontologia (OWL) di dominio. Summarization di dati eterogenei multimediali via topic modeling/extraction.

Risultati attesi: la piattaforma permetterà a comunità di interesse, alle PA e ai cittadini di interagire con spazi informativi multi-dimensionali, nonché di avviare discussioni e progetti sui contenuti condivisi.

Rif: Liliana Ardissono, Maurizio Lucenteforte, Noemi Mauro, Ruggero Pensa, Valentina Rho, Maria Luisa Sapino, Gianluca Torta – IST*HAAC/MADM + DIST, Politecnico di Torino (A. Voghera, L. La Riccia).

Big Data supporting Public Health policies

Problema: Riorganizzazione dei Sistemi Sanitari Regionali: analisi e valutazione

Tipologia dei dati: provenienti dal sistema sanitario piemontese, ISTAT

Modelli di simulazione ad eventi discreti ed agent-based, modelli di ottimizzazione

Risultati ottenuti: analisi preliminare delle politiche di gestione della rete regionale dei pronto soccorso ospedalieri

Risultati attesi: valutazione di impatto della chiusura di specialità e/o interi ospedali sull'intero SSN regionale

Rif: Roberto Aringhieri, Andrea Grosso – ORMS + Regione Piemonte - Sistema Informativo Sanità

Crowdmapping e urban informatics

Problema: I problemi riguardano la gestione del rumore e il controllo real-time dei contenuti. Tra gli obiettivi c’è lo studio del territorio e una sua ricostruzione basata su contenuti e attività degli utenti.

Tipologia di dati utilizzati: dati geo-referenziati derivanti da social platform.

Metodologie e tecniche usate: Algoritmi per il tracciamento dei dati geografici relativi a “place” specifici, riconoscimento di attività legate al territorio basate su analisi semantiche dei contenuti.

Risultati: pubblicazioni

Rif: Guido Boella – SoCom

NLP applied to big data

Problema: sentiment analysis ed opinion mining nei social media:

sviluppo di collezioni di dati di natura testuale arricchiti da annotazioni e strutturati in modo da renderli adeguati all’addestramento di sistemi per la sentiment analysis implementazione di motori di sentiment analysis
implementazione di motori di sentiment analysis

Tipologia di dati utilizzati: dati testuali da social media (Twitter in particolare) e da altri media di comunicazione

Metodologie e strumenti: tecniche di sentiment analysis

per rappresentare ed analizzare polarità di opinioni e sentimenti,
per rilevare orientamenti ad es. in ambito politico,
per studiare fenomeni di diffusione di massa di odio razziale omofobia e terrorismo

Risultati ottenuti o attesi più salienti:

lo sviluppo di corpora per italiano, francese e spagnolo (in corso) per la sentiment analysis di testi a prevalente contenuto politico
l’addestramento di motori di sentiment;
nel prossimo futuro: sviluppo strumenti di analisi del linguaggio dell’odio per studiarne la diffusione nell’area piemontese (progetto finanziato da Fondazione CRT)

Rif: Cristina Bosco, Viviana Patti, Daniele Radicioni – CCC

Scalable Hybrid Variability for Distributed Evolving Software Systems (HyVar)

Problema: necessità di una metodologia di sviluppo per l’evoluzione continua e individualizzata di applicazioni software distribuite in esecuzione su dispositivi remoti in ambienti eterogenei.

Tipologia di dati utilizzati: dati, reali e simulati, prodotti da sensori installati su autoveicoli (dati forniti da Magneti Marelli)

Metodi e strumenti: Variability modeling, Feature model, Constraint solver, scalable cloud infrastructure

Risultati:

Specifica e implementazione prototipale di un Domain Specific Variability Language (DSVL)
Specifica e implementazione prototipale di una infrastruttura cloud scalabile che utilizzi il DSVL
Specifica e implementazione prototipale di una tecnologia per l’over-the-air update in ambito automotive
Validazione delle soluzioni proposte per mezzo di un dimostratore in ambito automotive.

Rif: Ferruccio Damiani, Simone Donetti, Luca Paolini – MoVeRe + Santer Reply + Institute of Software Engineering and Automotive Informatics, TECHNISCHE UNIVERSITAT BRAUNSCHWEIG, Germany + UNIVERSITETET I OSLO, Norway + ATBROX AS, Norway + MAGNETI MARELLI - progetto di ricerca europeo HyVar (http://www.hyvar-project.eu/)

Analisi semantica di documenti testuali legali

Problema: comprensione e riconoscimento di leggi attraverso tecniche di linguistica computazionale e riconoscimento di legami a relative sentenze nei vari paesi attraverso un'analisi semantica dei contesti testuali

Tipologia di dati utilizzati: Dati testuali multilingue di leggi e sentenze (uk, bg, de, fr, it, au) contenenti riferimenti espliciti ed impliciti, talvolta arricchiti di annotazioni ontologiche (EuroVoc).

Metodologie e tecniche usate: linguistica computazionale (analisi lessico-sintattica), data mining, e machine learning.

Risultati: pubblicazioni

Rif: Luigi Di Caro, Guido Boella – SoCom – Progetto europeo EUCases (www.eucases.eu), il cui scopo è il trattamento di grandi moli di dati testuali di leggi e sentenze (ordine del milione, per 6 paesi diversi uk, bg, de, fr, it, au)

InfoViz & DataViz

Problema: dati ed informazioni devono essere visualizzati e resi disponibili in modo interattivo

Grandi molti di dati da sintetizzare in modo chiaro ed usabile
Spesso i dati devono essere visualizzati in tempo reale e consentire esplorazioni, personalizzazioni, filtri e reportistica personalizzata

Tipologia di dati: prevalentemente aquisiti tramite librerie che consentono accesso a public open data e social media

Metodologie: Information Visualisation, Human Computer Interaction, Web Tecnologies, Computer Graphics, Data Visualization, Data Journalism

Risultati attesi: pubblicazioni, trasferimento tecnologico, analisi per policy maker

Rif: Cristina Gena, Giancarlo Ruffo – SIOS/ARCS

Toreador

Problema:

Sviluppare una metodologia e un sistema basato su Web Service, Cloud, High Performance Computing e Machine Learning per fare analisi dati su big data.
L’analisi dovrà garantire la sicurezza del sistema, la tutela della privacy degli utenti e il livello di qualità del servizio secondo una fase di negoziazione tra client e server su vari parametri (accuratezza, tempo di esecuzione, quantità di risorse impiegate, ecc).

Dati provenienti da quattro casi pilota:

l’analisi del flusso dei click sulle pagine web,
l’analisi dei processi di sviluppo software in grossi sistemi informatizzati,
l’analisi dei processi di produzione industriale
l’analisi dei sensori nella produzione di energia e nel controllo degli apparati per la demotica.

Metodologie e strumenti:

La metodologia si fonda sui principi di suddivisione secondo diversi livelli di astrazione del processo di gestione dei dati e di analisi, che garantisce l’interoperabilità e indipendenza tra i livelli (livello dichiarativo, procedurale, d’esecuzione con scelte sul tipo di architettura software e hardware e di implementazione con la scelta di una tecnologia software e hardware).
Calcolo Parallelo ad Alte Prestazioni, Apprendimento Automatico, Analisi Dati e Visualizzazione.

Tecnologie:

linguaggio di HPC Spark, software suite per Machine learning Flint (open source) ...

Risultati ottenuti o attesi più salienti:

Metodologia di esecuzione e analisi su big data, distribuita e parallela, su cloud;
Modelli predittivi e descrittivi di big data in quattro casi pilota reali;
Modelli di visualizzazione dei dati e dei risultati;

Risultati di usabilità del sistema, di performance dei modelli con utenti finali coinvolti nella fase di negoziazione, training e valutazione

Rif: Rosa Meo, Marco Aldinucci, Roberto Esposito, Giancarlo Ruffo; CINI (Consorzio Interuniversitario Nazionale Informatico); Progetto Toreador (TrustwOrthy model-awaRE Analytics Data platfORm - EU - H2020 in call su Big data)

Metriche e modelli per la privacy nelle reti sociali online

Problema: le persone che usano le principali piattaforme di social networking sono più di due miliardi → petabyte di dati preziosi per noi data scientists, ma… la privacy è un problema!

L’utente deve essere al centro dei processi di trattamento dei dati personali, ma spesso non è conscio dei rischi
Le organizzazioni devono tener conto dell’attitudine alla privacy degli utenti nelle campagne di marketing virale

Obiettivi del progetto (cofinanziato da Fondazione CRT):

fornire agli utenti una stima di quanto la loro privacy è a rischio durante la loro attività “cybersociale”
modellare la diffusione dell’informazione in presenza di utenti con diversa propensione alla privacy

Tipologia di dati utilizzati:

reti sociali simulate (secondo diversi modelli) e reali
risposte a questionari di utenti Facebook reali
dati provenienti dai profili Facebook degli utenti partecipanti ai survey

Metodologie e tecniche usate:

Modelli, algoritmi e misure proprie dell’analisi delle reti complesse (modelli epidemiologici, simulazione di processi dinamici, Pagerank)
Algoritmi di machine learning e data mining (community detection, classificatori, active learning).
Metodi di inferenza statistica e psicometria

Risultati ottenuti e attesi:

ingegnerizzazione compatibile con principi Privacy-by-Design
modelli per il marketing virale più accurati
consapevolezza → padronanza dei media → inclusione sociale

Rif: Ruggero Pensa, Livio Bioglio – MLDM

Network Science & Computational Social Science

Problema: capire/prevedere l’emergenza di macro-fenomeni complessi a partire da elementi individuali che interagiscono tra di loro (es. nelle reti tecno-sociali, biologiche, sistemi complessi, etc.). Focus sui problemi di tipo “computazionale” a supporto del paradigma

Tipologia di dati: in linea teorica, “qualsiasi” dato che possa essere rappresentato per mezzo di una rete/grafo

Metodologie: simulazioni, validazione modelli, costruzione modelli data-driven, visualizzazione di reti di grandi dimensioni, modellazioni e simulazioni basate su agenti, SNA (Social Network Analysis)

Risultati:

Analisi di dati provenienti da social media (individuazione di fenomeni di omofilia vs influenza)
Progettazione ed implementazione di strumenti di collaborative filtering decentralizzati che usano metriche di affinità locali in reti di similarità
Modellazione di processi di diffusione dei fenomeni di disinformazione on-line

Rif: Giancarlo Ruffo, Rossano Schifanella, Mirko Lai, Marcella Tambuscio – ARCS

Urban computing for health & wellbeing

Problema: La crescente urbanizzazione pone importanti sfide nelle scelte in cui le città del futuro saranno organizzate. L’obiettivo è:

Sfruttare l’enorme mole di dati digitali provenienti da social media, device mobili, e sensori per la modellazione delle dinamiche sociali, culturali, economiche del tessuto urbano.
Porre al centro del sistema concetti come health, well-being, happiness dei cittadini al fianco della visione ingegneristica imperante delle smart-city basata su efficienza di processi e sistemi.

Tipologia di dati utilizzati:

Social media, mobility e phone data (CDR), Sensors data, Open data (da enti locali sui fenomeni socio-culturali-economici in spazi urbani), Spatial data

Tecniche:

Data mining
NLP
Computer vision
Maachine learning
Spatial analytics, GIS
Large-scale distributed computing(Spark, Hadoop)

Risultati ottenuti:

Caratterizzazione dello spazio urbano in funzione di dimensioni sensoriali ed emotive
Creazione di modelli di mobilità alternativa
Caratterizzazione delle dinamiche socio-economiche-culturali di neighborhoods/città/aree geografiche
Creazione di una piattaforma large-scale di urban sensing
Strumenti di analisi e visualizzazione per urban designers, policy makers e city officials.

Rif: Rossano Schifanella – ARCS

Rephrase (EC-RIA, H2020, ICT-2014-1): Refactoring Parallel Heterogeneous Resource-Aware Applications – a Software Engineering Approach (2015, 36 months, total cost 3.5M €).
REPARA (EC-STREP, 7th FP): Reengineering and Enabling Performance And poweR of Applications (2013, 36 months, total cost 3.5M €).
NESUS (EC-COST Action IC1305): Network for Sustainable Ultrascale Computing (2014, 48 months, total cost 500K €).
cHiPSet (EC-COST Action IC1406): High-Performance Modelling and Simulation for Big Data Applications (2015, 48 months, total cost 500K €).
HiPEAC4 (EC-NoE, H2020) European Network of Excellence on High Performance and Embedded and Compilation (2016, 48 months).
ParaPhrase (EC-STREP, 7th FP): Parallel Patterns for Adaptive Heterogeneous Multicore Systems (2011, 42 months, total cost 4.2M €).
Toreador (EC-RIA, H2020, ICT-16-2015 big data): TrustwOrthy model-awaRE Analytics Data platfORm (2016, 36 months, total cost 6.5M €).
HyVar (EC-RIA, H2020, ICT-2014-1): Scalable Hybrid Variability for Distributed Evolving Software Systems (2015, 36 months, total cost 2.8M €).
IBM Joint Study Agreement: Spark optimisation (est. 2015)
Noesis Solutions: Parallel machine learning techniques for engineering (est. 2015)
A3CUBE: FastFlow/PGAS with in memory fabric (est. 2014)
NVidia Corp: CUDA Research Center at University of Torino (est. 2013)
AnaGraph: Progetto di Ateneo Intesa SanPaolo Innovation Center (2016/17, 12 months, total cost 180k €)

Computer Science Department

Big Data

Staff

Contacts

Activity

Publications

Public Engagement

Big Data

Staff

Contacts

Activity

About

Projects

Publications

Public Engagement

Collaborations