Big Data
Staff
- Aldinucci Marco (Member)
- Ardissono Liliana (Member)
- Boella Guido (Member)
- Bosco Cristina (Member)
- Botta Marco (Member)
- Cancelliere Rossella (Member)
- Console Luca (Member)
- Damiani Ferruccio (Member)
- Di Caro Luigi (Member)
- Esposito Roberto (Member)
- Gena Cristina (Member)
- Grangetto Marco (Member)
- Meo Rosa (Member)
- Patti Viviana (Member)
- Pensa Ruggero Gaetano (Member)
- Ruffo Giancarlo Francesco (Member)
- Sapino Maria Luisa (Member)
- Schifanella Rossano (Member)
- Sereno Matteo (Member)
- Aringhieri Roberto (Member)
- Pisano Paola (Member)
Contacts
Activity
I Big Data rappresentano oggi una tematica trasversale a molte aree di ricerca.
Per questo, al Dipartimento di Informatica dell'Università di Torino, il gruppo che si occupa di Big Data raccoglie molti sottogruppi, che affrontano problematiche diverse e collaborano per trovare sinergie:
- BigData + HPC = FastData
Progettazione, sviluppo, ottimizzazione di modelli di programmazione, ambienti e linguaggi per applicazioni data-intensive e BigData.
Lo sforzo del gruppo si concentra non tanto sugli algoritmi BigData analytics, ma sui costrutti necessari a progettare questi algoritmi in modo che le applicazioni siano veloci, robuste e con ridotto costo di sviluppo e manutenzione.
Tipologia dati: Tutti i dati BigData con specifico interesse per dati streaming ad alta e altissima frequenza con vincoli di latenza.
Metodologie e tecniche usate: programmazione parallela strutturata, modelli di programmazione paralleli avanzati (data-flow, SIMT, PGAS, ibridi shared-memory/message-passing, …), C++14/17, CUDA, tecniche di compilazione staged e meta-programmazione
Risultati: Libreria open-source FastFlow (dal 2009 scaricata >50.000 volte); Pubblicazioni
Rif: Marco Aldinucci – Alpha
- Mappe di comunità interattive
Contenuti geo-riferiti generati dagli utenti: grandi masse di dati relativi al territorio difficilmente fruibili dagli utenti. “OnToMap: Mappe di comunità 3.0” (Fondazione CRT, 2014-15, https://ontomap.ontomap.eu) e “MIMOSA” (Compagnia di San Paolo, 2015-17): integrazione e crowdsourcing di dati geo-riferiti eterogenei in una piattaforma online che ne faciliti la ricerca, condivisione e visualizzazione.
Tipologia di dati utilizzati: Open Data offerti dalle Città di Torino e Venaria Reale.
Metodologie e tecniche usate: analisi di query testuali, query expansion basata su integrazione di conoscenza linguistica in ontologia (OWL) di dominio. Summarization di dati eterogenei multimediali via topic modeling/extraction.
Risultati attesi: la piattaforma permetterà a comunità di interesse, alle PA e ai cittadini di interagire con spazi informativi multi-dimensionali, nonché di avviare discussioni e progetti sui contenuti condivisi.
Rif: Liliana Ardissono, Maurizio Lucenteforte, Noemi Mauro, Ruggero Pensa, Valentina Rho, Maria Luisa Sapino, Gianluca Torta – IST*HAAC/MADM + DIST, Politecnico di Torino (A. Voghera, L. La Riccia).
- Big Data supporting Public Health policies
Problema: Riorganizzazione dei Sistemi Sanitari Regionali: analisi e valutazione
Tipologia dei dati: provenienti dal sistema sanitario piemontese, ISTAT
Modelli di simulazione ad eventi discreti ed agent-based, modelli di ottimizzazione
Risultati ottenuti: analisi preliminare delle politiche di gestione della rete regionale dei pronto soccorso ospedalieri
Risultati attesi: valutazione di impatto della chiusura di specialità e/o interi ospedali sull'intero SSN regionale
Rif: Roberto Aringhieri, Andrea Grosso – ORMS + Regione Piemonte - Sistema Informativo Sanità
- Crowdmapping e urban informatics
Problema: I problemi riguardano la gestione del rumore e il controllo real-time dei contenuti. Tra gli obiettivi c’è lo studio del territorio e una sua ricostruzione basata su contenuti e attività degli utenti.
Tipologia di dati utilizzati: dati geo-referenziati derivanti da social platform.
Metodologie e tecniche usate: Algoritmi per il tracciamento dei dati geografici relativi a “place” specifici, riconoscimento di attività legate al territorio basate su analisi semantiche dei contenuti.
Risultati: pubblicazioni
Rif: Guido Boella – SoCom
- NLP applied to big data
Problema: sentiment analysis ed opinion mining nei social media:
- sviluppo di collezioni di dati di natura testuale arricchiti da annotazioni e strutturati in modo da renderli adeguati all’addestramento di sistemi per la sentiment analysis implementazione di motori di sentiment analysis
- implementazione di motori di sentiment analysis
Tipologia di dati utilizzati: dati testuali da social media (Twitter in particolare) e da altri media di comunicazione
Metodologie e strumenti: tecniche di sentiment analysis
- per rappresentare ed analizzare polarità di opinioni e sentimenti,
- per rilevare orientamenti ad es. in ambito politico,
- per studiare fenomeni di diffusione di massa di odio razziale omofobia e terrorismo
Risultati ottenuti o attesi più salienti:
- lo sviluppo di corpora per italiano, francese e spagnolo (in corso) per la sentiment analysis di testi a prevalente contenuto politico
- l’addestramento di motori di sentiment;
- nel prossimo futuro: sviluppo strumenti di analisi del linguaggio dell’odio per studiarne la diffusione nell’area piemontese (progetto finanziato da Fondazione CRT)
Rif: Cristina Bosco, Viviana Patti, Daniele Radicioni – CCC
- Scalable Hybrid Variability for Distributed Evolving Software Systems (HyVar)
Problema: necessità di una metodologia di sviluppo per l’evoluzione continua e individualizzata di applicazioni software distribuite in esecuzione su dispositivi remoti in ambienti eterogenei.
Tipologia di dati utilizzati: dati, reali e simulati, prodotti da sensori installati su autoveicoli (dati forniti da Magneti Marelli)
Metodi e strumenti: Variability modeling, Feature model, Constraint solver, scalable cloud infrastructure
Risultati:
- Specifica e implementazione prototipale di un Domain Specific Variability Language (DSVL)
- Specifica e implementazione prototipale di una infrastruttura cloud scalabile che utilizzi il DSVL
- Specifica e implementazione prototipale di una tecnologia per l’over-the-air update in ambito automotive
- Validazione delle soluzioni proposte per mezzo di un dimostratore in ambito automotive.
Rif: Ferruccio Damiani, Simone Donetti, Luca Paolini – MoVeRe + Santer Reply + Institute of Software Engineering and Automotive Informatics, TECHNISCHE UNIVERSITAT BRAUNSCHWEIG, Germany + UNIVERSITETET I OSLO, Norway + ATBROX AS, Norway + MAGNETI MARELLI - progetto di ricerca europeo HyVar (http://www.hyvar-project.eu/)
- Analisi semantica di documenti testuali legali
Problema: comprensione e riconoscimento di leggi attraverso tecniche di linguistica computazionale e riconoscimento di legami a relative sentenze nei vari paesi attraverso un'analisi semantica dei contesti testuali
Tipologia di dati utilizzati: Dati testuali multilingue di leggi e sentenze (uk, bg, de, fr, it, au) contenenti riferimenti espliciti ed impliciti, talvolta arricchiti di annotazioni ontologiche (EuroVoc).
Metodologie e tecniche usate: linguistica computazionale (analisi lessico-sintattica), data mining, e machine learning.
Risultati: pubblicazioni
Rif: Luigi Di Caro, Guido Boella – SoCom – Progetto europeo EUCases (www.eucases.eu), il cui scopo è il trattamento di grandi moli di dati testuali di leggi e sentenze (ordine del milione, per 6 paesi diversi uk, bg, de, fr, it, au)
- InfoViz & DataViz
Problema: dati ed informazioni devono essere visualizzati e resi disponibili in modo interattivo
- Grandi molti di dati da sintetizzare in modo chiaro ed usabile
- Spesso i dati devono essere visualizzati in tempo reale e consentire esplorazioni, personalizzazioni, filtri e reportistica personalizzata
Tipologia di dati: prevalentemente aquisiti tramite librerie che consentono accesso a public open data e social media
Metodologie: Information Visualisation, Human Computer Interaction, Web Tecnologies, Computer Graphics, Data Visualization, Data Journalism
Risultati attesi: pubblicazioni, trasferimento tecnologico, analisi per policy maker
Rif: Cristina Gena, Giancarlo Ruffo – SIOS/ARCS
- Toreador
Problema:
- Sviluppare una metodologia e un sistema basato su Web Service, Cloud, High Performance Computing e Machine Learning per fare analisi dati su big data.
- L’analisi dovrà garantire la sicurezza del sistema, la tutela della privacy degli utenti e il livello di qualità del servizio secondo una fase di negoziazione tra client e server su vari parametri (accuratezza, tempo di esecuzione, quantità di risorse impiegate, ecc).
Dati provenienti da quattro casi pilota:
- l’analisi del flusso dei click sulle pagine web,
- l’analisi dei processi di sviluppo software in grossi sistemi informatizzati,
- l’analisi dei processi di produzione industriale
- l’analisi dei sensori nella produzione di energia e nel controllo degli apparati per la demotica.
Metodologie e strumenti:
- La metodologia si fonda sui principi di suddivisione secondo diversi livelli di astrazione del processo di gestione dei dati e di analisi, che garantisce l’interoperabilità e indipendenza tra i livelli (livello dichiarativo, procedurale, d’esecuzione con scelte sul tipo di architettura software e hardware e di implementazione con la scelta di una tecnologia software e hardware).
- Calcolo Parallelo ad Alte Prestazioni, Apprendimento Automatico, Analisi Dati e Visualizzazione.
Tecnologie:
- linguaggio di HPC Spark, software suite per Machine learning Flint (open source) ...
Risultati ottenuti o attesi più salienti:
- Metodologia di esecuzione e analisi su big data, distribuita e parallela, su cloud;
- Modelli predittivi e descrittivi di big data in quattro casi pilota reali;
- Modelli di visualizzazione dei dati e dei risultati;
Risultati di usabilità del sistema, di performance dei modelli con utenti finali coinvolti nella fase di negoziazione, training e valutazione
Rif: Rosa Meo, Marco Aldinucci, Roberto Esposito, Giancarlo Ruffo; CINI (Consorzio Interuniversitario Nazionale Informatico); Progetto Toreador (TrustwOrthy model-awaRE Analytics Data platfORm - EU - H2020 in call su Big data)
- Metriche e modelli per la privacy nelle reti sociali online
Problema: le persone che usano le principali piattaforme di social networking sono più di due miliardi → petabyte di dati preziosi per noi data scientists, ma… la privacy è un problema!
- L’utente deve essere al centro dei processi di trattamento dei dati personali, ma spesso non è conscio dei rischi
- Le organizzazioni devono tener conto dell’attitudine alla privacy degli utenti nelle campagne di marketing virale
Obiettivi del progetto (cofinanziato da Fondazione CRT):
- fornire agli utenti una stima di quanto la loro privacy è a rischio durante la loro attività “cybersociale”
- modellare la diffusione dell’informazione in presenza di utenti con diversa propensione alla privacy
Tipologia di dati utilizzati:
- reti sociali simulate (secondo diversi modelli) e reali
- risposte a questionari di utenti Facebook reali
- dati provenienti dai profili Facebook degli utenti partecipanti ai survey
Metodologie e tecniche usate:
- Modelli, algoritmi e misure proprie dell’analisi delle reti complesse (modelli epidemiologici, simulazione di processi dinamici, Pagerank)
- Algoritmi di machine learning e data mining (community detection, classificatori, active learning).
- Metodi di inferenza statistica e psicometria
Risultati ottenuti e attesi:
- ingegnerizzazione compatibile con principi Privacy-by-Design
- modelli per il marketing virale più accurati
- consapevolezza → padronanza dei media → inclusione sociale
Rif: Ruggero Pensa, Livio Bioglio – MLDM
- Network Science & Computational Social Science
Problema: capire/prevedere l’emergenza di macro-fenomeni complessi a partire da elementi individuali che interagiscono tra di loro (es. nelle reti tecno-sociali, biologiche, sistemi complessi, etc.). Focus sui problemi di tipo “computazionale” a supporto del paradigma
Tipologia di dati: in linea teorica, “qualsiasi” dato che possa essere rappresentato per mezzo di una rete/grafo
Metodologie: simulazioni, validazione modelli, costruzione modelli data-driven, visualizzazione di reti di grandi dimensioni, modellazioni e simulazioni basate su agenti, SNA (Social Network Analysis)
Risultati:
- Analisi di dati provenienti da social media (individuazione di fenomeni di omofilia vs influenza)
- Progettazione ed implementazione di strumenti di collaborative filtering decentralizzati che usano metriche di affinità locali in reti di similarità
- Modellazione di processi di diffusione dei fenomeni di disinformazione on-line
Rif: Giancarlo Ruffo, Rossano Schifanella, Mirko Lai, Marcella Tambuscio – ARCS
- Urban computing for health & wellbeing
Problema: La crescente urbanizzazione pone importanti sfide nelle scelte in cui le città del futuro saranno organizzate. L’obiettivo è:
- Sfruttare l’enorme mole di dati digitali provenienti da social media, device mobili, e sensori per la modellazione delle dinamiche sociali, culturali, economiche del tessuto urbano.
- Porre al centro del sistema concetti come health, well-being, happiness dei cittadini al fianco della visione ingegneristica imperante delle smart-city basata su efficienza di processi e sistemi.
Tipologia di dati utilizzati:
- Social media, mobility e phone data (CDR), Sensors data, Open data (da enti locali sui fenomeni socio-culturali-economici in spazi urbani), Spatial data
Tecniche:
- Data mining
- NLP
- Computer vision
- Maachine learning
- Spatial analytics, GIS
- Large-scale distributed computing(Spark, Hadoop)
Risultati ottenuti:
- Caratterizzazione dello spazio urbano in funzione di dimensioni sensoriali ed emotive
- Creazione di modelli di mobilità alternativa
- Caratterizzazione delle dinamiche socio-economiche-culturali di neighborhoods/città/aree geografiche
- Creazione di una piattaforma large-scale di urban sensing
- Strumenti di analisi e visualizzazione per urban designers, policy makers e city officials.
Rif: Rossano Schifanella – ARCS
- Rephrase (EC-RIA, H2020, ICT-2014-1): Refactoring Parallel Heterogeneous Resource-Aware Applications – a Software Engineering Approach (2015, 36 months, total cost 3.5M €).
- REPARA (EC-STREP, 7th FP): Reengineering and Enabling Performance And poweR of Applications (2013, 36 months, total cost 3.5M €).
- NESUS (EC-COST Action IC1305): Network for Sustainable Ultrascale Computing (2014, 48 months, total cost 500K €).
- cHiPSet (EC-COST Action IC1406): High-Performance Modelling and Simulation for Big Data Applications (2015, 48 months, total cost 500K €).
- HiPEAC4 (EC-NoE, H2020) European Network of Excellence on High Performance and Embedded and Compilation (2016, 48 months).
- ParaPhrase (EC-STREP, 7th FP): Parallel Patterns for Adaptive Heterogeneous Multicore Systems (2011, 42 months, total cost 4.2M €).
- Toreador (EC-RIA, H2020, ICT-16-2015 big data): TrustwOrthy model-awaRE Analytics Data platfORm (2016, 36 months, total cost 6.5M €).
- HyVar (EC-RIA, H2020, ICT-2014-1): Scalable Hybrid Variability for Distributed Evolving Software Systems (2015, 36 months, total cost 2.8M €).
- IBM Joint Study Agreement: Spark optimisation (est. 2015)
- Noesis Solutions: Parallel machine learning techniques for engineering (est. 2015)
- A3CUBE: FastFlow/PGAS with in memory fabric (est. 2014)
- NVidia Corp: CUDA Research Center at University of Torino (est. 2013)
- AnaGraph: Progetto di Ateneo Intesa SanPaolo Innovation Center (2016/17, 12 months, total cost 180k €)
Publications
Public Engagement