uu.seUppsala universitets publikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Real-time data stream clustering over sliding windows
Uppsala universitet, Teknisk-naturvetenskapliga vetenskapsområdet, Matematisk-datavetenskapliga sektionen, Institutionen för informationsteknologi, Avdelningen för datalogi. Uppsala universitet, Teknisk-naturvetenskapliga vetenskapsområdet, Matematisk-datavetenskapliga sektionen, Institutionen för informationsteknologi, Datalogi. (Uppsala Database laboratory)
2016 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

In many applications, e.g. urban traffic monitoring, stock trading, and industrial sensor data monitoring, clustering algorithms are applied on data streams in real-time to find current patterns. Here, sliding windows are commonly used as they capture concept drift.

Real-time clustering over sliding windows is early detection of continuously evolving clusters as soon as they occur in the stream, which requires efficient maintenance of cluster memberships that change as windows slide.

Data stream management systems (DSMSs) provide high-level query languages for searching and analyzing streaming data. In this thesis we extend a DSMS with a real-time data stream clustering framework called Generic 2-phase Continuous Summarization framework (G2CS).  G2CS modularizes data stream clustering by taking as input clustering algorithms which are expressed in terms of a number of functions and indexing structures. G2CS supports real-time clustering by efficient window sliding mechanism and algorithm transparent indexing. A particular challenge for real-time detection of a high number of rapidly evolving clusters is efficiency of window slides for clustering algorithms where deletion of expired data is not supported, e.g. BIRCH. To that end, G2CS includes a novel window maintenance mechanism called Sliding Binary Merge (SBM). To further improve real-time sliding performance, G2CS uses generation-based multi-dimensional indexing where indexing structures suitable for the clustering algorithms can be plugged-in.

Ort, förlag, år, upplaga, sidor
Uppsala: Acta Universitatis Upsaliensis, 2016. , s. 33
Serie
Digital Comprehensive Summaries of Uppsala Dissertations from the Faculty of Science and Technology, ISSN 1651-6214 ; 1431
Nyckelord [en]
Data streaming; Sliding windows; Clustering;
Nationell ämneskategori
Datorsystem
Forskningsämne
Datavetenskap med inriktning mot databasteknik
Identifikatorer
URN: urn:nbn:se:uu:diva-302799ISBN: 978-91-554-9698-2 (tryckt)OAI: oai:DiVA.org:uu-302799DiVA, id: diva2:967686
Disputation
2016-11-23, ITC 2446, Lägerhyddsvägen 2, Uppsala, 10:00 (Engelska)
Opponent
Handledare
Tillgänglig från: 2016-11-02 Skapad: 2016-09-09 Senast uppdaterad: 2016-11-16
Delarbeten
1. Scalable ordered indexing of streaming data
Öppna denna publikation i ny flik eller fönster >>Scalable ordered indexing of streaming data
2012 (Engelska)Ingår i: 3rd International Workshop on Accelerating Data Management Systems using Modern Processor and Storage Architectures, 2012, s. 11-Konferensbidrag, Publicerat paper (Refereegranskat)
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
urn:nbn:se:uu:diva-185068 (URN)
Konferens
ADMS 2012, Istanbul, Turkey
Projekt
eSSENCE
Tillgänglig från: 2012-08-27 Skapad: 2012-11-19 Senast uppdaterad: 2018-01-12Bibliografiskt granskad
2. Grand challenge: Implementation by frequently emitting parallel windows and user-defined aggregate functions
Öppna denna publikation i ny flik eller fönster >>Grand challenge: Implementation by frequently emitting parallel windows and user-defined aggregate functions
Visa övriga...
2013 (Engelska)Ingår i: Proc. 7th ACM International Conference on Distributed Event-Based Systems, New York: ACM Press, 2013, s. 325-330Konferensbidrag, Publicerat paper (Refereegranskat)
Ort, förlag, år, upplaga, sidor
New York: ACM Press, 2013
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
urn:nbn:se:uu:diva-211954 (URN)10.1145/2488222.2488284 (DOI)978-1-4503-1758-0 (ISBN)
Externt samarbete:
Konferens
DEBS 2013
Tillgänglig från: 2013-06-29 Skapad: 2013-12-03 Senast uppdaterad: 2018-01-11Bibliografiskt granskad
3. Distributed multi-query optimization of continuous clustering queries
Öppna denna publikation i ny flik eller fönster >>Distributed multi-query optimization of continuous clustering queries
2014 (Engelska)Ingår i: Proc. VLDB 2014 PhD Workshop, 2014Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

This work addresses the problem of sharing execution plans for queries that continuously cluster streaming data to provide an evolving summary of the data stream. This is challenging since clustering is an expensive task, there might be many clustering queries running simultaneously, each continuous query has a long life time span, and the execution plans often overlap. Clustering is similar to conventional grouped aggregation but cluster formation is more expensive than group formation, which makes incremental maintenance more challenging. The goal of this work is to minimize response time of continuous clustering queries with limited resources through multi-query optimization. To that end, strategies for sharing execution plans between continuous clustering queries are investigated and the architecture of a system is outlined that optimizes the processing of multiple such queries. Since there are many clustering algorithms, the system should be extensible to easily incorporate user defined clustering algorithms.

Nationell ämneskategori
Datavetenskap (datalogi)
Forskningsämne
Datavetenskap med inriktning mot databasteknik
Identifikatorer
urn:nbn:se:uu:diva-302790 (URN)
Externt samarbete:
Konferens
VLDB 2014
Tillgänglig från: 2016-09-09 Skapad: 2016-09-09 Senast uppdaterad: 2018-01-10Bibliografiskt granskad
4. Framework for real-time clustering over sliding windows
Öppna denna publikation i ny flik eller fönster >>Framework for real-time clustering over sliding windows
2016 (Engelska)Ingår i: Proc. 28th International Conference on Scientific and Statistical Database Management, New York: ACM Press, 2016, s. 1-13, artikel-id 19Konferensbidrag, Publicerat paper (Refereegranskat)
Ort, förlag, år, upplaga, sidor
New York: ACM Press, 2016
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
urn:nbn:se:uu:diva-302792 (URN)10.1145/2949689.2949696 (DOI)978-1-4503-4215-5 (ISBN)
Externt samarbete:
Konferens
SSDBM 2016
Tillgänglig från: 2016-07-18 Skapad: 2016-09-09 Senast uppdaterad: 2018-01-10Bibliografiskt granskad

Open Access i DiVA

fulltext(677 kB)427 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 677 kBChecksumma SHA-512
ff233b0ffb4ccaac879cf18e285ec5a8ba33df5e043c33c19e217f16aa9901dc5e1481dc845900cc4021e99856dad8b55e9ff5731d5067ac7eb4d750dcd07262
Typ fulltextMimetyp application/pdf
Köp publikationen >>

Sök vidare i DiVA

Av författaren/redaktören
Badiozamany, Sobhan
Av organisationen
Avdelningen för datalogiDatalogi
Datorsystem

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 427 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

isbn
urn-nbn

Altmetricpoäng

isbn
urn-nbn
Totalt: 1440 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf