Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
เฟรมเวอร์คสปาร์คสตรีมมิ่งสำหรับการวิเคราะห์มัลติสตรีมขนาดใหญ่
Year (A.D.)
2018
Document Type
Thesis
First Advisor
Natawut Nupairoj
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Computer Science
DOI
10.58837/CHULA.THE.2018.160
Abstract
Real-time streaming applications with multiple heterogeneous data streams have become increasingly popular especially in IoT applications where huge amount of sensors produce large amount of data in the form of data streams. However, many issues still exist, especially in deploying and maintaining these large amounts of data streams. Using Spark Structured Streaming, this research introduces a Spark Streaming framework for multiple heterogeneous data streams which focuses on the ease of deployment and proper scheduling. Our proposed framework is a library that allows the deployment of multiple heterogeneous data stream processing in a single Spark application. Our framework can reduce deployment difficulties, coding redundancy, monitoring difficulties, and solve the problem of inefficient job queueing in multi-stream applications.
Other Abstract (Other language abstract of ETD)
โปรแกรมการประมวลผลข้อมูลแบบสตรีมในเวลาจริงด้วยข้อมูลที่ไม่เหมือนกันได้รับความสนใจเป็นอย่างมาก โดยเฉพาะในอินเทอร์เน็ตของสิ่งต่างๆซึ่งผลิตข้อมูลจากเซนเซอร์จำนวนมากในรูปแบบของข้อมูลสตรีมมิ่ง ทั้งนี้ยังคงมีปัญหามากมายโดยเฉพาะอย่างยิ่งปัญหาในการเปิดใช้และการบำรุงรักษาของ Spark Structured Streaming งานวิจัยนี้ขอเสนอ กรอบการทำงานของสปาร์คเพื่อการประมวลผลของข้อมูลที่ไม่เหมือนกันแบบหลายสตรีมโดยเน้นความง่ายในการเปิดใช้และการจัดการการกำหนดอันเหมาะสม โดยจะเป็นไลบรารี่ช่วยให้สามารถปรับใช้การประมวลผลของข้อมูลที่ไม่เหมือนกันแบบหลายสตรีมโดยใช้สปาร์คเพียงโปรแกรมเดียวซึ่งสามารถลดความยากในการปรับใช้ การตรวจสอบ ลดความฟุ่มเฟือยของโค้ดและแก้ปัญหาความไม่มีประสิทธิภาพในการเข้าคิวของงานในการประมวลผลของข้อมูลที่ไม่เหมือนกันแบบหลายสตรีม
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Sirisakdiwan, Tanwa, "Spark Steaming Framework for Large-Scale Multi-Stream Data Analytics" (2018). Chulalongkorn University Theses and Dissertations (Chula ETD). 2291.
https://digital.car.chula.ac.th/chulaetd/2291