A Unified Batch-and-Streaming Data Architecture for Machine Learning Applications Incorporating Predictive Fault Detection and Validation

Sai Kiran Pullela

doi:10.54660/GMPJ.2024.1.4.69-73

A Unified Batch-and-Streaming Data Architecture for Machine Learning Applications Incorporating Predictive Fault Detection and Validation

Author(s): Sai Kiran Pullela

Published: 2024

Volume: 1 | Issue: 4 | Pages: 69-73

Subject: DataEngineering

Country: United States

DOI: https://doi.org/10.54660/GMPJ.2024.1.4.69-73

License: CC BY 4.0

0 views

4 downloads

Full Text (PDF)

Open Access - Free to Download

Download Full Article (PDF)

Abstract

Machine learning (ML) products increasingly depend on data platforms that must simultaneously support high-throughput batch analytics, low-latency streaming decisions, and continuously evolving schemas, features, and model requirements. Yet many enterprises still operate split architectures where batch ETL, real-time pipelines, and ML lifecycle tooling are assembled as loosely coupled systems, amplifying operational risk, data quality regressions, and silent ML failures. This paper proposes UBSDA (Unified Batch-and-Streaming Data Architecture), a lakehouse-centered reference architecture that unifies batch and streaming ingestion, storage, transformation, and feature publication while embedding predictive fault detection and validation as first-class capabilities. UBSDA introduces (i) a single data truth layer for both offline training and online inference, (ii) contract-driven schema governance with evolution support, (iii) multi-stage validation gates that combine statistical checks, constraint-aware learning, and drift monitoring, and (iv) a fault prediction service trained on pipeline telemetry to anticipate failures before service-level objectives are violated. We detail the architecture, formalize validation and fault-risk scoring, and present an evaluation methodology showing how unified storage plus proactive detection reduces duplicated transformations, shortens recovery loops, and improves ML reliability across domains.

How to Cite This Article

Sai Kiran Pullela (2024). A Unified Batch-and-Streaming Data Architecture for Machine Learning Applications Incorporating Predictive Fault Detection and Validation . Global Multidisciplinary Perspectives Journal (GMPJ), 1(4), 69-73. DOI: https://doi.org/10.54660/GMPJ.2024.1.4.69-73

Publication Information

Journal: Global Multidisciplinary Perspectives Journal (GMPJ)

Publisher: Anfo Publication House

ISSN: (Print), 3107-3972 (Online)

Frequency: Bimonthly

Language: English / Kannada

Open Access: Yes - Creative Commons Attribution 4.0 International License

Global Multidisciplinary Perspectives Journal

A Unified Batch-and-Streaming Data Architecture for Machine Learning Applications Incorporating Predictive Fault Detection and Validation

Full Text (PDF)

Abstract

How to Cite This Article

Publication Information

Company

Useful Links

Follow Us

Global Multidisciplinary Perspectives Journal

A Unified Batch-and-Streaming Data Architecture for Machine Learning Applications Incorporating Predictive Fault Detection and Validation

Full Text (PDF)

Abstract

How to Cite This Article

Publication Information

Share This Article: