মূল বিষয়বস্তুতে যান

স্থাপত্য

Ilum is a modular data lakehouse platform built on Kubernetes. It combines Apache Spark, Trino, and DuckDB into a unified multi-engine architecture, managed through a single control plane (ilum-core) and deployed entirely via Helm charts. Ilum follows an "all-in-one but optional" philosophy - every component beyond ilum-core can be enabled or disabled independently, allowing deployments to range from a lightweight development setup to a full enterprise data platform.

The platform is built around several key architectural principles:

  • Decoupled compute and storage - processing engines and data storage scale independently
  • Stateless core - ilum-core holds no in-memory state, enabling horizontal scaling and crash recovery
  • Open standards - OpenAPI REST, JDBC/ODBC, Apache Iceberg/Delta/Hudi table formats, OpenLineage for lineage
  • Kubernetes-native - all workloads run as pods with native resource management, scheduling, and observability. Compatible with any CNCF-compliant distribution including Red Hat OpenShift, EKS, AKS, GKE, k3s, Rancher, and bare-metal Kubernetes
ইলুম

মূল উপাদানসমূহ

                        ┌─────────────┐
│ ilum-ui │
│ (React) │
└──────┬──────┘
│ REST API
┌──────────┐ ┌──────▼──────┐ ┌──────────────┐
│ ilum-cli │────▶ ilum-core ◀────│ MongoDB │
└──────────┘ └──┬───┬───┬──┘ └──────────────┘
│ │ │
┌────────────┘ │ └────────────┐
│ │ │
┌────────▼───────┐ ┌──────▼─────┐ ┌───────▼────────┐
│ Kafka / gRPC │ │ Catalog │ │ Object Storage │
│ (messaging) │ │ Layer │ │ (MinIO / S3) │
└────────┬───────┘ └─────┬──────┘ └───────┬────────┘
│ │ │
┌────────▼───────────────▼────────────────▼────────┐
│ Compute Clusters │
│ Spark · Trino · DuckDB · SQL │
└──────────────────────────────────────────────────┘
  1. ইলুম-কোর - The central control plane. Manages cluster lifecycle, job scheduling, session management, and REST API exposure (OpenAPI 3.0). Stateless by design - all persistent state is stored in MongoDB, making ilum-core horizontally scalable and crash-recoverable.

  2. ইলুম-ইউআই - React-based web console for managing clusters, submitting jobs, browsing SQL results, configuring security, and monitoring workloads. Communicates exclusively with ilum-core via REST API.

  3. ilum-cli - Command-line interface for scripting and automation. Supports all ilum-core REST API operations including job submission, cluster management, and configuration. Useful for CI/CD pipelines and headless environments.

  4. Kubernetes Cluster - The primary execution environment. Spark jobs run as Kubernetes pods with configurable executor counts, resource limits, and node affinities. Ilum manages the full pod lifecycle.

  5. অবজেক্ট স্টোরেজ - S3-compatible storage (MinIO, Ceph, RustFS, AWS S3, GCS, Azure Blob) serves as the persistent data layer. All table data, job artifacts, and Spark event logs are stored here, decoupled from compute.

  6. মঙ্গোডিবি - Internal metadata store for job history, cluster configuration, user accounts, session state, and operational data. Supports replica sets for high availability.

  7. Messaging Layer (Kafka / gRPC) - Handles communication between ilum-core and running Spark jobs. See যোগাযোগের ধরন for details.

  8. Catalog Layer - Persistent metadata services (Hive Metastore, Nessie, Unity Catalog, DuckLake) that enable SQL access across all engines. See Data Catalog Layer for details.

Integrated Modules

All modules below are optional Helm-deployed components that share authentication, networking, and catalog configuration with ilum-core:

Categoryমডিউল
অর্কেস্ট্রেশন Airflow, Kestra, n8n
নোটবুক JupyterLab, JupyterHub, Zeppelin
BI & VisualizationSuperset, Streamlit
এমএল ও এআই MLflow, AI Data Analyst
ডেটা ক্যাটালগ Hive Metastore, Nessie, Unity Catalog, DuckLake
পর্যবেক্ষণযোগ্যতা Grafana, Prometheus, Loki, Marquez
সংস্করণ নিয়ন্ত্রণ গীতিয়া

Each module is enabled via a single Helm flag and automatically inherits cluster networking, LDAP/OAuth2 authentication, and catalog connection settings. See সংক্ষিপ্ত বিবরণ for detailed feature descriptions.

কর্মপ্রবাহ

Batch Job Workflow

  1. A user submits a Spark job via the ilum-ui, REST API, or ilum-cli, specifying the job JAR/Python file, Spark configuration, and target cluster.
  2. ilum-core validates the request, schedules the job, and creates a Spark driver pod on the target Kubernetes cluster.
  3. The Spark driver provisions executor pods according to the configured parallelism. Executors scale horizontally across cluster nodes.
  4. The job executes, reading from and writing to object storage through the catalog layer.
  5. Results and execution metadata are returned to ilum-core and stored in MongoDB. Users view results in the UI or fetch them via the REST API.

Interactive Session Workflow

  1. A user creates an interactive session (via UI, API, or CLI), which launches a long-running Spark application pod.
  2. The session remains alive, ready to accept code execution requests without Spark initialization overhead.
  3. Users submit code snippets (Scala, Python, SQL) via REST API. Each snippet executes within the existing Spark context and returns results immediately.
  4. Multiple users can share a session through Code Groups - shared Spark contexts that enable collaborative analysis while isolating variable namespaces.
  5. The session terminates on explicit shutdown or after a configurable idle timeout.

For step-by-step guides, see Run a Spark Jobএবং ইন্টারেক্টিভ জবস .

যোগাযোগের ধরন

Ilum supports two forms of communication between Spark jobs and ilum-core: Apache Kafka and gRPC.

অ্যাপাচি কাফকা যোগাযোগ

অ্যাপাচি কাফকার সাথে ইলুমের ইন্টিগ্রেশন নির্ভরযোগ্য এবং স্কেলযোগ্য যোগাযোগকে সহজতর করে, উচ্চ প্রাপ্যতা (এইচএ) এবং স্কেলেবিলিটি সহ ইলুমের সমস্ত বৈশিষ্ট্যকে সমর্থন করে। সমস্ত ইভেন্ট এক্সচেঞ্জ অ্যাপাচি কাফকা ব্রোকার ব্যবহার করে স্বয়ংক্রিয়ভাবে তৈরি বিষয়গুলির মাধ্যমে পরিচালিত হয়।

জিআরপিসি যোগাযোগ (ডিফল্ট)

বিকল্প হিসাবে, জিআরপিসি যোগাযোগের জন্য ব্যবহার করা যেতে পারে। এই বিকল্পটি ইনস্টলেশনের সময় অ্যাপাচি কাফকার প্রয়োজনীয়তা দূর করে স্থাপনার প্রক্রিয়াটিকে সহজ করে তোলে। জিআরপিসি আইএলএম-কোর এবং স্পার্ক কাজের মধ্যে সরাসরি সংযোগ স্থাপন করে, একটি পৃথক বার্তা দালালের প্রয়োজনীয়তা সরিয়ে দেয়। যাইহোক, জিআরপিসি ব্যবহার বর্তমান বাস্তবায়নের অধীনে আইলুম-কোরের জন্য উচ্চ প্রাপ্যতা (এইচএ) সমর্থন করে না। যদিও আইলাম-কোর স্কেল করা যেতে পারে, বিদ্যমান স্পার্ক কাজগুলি একই আইলাম-কোর দৃষ্টান্তগুলির সাথে যোগাযোগ চালিয়ে যাবে।

Comparison

বৈশিষ্ট্য অ্যাপাচি কাফকা gRPC
উচ্চ প্রাপ্যতা Yes - ilum-core replicas share state via topicsNo - direct point-to-point connections
স্কেলেবিলিটি Horizontally scalable with partitioned topicsLimited to single ilum-core affinity
Deployment ComplexityRequires Kafka cluster (3+ brokers recommended)Zero additional infrastructure
Recommended ForProduction, multi-replica, HA environmentsDevelopment, testing, single-node setups
টিপ

Start with gRPC for development and testing. Switch to Kafka when deploying to production or enabling HA. See Production Deployment for HA configuration.

Multi-Engine Query Architecture

Ilum provides three query engines through a unified SQL gateway. This architecture allows users to submit SQL queries via standard JDBC/ODBC interfaces and have them routed to the most appropriate engine.

┌──────────────────────┐
│ JDBC / ODBC │ BI tools, CLI, applications
│ Clients │
└─────────┬────────────┘
│ Thrift Binary Protocol
┌─────────▼────────────┐
│ │ Session management, engine routing,
│ SQL Gateway │ authentication, connection pooling
└──┬──────┬─────────┬──┘
│ │ │
┌──▼──┐ ┌─▼───┐ ┌──▼───┐
│Spark│ │Trino│ │DuckDB│ Engine selection per session
│ SQL │ │ │ │ │
└──┬──┘ └──┬──┘ └──┬───┘
│ │ │
┌──▼───────▼───────▼───┐
│ Catalog Layer │ Hive Metastore / Nessie
├──────────────────────┤
│ Storage Layer │ MinIO / S3 / GCS / HDFS
└──────────────────────┘

স্পার্ক এসকিউএল

On-demand sessions with DAG-based parallel execution. Spark SQL is the most versatile engine - it handles ETL, batch processing, ML pipelines, and complex analytical queries. Executors are provisioned dynamically via Kubernetes and can scale from zero to hundreds of pods. Best suited for heavy transformations, large-scale joins, and workloads that benefit from distributed shuffle.

ট্রিনো

Always-on MPP (Massively Parallel Processing) engine with a coordinator-worker topology. Trino uses pipelined execution to deliver sub-second interactive query latency on large datasets. Workers remain running for instant query response. Best suited for interactive analytics, dashboarding, and ad-hoc exploration.

ডাকডিবি

Embedded analytical engine running inside the ilum-core process. DuckDB provides zero-overhead local query execution with no pod provisioning or network latency. Best suited for lightweight analytics, small dataset queries, and rapid prototyping.

Engine Selection Guide

কেস ব্যবহার করুন Recommended Engine
ETL / large-scale batch processingস্পার্ক এসকিউএল
Interactive dashboards and BI queriesট্রিনো
Complex ML pipelinesস্পার্ক এসকিউএল
Ad-hoc exploration on large datasetsট্রিনো
Quick queries on small datasetsডাকডিবি
Streaming ingestion (Structured Streaming)স্পার্ক এসকিউএল

All three engines access the same data through the shared catalog layer and object storage, enabling users to choose the right engine per workload without data movement. See এসকিউএল ভিউয়ার for engine configuration and Performance for optimization details.

Data Catalog Layer

Data catalogs provide the persistent metadata layer that enables SQL access, schema management, and multi-engine data sharing. When a Spark job or Trino query creates a table, the catalog records its schema, location, and format so that any engine can access it later.

Ilum supports four catalog implementations:

Hive Metastore (default)

PostgreSQL-backed metadata service, automatically deployed and configured by Helm. Compatible with Spark, Trino, and Superset out of the box. Provides the broadest ecosystem compatibility and is the recommended default for most deployments.

নেসি

Git-like catalog for Apache Iceberg tables. Supports branching, tagging, and merging of table metadata - enabling CI/CD workflows for data. Create a branch, experiment with schema changes or data transformations, and merge only when validated.

ইউনিটি ক্যাটালগ

Three-level namespace model (catalog, schema, table) with governance-focused access control. Provides a familiar structure for organizations migrating from Databricks or requiring fine-grained catalog-level permissions.

DuckLake

Lightweight embedded catalog optimized for DuckDB. Stores metadata directly in a DuckDB database file, ideal for local development and single-engine DuckDB workloads.

Catalog Integration

Spark jobs launched through ilum are automatically configured with catalog connection parameters at startup - no manual configuration required. Trino and Superset also receive catalog configuration via Helm values.

Table Format Support

ক্যাটালগ ডেল্টা লেক অ্যাপাচি আইসবার্গ অ্যাপাচি হুদি Parquet
মৌচাক মেটাস্টোর হ্যাঁ হ্যাঁ হ্যাঁ হ্যাঁ
নেসি না হ্যাঁ না না
ইউনিটি ক্যাটালগ হ্যাঁ হ্যাঁ না হ্যাঁ
DuckLakeনা না না হ্যাঁ

See ডেটা ক্যাটালগ for setup details and ইলাম টেবিল for the unified table abstraction.

ক্লাস্টারের প্রকারভেদ

ইলাম স্পার্ক ক্লাস্টার কনফিগারেশনকে সহজ করে তোলে এবং একবার কনফিগার হয়ে গেলে, ক্লাস্টারটি তাদের ধরণ বা পরিমাণ নির্বিশেষে বিভিন্ন কাজের জন্য ব্যবহার করা যেতে পারে। ইলাম বর্তমানে তিন ধরণের ক্লাস্টার সমর্থন করে: কুবারনেটস, ইয়ার্ন এবং লোকাল।

নোট

প্রাথমিক প্রবর্তনের সময়, ইলাম স্বয়ংক্রিয়ভাবে একটি ডিফল্ট ক্লাস্টার তৈরি করে, একই কুবারনেটস ক্লাস্টার ব্যবহার করে যার উপর ইলাম ইনস্টল করা আছে। যদি এই ডিফল্ট ক্লাস্টারটি দুর্ঘটনাক্রমে মুছে ফেলা হয় তবে আপনি ইলাম-কোর পডটি পুনরায় চালু করে সহজেই এটি পুনরায় তৈরি করতে পারেন।

Kubernetes Cluster

ইলামের প্রাথমিক ফোকাস হ'ল স্পার্ক এবং কুবারনেটসের মধ্যে সহজ সংহতকরণের সুবিধার্থে। এটি কুবারনেটসে স্পার্ক অ্যাপ্লিকেশনগুলির কনফিগারেশন এবং প্রবর্তনকে সহজ করে তোলে। বিদ্যমান কুবারনেটস ক্লাস্টারের সাথে সংযোগ স্থাপনের জন্য, ব্যবহারকারীদের ডিফল্ট কনফিগারেশন তথ্য সরবরাহ করতে হবে, যেমন কুবারনেটস এপিআই ইউআরএল এবং প্রমাণীকরণ পরামিতি। Ilum ব্যবহারকারী / পাসওয়ার্ড এবং শংসাপত্র-ভিত্তিক প্রমাণীকরণ পদ্ধতি উভয়ই সমর্থন করে। একাধিক কুবারনেটস ক্লাস্টারগুলি ইলুম দ্বারা পরিচালিত হতে পারে, যদি সেগুলি অ্যাক্সেসযোগ্য হয়। এই বৈশিষ্ট্যটি একক অবস্থান থেকে অসংখ্য স্পার্ক পরিবেশ পরিচালনার জন্য একটি হাব তৈরি করতে সক্ষম করে।

Ilum is compatible with any CNCF-compliant Kubernetes distribution:

  • Managed cloud: Google Kubernetes Engine (GKE), Amazon EKS, Azure AKS, DigitalOcean Kubernetes
  • এন্টারপ্রাইজ : Red Hat OpenShift / OKD
  • Lightweight: k3s, Rancher, MicroK8s
  • Bare metal: Self-managed Kubernetes installations
  • Local development: Minikube, k3d, Docker Desktop

সুতার গুচ্ছ

ইলাম অ্যাপাচি সুতা ক্লাস্টারগুলিও সমর্থন করে, যা সুতা ইনস্টলেশনে উপস্থিত সুতা কনফিগারেশন ফাইলগুলি ব্যবহার করে সহজেই কনফিগার করা যায়।

স্থানীয় ক্লাস্টার

স্থানীয় ক্লাস্টার প্রকারটি স্পার্ক অ্যাপ্লিকেশনগুলি চালায় যেখানে আইলাম-কোর মোতায়েন করা হয়, যার অর্থ এটি ডকার / কুবারনেটসে মোতায়েন করার সময় ইলাম-কোর ধারকের অভ্যন্তরে বা অর্কেস্ট্রেটর ছাড়াই মোতায়েন করার সময় হোস্ট মেশিনে স্পার্ক অ্যাপ্লিকেশন চালায়। এই ক্লাস্টার টাইপটি তার সংস্থান সীমাবদ্ধতার কারণে পরীক্ষার উদ্দেশ্যে উপযুক্ত।

Comparison

বৈশিষ্ট্য কুবেরনেটস সুতা স্থানীয়
Production Readyহ্যাঁ হ্যাঁ No (testing only)
উচ্চ প্রাপ্যতা হ্যাঁ Yes (via YARN RM HA)না
Auto-ScalingYes (K8s autoscaler)Yes (YARN node managers)না
Multi-Clusterহ্যাঁ হ্যাঁ N/A
Dynamic Executor Allocationহ্যাঁ হ্যাঁ Limited

A single ilum instance can manage multiple clusters of different types simultaneously, enabling hybrid K8s + Yarn deployments - useful for organizations migrating from Hadoop to Kubernetes. See ক্লাস্টার এবং স্টোরেজ for configuration details.

Decoupled Compute-Storage Architecture

Ilum follows a decoupled compute-storage architecture where processing engines and data storage are independent, horizontally scalable layers. This separation is fundamental to ilum's design and enables independent scaling, multi-engine access, and cost-efficient resource utilization.

┌─────────────────────────────────────────────────────────────┐
│ Compute Layer │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Spark │ │ Trino │ │ DuckDB │ Engines │
│ │ Executors│ │ Workers │ │(embedded)│ scale │
│ └────┬─────┘ └─────┬────┘ └──────┬───┘ independently │
│ │ │ │ │
├───────┼──────────────┼──────────────┼───────────────────────┤
│ │ Catalog Layer (Hive Metastore / Nessie) │
├───────┼──────────────┼──────────────┼───────────────────────┤
│ │ │ │ │
│ ┌────▼──────────────▼──────────────▼─────┐ │
│ │ Storage Layer │ │
│ │ MinIO / S3 / GCS / WASBS / HDFS │ Storage │
│ │ (Iceberg / Delta / Hudi / Parquet) │ scales │
│ └────────────────────────────────────────┘ independently │
└─────────────────────────────────────────────────────────────┘

Benefits of this architecture:

  • Independent scaling: Add more Spark executors or Trino workers without provisioning additional storage, and vice versa
  • Multi-engine access: Multiple compute engines can read from and write to the same datasets concurrently, mediated by table formats (Iceberg, Delta) that provide ACID guarantees
  • Cost efficiency: Compute resources can be released when not in use (e.g., Spark dynamic allocation, auto-pause) while data remains persistently available in object storage. Scale compute to zero during off-hours - storage costs persist, but expensive compute does not
  • Engine flexibility: Choose the right engine for each workload - Spark for ETL, Trino for interactive analytics, DuckDB for lightweight queries - all accessing the same data
  • Catalog-mediated consistency: The catalog layer ensures all engines see a consistent view of table metadata, enabling safe concurrent reads and writes across Spark, Trino, and DuckDB

স্কেলেবিলিটি

আইএলইউএম-কোর স্কেলেবিলিটি মাথায় রেখে ডিজাইন করা হয়েছিল। সম্পূর্ণরূপে রাষ্ট্রহীন হওয়ার কারণে, আইলুম-কোর ক্র্যাশের পরে তার পুরো বিদ্যমান অবস্থা পুনরুদ্ধার করতে পারে, লোডের প্রয়োজনীয়তার উপর ভিত্তি করে স্কেল আপ বা ডাউন করা সহজ করে তোলে।

Ilum supports multiple scaling dimensions:

  • ilum-core horizontal scaling - Deploy multiple stateless replicas behind a load balancer. Requires Kafka for inter-replica coordination
  • Spark dynamic executor allocation - Executors scale up and down automatically based on workload. Idle executors are released after a configurable timeout
  • Kubernetes HPA - Horizontal Pod Autoscaler can manage always-on services (Trino workers, ilum-core replicas) based on CPU/memory metrics
  • Cluster autoscaler - Node-level scaling via Kubernetes Cluster Autoscaler or cloud provider auto-scaling groups, triggered when pending pods cannot be scheduled
  • Resource quotas - Kubernetes namespaces and ilum resource controls enforce per-tenant resource limits, preventing any single workload from monopolizing cluster resources

See রিসোর্স কন্ট্রোল এবং Production Deployment for configuration details.

উচ্চ প্রাপ্যতা

ilum-core and its required components support High Availability (HA) deployments. An HA deployment necessitates the use of Apache Kafka as the communication type, as gRPC does not support HA.

ComponentMinimum ReplicasNotes
ইলুম-কোর 3 Stateless; requires Kafka for HA coordination
মঙ্গোডিবি 3 Replica set with automatic failover
অ্যাপাচি কাফকা 3 KRaft quorum or ZooKeeper-based
মিনিও 4 Erasure coding for data durability

Failure Domain Mitigation

  • Pod anti-affinity - Spread replicas of each component across different nodes to survive single-node failures
  • Namespace isolation - Deploy ilum infrastructure (Kafka, MongoDB, MinIO) in a dedicated namespace separated from user workloads
  • Zone-aware scheduling - In multi-zone clusters, use topology spread constraints to distribute pods across availability zones

See Production Deployment for the full HA deployment guide.

Observability Architecture

Ilum provides three observability pillars - metrics, logs, and lineage - through optional Helm-deployed modules.

Metrics

Spark exposes execution metrics via the built-in PrometheusServlet. Ilum deploys PodMonitor resources that Prometheus scrapes automatically. Pre-configured Grafana dashboards visualize executor utilization, job duration, shuffle I/O, and GC pressure.

Spark Executor → PrometheusServlet → PodMonitor → Prometheus → Grafana

লগ

Container logs from all Spark driver and executor pods flow through the standard Kubernetes logging pipeline. When Loki is enabled, a Promtail DaemonSet collects logs from each node and ships them to Loki for centralized LogQL querying.

Container stdout → Promtail DaemonSet → Loki → LogQL queries

উপাত্ত বংশ

The OpenLineage Spark Listener captures table-level and column-level lineage events during job execution. These events are sent to the Marquez API, which stores them and exposes lineage graphs through the ilum UI (ERD and directed graph views).

Spark Job → OpenLineage Listener → Marquez API → Lineage UI

স্পার্ক ইতিহাস সার্ভার

For deep post-execution analysis, Spark History Server reads event logs from object storage and provides detailed DAG visualizations, stage breakdowns, and task-level metrics.

All observability components are optional and enabled via Helm flags. See নজরদারি for metrics and log configuration, and উপাত্ত বংশ for lineage setup.

নিরাপত্তা

Ilum provides a comprehensive security architecture covering authentication, authorization, data access control, and network security.

প্রমাণীকরণ

Ilum supports multiple authentication methods:

  • Internal LDAP - Embedded OpenLDAP server deployed via Helm for standalone deployments
  • External LDAP/AD - Connect to existing Active Directory or LDAP directories
  • OAuth2/OIDC - Integration via ORY Hydra supporting Okta, Azure AD, Google, and Keycloak as identity providers

অনুমোদন

  • RBAC - Role-based access control with two modes: unrestricted (development - all users have full access) and restricted (production - permissions are enforced per role)
  • ABAC - Attribute-based access control using data classification tags for fine-grained policy decisions

Data Access Control

  • Row-level filters - Restrict query results based on user attributes (e.g., region, department)
  • Column-level masking - Redact or hash sensitive columns (PII, financial data) based on user roles
  • Hierarchical privileges - Grant access at catalog, schema, table, or column level

Network Security

  • TLS/mTLS - Encrypted communication between ilum-core, Spark jobs, and integrated services
  • Kubernetes Network Policies - Restrict pod-to-pod communication to authorized paths

Secrets Management

  • Kubernetes Secrets - Native secret storage for credentials, certificates, and API keys
  • External vault integration - Support for mounting secrets from external KMS providers

ilum as Identity Provider

Ilum can act as an OAuth2 provider for integrated services. When enabled, Airflow, Superset, Grafana, Gitea, and MinIO authenticate users through ilum's OAuth2 endpoints - providing single sign-on across the entire platform.

See নিরাপত্তা for the full security guide, Data Access Control for row/column policies, and OAuth2 for OIDC configuration.