Rutuja Lamkane | Data Engineer

🚀 About Me

I'm a Data Engineer skilled at transforming complex datasets into scalable, production-ready solutions. Leveraging the Azure ecosystem, Databricks, and Apache Spark, I build end-to-end data pipelines that enable actionable analytics and informed decision-making.

My focus is on modern data architectures, covering ingestion, transformation, and analytics-ready outputs. I prioritize clean, efficient code, incremental loading, data quality checks, and performance optimization.

What motivates me: Converting raw, scattered data into reliable insights that drive business impact.

💼 Professional Experience

Data Engineer | Infosys Limited

Building scalable data solutions on Azure

Built and optimized 15+ production data pipelines processing 10M+ records daily using Azure Databricks and Delta Lake
Reduced ETL execution time from 48 hours to 4 hours through Spark optimization techniques (Z-ORDER, partitioning, broadcast joins)
Implemented Medallion Architecture across multiple projects, ensuring data quality and traceability from raw to curated layers
Automated data workflows with Azure Data Factory, reducing manual intervention by 50%
Collaborated with analytics teams to design star schema models.

🏆 Recognition: Awarded Rookie of the Quarter for exceptional project delivery and technical contributions

🛠️ Technical Arsenal

Cloud & Orchestration

Azure Data Factory Azure Databricks ADLS Gen2 Azure SQL Logic Apps

Data Processing

Apache Spark PySpark Spark SQL Delta Lake

Data Engineering

Medallion Architecture Star Schema SCD Type 2 Incremental Loading

Languages & Tools

Python SQL Git/GitHub Power BI

🏗️ Featured Projects

1. Airline Analytics Data Lakehouse

Production-grade analytics platform with 3-tier architecture

Challenge: Process and analyze airline operational data across multiple sources with varying schemas and quality issues.

Solution: Designed end-to-end Medallion Architecture with incremental processing, SCD Type 2 implementation, and optimized queries using Z-ORDER indexing.

Impact: Enabled real-time analytics, reducing data latency from daily batches to hourly updates.

Azure Databricks PySpark Delta Lake ADF Azure SQL

2. Car Sales Data Pipeline

Automated ELT pipeline with dimensional modeling

Challenge: Consolidate car sales data from multiple regional systems for executive reporting.

Solution: Built parameterized ADF pipelines, designed star schema data warehouse, and implemented data quality checks with detailed logging.

Impact: Reduced report generation time from 2 days to near real-time.

Azure Data Factory Databricks Delta Lake Power BI

📊 By The Numbers

15+

Production Pipelines

48h → 4h

ETL Time Improvement

50%

Reduced Manual Work

10M+

Records Daily

🎓 Certifications

✅ Infosys Certified MySQL Associate

✅ SQL for Data Professionals

Codebasics

✅ Power BI Data Analytics

Codebasics

🎯 In Progress: AZ-900

Microsoft Azure Fundamentals

🎯 In Progress: DP-900

Microsoft Azure Data Fundamentals

🎯 In Progress: DP-700

Fabric Data Engineer Associate

🔗 Let's Connect

I'm always interested in discussing data engineering challenges, Azure architecture, or potential collaborations.

💼 LinkedIn 📧 Email 💻 GitHub

💡 Open to: Data Engineering roles, consulting opportunities, and interesting data challenges

👋 Hi, I'm Rutuja Lamkane