Staff Data Engineer

Staff Data Engineer architects and delivers scalable data products from healthcare datasets, designs high-performance processing systems using SQL, Spark, Python, and AI workflows, and leads cross-functional initiatives for reliable data serving to customers and applications.

181k – 282kUnited StatesData EngineeringRemote

Apply

About the role

Responsibilities

Architect, build, and deliver scalable Healthcare Map data products that power direct customer use cases, APIs, analytics surfaces, serving layers, and internal applications.
Design and implement high-performance data processing and serving patterns across large-scale healthcare datasets, using SQL, Python, Spark, Rust, C++, and emerging AI-enabled engineering workflows.
Create shared data models, productized datasets, reusable libraries, and technical standards that become the foundation for downstream product, analytics, and application teams.
Build data products that are easy to consume through APIs, serving layers, exports, analytics environments, and customer-facing delivery mechanisms.
Partner with Product, Data Science, Quality, Platform, and application teams to translate complex healthcare use cases into production-grade technical designs and execution plans.
Lead complex, multi-quarter initiatives, making clear trade-offs across performance, scalability, maintainability, cost, reliability, and time-to-market.
Define and implement data quality checks, validation frameworks, observability, lineage, monitoring, and alerting to ensure Healthcare Map products are accurate, explainable, and reliable.
Raise the bar for system design, code quality, documentation, testing, CI/CD, and operational readiness across the team.
Mentor engineers through design reviews, technical deep dives, pairing, and architectural guidance.

Requirements

Extensive experience building production-grade, large-scale data products, services, and analytical systems that serve real customer and business use cases.
Strong technical depth across SQL, distributed data processing, cloud data platforms, MPP databases, and high-scale compute frameworks such as Spark, Python, Rust, C++, or equivalent technologies.
Demonstrated ability to design data models, serving patterns, platform components, and system architectures for complex, high-volume data environments.
Ability to reason through data quality, identity, longitudinal patient journeys, claims or clinical data complexity, and downstream consumption needs.
Experience designing data workflows, feature pipelines, evaluation datasets, or infrastructure that supports AI/ML training, inference, experimentation, and monitoring.
Strong ability to use data analysis, statistical reasoning, hypothesis testing, and experimental design to validate product quality and business impact.
Ability to explain technical decisions, trade-offs, risks, and delivery status clearly to engineers, product partners, data scientists, and senior stakeholders.
Ability to use AI tools such as ChatGPT, Gemini, Cursor, Claude, or similar systems to improve engineering productivity, design quality, testing, documentation, and decision-making.

Nice-to-Haves

Experience with claims, clinical, RWE, provider, patient, or life sciences data, including familiarity with coding systems such as ICD-10, CPT, NDC, RxNorm, NPI, or taxonomy data.
Experience building and operating data products that are consumed by customers, analytics users, APIs, applications, or serving layers.
Experience designing systems for large-volume data processing, productization, versioning, delivery, performance optimization, and cost efficiency.
Experience using, designing, or integrating AI-enabled workflows to improve engineering productivity, data quality, extraction, curation, testing, or product delivery.
Experience operating in high-growth or ambiguous environments where technical leaders must balance architecture, delivery, quality, and speed.

Skills

SQLPythonSparkRustC++AI/MLCloud Data PlatformsMpp DatabasesData Modeling

Similar roles

Data Engineering jobs

Shield AI

Senior Staff Engineer, Operations Analysis (R4487)

Leads modeling, simulation, and wargaming to evaluate autonomous aircraft performance, survivability, and mission impact in military scenarios. Collaborates with engineering and DoD stakeholders using tools like AFSIM, STK, MATLAB, and Python; requires 10+ years experience and security clearance.

181k – 271kWashington, DCData EngineeringOn-site10+ YOEStkIsr

Black Forest Labs

Member of Technical Staff - Large Scale Data Infrastructure

Builds scalable data infrastructure for peta-to-exabyte scale training on thousands of GPUs, including data loaders, petabyte storage systems, multi-cloud abstractions, and performance debugging for AI models.

180k – 300kSan Francisco, CAData EngineeringHybridS3Gcs

xAI

Member of Technical Staff - Pre-Training

Designs and implements petabyte-scale data processing systems and pipelines for pre-training large language models, focusing on high-throughput CPU/GPU processing, data quality, and multi-cloud management. Requires strong systems skills in distributed data systems.

180k – 440kPalo Alto, CAData EngineeringOn-siteLLMsKubernetes

Staff Software Engineer, Batch Processing Platform

Designs, implements, and optimizes high-performance batch processing infrastructure handling hundreds of petabytes using Spark, Presto/Trino, and Iceberg. Requires 6+ years in scalable big data systems and proficiency in Java, Scala, or Python.

177k – 365kSeattle, WAData EngineeringRemote6+ YOEJavaTrino

NexHealth

Staff Data Engineer

Staff Data Engineer owns and evolves data platforms including warehouse architecture, pipelines, and modeling to enable scalable analytics and self-service insights. Requires 7+ years experience, advanced SQL/Python, and expertise with managed data warehouses like Snowflake.

177k – 226kSan Francisco, CAData EngineeringOn-site7+ YOESQLETL