System Design and Scalability Questions

Covers architectural thinking and design tradeoffs for building reliable, high performance systems. Topics include design decision reasoning given constraints such as cost, latency and availability; scaling strategies including horizontal and vertical scaling, load balancing, caching patterns, database partitioning and sharding, read replicas, and asynchronous processing; capacity planning and observability; spotting and explaining bottlenecks such as hot partitions, single points of failure, database locks and network limits; and communicating technical impact in business terms. Candidates should be able to justify choices, compare alternatives, and articulate metrics and monitoring approaches to validate design decisions.

EasyTechnical

17 practiced

Describe horizontal partitioning (sharding) versus vertical partitioning for data scaling. As a Cloud Engineer, what criteria would you use to choose a sharding key, how would you plan and execute resharding/rehashing in a cloud environment, and what operational challenges (rebalancing, hotspots, migration windows) should you anticipate?

EasyTechnical

24 practiced

Given a typical three-tier cloud application (Internet -> Load Balancer -> Web/API servers -> Database -> Cache), list potential single points of failure (SPOFs) at each layer in a typical AWS deployment. For each SPOF propose specific cloud-native mitigations including multi-AZ/multi-region deployment, managed services, failover automation, and testing strategies to validate resilience.

HardTechnical

21 practiced

You observe that 0.1% of keys receive 50% of requests, causing hot partitions in your sharded datastore. As a Cloud Engineer propose strategies to detect and mitigate hot partitions with minimal disruption. Include hot-key splitting, rerouting, adaptive caching, sharding changes, consistent-hashing options, and operational monitoring needed to validate the mitigation.

MediumTechnical

16 practiced

A new microservice will handle sensitive user data and sees unpredictable traffic. As a Cloud Engineer, compare using managed services and serverless (managed DB, serverless compute) versus self-managed containers in Kubernetes. Discuss security/compliance, operational overhead, cold-start and latency, scalability, and cost trade-offs, including long-term operational burden.

EasyTechnical

21 practiced

Explain Content Delivery Networks (CDNs) and common caching patterns a Cloud Engineer should use to reduce latency and load on origin services. Describe cache-control strategies, cache-aside, write-through, write-back, and edge caching. What metrics would you monitor to validate caching effectiveness (e.g., hit ratio, TTL distribution, origin request rate)?

Unlock Full Question Bank

Get access to hundreds of System Design and Scalability interview questions and detailed answers.

Join thousands of developers preparing for their dream job.