(转)可扩展服务设计原则checklist

01 Jan 2020 | |

转自 http://sunisdown.me/ke-kuo-zhan-fu-wu-she-ji-yuan-ze-checklist.html

考虑一下

基本原则

Expect failures 硬盘可能会坏，网络会不稳定，系统设计的时候是不是能够优雅的处理各种异常？
Keep things simple 复杂会导致更多的问题，简单的系统更容易正确的运行。去掉不必要的依赖等
Automate everything 使人都会犯错，把所有能够自动化的都自动化。

整体设计

自动化管理

依赖管理

能否容忍 latency 比较高的情况
服务调用是否有超时机制
超时重试是否有限制次数
是否有CB 机制
是否有快速失败机制
依赖的组件是否可靠，验证过？
跨服务的监控告警有吗
依赖双方要有一直的设计目标
模块解耦，依赖的组件挂了，也要能够服务（服务降级）

发布周期与测试

硬件选择与标准化

这个老哥在论文里面教了怎么购买硬件，怎么搞机柜。Google 有一本更专业的书来说这个事儿，这里不总结了。

运维与容量规划。

devops, 谁开发，谁治理。
只做软删除，要能够恢复被误删的数据
跟踪资源分配
一次只做一项更改（排查问题是，一次只对应用做一次更改，方便溯源问题）
配置一切，如果可以通过更新配置来完成，而不是更改代码，这样会方便很多

审计，监控与告警

监控一切
统计有问题但是没有告警的情况，把这个比例降低到0
分析数据，理解那些是正常的行为，避免误报。
数据是最有价值的资源，帮助我们追溯问题。
日志 Level是否可以配置，而不是重启，可配置的日志 Level 可以在需要的时候，输出更详细的日志帮助排问题。
所有发现的错误都要及时处理，如果有错误但是没有处理手段，那这个错误就可能会被长期忽略，最终导致灾难发生
快速定位线上问题
能否镜像一个线上的系统，在镜像系统调试问题

优雅的降级与准入机制

是否有红按钮机制，支持拒绝不重要的请求
准入控制，拒绝部分请求
渐入式准入控制，慢慢放开流量，以便系统能够优化恢复

客户沟通计划

针对大规模系统不可用，数据丢失或损坏，安全漏洞等，是否制定了沟通计划，想之前腾讯云那种情况，就是缺乏沟通导致的

客户自助

客户自行配置可以降低成本，并提高满意度，支持客户自助也相对重要。

看到这里或许你有建议或者疑问或者指出我的错误，请留言评论或者邮件mailto:wanghenshui@qq.com, 多谢! 你的评论非常重要！

觉得写的不错那就给点吧，快失业了T_T

微信转账

^