微软Azure云 IAAS故障排除与实战101:高可用集群Fence的配置以及基本故障排除(RedHat篇)

Posted Posted in Azure, 云计算, 集群, 高可用

Fence是RedHat的高可用(high availability)集群中预防集群出现”脑裂”之后节点争抢文件系统的一种手段。
Fence通常分为硬件Fence和软件Fence:硬件Fence是指通过一种特殊的硬件设备关掉电源来关闭故障的服务器,软件Fence是通过软件/系统来实现关闭故障的服务器。
在这里就不得不提及”脑裂”这个专业名词了。在HA集群系统中,假设有同一个整体、动作协调的节点A 和节点B,节点A和B之间通过heartBeat来检查对方的存活状态,负责协调保证整个集群服务的可用性。正常情况下,如果节点A通过心跳检测不到B的存在的时候,就会接管B的资源,同理节点B检查不到B的 ….[阅读全文]

经验分享:大型网站架构技术的演变与核心原理总结

Posted Posted in Web, 负载均衡, 运维, 集群, 高可用

很多人可能都觉得大型网站的架构肯定是非常复杂的,而且开始建设时肯定花费了很多功夫。如何做一个大型的网站,这个网站需要考虑的基本信息,什么行业,什么类型,有木有相似的等,其实大多数的大型网站都是从小网站发展起来的,其演变的过程是下面这样的。

….[阅读全文]

微软Windows Azure Storage云存储:融合高可用性和强一致性的云存储服务 中文版【翻译自SOSP-2011年论文,仅供学习讨论用】

Posted Posted in Azure, 云计算

我们最近在第 23 届 ACM操作系统原理研讨会 (SOSP)上发布了一篇描述Windows Azure存储内部详细信息的论文。
您可以在这个链接11-calder.pdf下载到PDF版论文。会议还公布了谈话的视频链接在Youtube,和PPT幻灯片文档11-calder.pptx

这篇论文详细介绍了如何通过存储集群提供和扩展中心内部及跨数据中心的存储能力, 以及如何使用存储位置服务(location service)来管理我们的集群和存储帐户。然后,文章集中介绍了集群的三层体系结构(前端层、分区层和流层),我们为什么会有这三层,这三层的功能是什么、如何工作以及集群内和集群间的两个复制引擎。此外,文章概述了我们所做出的一些设计决策/权衡取舍,以及从构建这一大型分布式系统中获得的经验和教训。

Windows Azure存储的设计旨在为我们预期会看到的体系结构中各种类型的网络分区提供一致性、可用性和分区容错 (CAP)(这三者缺一不可)。我们通过共同设计分区层和流层,为集群内常见的分区/故障(如存储结点和机架层的网络分区)提供强一致性、高可用性和分区容错。

在这个简短的会议讲话中,我们讨论了一些主要详细信息,其中包括分区层如何对每个存储集群提供可扩展至数以千亿级对象的自动负载均衡对象索引;流层如何执行集群内复制和故障处理;以及如何通过共同设计分区层和流层来为存储结点和机架层的网络分区和故障提供一致性、可用性和分区容错。

署名:布莱德·考德(Brad Calder)   标签:架构性能可伸缩性

以上消息来源:https://blogs.msdn.microsoft.com/windowsazurestorage/2011/11/20/sosp-paper-windows-azure-storage-a-highly-available-cloud-storage-service-with-strong-consistency/

….[阅读全文]