安全

重温安全基础知识第3部分:检查可用性的时间

Revisiting-Security-Fundamentals-Time-Examine-Availability

史蒂夫·戈林
尊敬的技术专家,安全

2019年11月12日

正如我在第1部分而且本系列中的2个在美国,网络安全是复杂的。安全工程师依靠基本原则的应用来保持他们的工作易于管理。在本系列的第一部分中,我重点介绍了保密,在第二部分中,我讨论了完整性.在本系列的第三部分(也是最后一部分)中,我将回顾可用性。这三个原则的一致应用对于确保宽带上的优秀用户体验至关重要。

定义可用性

与网络安全中的大多数事情一样,可用性是复杂的。在安全的背景下,宽带服务的可用性可确保授权用户及时可靠地访问和使用信息。当然,实现这一目标可能具有挑战性。在我看来,这个主题在安全专业人员中代表性不足,我们必须依靠额外的专业知识来实现我们的可用性目标。确保可用性的支持工程规程是可靠性工程。关于如何设计系统以实现所需的可靠性和可用性,有许多书籍提供了详细的见解。

可靠性和可用性这两个概念有什么不同?可靠性关注的是系统在特定条件下在一段时间内如何运行。相比之下,可用性关注的是系统在特定时刻或时间间隔内运行的可能性。还有一些重要的附加术语需要理解——质量、弹性和冗余。以下各段将讨论这些问题。想要了解更多细节的读者可以考虑查看一些关于可靠性工程的论文ScienceDirect

质量:我们需要确保我们的体系结构和组件满足需求。我们通过质量保证和可靠性实践来做到这一点。软件和硬件供应商实际设计、分析和测试他们的解决方案(包括在开发阶段,然后作为发布和集成测试的一部分),以确保它们实际上满足了可靠性和可用性需求。当结果不充分时,供应商应用流程改进(可能包括重新设计),使他们的设计、制造和交付流程符合可靠性和可用性需求。

弹性:然而,这还不够。我们需要确保我们的服务是有弹性的——也就是说,即使某些东西失败了,我们的系统也会恢复(有些东西会失败——事实上,随着时间的推移,许多东西都会失败,有时是同时失败)。在使我们的网络具有弹性时,我们要解决几个关键方面。一种是,当某个部件出现故障时,它会向操作员发出非常响亮的信号,这样操作员就知道发生了故障——故障部件会向管理系统发送消息,或者它所连接或依赖的系统会告诉管理系统该部件正在故障或失败。另一个原因是系统可以优雅地恢复。它会自动从失败的位置重新启动。

冗余:最后,我们应用冗余。也就是说,我们设置了体系结构,以便复制关键组件(通常是并行的)。这可能发生在一个网络元素(例如有两个网络控制器或两个电源或两个冷却单元)中,并具有从一个单元到另一个单元的故障转移(以及适当的网络管理通知)。有时,我们将使用集群来分配负载并实现冗余(有时称为M:N冗余)。有时,我们会有冗余网络元素(通常用于数据中心)或网络元素如何通过网络连接的多条路由(使用以太网、Internet甚至SONET)。在物理冗余不合理的情况下,我们可以引入跨其他维度的冗余,包括时间、频率、通道等。网络元素应该包含多少冗余取决于平衡可靠性和可用性以实现服务需求的数学计算。

我已经多次提到需求。我指的是什么要求?一个典型的,但不是唯一的,甚至不一定是最重要的是平均故障间隔时间(MTBF)。此统计数据表示统计的或预期的给定关注元素故障之间的平均时间长度,通常为数千小时(对于一些关键的很好理解的组件,甚至是数百万小时)。有一些变化。例如,希捷切换到年化故障率(AFR),这是“每年可能的故障百分比,基于[测量或观察到的故障]在制造商的同类安装单元的总数(见希捷链接)在这里).然而,这里的关键是要记住,MTBF和AFR是基于分析和测量性能的统计预测。在软件、硬件和服务层评估和度量可用性也很重要。如果您的测量没有达到您为服务设定的目标,那么就需要进行改进。

这里是临别提示。许多人谈论可用性是根据服务(或元素)在一年中的时间百分比。这些问题被抛出,比如“你有多少个9 ?”例如,“我的服务在4x9s(99.99%)可用?”这通常是一种误用的估计,因为用户通常不知道要测量什么,它适用于什么(例如,估计中包括什么),甚至不知道如何进行测量的基础。尽管如此,在有证据支持的情况下,尤其是有统计可信度的情况下,它还是很有用的。

关于可用性的警告

最后,事情会失败。你的统计数据有时会被发现有缺陷。因此,还必须考虑从失败中恢复所需的时间。换句话说,你的维修时间是多少?当然,也有统计数据来估计这一点。一个常见的方法是平均修复时间(MTTR)。这似乎是一个简单的术语,但事实并非如此。实际上,MTTR是衡量系统可维护性或可修复性的统计数据。测量和估计修复时间是至关重要的。修复时间可能是不可用性的主要原因。

所以,我们为什么不让一切都变得可靠,让我们所有的服务都高度可用呢?归根结底,这可以归结为两件事。第一,你无法充分预测所有事情。这一弱点在安全性方面尤其重要,这也是可用性被列为三个安全性基础之一的原因。您无法很好地或轻松地预测对手将如何攻击您的系统并中断服务。当不可预测的情况发生时,你要想办法解决它,并相应地更新你的统计模型和分析;你更新了衡量可用性和可靠性的方法。

第二件事是简单的经济因素。高可用性是昂贵的。这真的很贵。几年前,我和Jason Rupe博士(我今天在CableLabs的同事之一)一起在工程和架构大都市、区域和全国范围的光纤网络方面做了很多工作。亚博yabo888vip网页版通过大量研究,我们发现,一般的经验法则是,在典型的网络中,可用性每增加“9”,服务成本就会增加2.5倍左右。听起来很极端,不是吗?两点之间(区域或国家)的私有线路或以太网电路的典型可用性通常报价在99%左右。这是一段很长的停机时间(每年超过80个小时)——而且这不会在一年内全部发生在可预测的时间内。通常情况下,将这一时间缩短到每年9小时左右,即99.9%的可用性,将花费2.5倍的成本。当然,架构和技术确实很重要。 This is just sharing my personal experience. What’s the primary driver of the cost? Redundancy. More equipment on additional paths of connectivity between that equipment.

可用性挑战

高可用性、高性价比接入网的设计面临着许多挑战。冗余是一个挑战。它是在经济上合理的地方实现的,特别是在中心、前端或核心网络上的CMTS、路由器、交换机和其他服务器元素上。在HFC工厂实现这一点有点难。因此,设计人员和工程师往往更关注组件和软件的可靠性,并确保CMs、节点、放大器和所有其他使DOCSIS®工作的元素。最后,我们测量我们的网络。DOCSIS®是跟踪和分析网络故障原因以及最大化服务故障间隔时间的主要工具主动网络维护(PNM).PNM用于识别物理射频设备中的问题,包括无源和有源设备(抽头、节点、放大器)、连接器和同轴电缆。

从严格的安全角度来看,可以做些什么来提高服务的可用性?拒绝服务攻击通常在网络的入口点(边界路由器)通过清洗进行监视和缓解。另一个主要工具是通过身份验证和访问控制确保授权访问。

在我们的安全策略中考虑可用性是很重要的。安全工程师经常过于关注活跃对手造成的威胁。我们还必须考虑其他影响用户体验可用性的因素。可用性是一个基本的安全组件,就像机密性和完整性一样,应该包含在任何安全设计策略中。

可用性策略

可靠性和安全工程师可能应用的策略和工具是什么?

  • 建模您的系统并勤勉地评估可用性。包括传统系统可靠性工程故障和工况,也包括安全故障和攻击。
  • 在向客户公开之前执行良好的测试。换句话说,实施质量控制和过程改进实践。
  • 当冗余不切实际时,元素的可靠性就成为关键的可用性设计考虑因素。
  • 测量和改进。PMN可以显著提高可用性。但要衡量重要的东西。
  • 与供应商合作,确保整个网络、系统和供应链的可靠性、可用性和可维修性。
  • 充分利用PNM。DOCSIS®等解决方案将网络问题和服务问题分离开来。PNM可以让运营商利用这种差异,在网络问题变成服务问题之前解决它们。
  • 请记住,修复时间可能是整体可用性和客户体验的主要因素。

安全性的可用性

在安全策略中考虑可用性是很重要的。安全工程师经常过于关注活跃对手造成的威胁。我们还必须考虑其他影响用户体验可用性的因素。可用性是一个基本的安全组件,像机密性和完整性一样,应该包含在任何设计安全策略中。

你可以点击下面阅读更多关于10G和安全的信息。


了解更多关于10G

隐私偏好中心

    严格的必要

    网站正常运行所必需的cookie。

    PHPSESSID, __cfduid hubspotutk

    性能

    它们用于跟踪用户交互并检测潜在的问题。这些数据有助于我们通过提供用户如何使用本网站的分析数据来改善我们的服务。

    BizoID, wooTracker, GPS, _ga, _gat, _gid, _hjIncludedInSample, mailmunch_second_pageview

    针对

    这些cookies用于(1)发送与您和您的兴趣更相关的广告;(2)限制你看广告的次数;(3)帮助衡量广告活动的效果;(4)了解人们在观看广告后的行为。

    __hssc, __hssrc, __hstc,