取消
显示结果 
搜索替代 
您的意思是: 
cancel
3016
查看次数
10
有帮助
1
评论
julianchen
Spotlight
Spotlight
· 操作自动化善假于物方可事半功倍。
·
o 通过调用各种云服务平台所提供的API,自动化启/停、操作和管理云端的服务。
o
o 他们运用SaltStack在初始化好的操作系统上部署Nginx,运用预先定制好sls之类的文件对目标主机进行程序包、文件、网络配置、服务以及用户等方面的管理。
o
o 他们也使用Ansible来实现上述标准化的安装部署方案,把多个Shell、python、PowerShell、Bat等脚本串在一起执行,实现对系统和服务的流程化操作。
o
o 在补丁和订阅方面,他们有用到SCCM和Yum分别对服务器端的Windows和Linux进行自动化的定期更新和升级。这些软件通过对版本文件的上传、分发、以及在必要时进行的回滚等实现各种版本控制与更新操作。
o
o 根据自动化监控到的事件进行知识关联,依照既定的规则进行自动化的初步响应,包括各种报警和服务中断保护等。
o
· 安全自动化上述操作自动化虽然能够广受运维人员的推崇,但势必会涉及到对特权的调用和对基线的调整。为了防范由此所带来的安全隐患和漏洞,他们也上马和启用了针对安全运维方面的自动化。
·
o 根据身份和访问管理(IAM)原则,安全程序能智能地识别出各种场景,如:请求SSH的服务在屡次尝试性登录失败后,仅有一次成功的记录;非活跃VPN用户在非常规工作时间登录,并对共享文件进行频繁的移动、复制甚至是删除等操作;某台主机向内网的其他主机发送探测扫描包;网络设备的配置在计划外的时间被更改;以及Web页面出现404、401、500等错误代码。
o
o 基线核查:对于主机而言,是对指定目录和文件的完整性检查,对指定设备和系统的端口勘察,对指定操作系统的注册表、服务和进程、以及恶意软件Rookit和webshell予以检查。而对于内网的数据流量而言,则是对协议、内容、和攻击签名模式的匹配检查。
o
o 自动合规:根据审计的流程,检查各个系统上多余/可疑的账号与组,文件/文件夹的属性/访问权限,远程访问的IP与账户限制,静态代码中的漏洞,各类补丁与防毒签名的更新等,并且能根据既定的playbook自动进行整改和加固。
o
平台化监控与管理

业界喜欢用物理学上的熵理论来阐述:倘若不对IT系统进行人工管控的话,则会趋向于无序。Tim和他的运维团队认识到:如果日常运维工作完全依赖于标准化和自动化进行推进的话,很快就会陷入“中年油腻”,大家也会频繁被动地打“遭遇战”。因此,他们基于过往的经验汇总、需求分析、当然也考虑到实际预算,设计并集成了一个具有可视化和方便管控的平台架构。该平台具体由如下三部分所组成:
· 资产、资源管理手中有粮,心里不慌。
·
o 通过建立CMDB来存储所有的主机名、域名、IP地址及分配范围、应用服务特征属性等资产相关的信息,从而为日常运维和问题处理提供最新且完整的信息。下一阶段,他们将引入数据分析模块,分析一般用户和专业运维人员登录该平台后,检索知识库的方式(如题名、关键词、作者、部门等)、使用频率、驻留时间、反馈信息等。
o
o 在平台上融入服务资产和配置管理(service Asset and Configuration Management,SACM)的概念,通过梳理和建立资产、应用和使用者的对应关系,平台能够快速、准确地获知新发布的服务和应用,从而自动化执行扫描、编录和后续的管理。
o
o 引入“容器”的概念,从资产的购置入库开始进行整个生命周期的跟踪,及时回收闲置的资产,在提高资源复用率的前提下避免了资源的浪费和设备超期服役所带来的安全隐患。
o
o 对关键备件状态和第三方服务合同,这两个容易被忽视的地带提供平台化的跟踪管理,为预算和决策提供数据依据。
o
· 监控报警一站式获取策略的实施和服务的状态。
·
o 平台提供一致的可视化入口,实时反映:人员的操作行为(用户操作、文件处置与打印、移动设备使用)、设备与服务的运行状况、链路的连接质量与拥塞程度、数据存储与备份作业完全情况、工具与文档的更新频率等。
o
o 另外,通过各种标准接口对自建的或是由第三方平台提供的云服务进行监控。例如:通过设定监控的频率和触发报警的阀值,获知资源(CPU、IOPS)的使用率、通用服务(如HTTP、PING等)和特定服务(如果POST方法、HEAD方法)的可用状态和请求响应的时间。
o
· 事件分析做到事前防范、事中控制、事后溯源。
·
o 他们的平台能够从两个维度出发,分别抓取和过滤来自各个主机层面的系统事件和基于网络的异常流量信息,通过持续将经过整理的日志信息写入Hbase数据库,为后期的各种故障诊断和攻击取证提供重要的判定依据。
o
o 与此同时,管理平台对某些事件的发生次数和频率进行统计,为了去重,系统可以对事件进一步按照其特征码的种类予以分组显示。
o
o 他们还在平台上引入了应用性能分析(APM)模块,能够精确地定位到应用服务中某个URL的访问速度的骤降、或是用户在网站上提交某个SQL执行语句时的延时,这些都能协助运维人员快速定位问题。
o
o 平台通过关联分析,可以有效地处置风险、提出持续改进的建议、以及发现和预报可能出现的问题。

评论
Yanli Sun
Community Manager
Community Manager
感谢版主分享:handshake
入门指南

使用上面的搜索栏输入关键字、短语或问题,搜索问题的答案。

我们希望您在这里的旅程尽可能顺利,因此这里有一些链接可以帮助您快速熟悉思科社区:









快捷链接