betway必威-betway必威官方网站
做最好的网站

小米运维

Moto宫崎美子运转—网络厂商级监督系统奉行(1)

Introduction

监理系统是成套运营环节,甚至整个产品生命周期中最要紧的大器晚成环,事前眼看预先警报开掘故障,事后提供可相信的数码用于追查定位难点。监察和控制系列作为七个成熟的运转产品,产业界有那多少个开源的兑现可供接收。当集团刚好启航,业务规模超级小,运行团队也恰好确立的最先,选用意气风发款开源的监督检查连串,是四个省时省力,功能最高的方案。之后,随着事情规模的穿梭火速增进,监察和控制的靶子也越来越多,越来越复杂,监察和控制系统的接受对象也从最早少数的多少个SRE,扩展为越多的DEVS,SRE。那时,监察和控制种类的容积和顾客的“使用成效”成了最为优越的标题。

督察体系产业界有不少一级的开源监控系统。大家在早期,一向在用zabbix,不过随着工作的长足上扬,以致互连网厂商故意的有的供给,现成的开源的监察和控制种类在品质、扩大性、和客户的施用频率方面,已经不能支撑了。

之所以,我们在过去的一年里,从互连网公司的大器晚成部分须求出发,从各位SRE、SA、DEVS的行使经验和上报出发,结合产业界的一些大的互连网集团做监察和控制,用监督的部分思维出发,设计开辟了OPPO的督察系列:open-falcon。

open-falcon的靶子是做最开放、最棒用的网络公司级监督检查产品。

Highlights and features

强有力灵活的数目搜集:自动发掘,协助falcon-agent、snmp、协理客商积极push、客户自定义插件扶植、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

水平扩大本领:扶助每一个周期上亿次的数目收罗、告警剖断、历史数据存储和询问

高成效的告警计谋管理:高效的portal、扶助政策模板、模板承接和蒙蔽、多种报告急察方方式、帮忙callback调用

人性化的告急设置:最大告急次数、告急品级、告急恢复生机公告、告警暂停、差异的时候段不相同阈值、辅助珍重周期

高功能的graph组件:单机支撑200万metric的反映、归档、存款和储蓄(周期为1分钟)

赶快的野史数据query组件:选择rrdtool的数目归档计策,秒级重回上百个metric一年的历史数据

dashboard:多维度的多寡展示,顾客自定义Screen

高可用:整个连串无宗旨单点,易运行,易布署,可水平扩充

付出语言: 整个连串的后端,全部golang编写,portal和dashboard使用python编写。

Architecture

图片 1

open-falcon architecture

备考:虚线所在的aggregator组件还在设计开辟阶段。

每台服务器,都有安装falcon-agent,falcon-agent是三个golang开垦的daemon程序,用于自发掘的收罗单机的各类数据和指标,那几个目标包罗不限于以下多少个方面,共计400多项目标。

● CPU相关

● 磁盘相关

● IO

● Load

● 内部存款和储蓄器相关

● 网络有关

● 端口存活、进度存活

● ntp offset(插件)

● 有些进度能源消耗(插件)

● netstat、ss 等相关计算项收罗

● 机器内核配置参数

即便安装了falcon-agent的机械,就能够活动开端采摘每一种指标,主动申报,无需客商在server做任何配置(那和zabbix有比一点都不小的两样),那样做的好处,正是客商维护方便,覆盖率高。当然如此做也会server端变成非常的大的下压力,不过open-falcon的服务端组件单机品质足够高,同期都得以水平扩展,所以自动多搜求丰盛多的多寡,反而是生龙活虎件好工作,对于SRE和DEV来说,事后追查难点,不再是难点。

此外,falcon-agent提供了三个proxy-gateway,客户能够低价的通过http接口,push数据到本机的gateway,gateway会援救高功能的转变到server端。

falcon-agent,能够在我们的github上找到 :

Data model

Data Model是或不是强大,是还是不是灵活,对于监察和控制连串顾客的“使用功效”至关心敬服要。举个例子以zabbix为例,上报的多少为hostname(大概ip)、metric,那么顾客拉长告警战术、管理告急计策的时候,就只可以以那五个维度进行。举一个最常见的场馆:

hostA的磁盘空间,小于5%,就报告急察方。日常的服务器上,都会有七个举足轻重的分区,根分区和home分区,在zabbix里面,就得加两条法规;如若是hadoop的机械,日常还也是有十几块的数据盘,还得再加10多条法则,那样就能够痛苦,不幸福,不便于自动化(当然zabbix能够通过布署部分电动发掘计谋来消除那一个,然而相比麻烦)。

open-falcon,接纳和opentsdb近似的多寡格式:metric、endpoint增添组key value tags,举八个例证:

{     metric: load.1min,     endpoint: open-falcon-host,     tags: srv=falcon,idc=aws-sgp,group=az1,     value: 1.5,     timestamp: `date  %s`,     counterType: GAUGE,     step: 60 } {     metric: net.port.listen,     endpoint: open-falcon-host,     tags: port=3306,     value: 1,     timestamp: `date  %s`,     counterType: GAUGE,     step: 60 } 

透过那样的数据结构,大家就足以从三维来布置告急,配置dashboard等等。

备考:endpoint是三个非同一般的tag。


图片 2


) Introduction 监察和控制系统是总体运行环节,以致整个产品生命周期中最重大的豆蔻梢头环,事前立刻预先警报开采...

本文由betway必威发布于网络技术,转载请注明出处:小米运维

TAG标签: betway必威
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。