夜莺监控是一款开源云原生观测分析工具，采用 All-in-One 的设计理念，集数据采集、可视化、监控告警、数据分析于一体，与云原生生态紧密集成，提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日，在 github 上发布 v1 版本，已累计迭代 100 多个版本。

夜莺最初由滴滴开发和开源，并于 2022 年 5 月 11 日，捐赠予中国计算机学会开源发展委员会（CCF ODC），为 CCF ODC 成立后接受捐赠的第一个开源项目。夜莺的核心研发团队，也是 Open-Falcon 项目原核心研发人员，从 2014 年（Open-Falcon 是 2014 年开源）算起来，也有 10 年了，只为把监控这个事情做好。

部署夜莺

可以去两个地方下载夜莺发布包，完事自行解压缩：

github releases：更新会更频繁，国外地址，下载可能会慢一些
flashcat 下载中心：更新会慢一些，国内地址，下载更快

注意：amd64.tar.gz 是 x86_64 架构的，arm64.tar.gz 是 arm64 架构的。根据自己的服务器架构选择下载。如果下载错了，启动的时候会报错：无法执行二进制文件。

准备依赖

根据架构，夜莺依赖 MySQL、Redis，需要各位提前准备好。

导入数据库表结构

mysql -uroot -p1234 < n9e.sql

启动夜莺

解压缩夜莺的 tar.gz 之后，可以看到三个二进制：

n9e：这是夜莺的服务端二进制
n9e-edge：这是边缘机房部署模式时使用，后面会讲，现在不用管
n9e-cli：这是 v5 升级 v6 版本时使用的命令行迁移工具，新用户也无需关心

另外可以看到几个目录：

cli：v5 升级 v6 的时候用的，新用户无需关心
etc：配置文件目录
docker：docker 部署的时候用的，相关配置文件，相关 compose.yaml 文件都在这里，二进制部署无需关心
integrations：集成目录。存放内置告警规则、内置仪表盘

# 夜莺的主配置文件是etc/config.toml

启动夜莺很简单，直接执行 n9e 二进制即可：

./n9e

如果启动成功，夜莺默认会监听在 17000 端口，通过下面的命令可以查看端口是否正常在监听：

ss -tlnp|grep 17000

已服务模式运行

# nano /lib/systemd/system/n9e-server.service


[Unit]
Description=n9e Service
After=network.target

[Service]
Type=simple
ExecStart=/opt/n9e/n9e
WorkingDirectory=/opt/n9e

RestartSec=3
Restart=on-failure
SuccessExitStatus=0
LimitNOFILE=65536
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=n9e

[Install]
WantedBy=multi-user.target


# systemctl daemon-reload
# systemctl start n9e-server
# systemctl status n9e-server
# systemctl enable n9e-server

查看日志

如果是 nohup 方式启动，在 n9e.log 中可以查看夜莺的日志。如果是 systemd 方式启动，可以通过 journalctl 来查看日志（假设 service 名字是 n9e）：

journalctl -fu n9e

把日志输出到指定目录（选做）

默认情况下夜莺的日志打印到 stdout，如果想把日志输出到指定目录，可以通过修改 config.toml 中的 [Log] 部分达成目的，比如：

[Log]
Dir = "logs"
Level = "INFO"
Output = "file"
KeepHours = 24

上面的配置表示，把日志输出到 logs 目录下，日志级别是 INFO，日志文件保留 24 小时。也可以根据大小来配置，比如：

[Log]
Dir = "logs"
Level = "INFO"
Output = "file"
RotateNum = 3
RotateSize = 256

访问夜莺

浏览器访问夜莺的端口，即 17000，默认用户是 root，密码是 root.2020

接入数据源

上面的方式搭建的夜莺，只是作为一个告警引擎使用，此时你可以在页面（注意，这里是页面）上添加数据源（菜单路径：系统配置-数据源），看图、配置告警规则。如果想要用夜莺来接收监控数据并转存到时序库，那就得通过配置文件（注意，这里是配置文件）告诉夜莺时序库的地址在哪里。

部署时序库

VictoriaMetrics

VictoriaMetrics 的搭建，更为简单，从 VictoriaMetrics github releases 下载对应平台的发布包，解压缩里边只有一个二进制，执行 ./victoria-metrics-prod 即可启动，生产环境建议使用 systemd 托管，这里提供一个 systemd 的 service 文件供大家参考：

# /etc/systemd/system/victoriametrics.service
[Unit]
Description="victoriametrics"
After=network.target

[Service]
Type=simple

ExecStart=/opt/victoriametrics/victoria-metrics-prod

Restart=on-failure
SuccessExitStatus=0
LimitNOFILE=65536
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=victoriametrics


[Install]
WantedBy=multi-user.target


# systemctl daemon-reload
# systemctl start victoriametrics
# systemctl status victoriametrics
# systemctl enable victoriametrics

修改夜莺配置文件对接时序库

夜莺作为 pushgateway，需要告诉夜莺时序库的地址在哪里。夜莺的配置文件是 etc/config.toml，修改 [[Pushgw.Writers]] 部分即可，核心是 Url 部分，夜莺接收到指标数据之后，会通过 Prometheus remote write 协议写入 Url 指向的时序库（任何支持 Prometheus remote write 的存储都可以用），比如对接 VictoriaMetrics 单机版：

[[Pushgw.Writers]]
Url = "http://127.0.0.1:8428/api/v1/write"

重启夜莺进程，就完成了夜莺和时序库的对接。

在页面添加数据源

菜单操作入口：数据源。以 Prometheus Like 类型的数据源举例，创建页面填写的关键信息如下：

数据源名称：自定义的数据源名称
URL：数据源的地址，页面上已经给了例子
超时时间：默认 10 秒，有的时候查询重量级 promql 10 秒可能不够，可以调大这个值，比如改成 30000 毫秒，即 30 秒
授权：用户名密码指的是数据源的 Basic auth 认证信息
Remote write URL：如果用到了记录规则，记录规则产生的新指标会通过该地址回写时序库。比如 VictoriaMetrics 单机版的 remote write 地址是 http://IP:8428/api/v1/write，Prometheus 的 remote write 地址是 http://IP:9090/api/v1/write，如果没有用到记录规则，这个字段可以忽略
时序库内网地址：通常用于边缘机房下沉部署告警引擎的场景，如果该字段不为空，n9e-edge 会使用该地址访问时序库，如果该字段为空，n9e-edge 会使用上面的 URL 访问时序库
关联告警引擎集群：如果只是部署了中心夜莺，这里就默认选择 default 即可，如果你当前添加的数据源是某个边缘机房的数据源，并且该边缘机房有专门的 n9e-edge 告警引擎，那么这里就选择对应的告警引擎集群，何为边缘机房部署模式？请参考前面的文档《附：边缘机房部署》

点击【测试并保存】，如果测试通过，就可以对这个数据源的数据看图、配告警规则了。比如我使用 docker compose bridge 部署的，时序库是 VictoriaMetrics，那么数据源 URL 就是 http://victoriametrics:8428，compose 中自动启动了 categraf 采集数据，配置完了数据源就可以立马去查看数据：

部署采集器

通过 Categraf 采集数据

对于要监控的目标机器，需要在每个机器上安装 Categraf，Categraf 是夜莺的数据采集器

支持的OS

categraf 采用golang编写，所以只要支持golang的os，理论上都可以运行。

当前categraf使用golang 1.21版本编译。

Windows: Windows10 及以上版本， Windows Server2008以上版本
Linux: 内核2.6.32以上的OS
macOS: 10.15及以上版本

采集插件

aliyun: 阿里云指标采集插件，用于从阿里云服务收集性能指标。
amd_rocm_smi: AMD显卡采集插件，用于收集AMD显卡的性能和状态信息。
appdynamics: AppDynamics采集插件，用于从AppDynamics平台收集应用性能数据。
arp_packet: ARP信息采集插件，用于捕获和分析ARP数据包。
bind: BIND信息采集插件，用于收集BIND DNS服务器的性能数据。
cadvisor: cAdvisor或kubelet内置cAdvisor采集插件，用于收集容器性能指标。
chrony: Chrony是一个网络时间同步工具，插件可能用于监控时间同步状态。
clickhouse: ClickHouse数据库性能监控插件。
cloudwatch: Amazon CloudWatch采集插件，用于收集AWS CloudWatch指标。
conntrack: 连接跟踪采集插件，用于监控网络连接状态。
consul: Consul服务发现和配置共享系统采集插件。
cpu: CPU性能监控插件，用于收集CPU使用率等信息。
dcgm: NVIDIA DCGM（Data Center GPU Manager）采集插件，用于监控NVIDIA GPU。
disk: 磁盘性能监控插件，用于收集磁盘使用情况和性能数据。
diskio: 磁盘I/O性能监控插件。
dns_query: DNS查询监控插件，用于监控DNS查询响应时间等。
docker: Docker容器监控插件。
elasticsearch: Elasticsearch搜索引擎性能监控插件。
exec: 执行外部命令并收集输出的插件。
filecount: 文件/文件目录数量和变化监控插件，用于统计特定目录下的文件数量/文件变化。
googlecloud: Google Cloud监控插件，用于收集Google Cloud平台的性能指标。
greenplum: Greenplum数据库性能监控插件。
haproxy: HAProxy负载均衡器监控插件。
http_response: HTTP响应时间监控插件。
influxdb: InfluxDB时间序列数据库性能监控插件。
ipmi: IPMI（智能平台管理接口）采集插件，用于硬件监控和管理。
ipvs: Linux IPVS（IP Virtual Server）负载均衡器监控插件。
jenkins: Jenkins持续集成工具监控插件。
jolokia_agent_kafka: Jolokia代理Kafka监控插件。
jolokia_agent_misc: Jolokia代理其他服务监控插件。
kafka: Apache Kafka消息队列监控插件。
kernel: Linux内核性能监控插件。
kernel_vmstat: Linux内核虚拟内存统计监控插件。
kubernetes: Kubernetes集群监控插件。
ldap: LDAP（轻量级目录访问协议）服务监控插件。
linux_sysctl_fs: Linux文件系统sysctl配置监控插件。
logstash: Logstash日志处理和转发工具监控插件。
mem: 内存性能监控插件。
mongodb: MongoDB数据库性能监控插件。
mtail: mtail日志数据提取工具监控插件。
mysql: MySQL数据库性能监控插件。
nats: NATS消息系统监控插件。
net: 网络性能监控插件。
net_response: 网络(TCP/UDP)响应时间监控插件。
netstat: netstat网络状态(time wait/established等)统计监控插件。
netstat_filter: 采集网络连接情况，并根据用户条件进行过滤统计。
nfsclient: NFS客户端监控插件。
nginx: Nginx Web服务器监控插件。
nginx_upstream_check: Nginx上游服务健康检查插件。
node_exporter: 类似Node Exporter监控插件，多了file和crontab collector。
nsq: NSQ消息队列监控插件。
ntp: NTP（网络时间协议）服务监控插件。
nvidia_smi: NVIDIA SMI（系统管理界面）采集插件，用于监控NVIDIA GPU。
oracle: Oracle数据库性能监控插件。
phpfpm: PHP-FPM（FastCGI进程管理器）监控插件。
ping: 网络连通性监控插件。
postgresql: PostgreSQL数据库性能监控插件。
processes: 进程状态(running/sleeping等)监控插件。
procstat: 系统进程状态监控插件。
prometheus: 采集Prometheus格式监控数据的插件。
rabbitmq: RabbitMQ消息队列(3.8以下版本)监控插件。
redis: Redis数据库性能监控插件。
redis_sentinel: Redis Sentinel监控插件。
rocketmq_offset: RocketMQ偏移量监控插件。
self_metrics: 自身性能指标监控插件。
smart: S.M.A.R.T（自监测、分析和报告技术）硬盘监控插件。
snmp: SNMP（简单网络管理协议）监控插件。
snmp_trap: SNMP Trap监控插件。
sockstat: 套接字统计监控插件。
sqlserver: Microsoft SQL Server数据库性能监控插件。
supervisor: Supervisor进程监控工具监控插件。
switch_legacy: 旧版交换机监控插件。
system: Linux 系统性能监控插件。
systemd: systemd系统和服务管理器监控插件。
tengine: Tengine Web服务器监控插件。
tomcat: Tomcat应用服务器监控插件。
traffic_server: Apache Traffic Server监控插件。
vsphere: VMware vSphere监控插件。
whois: WHOIS查询监控插件。
xskyapi: Xsky分布式存储系统API监控插件。
zookeeper: Apache Zookeeper监控插件。

下载

国内用户可以直接去下载中心下载，国外用户推荐去categraf releases 页面，下载编译好的二进制，也可自行编译，编译只需要一条命令：go build 当然，前提是机器上有 Go 环境。

categraf release包的命名规则遵循{project}-{version}-{os}-{arch}.tar.gz (windows后缀是zip)，例如 categraf-v0.3.21-linux-amd64.tar.gz 表示 categraf 的版本是 v0.3.21，运行在 linux 系统上，架构是 amd64。

部署

在目标机器部署，只需要 categraf 二进制、以及 conf 目录，conf 下有一个主配置文件：

config.toml，定义机器名、全局采集频率、全局附加标签、remote write backend地址等；
另外就是各种采集插件的配置目录，以input.打头，categraf 会遍历这些文件下的插件配置执行采集任务，如果某个采集器 xx 不想启用，把 input.xx 改个其他前缀(或者删除这个目录)，比如 bak.input.xx，categraf 就会忽略这个采集器。

启停

linux systemd 托管 (推荐)

v0.3.35 版本及以上支持

# 以service方式安装, 相当于添加service文件+systemctl daemon-reload
sudo ./categraf  --install

# 以service方式卸载, 相当于systemctl stop categraf + 删除service文件
sudo ./categraf  --remove

# 以service方式启动categraf ，相当于systemctl start categraf
# 如果之前有nohup启动的categraf进程，需要先人工停掉原来的categraf进程
sudo ./categraf  --start

# 以service方式停止categraf，相当于systemctl stop categraf
sudo ./categraf  --stop

# 以service方式查看categraf，相当于systemctl status categraf
sudo ./categraf  --status

windows 服务方式启动

# windows 安装服务
categraf.exe --win-service-install

# 启动服务
categraf.exe --win-service-start 

# 停止服务
categraf.exe --win-service-stop

测试

我们经常会需要测试某个采集器的行为，临时看一下这个采集器输出哪些监控指标，比如配置好了 conf/input.mysql/mysql.toml 想要看看采集了哪些 mysql 指标，可以执行命令：./categraf --test --inputs mysql

如果要一次性测试、查看多个插件的输出，可以执行命令：./categraf --test --inputs mysql:cpu:mem, 注意使用冒号来分割多个插件。

这个命令会去连接你配置的 mysql 实例，执行SQL收集输出，将输出的内容做格式转换，最终打印到 stdout，如果我们在 stdout 正常看到了 mysql 相关监控指标，则说明一切正常，否则就是哪里出了问题，大概率是 conf/input.mysql/mysql.toml 配置的有问题。

重启

如果修改了某个采集器的配置，需要重启 categraf 或者给 categraf 进程发送HUP信号，发送HUP信号的命令，如下：

kill -HUP `pidof categraf`

注:windows下不支持发送HUP信号，需要重启categraf。

另外，categraf 支持哪些命令行参数，可以通过 ./categraf --help 查看

自升级

linux下v0.3.36版本及以上支持通过 --update --update_url 升级文件来进行升级 ,例如

./categraf  --update  --update_url https://download.flashcat.cloud/categraf-v0.3.36-linux-amd64.tar.gz

自升级的前提就是: 已经通过 --install 安装了服务，如果没有安装服务，需要先安装服务，然后再执行自升级命令。

openEuler 部署夜莺Nightingale

部署夜莺

准备依赖

导入数据库表结构

启动夜莺

查看日志

把日志输出到指定目录（选做）

访问夜莺

接入数据源

部署时序库

VictoriaMetrics

修改夜莺配置文件对接时序库

在页面添加数据源

部署采集器

通过 Categraf 采集数据

支持的OS

采集插件

下载

部署

启停

linux systemd 托管 (推荐)

windows 服务方式启动

测试

重启

自升级

DarkMoon

部署夜莺

准备依赖

导入数据库表结构

启动夜莺

查看日志

把日志输出到指定目录（选做）

访问夜莺

接入数据源

部署时序库

VictoriaMetrics

修改夜莺配置文件对接时序库

在页面添加数据源

部署采集器

通过 Categraf 采集数据

支持的OS

采集插件

下载

部署

启停

linux systemd 托管 (推荐)

windows 服务方式启动

测试

重启

自升级

Zabbix使用中一些小毛病

alma linux9/openEuler 使用zabbix-proxy分布式监控

DarkMoon