Diferència entre revisions de la pàgina «Monitorización del sistema Proxmox»
(Hi ha 9 revisions intermèdies del mateix usuari que no es mostren) | |||
Línia 2: | Línia 2: | ||
− | Vamos a utilizar prometheus para la monitorización de proxmox, esta es una aplicación de software gratuita utilizada para la supervisión y alerta de eventos y nos permite registrar métricas en tiempo real. | + | Vamos a utilizar prometheus para la monitorización de proxmox, esta es una aplicación de software gratuita utilizada para la supervisión y alerta de eventos y nos permite registrar métricas en tiempo real y es gratuita. |
+ | === Agentes prometheus === | ||
Primero vamos a instalar el agente que se encargará de exportar los datos del clúster, <b>prometheus-exporter</b> | Primero vamos a instalar el agente que se encargará de exportar los datos del clúster, <b>prometheus-exporter</b> | ||
Línia 38: | Línia 39: | ||
[[File:Practica9pr.PNG|captura9pr|border|600px]] | [[File:Practica9pr.PNG|captura9pr|border|600px]] | ||
+ | |||
+ | Y ahora activamos el servicio para que se inicie siempre. | ||
[[File:Prome1.png|prome1|border|600px]] | [[File:Prome1.png|prome1|border|600px]] | ||
+ | |||
+ | Repetimos el mismo proceso en el otro nodo por si se cae un nodo, tener el otro exportando datos y que no se caiga el servicio. | ||
+ | |||
+ | Una vez tenemos los agentes instalados tenemos que crear la maquina de monitorización, esta la creamos dentro de un nodo para beneficiar-nos del HA y si se cayese de un nodo, se pasase al otro. | ||
+ | |||
+ | === Prometheus === | ||
+ | |||
+ | Para la maquina de monitorización instalaremos un ubuntu 20.04 Desktop. | ||
+ | |||
+ | La cargamos como iso image de manera local. | ||
[[File:Prome2.png|prome2|border|600px]] | [[File:Prome2.png|prome2|border|600px]] | ||
+ | |||
+ | La vamos a instalar en el CEPH-VMS para que tenga una alta disponibilidad. | ||
[[File:Prome3.png|prome3|border|600px]] | [[File:Prome3.png|prome3|border|600px]] | ||
+ | |||
+ | Creamos la máquina y le ponemos un nombre, esta coge un ID de máquina por defecto. | ||
[[File:Prome4.png|prome4|border|600px]] | [[File:Prome4.png|prome4|border|600px]] | ||
+ | |||
+ | En storage elegimos el CEPH-VMS y le ponemos uno espacio de 124GB | ||
[[File:Prome5.png|prome5|border|600px]] | [[File:Prome5.png|prome5|border|600px]] | ||
+ | |||
+ | Ya la tenemos creada ahora iniciamos la maquina. | ||
[[File:Prome6.png|prome6|border|600px]] | [[File:Prome6.png|prome6|border|600px]] | ||
+ | |||
+ | Nos salta el instalador de ubuntu típico y hay que instalar el ubuntu como lo haríamos normalmente. | ||
[[File:Prome7.png|prome7|border|600px]] | [[File:Prome7.png|prome7|border|600px]] | ||
+ | |||
+ | Le ponemos un usuario y una contraseña para la maquina. | ||
[[File:Prome8.png|prome8|border|600px]] | [[File:Prome8.png|prome8|border|600px]] | ||
+ | |||
+ | Vamos a utilizar prometheus como sistema de monitorización ya que es 100% gratuito y muy eficiente. | ||
+ | Por ello vamos a la página oficial y descargamos el paquete. | ||
[[File:Prome9.png|prome9|border|600px]] | [[File:Prome9.png|prome9|border|600px]] | ||
+ | |||
+ | Creamos una carpeta en /etc que es donde lo tendremos almacenado. | ||
[[File:Prome10.png|prome10|border|600px]] | [[File:Prome10.png|prome10|border|600px]] | ||
+ | |||
+ | Descomprimimos el .tar en el que viene y lo movemos todo a /etc/prometheus | ||
[[File:Prome11.png|prome11|border|600px]] | [[File:Prome11.png|prome11|border|600px]] | ||
+ | |||
+ | Creamos una copia del archivo de configuración por si nuestra configuración petase y no sepamos como arreglar-lo, solo seria restablecer la configuración y volver a configurar. | ||
[[File:Prome12.png|prome12|border|600px]] | [[File:Prome12.png|prome12|border|600px]] | ||
− | [ | + | Este es el archivo de configuración de prometheus.yml ya configurado, lo que hemos añadido es un job que lo hemos llamado pve y le estamos indicando las ip de los dos agentes y el puerto desde el cual están enviando metricas que son los dos nodos. |
+ | |||
+ | <pre># my global config | ||
+ | global: | ||
+ | scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. | ||
+ | evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. | ||
+ | # scrape_timeout is set to the global default (10s). | ||
+ | |||
+ | # Alertmanager configuration | ||
+ | alerting: | ||
+ | alertmanagers: | ||
+ | - static_configs: | ||
+ | - targets: | ||
+ | - localhost:9093 | ||
+ | |||
+ | # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. | ||
+ | rule_files: | ||
+ | # - "first_rules.yml" | ||
+ | # - "second_rules.yml" | ||
+ | |||
+ | # A scrape configuration containing exactly one endpoint to scrape: | ||
+ | # Here it's Prometheus itself. | ||
+ | scrape_configs: | ||
+ | # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. | ||
+ | - job_name: "prometheus" | ||
+ | |||
+ | # metrics_path defaults to '/metrics' | ||
+ | # scheme defaults to 'http'. | ||
+ | |||
+ | static_configs: | ||
+ | - targets: ["localhost:9090"] | ||
+ | - job_name: 'pve' | ||
+ | static_configs: | ||
+ | - targets: | ||
+ | - 192.168.88.6:9221 # Proxmox VE node with PVE exporter. | ||
+ | - 192.168.88.7:9221 # Proxmox VE node with PVE exporter. | ||
+ | metrics_path: /pve | ||
+ | params: | ||
+ | module: [default]</pre> | ||
+ | |||
+ | Para comprobar que los agentes llegan al ubuntu, con un nc podemos hacer una prueba al puerto del agente y si nos sale succeded, es que esta abierto y llegamos entonces esta todo correcto. | ||
[[File:Prome14.png|prome14|border|600px]] | [[File:Prome14.png|prome14|border|600px]] | ||
− | [ | + | Creamos prometheus como servicio para que este siempre arrancado. |
+ | |||
+ | <pre>cat <<EOF> /etc/systemd/system/prometheus-pve-exporter.service | ||
+ | [Unit] | ||
+ | Description=Prometheus exporter for Proxmox VE | ||
+ | Documentation=https://github.com/znerol/prometheus-pve-exporter | ||
+ | |||
+ | [Service] | ||
+ | Restart=always | ||
+ | User=root | ||
+ | ExecStart=/opt/prometheus-pve-exporter/bin/pve_exporter /etc/prometheus/pve.yml | ||
+ | |||
+ | [Install] | ||
+ | WantedBy=multi-user.target | ||
+ | EOF | ||
+ | </pre> | ||
+ | |||
+ | <pre>Y lo arrancamos mediante estos dos comandos | ||
+ | systemctl daemon-reload | ||
+ | systemctl start prometheus-pve-exporter | ||
+ | </pre> | ||
+ | |||
+ | Abrimos el navegador y entramos en localhost:9090 nos saldrá la pantalla principal. | ||
[[File:Prome16.png|prome16|border|600px]] | [[File:Prome16.png|prome16|border|600px]] | ||
− | [[File:Prome17.png|prome17|border| | + | Vamos al apartado de status y podemos ver el job que hemos añadido anteriormente en el archivo de configuración y nos da información del estado si esta UP o DOWN. En el caso de que diese error nos saldría información del error. |
+ | |||
+ | [[File:Prome17.png|prome17|border|900px]] | ||
+ | |||
+ | === Grafana === | ||
+ | |||
+ | Ahora vamos a instalar Grafana que es un software para la visualización de datos métricos, y con este podremos visualizar los datos que tenemos en el prometheus y crear gráficos en tiempo real. | ||
+ | Lo hemos utilizado ya que tiene licencia gratuita y tiene muchos usuarios activos, por ende hay foros con errores y soporte. | ||
+ | |||
+ | Vamos a la página oficial y nos descargamos la version gratuita OSS, para windows. | ||
[[File:Prome18.png|prome18|border|600px]] | [[File:Prome18.png|prome18|border|600px]] | ||
+ | |||
+ | Lo descargamos mediante wget. | ||
[[File:Prome19.png|prome19|border|600px]] | [[File:Prome19.png|prome19|border|600px]] | ||
+ | |||
+ | Creamos el directorio /etc/grafana y lo movemos todo a esa carpeta. | ||
[[File:Prome20.png|prome20|border|600px]] | [[File:Prome20.png|prome20|border|600px]] | ||
− | [[ | + | Tenemos que crear también el servicio. |
+ | |||
+ | <pre>[Unit] | ||
+ | Description=Grafana instance | ||
+ | Documentation=http://docs.grafana.org | ||
+ | Wants=network-online.target | ||
+ | After=network-online.target | ||
+ | After=postgresql.service mariadb.service mysqld.service | ||
+ | |||
+ | [Service] | ||
+ | EnvironmentFile=/etc/grafana/bin/grafana-server | ||
+ | User=root | ||
+ | Group=root | ||
+ | Type=notify | ||
+ | Restart=on-failure | ||
+ | WorkingDirectory=/usr/share/grafana | ||
+ | RuntimeDirectory=grafana | ||
+ | RuntimeDirectoryMode=0750 | ||
+ | ExecStart=/etc/grafana/bin/grafana-server \ | ||
+ | --config=${CONF_FILE} \ | ||
+ | --pidfile=${PID_FILE_DIR}/grafana-server.pid \ | ||
+ | --packaging=rpm \ | ||
+ | cfg:default.paths.logs=${LOG_DIR} \ | ||
+ | cfg:default.paths.data=${DATA_DIR} \ | ||
+ | cfg:default.paths.plugins=${PLUGINS_DIR} \ | ||
+ | cfg:default.paths.provisioning=${PROVISIONING_CFG_DIR} | ||
+ | |||
+ | LimitNOFILE=10000 | ||
+ | TimeoutStopSec=20 | ||
+ | CapabilityBoundingSet= | ||
+ | DeviceAllow= | ||
+ | LockPersonality=true | ||
+ | MemoryDenyWriteExecute=false | ||
+ | NoNewPrivileges=true | ||
+ | PrivateDevices=true | ||
+ | PrivateTmp=true | ||
+ | ProtectClock=true | ||
+ | ProtectControlGroups=true | ||
+ | ProtectHome=true | ||
+ | ProtectHostname=true | ||
+ | ProtectKernelLogs=true | ||
+ | ProtectKernelModules=true | ||
+ | ProtectKernelTunables=true | ||
+ | ProtectProc=invisible | ||
+ | ProtectSystem=full | ||
+ | RemoveIPC=true | ||
+ | RestrictAddressFamilies=AF_INET AF_INET6 AF_UNIX | ||
+ | RestrictNamespaces=true | ||
+ | RestrictRealtime=true | ||
+ | RestrictSUIDSGID=true | ||
+ | SystemCallArchitectures=native | ||
+ | UMask=0027 | ||
+ | |||
+ | [Install] | ||
+ | WantedBy=multi-user.target | ||
+ | </pre> | ||
+ | |||
+ | <pre>Y lo arrancamos mediante estos dos comandos | ||
+ | systemctl daemon-reload | ||
+ | systemctl start grafana-server | ||
+ | </pre> | ||
+ | |||
+ | Y vemos que esta arrancado. | ||
[[File:Prome22.png|prome22|border|600px]] | [[File:Prome22.png|prome22|border|600px]] | ||
+ | |||
+ | Entramos a localhost:3000 , nos entra a la página de login y ponemos el usuario admin y contraseña admin que vienen por defecto. | ||
[[File:Prome23.png|prome23|border|600px]] | [[File:Prome23.png|prome23|border|600px]] | ||
+ | |||
+ | Tenemos que sincronizar-lo con el prometheus por ello vamos a Datasources y le damos a Add data source. | ||
[[File:Prome24.png|prome24|border|600px]] | [[File:Prome24.png|prome24|border|600px]] | ||
+ | |||
+ | Elegimos data source Prometheus. | ||
[[File:Prome25.png|prome25|border|600px]] | [[File:Prome25.png|prome25|border|600px]] | ||
+ | |||
+ | Le ponemos un nombre y el url del prometheus con el data source localhost:9090 | ||
[[File:Prome26.png|prome26|border|600px]] | [[File:Prome26.png|prome26|border|600px]] | ||
+ | |||
+ | Le damos a Save & test y nos devuelve feedback si se ha conectado bien o no. | ||
[[File:Prome27.png|prome27|border|600px]] | [[File:Prome27.png|prome27|border|600px]] | ||
+ | |||
+ | Una vez tenemos el prometheus conectado con el grafana, tenemos que importar un gráfico de la comunidad que nos guste. Para ello vamos a la pagina oficial de grafana y copiamos el numero de arriba a la derecha. En este caso el 10347. | ||
[[File:Prome28.png|prome28|border|600px]] | [[File:Prome28.png|prome28|border|600px]] | ||
− | + | Le damos a import, ponemos el numero y nos salen diferentes opciones, le ponemos un nombre, le indicamos donde queremos guardar, y le ponemos que use nuestra database prometheus. | |
− | [[File:Prome30.png|prome30|border| | + | [[File:Extra.png|Extra|border|600px]] |
+ | |||
+ | Y ya tenemos los gráficos, donde podemos ver las maquinas del proxmox con sus % de cpu % de ram, la carga de cpu y ram de los nodos, el espacio de cada disco, y diferentes gráficos bastante útiles. | ||
+ | |||
+ | [[File:Prome29.png|prome29|border|800px]] | ||
+ | |||
+ | [[File:Prome30.png|prome30|border|800px]] | ||
+ | |||
+ | === Alertmanager === | ||
+ | |||
+ | Instalamos alertmanager que es un complemento del prometheus que sirve para configurar un correo electrónico y que mande alertas cuando se cumplen ciertos requisitos. | ||
+ | |||
+ | Vamos a la pagina oficial y lo descagamos. | ||
[[File:Prome31.png|prome31|border|600px]] | [[File:Prome31.png|prome31|border|600px]] | ||
+ | |||
+ | Creamos su directorio y lo movemos todo. | ||
[[File:Prome32.png|prome32|border|600px]] | [[File:Prome32.png|prome32|border|600px]] | ||
+ | |||
+ | Creamos una copia del archivo de configuración. | ||
[[File:Prome33.png|prome33|border|600px]] | [[File:Prome33.png|prome33|border|600px]] | ||
− | [[ | + | Y configuramos alertmanager.yml, hemos de configurar los correos a los que va a avisar, desde que correo, poner el smtp de gmail y el usuario, con su contraseña. |
+ | |||
+ | <pre>global: | ||
+ | resolve_timeout: 5m | ||
+ | |||
+ | route: | ||
+ | group_by: ['alertname'] | ||
+ | group_wait: 10s | ||
+ | group_interval: 10s | ||
+ | repeat_interval: 24h | ||
+ | receiver: 'email' | ||
+ | receivers: | ||
+ | - name: 'email' | ||
+ | email_configs: | ||
+ | - to: '[email protected], [email protected]' | ||
+ | from: '[email protected]' | ||
+ | smarthost: smtp.gmail.com:587 | ||
+ | auth_username: '[email protected]' | ||
+ | auth_identity: '[email protected]' | ||
+ | auth_password: 'alertasieti123' | ||
+ | </pre> | ||
+ | |||
+ | Y creamos el servicio. | ||
+ | |||
+ | <pre>[Unit] | ||
+ | Description=Alertmanager | ||
+ | Wants=network-online.target | ||
+ | After=network-online.target | ||
+ | |||
+ | [Service] | ||
+ | User=root | ||
+ | Group=root | ||
+ | Type=simple | ||
+ | ExecStart=/etc/alertmanager/alertmanager --storage.path=/etc/alertmanager/data/ --config.file=/etc/alertmanager/alertmanager.yml | ||
+ | [Install] | ||
+ | WantedBy=multi-user.target | ||
+ | </pre> | ||
− | + | <pre>Y lo arrancamos mediante estos dos comandos | |
+ | systemctl daemon-reload | ||
+ | systemctl start alertmanager | ||
+ | </pre> | ||
[[File:Prome36.png|prome36|border|600px]] | [[File:Prome36.png|prome36|border|600px]] | ||
+ | |||
+ | Vamos al archivo de configuración prometheus.yml y descomentamos la linea first_rules.yml | ||
[[File:Prome37.png|prome37|border|600px]] | [[File:Prome37.png|prome37|border|600px]] | ||
+ | |||
+ | Una vez esta arrancado vamos a localhost:9093 y vemos que esta funcionando. | ||
[[File:Prome38.png|prome38|border|600px]] | [[File:Prome38.png|prome38|border|600px]] | ||
− | + | Editamos el archivo first_rules.yml dentro de /etc/prometheus, y aquí tenemos que crear todas las reglas que queremos que salten. Para crear una regla tenemos que ponerle un nombre y una condición para que salte, la metrica pve_up devuelve 1 cuando esta activo el nodo, por ello hacemos una expresión pve_up{id="node/proyectovr5"} filtrando el nodo elejido y lo igualamos a 0 por ello cuando el servidor se caiga la metrica pve_up mandara 0 por ende cuando se cumpla pve_up del proyectovr5 == 0 se cumplira la condición ya que se ha caido el nodo y nos mandará una alerta al correo, con severidad crítica y como información Nodo 5 caido. | |
[[File:Prome40.png|prome40|border|600px]] | [[File:Prome40.png|prome40|border|600px]] | ||
+ | |||
+ | <pre>Alertas cpu nodos | ||
+ | |||
+ | pve_cpu_usage_ratio{id="node/proyectovr5"} / pve_cpu_usage_limit {id="node/proyectovr5"} > 0.6 | ||
+ | |||
+ | pve_cpu_usage_ratio{id="node/proyectovr6"} / pve_cpu_usage_limit {id="node/proyectovr6"} > 0.6 | ||
+ | |||
+ | Alerta RAM nodo | ||
+ | |||
+ | pve_memory_usage_bytes{id="node/proyectovr5"} / pve_memory_size_bytes {id="node/proyectovr5"} > 0.9 | ||
+ | |||
+ | pve_memory_usage_bytes{id="node/proyectovr6"} / pve_memory_size_bytes {id="node/proyectovr6"} > 0.9 | ||
+ | |||
+ | Alerta Almacenamiento | ||
+ | |||
+ | pve_disk_usage_bytes {id="storage/proyectovr5/CEPH-VMS"} / pve_disk_size_bytes {id="storage/proyectovr5/CEPH-VMS"} > 0.5 | ||
+ | |||
+ | pve_disk_usage_bytes {id="storage/proyectovr5/HDD"} / pve_disk_size_bytes {id="storage/proyectovr5/HDD"} > 0.5 | ||
+ | |||
+ | pve_disk_usage_bytes {id="storage/proyectovr6/CEPH-VMS"} / pve_disk_size_bytes {id="storage/proyectovr6/CEPH-VMS"} > 0.5 | ||
+ | |||
+ | pve_disk_usage_bytes {id="storage/proyectovr6/HDD"} / pve_disk_size_bytes {id="storage/proyectovr6/HDD"} > 0.5 | ||
+ | |||
+ | Alerta Nodo Caído | ||
+ | |||
+ | pve_up {id="node/proyectovr5"} == 0 | ||
+ | |||
+ | pve_up {id="node/proyectovr6"} == 0 | ||
+ | |||
+ | Alerta VM caidas | ||
+ | |||
+ | pve_up {id="qemu/100"} == 0 | ||
+ | |||
+ | pve_up {id="qemu/101"} == 0 | ||
+ | |||
+ | pve_up {id="qemu/102"} == 0 | ||
+ | </pre> | ||
+ | |||
+ | En la pagina principal de prometheus localhost:9090 podemos ver las alertas y su estado. | ||
[[File:Prome41.png|prome41|border|600px]] | [[File:Prome41.png|prome41|border|600px]] | ||
+ | |||
+ | Hemos apagado una maquina para comprobar que las alertas saltan, y podemos ver que nos las envia al correo, tal y como se han configurado. | ||
[[File:Prome42.png|prome42|border|600px]] | [[File:Prome42.png|prome42|border|600px]] | ||
+ | Una vez tenemos todo funcionando activamos los servicios al arrancar la maquina mediante un enable. | ||
+ | [[File:Prome39.png|prome39|border|600px]] | ||
Revisió de 15:57, 7 abr 2022
Monitorización mediante Prometheus
Vamos a utilizar prometheus para la monitorización de proxmox, esta es una aplicación de software gratuita utilizada para la supervisión y alerta de eventos y nos permite registrar métricas en tiempo real y es gratuita.
Agentes prometheus
Primero vamos a instalar el agente que se encargará de exportar los datos del clúster, prometheus-exporter
Para ello tenemos que instalar el entorno de python3, ya que la herramienta se instala mediante el pip.
Creamos la carpeta con el entorno.
Instalamos el agente mediante /opt/prometheus-pve-exporter/bin/pip install prometheus-pve-exporter
Ya tenemos la herramienta instalada, y podemos ver con el flag --help los parámetros, para que funcione le tenemos que pasar un archivo pve.yml en el que pondremos el usuario y la contraseña del administrador del nodo.
Creamos un directorio y añadimos el pve.yml.
Utilizando la sentencia, pve_exporter /etc/prometheus/pve.yml, ya ponemos en funcionamiento el agente. Este se queda escuchando por el puerto :9221
Para que sea mas eficiente creamos un servicio, en el que se este siempre ejecutando en segundo plano. Este ejecuta la sentencia pve_exporter /etc/prometheus/pve.yml
Reiniciamos el daemon, arrancamos el servicio y vemos que esta activo y funcionando correctamente.
Y ahora activamos el servicio para que se inicie siempre.
Repetimos el mismo proceso en el otro nodo por si se cae un nodo, tener el otro exportando datos y que no se caiga el servicio.
Una vez tenemos los agentes instalados tenemos que crear la maquina de monitorización, esta la creamos dentro de un nodo para beneficiar-nos del HA y si se cayese de un nodo, se pasase al otro.
Prometheus
Para la maquina de monitorización instalaremos un ubuntu 20.04 Desktop.
La cargamos como iso image de manera local.
La vamos a instalar en el CEPH-VMS para que tenga una alta disponibilidad.
Creamos la máquina y le ponemos un nombre, esta coge un ID de máquina por defecto.
En storage elegimos el CEPH-VMS y le ponemos uno espacio de 124GB
Ya la tenemos creada ahora iniciamos la maquina.
Nos salta el instalador de ubuntu típico y hay que instalar el ubuntu como lo haríamos normalmente.
Le ponemos un usuario y una contraseña para la maquina.
Vamos a utilizar prometheus como sistema de monitorización ya que es 100% gratuito y muy eficiente. Por ello vamos a la página oficial y descargamos el paquete.
Creamos una carpeta en /etc que es donde lo tendremos almacenado.
Descomprimimos el .tar en el que viene y lo movemos todo a /etc/prometheus
Creamos una copia del archivo de configuración por si nuestra configuración petase y no sepamos como arreglar-lo, solo seria restablecer la configuración y volver a configurar.
Este es el archivo de configuración de prometheus.yml ya configurado, lo que hemos añadido es un job que lo hemos llamado pve y le estamos indicando las ip de los dos agentes y el puerto desde el cual están enviando metricas que son los dos nodos.
# my global config global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: - localhost:9093 # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: # - "first_rules.yml" # - "second_rules.yml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. - job_name: "prometheus" # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ["localhost:9090"] - job_name: 'pve' static_configs: - targets: - 192.168.88.6:9221 # Proxmox VE node with PVE exporter. - 192.168.88.7:9221 # Proxmox VE node with PVE exporter. metrics_path: /pve params: module: [default]
Para comprobar que los agentes llegan al ubuntu, con un nc podemos hacer una prueba al puerto del agente y si nos sale succeded, es que esta abierto y llegamos entonces esta todo correcto.
Creamos prometheus como servicio para que este siempre arrancado.
cat <<EOF> /etc/systemd/system/prometheus-pve-exporter.service [Unit] Description=Prometheus exporter for Proxmox VE Documentation=https://github.com/znerol/prometheus-pve-exporter [Service] Restart=always User=root ExecStart=/opt/prometheus-pve-exporter/bin/pve_exporter /etc/prometheus/pve.yml [Install] WantedBy=multi-user.target EOF
Y lo arrancamos mediante estos dos comandos systemctl daemon-reload systemctl start prometheus-pve-exporter
Abrimos el navegador y entramos en localhost:9090 nos saldrá la pantalla principal.
Vamos al apartado de status y podemos ver el job que hemos añadido anteriormente en el archivo de configuración y nos da información del estado si esta UP o DOWN. En el caso de que diese error nos saldría información del error.
Grafana
Ahora vamos a instalar Grafana que es un software para la visualización de datos métricos, y con este podremos visualizar los datos que tenemos en el prometheus y crear gráficos en tiempo real. Lo hemos utilizado ya que tiene licencia gratuita y tiene muchos usuarios activos, por ende hay foros con errores y soporte.
Vamos a la página oficial y nos descargamos la version gratuita OSS, para windows.
Lo descargamos mediante wget.
Creamos el directorio /etc/grafana y lo movemos todo a esa carpeta.
Tenemos que crear también el servicio.
[Unit] Description=Grafana instance Documentation=http://docs.grafana.org Wants=network-online.target After=network-online.target After=postgresql.service mariadb.service mysqld.service [Service] EnvironmentFile=/etc/grafana/bin/grafana-server User=root Group=root Type=notify Restart=on-failure WorkingDirectory=/usr/share/grafana RuntimeDirectory=grafana RuntimeDirectoryMode=0750 ExecStart=/etc/grafana/bin/grafana-server \ --config=${CONF_FILE} \ --pidfile=${PID_FILE_DIR}/grafana-server.pid \ --packaging=rpm \ cfg:default.paths.logs=${LOG_DIR} \ cfg:default.paths.data=${DATA_DIR} \ cfg:default.paths.plugins=${PLUGINS_DIR} \ cfg:default.paths.provisioning=${PROVISIONING_CFG_DIR} LimitNOFILE=10000 TimeoutStopSec=20 CapabilityBoundingSet= DeviceAllow= LockPersonality=true MemoryDenyWriteExecute=false NoNewPrivileges=true PrivateDevices=true PrivateTmp=true ProtectClock=true ProtectControlGroups=true ProtectHome=true ProtectHostname=true ProtectKernelLogs=true ProtectKernelModules=true ProtectKernelTunables=true ProtectProc=invisible ProtectSystem=full RemoveIPC=true RestrictAddressFamilies=AF_INET AF_INET6 AF_UNIX RestrictNamespaces=true RestrictRealtime=true RestrictSUIDSGID=true SystemCallArchitectures=native UMask=0027 [Install] WantedBy=multi-user.target
Y lo arrancamos mediante estos dos comandos systemctl daemon-reload systemctl start grafana-server
Y vemos que esta arrancado.
Entramos a localhost:3000 , nos entra a la página de login y ponemos el usuario admin y contraseña admin que vienen por defecto.
Tenemos que sincronizar-lo con el prometheus por ello vamos a Datasources y le damos a Add data source.
Elegimos data source Prometheus.
Le ponemos un nombre y el url del prometheus con el data source localhost:9090
Le damos a Save & test y nos devuelve feedback si se ha conectado bien o no.
Una vez tenemos el prometheus conectado con el grafana, tenemos que importar un gráfico de la comunidad que nos guste. Para ello vamos a la pagina oficial de grafana y copiamos el numero de arriba a la derecha. En este caso el 10347.
Le damos a import, ponemos el numero y nos salen diferentes opciones, le ponemos un nombre, le indicamos donde queremos guardar, y le ponemos que use nuestra database prometheus.
Y ya tenemos los gráficos, donde podemos ver las maquinas del proxmox con sus % de cpu % de ram, la carga de cpu y ram de los nodos, el espacio de cada disco, y diferentes gráficos bastante útiles.
Alertmanager
Instalamos alertmanager que es un complemento del prometheus que sirve para configurar un correo electrónico y que mande alertas cuando se cumplen ciertos requisitos.
Vamos a la pagina oficial y lo descagamos.
Creamos su directorio y lo movemos todo.
Creamos una copia del archivo de configuración.
Y configuramos alertmanager.yml, hemos de configurar los correos a los que va a avisar, desde que correo, poner el smtp de gmail y el usuario, con su contraseña.
global: resolve_timeout: 5m route: group_by: ['alertname'] group_wait: 10s group_interval: 10s repeat_interval: 24h receiver: 'email' receivers: - name: 'email' email_configs: - to: '[email protected], [email protected]' from: '[email protected]' smarthost: smtp.gmail.com:587 auth_username: '[email protected]' auth_identity: '[email protected]' auth_password: 'alertasieti123'
Y creamos el servicio.
[Unit] Description=Alertmanager Wants=network-online.target After=network-online.target [Service] User=root Group=root Type=simple ExecStart=/etc/alertmanager/alertmanager --storage.path=/etc/alertmanager/data/ --config.file=/etc/alertmanager/alertmanager.yml [Install] WantedBy=multi-user.target
Y lo arrancamos mediante estos dos comandos systemctl daemon-reload systemctl start alertmanager
Vamos al archivo de configuración prometheus.yml y descomentamos la linea first_rules.yml
Una vez esta arrancado vamos a localhost:9093 y vemos que esta funcionando.
Editamos el archivo first_rules.yml dentro de /etc/prometheus, y aquí tenemos que crear todas las reglas que queremos que salten. Para crear una regla tenemos que ponerle un nombre y una condición para que salte, la metrica pve_up devuelve 1 cuando esta activo el nodo, por ello hacemos una expresión pve_up{id="node/proyectovr5"} filtrando el nodo elejido y lo igualamos a 0 por ello cuando el servidor se caiga la metrica pve_up mandara 0 por ende cuando se cumpla pve_up del proyectovr5 == 0 se cumplira la condición ya que se ha caido el nodo y nos mandará una alerta al correo, con severidad crítica y como información Nodo 5 caido.
Alertas cpu nodos pve_cpu_usage_ratio{id="node/proyectovr5"} / pve_cpu_usage_limit {id="node/proyectovr5"} > 0.6 pve_cpu_usage_ratio{id="node/proyectovr6"} / pve_cpu_usage_limit {id="node/proyectovr6"} > 0.6 Alerta RAM nodo pve_memory_usage_bytes{id="node/proyectovr5"} / pve_memory_size_bytes {id="node/proyectovr5"} > 0.9 pve_memory_usage_bytes{id="node/proyectovr6"} / pve_memory_size_bytes {id="node/proyectovr6"} > 0.9 Alerta Almacenamiento pve_disk_usage_bytes {id="storage/proyectovr5/CEPH-VMS"} / pve_disk_size_bytes {id="storage/proyectovr5/CEPH-VMS"} > 0.5 pve_disk_usage_bytes {id="storage/proyectovr5/HDD"} / pve_disk_size_bytes {id="storage/proyectovr5/HDD"} > 0.5 pve_disk_usage_bytes {id="storage/proyectovr6/CEPH-VMS"} / pve_disk_size_bytes {id="storage/proyectovr6/CEPH-VMS"} > 0.5 pve_disk_usage_bytes {id="storage/proyectovr6/HDD"} / pve_disk_size_bytes {id="storage/proyectovr6/HDD"} > 0.5 Alerta Nodo Caído pve_up {id="node/proyectovr5"} == 0 pve_up {id="node/proyectovr6"} == 0 Alerta VM caidas pve_up {id="qemu/100"} == 0 pve_up {id="qemu/101"} == 0 pve_up {id="qemu/102"} == 0
En la pagina principal de prometheus localhost:9090 podemos ver las alertas y su estado.
Hemos apagado una maquina para comprobar que las alertas saltan, y podemos ver que nos las envia al correo, tal y como se han configurado.
Una vez tenemos todo funcionando activamos los servicios al arrancar la maquina mediante un enable.