Cez viacerých spravovaných klientov sme za posledných pár rokov dospeli ku krátkemu zoznamu metrik, ktorým sa na ich UniFi sieťach naozaj venujeme. Controller ukazuje stovky čísel, grafov a indikátorov. To je inžinierska poctivosť producenta. Ale nie každé z tých čísel je užitočné na to, aby ho niekto sledoval. Väčšina z nich nikdy nezmení rozhodnutie.
Toto je zoznam toho, na čo sa skutočne pozeráme — a krátke vysvetlenie, prečo sme pre zvyšok vypli notifikácie.
Čo sledujeme
- WAN uptime a latencia. Skutočná dostupnosť ISP, nielen „WAN port up”. Pingujeme 1.1.1.1 a 8.8.8.8 každých 30 sekúnd. Tri zlyhania v rade = alert. Toto pokrýva zhruba 90 % všetkých upozornení, ktoré reálne vyžadujú akciu.
- AP uplink negotiation speed. Ak sa access point, ktorý má byť pripojený na 1 Gbps, zrazu hlási ako 100 Mbps, niečo fyzicky nesedí — voľný kábel, umierajúci SFP modul, vlhkosť. Alert na zmenu negotiation rýchlosti odhalil tri prípady, ktoré by sme inak našli až keď sa klient sťažoval.
- DHCP pool využitie. Pri 80 % máme dva týždne na to, aby sme ho rozšírili. Pri 100 % máme telefonát od riaditeľa.
- Top 10 klientov podľa trafficu. Toto nealertujeme — pozeráme to v pondelok ráno. Zmeny zvyčajne niečo znamenajú: nové zariadenie, hosť, ktorý tiahne 4K Netflix na hostovskej sieti, alebo IoT senzor, ktorý sa rozhodol synchronizovať s niečím čudným.
- CPU a pamäť na gateway-i. Nie na switchoch. Nie na access pointoch. Iba na gateway-i. Tam, kde keď to padne, padne všetko.
Čo zámerne ignorujeme
- Per-client RSSI grafy. UniFi ti ich nakreslí, ale nikdy ti nepošlú nič, na čo by si mal reagovať. Wi-Fi je fyzika. Klient v rohu kancelárie bude mať slabší signál ako klient pri AP. Toto nepotrebuje alert.
- Wireless retries. Skoro úplne závisí od fyziky okolia — mikrovlnka, susedná sieť, sklenená stena. Vidieť v grafoch, ale nealertovať.
- Notifikácie firmvérových updateov. Robíme ich manuálne raz za mesiac, v stredu večer, po krátkom čítaní changelogu. Auto-update na produkčnej infraštruktúre nepúšťame zo zásady.
- „Saturáciu portov” na switchoch. Radšej alertujeme na úplné výpadky linkov. 90 % saturácia neznamená problém. 100 % výpadok znamená.
Princíp je jednoduchý: dashboard, ktorý si nikto neotvorí o tretej ráno, je dashboard, ktorý neexistuje. Pekné grafy slúžia na to, aby si pri reviewe ukázal širšiu mapu zdravia siete. Akčné alerty musia byť také, že keď zazvonia, niekto vstane od stola.
Alert, ktorý by sme chceli, aby UniFi posielal sám
UniFi ti povie, keď access point spadne. Nepovie ti, keď access point ticho prepadol na polovičný výkon. Jeden klient mal AP, ktorý vyzeral online, hlásil all-green, ale pri 18-stupňovom uhle k stropu odovzdával 40 Mbps namiesto očakávaných 300. Klienti to cítili. Controller nehlásil nič.
Napísali sme malý Go skript, ktorý raz za hodinu skúsi DNS query cez každý AP zvlášť a meria odpoveď. Výsledok ide ako custom metrika do Datadogu. Alert: ak ktorýkoľvek AP má ten istý lookup pomalší 3× než medián za posledných 24 hodín. Odvtedy vieme o pomaly degradujúcich AP-čkách dva-tri dni predtým, ako ich klienti začnú zhadzovať na ticketoch.
Najlepší monitoring sa nevidí. Pošle správu, keď máš niečo skutočne riešiť — inak mlčí.
Tento zoznam nie je definitívny. Pridávame, keď ucítime nový vzor; uberáme, keď zistíme, že na nejaký alert už mesiac nikto neodpovedal. Ak vám sieť spravujeme my, s týmto setupom sa stretnete prvý pondelok po prevzatí. Ak si ju spravujete sami a chcete vedieť, ktorých päť metrik vás naozaj zachráni, ozvite sa — radi to vyložíme za hodinu callu.