Rapportage netwerk storing 19 december 2010


Op 19 december 2010 trad een netwerk storing op waarbij de routers overbelast raakten.

De routers houden naast de routing tabellen ook connectie tabellen bij voor het verkeer dat via de routers gaat.
Deze tabellen bereikten op de primaire router voor IPv4 verkeer de grens en daardoor werden connecties gedropped.
Dit resulteerde in timeouts, enkele pakketten komen wel op de bestemming en daarna enkele pakketten weer niet.

Omdat deze overbelasting synchroon leek te lopen aan een toename van het dataverkeer is enkele malen de gereserveerde ruimte voor de connectie tabellen vergroot om meer capaciteit beschikbaar te maken voor de routering van het verkeer.
Dit heeft lange tijd geholpen, maar op 19 december en afgelopen nacht was dit niet voldoende. Nog verder vergroten van de gereserveerde ruimte zou resulteren in het onbereikbaar worden van de routers omdat andere processen in gevaar komen.

Tijdens de storing van afgelopen nacht werd een deel van het verkeer via de nieuwe router in Gyrocenter gerouteerd, en deze router had geen enkele last van overbelasting. Hierdoor hebben wij het onderzoek verder geconcentreerd specifiek op de inrichting van de routers in Databarn en hebben wij de vermoedelijke oorzaak van de problemen kunnen achterhalen.

Tijdens het inrichten van de routers zijn in de firewall module filters opgenomen om de routers zelf te beschermen. Per abuis zijn hierbij filters die de state van de connecties naar de routers zelf controleren ook geladen op de forwarding- en routingverbindingen en niet alleen op de inkomende verbindingen naar de routers. Het bijhouden van de state van alle verbindingen naar de routers is noodzakelijk als bescherming tegen aanvallen. Het bijhouden van de state van alle verbindingen die geforward worden echter is teveel voor de apparatuur, dit is de verantwoordelijkheid van de systemen waar de verbindingen naar opgezet worden of eventuele intrusion prevention apparatuur.

Momenteel zijn een aantal filters uitgeschakeld om verder na te gaan of de problemen hiermee definitief zijn opgelost. Wij zullen eind januari 2011 geleidelijk de filters weer gecontroleerd inschakelen en verifiëren dat deze nu op de juiste connecties geladen worden.

Tevens zullen wij donderdag 6 januari onderhoud inplannen tussen 22.00 uur en 0.00 uur waarin wij de tweede uplink naar de upstream providers in gebruik gaan nemen. Dit stond al enige tijd in de planning maar krijgt naar aanleiding van de recente storingen hogere prioriteit. Tijdens dit onderhoud zullen wij ook een nieuwe BGP connectie in gebruik nemen met We-Dare. Deze verbinding zullen wij gaan gebruiken voor failover, als er problemen zijn met de uplinks naar de upstream providers, om verkeer via We-Dare/Databarn af te handelen en het mogelijk te maken om o.a. out-of-band toegang te verkrijgen.