Компанія Cloudflare пояснила, що причиною масштабного збою, який відбувся 18 листопада і вплинув на роботу значної частини інтернету, стало некоректне налаштування запиту у базі даних ClickHouse. Це призвело до появи великої кількості дублікатів даних, що перевищило ліміти пам’яті і спричинило збій основної проксі-системи, яка обробляє трафік клієнтів. Також зазначено, що проблема не мала відношення до DNS, атак або нових систем на базі генеративного ШІ, а виникла внаслідок помилки в логіці оновлення конфігурації Bot Management.
Для запобігання подібним інцидентам у майбутньому, Cloudflare оголосила кілька кроків, включаючи посилення обробки конфігураційних файлів, розширення кількості глобальних “kill switch”, запобігання перевантаженню системи через core dump або звіти про помилки, а також перегляд режимів відмови у ключових проксі-модулях.
За словами представників Cloudflare, близько 20% інтернет-трафіку проходить через їхню мережу, тому навіть невелика помилка у центральних модулях може мати глобальний вплив.
