¿Qué le pasó a Facebook y por qué tardó tanto en controlar el 'apagón'?
El 4 de octubre de 2021 será recordado por una pequeña tragedia tecnológica que sorprendió al mundo por su alcance -tres de las redes sociales más usadas en el mundo- y duración, más de seis horas sin funcionar.
WhatsApp, explicó que la caída global se debió a un "cambio de configuración defectuoso" que tuvo "un efecto cascada" dentro de todos sus sistemas.
"La causa subyacente de esta interrupción también afectó a muchas de las herramientas y sistemas internos que utilizamos en nuestras operaciones diarias, lo que complicó nuestros intentos de diagnosticar y resolver rápidamente el problema", indicó en una publicación el vicepresidente de infraestructura de Facebook, Santosh Janardhan.
A pesar de las teorías de la conspiración que circularon durante el largo apagón de Facebook, la compañía asegura que los datos de sus millones de s no se han visto comprometidos. Fue un error interno, no un ciberataque, como también se dijo en los rumores de esas horas.
"Como desconectar todos los cables"
Desde el principio de la avería, los analistas apuntaron a un problema con el Sistema de Nombres de Dominio (DNS) y el Protocolo de Pasarela de Frontera (BGP): dos elementos que en gran medida son la base de cómo funciona internet.
"Sus nombres DNS dejaron de funcionar y sus direcciones IP de infraestructura eran inalcanzables. Era como si alguien hubiera sacado los cables de sus centros de datos de una vez y los hubiera desconectado de Internet", explicó en una publicación la empresa estadounidense de infraestructura web Cloudflare.
El DNS es el sistema de direcciones para la ubicación de cada sitio web (su dirección IP). El BGP es la hoja de ruta para disponer del camino más eficiente para llegar a esa dirección IP. Es decir, este lunes los navegadores de millones de s querían dirigirse al nombre de una web, Facebook.com, pero no reconocían la ruta a seguir en la red para encontrar esa página.
Similar al control del tráfico aéreo
En términos más comprensibles, lo que ocurrió es que Facebook "hizo una actualización de las carreteras", de las rutas de entre una computadora y un sitio de internet. Pero "entró en un camino equivocado", lo que provocó que tanto la compañía como todas las plataformas que istran quedaran inacesibles, explicó Sami Slim, operador del centro de datos Telehouse, a la agencia AFP.
Facebook se refirió, sin mayores concrecciones, a "cambios de configuración de los rúters que coordinan el tráfico internet entre nuestros centros de datos". Los analistas consultados por los medios apuntan a que hace falta una mayor explicación sobre lo ocurrido por parte del gigante de Silicon Valley.
Lo que ocurrió, según la empresa de infraestructura web Cloudfare, es que Facebook le dijo al BGP a través de una serie de actualizaciones que esos caminos hacia Facebook ya no existían. Más aún: que no existían para Facebook y para todo lo que Facebook istra.
"Esto es el equivalente en internet del control del tráfico aéreo. De la misma manera que los controladores aéreos a veces hacen cambios en las rutas de los vuelos, Facebook hizo una actualización de esas rutas", indicó el experto Sami Slim. Esa actualización contenía un error decisivo sobre el que la compañía todavía no ha profundizado en sus explicaciones públicas.
La empresa no podía ayudarse a sí misma
La caída afectó además a todas las capas de la empresa, tanto a las herramientas de comunicación internas como a los pases electrónicos para acceder a salas.
“La interrupción del tráfico de la red tuvo un efecto en cascada debido a la forma en que se comunican nuestros centros de datos, lo que paralizó nuestros servicios”, explicó la compañía.
Esta es la razón por la que se tardó tanto en solucionar la avería, más de seis horas de caída global. Los expertos subrayan que una particularidad de Facebook es que su infraestructura técnica depende de sus propios sistemas, algo que fue dramático este lunes porque no podían usar un apoyo externo para solucionar el problema.
La estampa más ilustrativa de esa circunstancia fue analógica: los empleados de Facebook a los que sacaron del teletrabajo para ir a arreglar físicamente el problema no pudieron entrar en los edificios de la empresa porque sus tarjetas de tampoco funcionaban.