Minuto a Minuto

Deportes En vivo: Pumas de la UNAM y Cruz Azul definen al campeón del Clausura 2026
Pumas de la UNAM y Cruz Azul definen en el Estadio Olímpico Universitario al campeón del Clausura 2026 de la Liga MX
Nacional AICM amplía cuenta con tres mil lugares de estacionamiento por el Mundial
AICM pone en operación un nuevo estacionamiento en la T2; la terminal aérea suma tres mil cajones de cara al Mundial de Futbol
Deportes Kimi Antonelli gana el Gran Premio de Canadá
Kimi Antonelli, de Mercedes, gana el Gran Premio de Canadá; Lewis Hamilton y Max Verstappen quedaron segundo y tercero, respectivamente
Nacional Congreso mexicano abrirá periodo extra para aplazar segunda elección judicial hasta 2028
El Congreso mexicano se alista para abrir esta semana un periodo extraordinario de sesiones en el se aplazará hasta 2028 la segunda elección judicial
Ciencia y Tecnología Reinventan el cine en casa con IA y proyección espacial 3D
Anker presentó SpaceFlow, un nuevo dispositivo desarrollado junto a Google que, combinado con los proyectores Nebula X1 y Nebula X1 Pro, permite transformar cualquier espacio en una experiencia inmersiva con proyección 3D e inteligencia artificial
Falla en mantenimiento de rutina, la causa de la caída de Facebook, WhatsApp e Instagram
Facebook. Foto de Pexels. (Archivo)

Después de que el fundador de Facebook, Mark Zuckerberg, se disculpara por la caída de dicha red social, además de Instagram, WhatsApp y Messenger, la compañía detalló la causa de la interrupción del servicio.

De acuerdo con un comunicado de Facebook, las plataformas dejaron de funcionar durante más de seis horas debido a una falla en el mantenimiento de rutina que cortó todas las conexiones en la red troncal.

La compañía aseguró que cada ‘fracaso’ como el apagón del 4 de octubre es una oportunidad para aprender y mejorar y que ya realizan un extenso proceso de revisión para hacer más resistentes sus sistemas.

Así explicó Facebook la caída de sus redes sociales: 

Esta interrupción fue provocada por el sistema que administra la capacidad de nuestra red troncal global. La columna vertebral es la red que Facebook ha construido para conectar todas nuestras instalaciones informáticas, que consta de decenas de miles de millas de cables de fibra óptica que cruzan el mundo y conectan todos nuestros centros de datos.

Esos centros de datos vienen en diferentes formas. Algunos son edificios masivos que albergan millones de máquinas que almacenan datos y ejecutan las cargas computacionales pesadas que mantienen nuestras plataformas en funcionamiento, y otros son instalaciones más pequeñas que conectan nuestra red troncal a Internet en general y a las personas que usan nuestras plataformas.

Cuando abre una de nuestras aplicaciones y carga su feed o mensajes, la solicitud de datos de la aplicación viaja desde su dispositivo a la instalación más cercana, que luego se comunica directamente a través de nuestra red troncal a un centro de datos más grande. Ahí es donde se recupera y procesa la información que necesita su aplicación, y se envía de vuelta a través de la red a su teléfono.

El tráfico de datos entre todas estas instalaciones informáticas se gestiona mediante enrutadores, que determinan dónde enviar todos los datos entrantes y salientes. Y en el extenso trabajo diario de mantener esta infraestructura, nuestros ingenieros a menudo necesitan tomar parte de la red troncal fuera de línea para el mantenimiento, tal vez reparando una línea de fibra, agregando más capacidad o actualizando el software en el enrutador.

Esta fue la fuente del apagón de ayer. Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red troncal global, que accidentalmente cortó todas las conexiones en nuestra red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial. Nuestros sistemas están diseñados para auditar comandos como estos para evitar errores como este, pero un error en esa herramienta de auditoría no detuvo correctamente el comando.

Este cambio provocó una desconexión completa de nuestras conexiones de servidor entre nuestros centros de datos e Internet. Y esa pérdida total de conexión provocó un segundo problema que empeoró las cosas.

Uno de los trabajos que realizan nuestras instalaciones más pequeñas es responder a las consultas de DNS. DNS es la libreta de direcciones de Internet, lo que permite que los nombres web simples que escribimos en los navegadores se traduzcan a direcciones IP de servidor específicas. Esas consultas de traducción son respondidas por nuestros servidores de nombres autorizados que ocupan direcciones IP bien conocidas, que a su vez se anuncian al resto de Internet a través de otro protocolo llamado protocolo de puerta de enlace fronteriza (BGP).

Para garantizar un funcionamiento confiable, nuestros servidores DNS desactivan esos anuncios BGP si ellos mismos no pueden hablar con nuestros centros de datos, ya que esto es una indicación de una conexión de red no saludable. En la interrupción reciente, toda la red troncal se retiró de la operación, lo que hizo que estas ubicaciones se declararan insalubres y retiraran esos anuncios de BGP. El resultado final fue que nuestros servidores DNS se volvieron inalcanzables a pesar de que todavía estaban operativos. Esto hizo imposible que el resto de Internet encontrara nuestros servidores.

Todo esto sucedió muy rápido. Y mientras nuestros ingenieros trabajaban para averiguar qué estaba sucediendo y por qué, se enfrentaron a dos grandes obstáculos: primero, no era posible acceder a nuestros centros de datos a través de nuestros medios normales porque sus redes estaban caídas, y segundo, la pérdida total de DNS se rompió. muchas de las herramientas internas que normalmente usamos para investigar y resolver interrupciones como esta.

Nuestro acceso a la red principal y fuera de banda estaba inactivo, por lo que enviamos ingenieros al sitio a los centros de datos para que depuraran el problema y reiniciaran los sistemas. Pero esto llevó tiempo, porque estas instalaciones están diseñadas con altos niveles de seguridad física y del sistema en mente. Es difícil acceder a ellos y, una vez que estás dentro, el hardware y los enrutadores están diseñados para ser difíciles de modificar incluso cuando tienes acceso físico a ellos. Por lo tanto, tomó más tiempo activar los protocolos de acceso seguro necesarios para que las personas estén en el sitio y puedan trabajar en los servidores. Solo entonces podríamos confirmar el problema y volver a poner nuestra columna vertebral en línea.

Una vez que se restauró la conectividad de nuestra red troncal en las regiones de nuestro centro de datos, todo volvió a funcionar. Pero el problema no había terminado: sabíamos que volver a activar nuestros servicios de una sola vez podría causar una nueva ronda de accidentes debido a un aumento en el tráfico. Los centros de datos individuales informaban caídas en el uso de energía en el rango de decenas de megavatios, y revertir repentinamente tal caída en el consumo de energía podría poner en riesgo todo, desde sistemas eléctricos hasta cachés.

Con información de López-Dóriga Digital