Este documento define los procedimientos estándar de mantenimiento para todos los componentes de la infraestructura tecnológica del Departamento Audiovisual que dan soporte al Sistema ARCO. El objetivo es garantizar el funcionamiento óptimo, maximizar la disponibilidad y prolongar la vida útil de los equipos y sistemas mediante estrategias preventivas y correctivas.
| Componente |
Frecuencia |
Duración |
Horario |
Responsable |
| Servidores |
Mensual |
4 horas |
Domingo 01:00-05:00 |
Administrador Sistemas |
| Sistemas Almacenamiento |
Mensual |
6 horas |
Domingo 01:00-07:00 |
Administrador Almacenamiento |
| Equipos Trabajo |
Trimestral |
8 horas |
Sábado 09:00-17:00 |
Soporte Técnico |
| Red |
Bimensual |
4 horas |
Domingo 02:00-06:00 |
Administrador Red |
| Software ARCO |
Quincenal |
2 horas |
Miércoles 23:00-01:00 |
DevOps |
| Backup y DR |
Mensual |
5 horas |
Último domingo mes 01:00-06:00 |
Administrador Sistemas |
| Verificación Cintas |
Trimestral |
12 horas |
Primer fin de semana trimestre |
Operador Archivo |
| Tipo |
Frecuencia |
Duración |
Horario |
Notificación Previa |
| Actualizaciones Críticas |
Según necesidad |
2-4 horas |
23:00-03:00 |
24 horas |
| Actualizaciones Menores |
Mensual |
2 horas |
Miércoles 23:00-01:00 |
1 semana |
| Actualizaciones Mayores |
Trimestral |
8 horas |
Fin de semana programado |
1 mes |
| Migraciones/Upgrades |
Según planificación |
12-48 horas |
Fin de semana extendido |
2 meses |
-
Verificación de Estado RAID:
- Comprobar estado de todos los volúmenes
- Verificar que no hay discos con errores o en proceso de reconstrucción
- Revisar logs de eventos relacionados con el almacenamiento
-
Verificación de Rendimiento:
- Analizar patrones de acceso y latencia
- Comprobar saturación de interfaces de red
- Identificar problemas de rendimiento en horas pico
-
Actualización de Firmware/Software:
- Verificar disponibilidad de actualizaciones de firmware
- Planificar instalación según criticidad
- Documentar versiones instaladas
-
Limpieza y Verificación Física:
- Revisar estado físico (ventiladores, temperatura)
- Limpiar filtros de polvo si es necesario
- Verificar conexiones físicas
-
Identificación:
- Confirmar disco defectuoso mediante logs e indicadores LED
- Verificar número de serie del disco a sustituir
-
Sustitución:
- Preparar disco de repuesto compatible
- Extraer disco defectuoso siguiendo procedimiento del fabricante
- Insertar nuevo disco
- Verificar inicio de reconstrucción RAID
- Documentar cambio en inventario
-
Monitorización:
- Verificar progreso de reconstrucción (tiempo estimado: 8-24h)
- Comprobar que no hay degradación de rendimiento crítica durante reconstrucción
- Confirmar finalización exitosa de reconstrucción
-
Verificación Sistema StorNext:
- Revisar logs del sistema StorNext
- Verificar conexiones SAN y estado de los switches FC
- Comprobar cuotas y espacios disponibles
-
Optimización:
- Comprobar fragmentación de bloques
- Verificar configuración de FSM (File System Manager)
- Revisar políticas de migración y compactación
-
Verificación de Conexiones Clientes:
- Comprobar estado de clientes conectados
- Verificar licencias activas
- Revisar rendimiento de conexiones cliente
-
Limpieza de Base de Datos:
- Purgar registros antiguos de bases de datos internas
- Optimizar tablas de metadatos
- Verificar rendimiento de consultas
-
Verificación Hardware Exhaustiva:
- Revisar todos los componentes físicos (controladoras, PSUs, ventiladores)
- Limpiar sistema completo de polvo y residuos
- Verificar conexiones de red y fibra
-
Verificación Física:
- Inspeccionar mecanismos robóticos
- Comprobar estado de drives LTO
- Limpiar sensores y cabezales cuando sea necesario
-
Verificación Estado Cintas:
- Comprobar estadísticas de error por cinta
- Identificar cintas con alta tasa de error
- Programar sustitución de cintas deterioradas
-
Test de Restauración:
- Realizar prueba de restauración aleatoria de 3 cintas
- Verificar integridad de datos restaurados
- Documentar tiempos de restauración
-
Programación:
- Programar limpieza después de 30 cargas o según alerta del sistema
- Utilizar únicamente cintas de limpieza homologadas
- Registrar fecha de limpieza y número de usos de la cinta de limpieza
-
Ejecución:
- Insertar cinta de limpieza en slot designado
- Iniciar proceso de limpieza vía interfaz de administración
- Verificar finalización correcta
- Extraer cinta de limpieza
-
Revisión de Configuración:
- Verificar configuración running vs startup
- Comprobar sincronización entre switches en stack/VSS
- Revisar ACLs y políticas de QoS
-
Actualización de Firmware:
- Verificar disponibilidad de actualizaciones según política
- Programar actualización en ventana de mantenimiento
- Realizar backup de configuración previo
-
Análisis de Rendimiento:
- Revisar estadísticas de utilización de enlaces
- Identificar interfaces con errores
- Analizar tendencias de tráfico y saturación
-
Optimización:
- Ajustar configuración según análisis de rendimiento
- Equilibrar carga entre enlaces agregados
- Optimizar parámetros de STP si es necesario
-
Preparación:
- Verificar compatibilidad del módulo de repuesto
- Realizar backup de configuración
- Notificar a usuarios afectados
-
Ejecución:
- Apagar módulo si es hot-swappable
- Extraer módulo defectuoso
- Insertar módulo nuevo
- Verificar reconocimiento y funcionamiento
-
Verificación Zoning y Fabric:
- Comprobar configuración de zonas
- Verificar estado fabric
- Revisar logs de eventos de switches FC
-
Análisis de Rendimiento:
- Revisar estadísticas de utilización
- Identificar cuellos de botella
- Verificar balance de carga entre rutas
-
Verificación Física:
- Comprobar estado físico de SFPs
- Verificar conexiones y etiquetado
- Limpiar conectores ópticos según sea necesario
-
Verificación de Recursos:
- Comprobar uso de CPU, memoria y disco
- Verificar espacio disponible para imágenes y volúmenes
- Revisar rendimiento de red
-
Actualización de Seguridad:
- Aplicar actualizaciones de seguridad críticas del SO
- Actualizar componentes Docker si es necesario
- Verificar reglas de firewall y seguridad
-
Salud del Cluster:
- Verificar estado de todos los nodos
- Comprobar distribución de servicios
- Verificar configuración de swarm
-
Limpieza de Recursos:
- Eliminar imágenes no utilizadas
- Limpiar volúmenes huérfanos
- Compactar logs y datos históricos
-
Prueba de Alta Disponibilidad:
- Realizar simulación de fallo de nodo
- Verificar correcta migración de servicios
- Comprobar tiempos de recuperación
-
Optimización:
- Ajustar límites de recursos para servicios
- Optimizar configuración de redes overlay
- Revisar políticas de placement
-
Verificación de Rendimiento:
- Revisar métricas de rendimiento (latencia, throughput)
- Identificar consultas lentas
- Verificar uso de índices
-
Verificación de Replicación:
- Comprobar estado de replicación
- Verificar lag de réplicas
- Comprobar integridad de datos replicados
-
Actualización de Estadísticas:
- Actualizar estadísticas de optimizador
- Verificar plan de ejecución de consultas críticas
- Ajustar parámetros según carga
-
Optimización de Espacio:
- Realizar vacuum/compactación según sistema
- Archivar datos históricos según política
- Revisar crecimiento y planificar capacidad
-
Verificación de Seguridad:
- Revisar permisos y roles
- Verificar configuración de autenticación
- Comprobar cifrado en tránsito y reposo
-
Limpieza Física:
- Limpieza interna con aire comprimido
- Verificación de ventiladores y disipadores
- Limpieza de filtros de polvo
-
Verificación de Hardware:
- Comprobar estado de discos (SMART)
- Verificar temperaturas y voltajes
- Revisar logs de sistema para errores de hardware
-
Mantenimiento de Software:
- Actualizar sistema operativo y controladores
- Verificar y actualizar aplicaciones críticas
- Eliminar software no utilizado y archivos temporales
-
Optimización:
- Desfragmentar/optimizar discos si es necesario
- Revisar programas de inicio
- Ajustar configuración para rendimiento
-
Frecuencia:
- Monitores de referencia: Mensual
- Monitores estándar: Trimestral
-
Procedimiento:
- Calibrar con colorímetro X-Rite i1Display Pro
- Verificar condiciones de iluminación ambiental
- Aplicar perfiles ICC según flujo de trabajo
- Documentar valores Delta-E y resultados
-
Verificación:
- Comprobar precisión con carta de color estándar
- Verificar consistencia entre monitores del mismo grupo
- Validar reproducción de colores críticos
-
Comprobación de Ejecución:
- Verificar logs de trabajos de backup
- Comprobar finalización exitosa de todos los trabajos
- Identificar y resolver errores
-
Verificación de Almacenamiento:
- Comprobar espacio disponible en sistemas de backup
- Verificar rotación de medios si aplica
- Comprobar cifrado de datos de backup
-
Selección de Datos:
- Seleccionar aleatoriamente sistemas/datos para prueba
- Incluir al menos un sistema crítico en cada ciclo
- Rotar sistemas para cubrir todos en periodo anual
-
Procedimiento:
- Realizar restauración en entorno aislado
- Verificar integridad de datos restaurados
- Documentar tiempo de recuperación
- Comprobar funcionalidad de aplicaciones restauradas
-
Planificación:
- Definir escenario de desastre a simular
- Establecer objetivos y métricas (RTO, RPO)
- Notificar a todas las partes involucradas
-
Ejecución:
- Activar plan de recuperación según procedimiento
- Cronometrar tiempos de cada fase
- Documentar problemas y soluciones
-
Evaluación:
- Comparar resultados con objetivos
- Identificar puntos de mejora
- Actualizar documentación y procedimientos
-
Preparación:
- Verificar cambios en notas de versión
- Realizar backup de configuración y datos críticos
- Validar en entorno de pruebas
-
Implementación:
- Aplicar actualizaciones según secuencia documentada
- Verificar logs durante actualización
- Ejecutar pruebas post-actualización
-
Verificación:
- Ejecutar test suite automatizado
- Verificar funcionalidades críticas
- Comprobar rendimiento post-actualización
-
Planificación:
- Documentar plan detallado de actualización
- Definir puntos de control y verificación
- Preparar plan de rollback
- Validar exhaustivamente en entorno de pruebas
-
Comunicación:
- Notificar a todos los usuarios con 2 semanas de antelación
- Enviar recordatorio 24 horas antes
- Comunicar progreso durante actualización
-
Ejecución:
- Seguir checklist paso a paso
- Realizar verificaciones en puntos de control
- Documentar tiempos y problemas encontrados
-
Post-Actualización:
- Ejecutar verificación completa de sistema
- Confirmar funcionamiento con usuarios clave
- Actualizar documentación con cambios
Para cada actividad de mantenimiento debe generarse un registro que incluya:
-
Información General:
- Fecha y hora de inicio/finalización
- Tipo de mantenimiento (preventivo/correctivo)
- Componentes afectados
- Personal responsable
-
Actividades Realizadas:
- Detalle de tareas ejecutadas
- Cambios de configuración realizados
- Piezas sustituidas (incluyendo números de serie)
-
Resultados:
- Estado final tras mantenimiento
- Problemas encontrados y soluciones aplicadas
- Mediciones y métricas relevantes
-
Seguimiento:
- Tareas pendientes
- Recomendaciones para futuro mantenimiento
- Referencias a documentación técnica
Todos los mantenimientos deben documentarse en:
-
Sistema de Tickets (JIRA Service Desk):
- Crear ticket específico para cada mantenimiento programado
- Adjuntar informes detallados
- Vincular a elementos de configuración en CMDB
-
Registro Físico para Hardware Crítico:
- Mantener libro de registro para servidores, almacenamiento y red
- Incluir todas las intervenciones físicas
- Firmar cada entrada por técnico responsable
-
Repositorio de Documentación:
- Actualizar documentación técnica con cambios
- Mantener histórico de configuraciones
- Actualizar diagramas y topologías
| Nivel |
Descripción |
Tiempo Respuesta |
Tiempo Resolución |
Notificación |
| 1 - Crítico |
Sistema completamente caído |
15 min |
4 horas |
Dirección + Todos los técnicos |
| 2 - Alto |
Servicio principal degradado |
30 min |
8 horas |
Supervisores + Equipo técnico |
| 3 - Medio |
Afectación parcial o componente |
2 horas |
24 horas |
Equipo técnico |
| 4 - Bajo |
Impacto mínimo, sin afectación |
8 horas |
72 horas |
Técnico asignado |
-
Primer Nivel:
- Soporte técnico departamental
- Horario: L-V 08:00-20:00
- Contacto: [Contacto Soporte]
-
Segundo Nivel:
- Especialistas de sistema (red, servidores, almacenamiento)
- Horario: L-V 08:00-18:00, guardias 24/7 para incidentes críticos
- Contacto: [Contacto Especialistas]
-
Tercer Nivel:
- Proveedores y soporte externo (HP, Quantum, Cisco)
- Según contratos de soporte
- Referencia contratos: [ID Contratos Soporte]
-
Activación:
- Llamada a número de guardia: [Teléfono Guardia]
- Activación mediante sistema de monitorización
- Tiempo máximo de respuesta: 15 minutos
-
Evaluación Inicial:
- Determinar severidad según criterios establecidos
- Escalar según matriz de severidad
- Notificar según nivel de impacto
-
Intervención:
- Acceso remoto cuando sea posible
- Desplazamiento si requiere intervención física
- Documentación continua de acciones realizadas
-
Finalización:
- Comunicación de resolución a afectados
- Documentación detallada post-incidente
- Programación de revisión de causa raíz
| Indicador |
Objetivo |
Medición |
Frecuencia |
| Cobertura del mantenimiento |
100% |
% de equipos con mantenimiento completado |
Mensual |
| Cumplimiento de calendario |
>95% |
% de tareas completadas según calendario |
Mensual |
| Detección preventiva |
>90% |
% de problemas detectados antes de afectar servicio |
Trimestral |
| Tiempo medio entre fallos (MTBF) |
Incremento anual |
Horas operativas / número de fallos |
Semestral |
| Indicador |
Objetivo |
Medición |
Frecuencia |
| Tiempo medio de resolución (MTTR) |
<4 horas |
Tiempo desde detección hasta resolución |
Mensual |
| Tasa de recurrencia |
<5% |
% de problemas que reaparecen tras corrección |
Mensual |
| Eficiencia de primera intervención |
>80% |
% de problemas resueltos en primera intervención |
Mensual |
| Precisión de diagnóstico |
>90% |
% de diagnósticos iniciales correctos |
Trimestral |
| Actividad |
Administrador Sistemas |
Administrador Almacenamiento |
Administrador Red |
DevOps |
Soporte Técnico |
Operador Archivo |
| Mantenimiento Servidores |
R/A |
I |
C |
I |
- |
- |
| Mantenimiento Almacenamiento Principal |
C |
R/A |
- |
I |
- |
I |
| Mantenimiento Almacenamiento Secundario |
I |
R/A |
- |
I |
- |
C |
| Mantenimiento Librería Cintas |
I |
C |
- |
- |
- |
R/A |
| Mantenimiento Red |
I |
I |
R/A |
I |
- |
- |
| Actualización Software ARCO |
C |
I |
I |
R/A |
- |
- |
| Mantenimiento Estaciones Trabajo |
I |
- |
I |
I |
R/A |
- |
| Gestión Backups |
R/A |
C |
- |
C |
- |
I |
| Calibración Monitores |
- |
- |
- |
- |
R/A |
- |
| Pruebas DR |
R/A |
R/A |
R/A |
R/A |
C |
C |
Nota: R=Responsable, A=Aprobador, C=Consultado, I=Informado
| Rol |
Responsable |
Contacto Normal |
Contacto Emergencia |
| Administrador Sistemas |
[Nombre] |
[Email/Ext] |
[Móvil] |
| Administrador Almacenamiento |
[Nombre] |
[Email/Ext] |
[Móvil] |
| Administrador Red |
[Nombre] |
[Email/Ext] |
[Móvil] |
| DevOps Lead |
[Nombre] |
[Email/Ext] |
[Móvil] |
| Jefe Departamento |
[Nombre] |
[Email/Ext] |
[Móvil] |
| Proveedor |
Servicio |
Nivel Soporte |
Contacto Normal |
Contacto Emergencia |
ID Contrato |
| HP |
Hardware Servidores |
24x7, 4h |
[Teléfono/Email] |
[Teléfono Emergencia] |
HP-MDEST-2023-089 |
| Quantum |
StorNext + Librerías |
24x7, NBD |
[Teléfono/Email] |
[Teléfono Emergencia] |
QNT-MDEST-2023-057 |
| QNAP |
NAS |
8x5, NBD |
[Teléfono/Email] |
[Portal Cliente] |
QNP-MDEST-2024-023 |
| Cisco |
Red |
24x7, 4h |
[Teléfono/Email] |
[Teléfono Emergencia] |
CIS-MDEST-2023-112 |
-
Verificación Física:
-
Verificación Sistema:
-
Actualización:
-
Optimización:
-
Preparación:
-
Carga de Cinta:
-
Proceso de Restauración:
-
Verificación de Datos:
-
Finalización:
-
Planificación:
-
Preparación:
-
Ejecución:
-
Verificación:
-
Finalización:
Última actualización: 15 de mayo de 2025
Autor: Departamento Audiovisual - Madrid Destino