Historical record of incidents for Rankmi
Report: "Problemas de acceso a Rankmi"
Last updateEl día Jueves 3 de Abril, fue detectado en nuestro cluster de Kubernetes una indisponibilidad de tipo de instancias en AWS, por que lo nuestros servicios perdieron la habilidad de escalar y recuperarse a fallas. Pudimos identificar un problema en nuestros sistemas para el aprovisionamiento de instancias para el correcto escalado de nuestros serivicios. La incidencia comenzó aproximadamente a las 5:30 pm y se extendió por 25 minutos, cuando logramos estabilizar los servicios afectados. **Acciones:** 1. Se identificó la falla en los tipos de instancia disponibles en aws. 2. Cambio en los tipos de instancia a nivel de nuestro administrador de cluster **Plan de acción:** Se han agregado nuevos tipos de instancia soportados a nuestra infraestructura, lo que nos permitirá obtener los recursos de cómputo desde una mayor cantidad de tipos de instancia disponibles . -------------- On Thursday, April 3rd, an instance type unavailability was detected in our Kubernetes cluster on AWS, causing our services to lose the ability to scale and recover from failures. We identified an issue in our systems related to instance provisioning, which affected the proper scaling of our services. The incident began at approximately 5:30 PM and lasted for 25 minutes until we were able to stabilize the affected services. **Actions Taken:** * Identified the issue with the availability of instance types in AWS. * Updated the instance types at the cluster manager level. **Action Plan:** * Added support for additional instance types in our infrastructure, allowing us to obtain compute resources from a broader range of available instance types.
El incidente ha sido resuelto. Se está investigando la causa raíz.
Se ha corregido el problema a nivel de infraestructura. Estamos monitoreando el comportamiento de la aplicacion --- The issue has been resolved at the infrastructure level. We are monitoring the application's behavior.
Se han detectado problemas de acceso y lentitud a la plataforma. Hemos identificado el problema y el equipo se encuentra trabajando para reestablecer el servicio -- Access and performance issues have been detected on the platform. We have determined the cause of the problem, and the team is working to restore the service.
Report: "Lentitud Home"
Last updateEl día Lunes 3 de Marzo, fue detectado en nuestro cluster de Kubernetes un bloqueo a nivel del sistema de escalamiento de los servicios, dicho proceso presentó un problema durante su ejecución quedando sin memoria, donde se vio afectado el proceso de escalamiento y dado el volumen de tráfico el sistema estuvo parcialmente fuera de servicio. La incidencia comenzó a las 9:35 am y se extendió por 25 min, cuando logramos estabilizar los servicios afectados. Acciones: Se identificó la falla en la memoria del escalador. Aumento en la memoria disponible en 100%
Report: "Problemas de acceso a desempeño"
Last updateDurante un mantinimiento rutinario del proceso de autoescalado de nuestro servicio de Bases de Datos RDS se presentó un problema durante el proceso ejecutado automáticamente debido a un error en la configuración que tuvo impacto en el punto de acceso a las réplicas de lectura provocando lentitud en el servicio de api desempeño. La incidencia comenzó a las 8am CL y se extendió hasta aproximadamente las 9:30 am CL, cuando se logró estabilizar los servicios afectados. Se identificó la falla en los puntos de acceso a las réplicas de lectura y Se corrigió la conexión a las mismas.
Report: "Lentitud-modulo Desempeño"
Last updateEl equipo ya ha solucionado el inconveniente. Muchas gracias por la espera y comprensión.
El equipo ya encontró el origen del inconveniente y están trabajando activamente para resolverlo lo antes posible. Agradecemos su paciencia mientras solucionamos la situación. En el transcurso del día debería notarse la estabilidad en los procesos de desempeño. Les mantendremos informados sobre cualquier actualización. Pedimos disculpas por las molestias que esto pueda causar y agradecemos su comprensión.
We are continuing to work on a fix for this issue.
The issue has been identified and a fix is being implemented.
Estamos experimentando un problema técnico que afecta el desempeño de nuestra plataforma, esto debido a una incidencia con uno de nuestros componentes, Elasticsearch. Esto podría estar causando lentitud o dificultades en algunas funcionalidades del producto de Desempeño. Nuestro equipo está trabajando activamente para resolver este inconveniente lo antes posible y agradecemos su paciencia mientras solucionamos la situación. Les mantendremos informados sobre cualquier actualización. Pedimos disculpas por las molestias que esto pueda causar y agradecemos su comprensión
Report: "Mantenimiento producto Beneficios"
Last updateFinaliza el proceso de mantenimiento de Beneficios - Billetera, por lo que el producto se encuentra 100% funcional.
En estos momentos se están realizando las últimas acciones de mantenimiento de Billetera en el producto Beneficios para habilitarlo nuevamente. En breve daremos un update final.
En estos momentos y durante las próximas 2 horas, nuestro equipo se encontrará realizando mantenimiento del producto Beneficios. Como acción de mantención, se desactivarán las billeteras. En pantalla podrás visualizar un mensaje que dirá "¡Lo sentimos! No se encontró billetera del usuario" Tan pronto como finalice la mantención, activaremos el producto nuevamente.
Report: "Incidente al comenzar procesos de Desempeño - Feedback"
Last updateEn estos momentos el ingreso a procesos de Desempeño como el ingreso a las configuraciones del mismo se encuentra funcionando correctamente. De ser necesario, sugerimos refrescar la página para visualizar todo correctamente. Nuestro equipo se encontrará monitoreando la situación en los próximos minutos para verificar el correcto funcionamiento.
Nuestro equipo ya ha encontrado el origen de este incidente, el que impide el ingreso a la configuración de procesos e inicio de procesos desde instrucciones del mismo.
En estos momentos estamos experimentando problemas para iniciar procesos de Desempeño y sus etapas relacionadas, como por ejemplo, etapas de feedback. Nuestro equipo se encuentra investigando la situación para corregirlo.
Report: "Incidente de visualización y carga de Dashboards"
Last updateDashboards nuevamente operativos al 100%
Se ha detectado un problema en la visualización y carga de dashboards habilitados. Es posible que aparezca el mensaje "No hay dashboards disponibles para visualizar". Nuestro equipo experto ya se encuentra trabajando en la corrección de este incidente.
Report: "Lentitud generalizada en Workflows"
Last updateEste incidente queda resuelto validando el comportamiento esperado.
Nuestro equipo ha logrado corregir el performance de Workflows mitigando la lentitud en navegación, visualización y administración del mismo. Nos encontraremos monitoreando el comportamiento en los próximos minutos para validar que se mantenga.
Se ha detectado lentitud generalizada en Workflows lo que provoca problemas en la navegación, visualización y administración del mismo. En estos momentos nuestro equipo técnico se encuentra realizando acciones de mitigación como aumento de recursos en nuestra base de datos para corregir el performance.
Report: "Incidente en creación y firma de documentos - Firma Digital"
Last updateNuestro equipo técnico ya ha corregido la incidencias en la creación y firma de documentos en Firma Digital.
En estos momentos se ha identificado una caída en Firma Digital impidiendo la creación y firma de documentos desde el producto. Nuestro equipo técnico se encuentra trabajando en su pronta solución.
Report: "Caída de servicio de Dashboard - Proveedor externo Luzmo"
Last updateEl servicio de Luzmo se ha corregido y estabilizado. Nuestro equipo técnico ha realizado revisiones de los dashboards en nuestra plataforma para asegurar la correcta visualización y funcionamiento.
Se ha detectado una caída en los servicios de Luzmo, proveedor externo a Rankmi con el cual construimos los dashboards embebidos activos para nuestros clientes. Nuestro equipo técnico se encuentra en constante comunicación con el proveedor para conocer detalles de lo ocurrido y asimismo, fechas aproximadas de solución para tener nuevamente los dashboards activos.
Report: "Intermitencia módulo Workfows y Beneficios"
Last updateEl módulo de Desempeño, Workflows y Beneficios se encuentran regularizados. Si aún experimenta inconvenientes, agradecemos puedan cerrar sesión y volver a ingresar. Se da cerrado el incidente relacionado a estos módulos.
Los módulos de Workflows y Desempeño ya se encuentran estables. Estamos monitoreando para seguir tomando acciones en caso de inestabilidad.
Hemos detectado el inconveniente en el módulo de Worflows. Una query está generando sobrecarga al consultar los datos en cada vista, lo que genera lentitud en el ingreso y navegación. El equipo se encuentra trabajando en su solución. Adicionalmente, hemos detectado intermitencia en el módulo de desempeño que se está regularizando en este minuto.
Estamos presentando intermitencia en la plataforma. Principalmente los módulos de Workflows y Beneficios. Nuestro equipo está investigando la situación para solucionarlo a la brevedad posible.
Report: "Incidencia en Frontend por Mantención proveedor DNS"
Last updateSe ha realizado un cambio en la configuración de enrutamiento, lo que ha normalizado la situación. Damos por solucionado el incidente.
Estamos teniendo incidencias en la carga del Frontend de Rankmi debido a una mantención de los servidores por parte del proveedor de DNS. (https://www.cloudflarestatus.com/incidents/5c6fr2qn1n15) Estamos trabajando para estabilizar esta situación.
Report: "Lentitud Plataforma"
Last updateLa plataforma se encuentra nuevamente estable. Se da por cerrado el incidente.
La plataforma se encuentra estabilizada. Estamos monitoreando para asegurarnos que se encuentre todo normalizado.
La intermitencia se debe a una sobrecarga en nuestra BBDD. Nuestro equipo técnico se encuentra realizando las acciones necesarias para estabilizarla a la brevedad.
Estamos presentando intermitencia en el performance de la plataforma. Estamos investigando la situación para estabilizarla a la brevedad.
Report: "Lentitud generalizada en Desempeño y Clima"
Last updateSe da por finalizada la incidencia teniendo todos nuestro servicio operativo.
En estos momentos, tanto Desempeño como Clima se encuentran estables en cuanto a la carga de los diferentes módulos. Nuestro equipo se encuentra monitoreando el comportamiento y performance.
En estos momentos estamos experimentando lentitud generalizada en Desempeño y Clima, esto debido a un alza en procesamientos de datos. Nuestro equipo técnico se encuentra monitoreando los status de carga.
Report: "Lentitud generalizada en Desempeño"
Last updateSe da por finalizado el incidente.
Nuestro equipo técnico ha identificado y corregido el origen del incidente que provocaba lentitud en la carga de diferentes módulos de Desempeño afectando la experiencia de nuestros usuarios. En estos momentos, esto se encuentra dentro de un performance estable y nos encontraremos monitoreando el funcionamiento general.
En estos momentos estamos experimentando lentitud generalizada en el producto de Desempeño, diferentes módulos. Nuestro equipo técnico se encuentra trabajando en estabilizar el performance de nuestra plataforma para corregir la carga en vivo.
Report: "Intermitencia en la carga de Desempeño y Workflow"
Last updateEn estos momentos, el servicio y performance de Workflows se encuentra 100% estable y normalizado.
El incidente de carga en Desempeño se generó a problemas puntuales con las traducciones dentro del módulo, lo que fue rápidamente mitigado por el equipo experto. Continuamos trabajando en el monitoreo de Workflow para llegar al correcto funcionamiento del mismo.
En estos momentos nuestro equipo técnico se encuentra monitoreando inestabilidad en la carga de Desempeño y Workflows, lo cual se encuentra identificado por separado en ambos ambientes y el equipo se encuentra en proceso de monitoreo del comportamiento y perfomarce.
Report: "Intermitencia en la carga de módulos de Desempeño"
Last updateEn estos momentos nuestros servicios se encuentran estabilizados en su carga, por lo que ya no se presentan intermitencias en la carga de Desempeño.
En estos momentos estamos experimentando intermitencias en la carga de diferentes módulos de Desempeño, esto podría afectar la carga de las traducciones y material audiovisual. Nuestro equipo técnico se encuentra monitoreando la situación habiendo ya ejecutado acciones de mitigación.
Report: "Inconveniente con la función de calibración módulo desempeño"
Last updateEl incidente relacionado a la visualización de evaluados en la matriz de Calibración en Desempeño ha sido corregido desde su origen, por lo que no tendremos nuevos casos afectados. Actualmente, nuestros equipos se encuentran corrigiendo casos puntuales los cuales serán comunicados de manera particular.
El servicio en calibración se encuentra regularizado. Nos encontramos monitoreando para asegurarnos que todo está correcto de acuerdo a la corrección ejecutada.
Luego de extensas revisiones por parte de nuestro equipo técnico, se ha logrado corregir el incidente que impedía la correcta visualización de evaluados en la matriz de calibración. En estos momentos nos encontramos monitoreando el correcto funcionamiento revisando casos específicos para corroborar la corrección realizada.
En estos momentos, nuestro equipo técnico se encuentra realizando revisiones y pruebas para corregir la visualización de evaluados en la matriz de calibración.
Estamos teniendo inconvenientes en el módulo de calibración en el producto Desempeño lo que está generando que algunos evaluados no aparezcan evaluados en la matriz. Estamos investigando el inconveniente.
Report: "Error en la visualización de Organigrama"
Last updateLa visualización de Organigrama en Rankmi ya fue corregida por lo que se encuentra 100% operativo. Nuestro equipo técnico se encontrará monitoreando el funcionamiento para asegurar que no tengamos incidentes.
En estos momentos, la visualización de Organigrama en Rankmi se está viendo afectado no logrando mostrar la data cargada. Nuestro equipo técnico se encuentra ya revisando los puntos para corregir la situación tan pronto como sea posible.
Report: "Incidente en funcionamiento de App Mobile Rankmi"
Last updateLa App Mobile Rankmi ya se encuentra 100% operativa, tanto en sistema Android como en iOS. Cuando ingreses a la App desde tu dispositivo móvil, te pedirá actualizar la versión para que puedas acceder a ella sin problemas, esta acción no toma más de 1 minuto. Damos por finalizada esta incidencia.
La App Mobile Rankmi ya se encuentra 100% operativa en el sistema operativo Android, por lo que en dicho sistema, esta ya se encuentra normalizada y estabilizada. Continuamos trabajando para dejar corregido el servicio operativo iOS. Cuando ingreses a la App desde tu dispositivo móvil, te pedirá actualizar la versión para que puedas acceder a ella de manera correcta.
Se ha detectado un incidente que afecta el funcionamiento general de nuestra App Mobile, nuestro equipo técnico se encuentra ya en proceso de corrección del mismo habiendo detectado el origen del incidente.
Report: "Intermitencia en carga de elementos en plataforma"
Last updateSantiago, 15 de marzo 2024 Estimada/o Como parte de nuestros procedimientos internos, te hacemos entrega de un informe con el detalle de lo ocurrido el día viernes 15 de marzo del presente año con el servicio de traducciones de nuestra plataforma. **Contexto e Impacto** Durante el día viernes 15 de marzo del presente año experimentamos intermitencia en el servicio de traducciones provocando que estas no se visualizaran de manera correcta en la plataforma, así como también que no se pudiese acceder a realizar acciones, las cuales están ligadas al servicio de traducciones como tal. **Causa** La causa raíz de este incidente fue el proceso automatizado de actualización de certificado SSL del sistema de traducciones el cual no fue completado de manera correcta en los sistemas de AWS, provocando que se tuviese que intervenir de forma manual. **Planes de acción** Para resolver este problema y prevenir futuras ocurrencias, se ha agregado un paso extra de validación final en el proceso de actualización de certificados ssl para comprobar que ha sido reemplazado correctamente en los sistemas de traducciones. Como Rankmi estamos comprometidos a brindarles siempre el mejor servicio y a estar siempre atentos a cada uno de los inconvenientes que ustedes como nuestros clientes puedan tener, por lo que lamentamos lo sucedido y reforzamos nuestro compromiso de entregar la mejor plataforma de gestión de recursos humanos. Sin más que agregar, Saludos cordiales, ## **Franco Quijano** ## Infrastructure Manager ## **Rankmi Spa**
El incidente se encuentra resuelto. Las traducciones en el menú se ven correctamente y el performance se encuentra normalizado. Se da por cerrado este incidente.
El incidente se encuentra corregido y nuestro equipo técnico se encuentra monitoreando el correcto funcionamiento.
El inconveniente ya ha sido detectado y estamos trabajando en su solución. Daremos update a la brevedad cuándo el issue esté resuelto.
Estamos presentando intermitencia en la carga de algunos elementos en la plataforma, como traducciones en los menú o algunos widget. Estamos investigando la situación.
Report: "Incidente en carga de módulos de Desempeño"
Last updateEn estos momentos, nuestra plataforma se encuentra 100% estable, dando por finalizado el incidente que afectó el funcionamiento correcto de diferentes módulos de Desempeño.
Se ha corregido el incidente que impedía el correcto uso del producto de Desempeño, como carga de Monitoreo o el inicio de evaluaciones. Nuestro equipo se encuentra monitoreando el comportamiento y performance actual, el cual ya se encuentra normal. Por favor refresca la página para volver al funcionamiento normal.
En estos momentos nos encontramos experimentando incidentes en la carga de módulos de Desempeño, como monitoreo e inicio de evaluaciones de desempeño. Nuestro equipo se encuentra trabajando para la corrección de esta situación para volver a la operación. Iremos entregando updates dentro de los siguientes minutos.
Report: "Lentitud generalizada"
Last updateSe da por concluida la incidencia de lentitud generalizada. A este momento, se encuentra estable y cargando de manera correcta en todos sus módulos y procesos.
La plataforma se encuentra estable, estaremos monitoreando durante los siguientes 30 minutos.
En estos momentos hemos estabilizado la plataforma, por lo que esta ya se encuentra cargando sin problemas. Nos encontraremos monitoreando minuto a minuto desde este momento para supervisar el comportamiento general. Es por esto que seguiremos entregando updates.
En estos momentos nos encontramos experimentando lentitud generalizada en nuestra plataforma. El equipo experto ya se encuentra trabajando en la mitigación y corrección, considerando que ya tenemos identificado el problema de raíz. Estaremos entregando updates constantes.
Report: "Incidente en la carga de la plataforma"
Last updateEl incidente en la carga de plataforma ha sido corregido por nuestro equipo, por lo que ya se encuentra estable.
La plataforma se encuentra cargando de manera correcta, por lo que se puede acceder sin inconvenientes. Nuestros equipos continuan monitoreando la situación.
Se han aplicado acciones para corregir problemas de carga.
Estamos experimentando problemas en la carga de la plataforma. El equipo de Desarrollo & Tecnología se encuentra revisando y monitoreando la situación, es posible que al momento de ingresar a la plataforma, no sea posible acceder. Estaremos entregando updates continuos.
Report: "Problema a nivel mundial con proveedor de DNS: Cloudflare"
Last updateLuego de monitorear la situación reportada por nuestro proveedor de DNS, Cloudflare, podemos dar por resuelto el incidente según lo comunicado directamente por ellos.
Nos encontramos monitoreando la situación publicada por nuestro proveedor de DNS, Cloudflare, quienes han indicado incidentes que podrían afectar el performance de nuestra plataforma. Asimismo, nuestro equipo de Tecnología se encuentra monitoreando la situación para preveer cualquier impacto en la operación, la cual será informada de manera inmediata.
Report: "Intermitencia en el servicio"
Last updateThis incident has been resolved.
La situación se ha normalizado. Estamos monitoreando los indicadores.
Los indicadores muestran nuevamente algunas intermitencias en la visualización y carga del master de personas. Seguimos en contacto con nuestro proveedor para la estabilización definitiva del servicio del master de personas.
La situación se ha normalizado. Estamos monitoreando los indicadores.
Intermitencias en la visualización y carga de la información del master de personas: la experiencia de algunos usuarios administradores podrían ser afectada por demoras o errores al momento de la visualización y carga de la información contenida en el master de personas. El origen del error fue detectado y estamos en contacto con nuestro proveedor para su resolución.
Report: "Problemas de conexiòn con nuestro proveedor de DNS"
Last updateEl incidente ha sido resuelto por parte de nuestro proveedor.
El incidente ha sido resuelto. Continuamos monitoreando la información de nuestro proveedor.
Estamos monitoreando un incidente global con nuestro proveedor de infraestructura web y el servicio de DNS. Este incidente puede generar intermitencia en el servicio.
Report: "Intermitencia en el servicio"
Last updateSe confirma que la situación está resuelta; se cierra el incidente.
La actividad de la plataforma ha vuelto a la normalidad. Se está monitoreando la situación.
El origen de la intermitencia fue detectado. La actividad debería volver a la normalidad a las 14:10hrs (GMT-4) aproximadamente.
Estamos presentando algunas intermitencias en el servicio. Se está trabajando en su resolución. / We are presenting some intermittence in the service. We are working on its resolution.
Report: "Caída Proveedor Servicios web"
Last updateNuestro proveedor web (Heroku) indica que el inconveniente ha sido resuelto y, por lo tanto, el servicio ha vuelto a la normalidad. Se da por cerrada esta situación. https://status.heroku.com/incidents/2402
La situación radica (no se ha cerrado formalmente el incidente) en que nuestro proveedor de infraestructura web, llamado Heroku, reportó una caída masiva en todos sus datacenters en US y UE. Esto generó que tanto nuestra aplicación web principal, como nuestra aplicación web de respaldo estuvieran inaccesibles durante un periodo de aproximadamente 40 minutos. Actualmente no tenemos más detalles de parte de nuestro proveedor, pero apenas los tengamos, vamos a realizar las comunicaciones pertinentes. Dejamos el link con el status del problema global que mencionamos: https://status.heroku.com/incidents/2402
Se ha recuperado nuestro proveedor de servicios web. Estamos monitoreando la situación. // Our web service provider has been recovered. We are monitoring the situation https://status.heroku.com/incidents/2402
Uno de nuestros proveedores web está presentando problemas. Esto está generando intermitencia en nuestra plataforma // One of our web providers is having problems. This is causing intermittency on our platform.
Report: "Intermitencia sección reportes"
Last updateLa sección de reportería ya se encuentra regularizada.
Los reportes, de la sección "Reportes" del home, ya se encuentran visibles. Estamos monitoreando la situación // The reports from the “Reports“ home section are available again. We continue monitoring this issue.
Se está gestionando la solución por parte de nuestro equipo especialista. El servicio de reportes debiera estar operativo a las 13 horas GTM-3 aproximadamente.
We are continuing to investigate this issue.
Estamos teniendo intermitencia en la sección de reportería en el home. Nuestro equipo especialista está investigando la situación para estabilizarlo a la brevedad // We are having intermittency in the home reporting section. Our specialist team is investigating the situation to stabilize it as soon as possible.
Report: "Reporte caído"
Last updateYa se encuentran habilitados los reportes nuevamente. Se ha solucionado el inconveniente a las 11:09 GTM-3
Estamos teniendo inconvenientes con la sección de reportes en plataforma. Se está reiniciando el servicio. Estará disponible nuevamente a las 17:10 GMT-3 aproximadamente
Report: "Inter"
Last updateEl sistema se encuentra 100% operativo. Seguiremos monitoreando los servicios // Our system is 100% operative. We are still monitoring our services to control the situation.
La intermitencia ha sido solucionada por nuestro equipo y se puede acceder a la plataforma sin inconvenientes. Estaremos monitoreando la situación // The intermittence has been already solved by our team. You can access the platform without problems. We are monitoring to control the situation.
Estamos presentando intermitencias para acceder al sistema. Hemos ajustado el aprovisionamiento de recursos para restablecer a la brevedad. Estamos monitoreando el compartimiento. // We are presenting intermittence to access the platform. You might have trouble loggin into your session. We are working to resolve these issues as soon as possible.
Report: "(Retrospectivo) Intermintencia en acceso a la aplicacion"
Last updateHoy entre las 9:15 AM y las 9:28 AM el sistema de login y el home de rankmi presentó intermitencia para permitir interacciones. La situación ya ha sido corregida y los sistemas se encuentran operativos al 100%
Report: "Intermitencia listado de evaluación"
Last updateLas pruebas han sido satisfactorias. El incidente ha sido resuelto.
El inconveniente se encuentra resuelto. Estaremos monitoreando la situación.
Se está desplegando la solución en la plataforma. El nuevo tiempo estimado de solución es para las 11:15 GMT-3.
Estamos presentando intermitencia para acceder al listado de evaluación en el módulo de desempeño. El inconveniente ya ha sido identificado y nuestro equipo está trabajando en la solución. El tiempo estimado de solución es para las 10:45 GTM-3 aproximadamente.
Report: "Intermitencia AWS"
Last updateNuestro proveedor de servicios AWS de amazon ha resuelto du intermitencia. Los servicios se encuentran normalizados.
Existe una intermitencia en la plataforma debido a un inconveniente en los servicio de AWS de amazon en la zona US-WEST-1 y US-WEST-2. Estamos monitoreando la situación
Report: "Incidentes en el módulo de Reportería"
Last updateLa actividad del módulo de reportería es estable. Se cierra el incidente.
El incidente ha sido resuelto. Estamos monitoreando la actividad del módulo de reportería.
El módulo de reportería está actualmente presentando algunas intermitencias, esto podría implicar que el usuario administrador o manager no pueda ver todos sus reportes cargados en esta sección. Estamos trabajando para identificar el origen de este incidente.
Report: "Intermitencia al cerrar evaluaciones"
Last updateEl incidente ha sido resuelto.
We are continuing to monitor for any further issues.
El fix ya ha sido desplegado y se han corregido los errores relacionados a la finalización de las evaluaciones y administración de áreas. Estaremos monitoreando la situación.
Se encontró el error en la estrategia de las colas de mensajes que comunican los servicios. Afecta la administración de áreas, evaluaciones y finalización de evaluación. Se ha subido una corrección que solucionará este incidente.
Estamos presentando intermitencia en la finalización de los procesos de evaluación. Se ha identificado el problema y se está gestionando el fix correspondiente. Se estima estará regulado a las 10:40 am (GMT-3)
Report: "Intermitencia en ingreso a la Plataforma"
Last updateDe acuerdo a las pruebas ya se ha solucionado el inconveniente y ya se puede ingresar sin problema.
La intermitencia se encuentra solucionada y ya se puede ingresar a la plataforma con normalidad. Nos encontramos monitoreando.
Nos encontramos con intermitencia al iniciar sesión en nuestra plataforma. El inconveniente ya ha sido identificado y nos encontramos trabajando en su solución que se estima estará reflejada a las 14:50 GMT-3
Report: "Lentitud de carga"
Last updateLa plataforma se encuentra funcionando con normalidad y no se han detencato lentitud es durante el monitoreo.
Ya se está normalizando la respuesta de la plataforma. Estamos monitoreando la situación.
La plataforma está presentando lentitud en la carga. Nuestro equipo técnico está trabajando en la solución.
Report: "Incidentes en el producto Feedback Continuo"
Last updateEl proceso de resolución ha resultado exitoso y ya se encuentra operativo nuestro módulo de Feedback Continuo sin inconvenientes.
Para mejorar nuestro servicio hemos estado trabajando en una sincronización entre nuestro servicio master de personas y nuestro producto de Feedback Continuo. Este proceso ha tenido incidentes que bloquean la actualización en tiempo real y que no permiten estar viendo toda la información de los feedbacks entregados en plataforma. Esto ya se está resolviendo y no habrá pérdida de información. Estimamos que el 100% de los incidentes deben quedar resueltos a más tardar a las 14.00 hrs (GMT-3) de hoy por nuestro equipo técnico.
Report: "Intermitencia en muestreo de procesos de algunos usuarios"
Last updateYa ha sido resuelto el inconveniente del muestreo de los procesos de algunos usuarios.
El error ha sido detectado y ya se está aplicando la corrección
Se ha detectado intermitencia en la muestra de los procesos en plataforma de algunos usuarios. Esto no afecta a todas las empresas. El equipo técnico se encuentra trabajando en su solución.
Report: "Intermitencia en ingreso a la Plataforma"
Last updateNo se han detectado nuevos casos de ingreso. Se da por resuelto el incidente.
Hemos tenido un inconveniente en el ingreso a la plataforma donde algunos usuarios presentaban intermitencia y no lograban ingresar. Ya ha sido regularizado y nos encontramos monitoreando la situación.
Report: "Problemas en vista de sección “Procesos Destacados“ / Section view issues “Highlighted process“"
Last updateEl incidente ya ha sido resuelto / The incident has already been resolved
We are continuing to monitor for any further issues.
La sección de “Procesos destacados“ presentó algunos problemas, esto podría implicar que no puedas ver los procesos destacados en los cuales debes participar. El fix ya fue implementado por lo que nos encontramos monitoreando la situación / The Highlithed process section presented issues with its visualization, this might affect how you visualize the processes you might complete. The solution is already been implemented, so we are monitoring this situation.
Report: "Lentitud de Api [Response Time (Web) (High)]/Processing Delays"
Last updateSe confirma que el performance de la plataforma volvió a su normalidad y que el incidente está resuelto.
El performance de la plataforma se encuentra estable. Estamos monitoreando la situación.
El problema ha sido identificado y ya estamos trabajando en él. Aumentamos nuestra capacidad de los servidores de nuestra base de datos y estaremos monitoreando
Estamos teniendo tiempos de carga mayor a la normalidad. Estamos investigando la situación. // Our loading times are higher than usual, we are already investigating the situation.
Report: "Lentitud / Data Processing Delays"
Last updateDurante la tarde del día Viernes 14 de agosto y por un periodo de 3 horas nuestra plataforma experimentó inconvenientes y lentitud en el procesamiento de los datos. El incidente se extendió entre las **18:15 y las 21:30 hrs GMT - 4** Se debió principalmente a problemas de reemplazo de instancias en servidores lo que generó un agotamiento en los recursos del cluster generando una lentitud en las peticiones. **Impacto:** API principal \(login, home y performance\) sufrió un incremento en el tiempo de respuesta durante un periodo de **1:30 hrs.** Además, durante un periodo de **1:20 hrs**, la plataforma estuvo no disponible. **Problema:** El problema inició alrededor de las **18:15 PM GMT-4** en donde nuestros monitores nos alertaron de comportamiento anómalo en nuestra infraestructura haciendo que el procesamiento de los datos tenga un rendimiento degradado. El rendimiento fue decayendo progresivamente durante los minutos siguientes. Al revisar en nuestro cluster de producción nos dimos cuenta que el problema se estaba generando debido a que los servidores cuando, se reinciaban o se añadía un nuevo nodo, demoraba entre **3 y 5 minutos** en estar listo. Este proceso hacía que administrar los recursos del cluster fuese costoso y se generó la inestabilidad y la lentitud que fue aumentando a medida que transcurrían los minutos. **Solución:** Para dejar opertiva la plataforma cortamos el tráfico para que el cluster pudiese levantar los nuevos servidores sin tener la presión de responder peticiones permitiendo que la infraestructura se estabilizara de manera permanente. Este proceso, despues de 2 intentos nos permitió volver a estar 100% operativos. **Que hicimos para que no vuelva a ocurrir:** Debido a que el problema se produjo en parte por la velocidad con la que las nuevas instancias de servidores levantan y quedan en estado **ready** rehicimos el proceso de despliegue con lo que bajamos el tiempo promedio de despliegue de **3,5 minutos a 30 segundos**. Además de ser más eficiente, esto nos permite hacer deploy por grupos de servidores y no de 1 en 1 como lo estabamos realizando. Esto hace bajar el tiempo de reemplazo promedio de 35 minutos a alrededor de 8 minutos para el 100% de las maquinas disponible. Es decir, si hoy reemplazaramos todos los servidores al mismo tiempo, el sistema en un máximo de 8 minutos estaria disponible al 100%. Sin embargo, la disponibilidad parcial se daría al minuto 4 aproximadamente. Para ver el post original revisa acá [https://www.notion.so/Postmortem-14-08-41a8981727b147d79cc44a6d07b75714](https://www.notion.so/Postmortem-14-08-41a8981727b147d79cc44a6d07b75714)
El problema ha sido resuelto. Hemos reestablecido todos los servicios y la aplicación ya ha vuelto a funcionar de manera correcta. Vamos a generar nuestro post-mortem para comentar el incidente .
El servicio ha sido restablecido. Estamos monitoreando la situación.
We are continuing to monitor for any further issues.
Estamos restableciendo el sistema. Seguimos monitoreando la situación.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
We are continuing to investigate this issue.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio continua inestable. Seguimos investigando el inconveniente.
El servicio sigue inestable. Seguimos investigando el inconveniente.
El servicio sigue inestable. Seguimos investigando el inconveniente.
El servicio sigue inestable. Seguimos investigando el inconveniente.
Seguimos investigando el inconveniente. // We are continuing to investigate the situation
Estamos teniendo tiempos de carga mayor a la normalidad. Estamos investigando la situación.//Our loading times are higher than usual, we are already investigating the situation.
Report: "Lentitud de Api / Data Processing Delays"
Last updateEl incidente ya ha sido regularizado y la plataforma ha vuelto a su rendimiento normal.
Ya se han realizado los cambios en la configuración. Estamos monitoreando.
El problema ha sido identificado. Se generó por un problema de configuración el que será resuelto en los siguientes minutos.
La plataforma está presentando problemas de carga e ingreso. Estamos investigando el inconveniente.
Report: "Correción"
Last updateCorrección estado Api
Report: "Lentitud parcial en el acceso a rankmi.com"
Last updateDurante el día se ha ido normalizando el performance de la plataforma. Seguiremos monitoreando la situación.
Continuamos investigando el incidente. La lentitud es parcial y afecta a un grupo reducido de personas
Se ha repuesto el servicio de logins personalizados. Seguimos investigando el origen de la lentitud de la plataforma.
Seguimos investigando el inconveniente. Mantendremos informados
Seguimos investigando el inconveniente. Mantendremos informados
Seguimos investigando el inconveniente. Mantendremos informados
Se ha detectado lentitud en la plataforma, afectando en algunos casos ciertas funcionalidades como la carga de ciertos elementos. Estamos investigando el inconveniente. Actualizaremos a la brevedad.
Report: "Data Processing Delays - Reporting Tools Affected - Lentitud de Api"
Last updateEl incidente ha sido resuelto. Nuestra aplicación está con tiempos de respuesta y carga normales.
El servidor DNS de Santiago ya se encuentra operativo. Seguiremos monitoreando para confirmar que el servicio ha vuelto a la normalidad y confirmaremos a la brevedad. https://www.cloudflarestatus.com/
Hemos realizado correcciones para acelerar la descarga de los assets y continuaremos monitoreando el incidente. Cabe destacar que el incidente afecta solo de manera parcial a los usuarios de Rankmi.
We are continuing to investigate this issue.
La lentitud de la aplicación persiste. Hemos identificado que el problema está en la descarga de archivos para que la aplicación funcione correctamente, Esto genera que la carga sea mucho más lenta de lo normal.
Seguimos monitoreando y los DNS de Chile se mantienen con problemas: https://www.cloudflarestatus.com/
Seguimos monitoreando la situación. https://www.cloudflarestatus.com/
El problema ha sido identificado: Es debido a problemas de conexión con nuestro proveedor de DNS El comportamiento por el momento será intermitente hasta que Cloudflare logre solucionar su problema.
Se han detectado tiempos de carga prolongados en la plataforma. Estamos investigando el origen del inconveniente.
Report: "Elevated API Errors\Error elevado de API"
Last updateSe ha restablecido el servicio.
Debido a un reinicio de una base de datos se generó un error en el 35% de las peticiones al servidor, generando inestabilidad en el servicio.
We're experiencing an elevated level of API errors and are currently looking into the issue\Estamos experimentando un nivel elevado de errores de API y actualmente estamos investigando el problema