Historical record of incidents for Konduto
Report: "[PT] Timeouts e erros HTTP 500 na API Validaid / [EN] Timeouts and HTTP 500 errors in the API Validaid"
Last update[PT] O incidente foi resolvido e não estamos registrando novos erros 500. [EN] The incident has been resolved, and we are not logging any new ERROR 500.
[PT] Já estamos sem erros 500 e monitorando as conexões. [EN] We are no longer experiencing 500 errors and are monitoring the connections.
[PT] Identificamos erros 500 em consultas que requisitam dados de bureaux a partir de 8:18h (UTC-3). Já estamos em contato com a equipe responsável, que está tratando o incidente. [EN] We have identified ERROR 500 in queries requesting bureau data starting at 8:18 AM (UTC-3). We are already in contact with the responsible team, which is addressing the incident.
Report: "[PT] Timeouts e erros HTTP 500 na API / [EN] Timeouts and HTTP 500 errors in the API"
Last updateThis incident has been resolved.
[PT] A correção parece ter funcionado. Estamos monitorando a aplicação pelos próximos minutos. // [EN] The fix seems to have worked. We'll be monitoring the application for the next few minutes
[PT] Identificamos o problema e já implementamos uma correção // [EN] We've identified the issue and implemented a fix
[PT] Estamos investigando timeouts e erros HTTP 500 na API // [EN] We're investigating timeouts and HTTP 500 errors in the API
Report: "Instabilidade e erro de conexão do Portal / Dashboard instability and connection errors"
Last updateThis incident has been resolved.
We are continuing to monitor for any further issues.
[PT] Subimos a correção para resolver os erros de lentidão nas páginas de pedidos relacionados. Estamos monitorando o sistema para verificar que o problema foi resolvido. // [EN] We are deploing a patch to fix timeout errors when acessing related orders pages. We'll be monitoring the system to make sure the problem was solved.
[PT] Identificamos a causa da lentidão e instabilidade do portal. Estamos atuando para resolver a questão. // [EN] We've identified the cause of the instability and connectivity issues. We're acting to solve the underlying problem.
[PT] Estamos investigando problemas de instabilidade e erros de conexão com o Portal // [EN] We're investigating connectivity and instability issues with the Dashboard.
Report: "Relatórios agendados com problemas // Issue with scheduled reports"
Last updateThis incident has been resolved.
[PT] Identificamos um problema em alguns relatórios agendados sendo entregues vazios ou incompletos. Os relatórios sob demanda no Portal estão funcionando normalmente. // [EN] We've identified an issue with scheduled reports, causing some to be empty or incomplete. On-demand reports from the Dashboard are working properly.
Report: "Atraso na entrega de Webhooks / Delay in Webhook delivery"
Last updateThis incident has been resolved.
[PT] O atraso foi eliminado e a fila de webhooks está normalizada. Vamos monitorar a fila pelos próximos minutos. // [EN] The delay has been eliminated and the webhook queue is back to normal. We'll be monitoring the queue for the next few minutes.
[PT] Estamos avançando com a redução da fila e atraso dos webhooks // [EN] We're moving forward with reducing the backlog and eliminating the webhook delay
[PT] Identificamos um atraso na entrega de webhooks de notificação e estamos trabalhando para acelerar a entrega e diminuir a fila. // [EN] We've identified a delay in delivering webhooks. We're working on speeding the dispatches and reduce the backlog.
Report: "[PT] Maior tempo de resposta e timeouts no serviço // [EN] Longer response times and timeouts in the service."
Last updateThis incident has been resolved.
We are continuing to monitor for any further issues.
[PT] O tempo de resposta da API está voltando ao patamar normal. Seguimos monitorando a aplicação // [EN] The API's response time is getting back to normal. We continue to monitor the application
[PT] Estamos investigando alertas de maior tempo de resposta e timeouts na API e no Portal. // [EN] We're investigating alerts of longer response times and timeouts in the API and Dashboard.
Report: "[PT] Maior tempo de resposta e timeouts no serviço // [EN] Longer response times and timeouts in the service."
Last updateThis incident has been resolved.
[PT] A API e o Portal voltaram a responder normalmente, e não estamos vendo mais problemas. Continuamos monitorando a aplicação e acompanhando o incidente com nosso provedor de nuvem. // [EN] API and Dashboard are responding normally and we're not seeing further issues. We continue to monitor the application and the incident with our cloud provider.
[PT] Confirmamos que se trata de um problema de rede e conectividade com nosso provedor de nuvem. Estamos acompanhando o incidente com o fornecedor para resolver rapidamente o problema. // [EN] We've confirmed it is a network and connectivity issue with our cloud provider. We're following the incident close with the vendor to quickly resolve the issue.
[PT] O problema parece ser com o nosso provedor de soluções em nuvem. Continuamos investigando para confirmar a informação. // [EN] The issue seems to be our cloud provider. We continue investigating to confirm this information.
[PT] Estamos investigando alertas de maior tempo de resposta e timeouts na API e no Portal. // [EN] We're investigating alerts of longer response times and timeouts in the API and Dashboard.
Report: "[PT] Timeouts e erros na API / [EN] Timeouts and API errors"
Last update[PT] A aplicação parece estar funcionando normalmente. O mecanismo de failover do banco de dados agiu rapidamente para direcionar o tráfego para o stand-by, demorando aproximadamente 2 minutos no processo. // [EN] The app seems to be back to normal. The database failover automation acted swiftly to direct traffic to our stand-by, taking approximately 2 minutes.
[PT] Identificamos um problema no banco de dados principal. O sistema de failover automático foi disparado, apontando a aplicação para o banco de stand-by. Estamos monitorando a aplicação para garantir que o failover rodou corretamente. [EN] We identified an issue with the primary database. The automatic failover was triggered, directing traffic to the stand-by database. We're monitoring the app to make sure failover went smoothly.
[PT] Estamos investigando um alerta de timeouts e erros na API // [EN] We're investigating an alert on timeouts and API errors
Report: "[PT] Atraso na visualização de dados / [EN] Delay in data visualization"
Last update[PT] Todos os pedidos pendentes foram sincronizados e estão disponíveis no Portal. // [EN] The backlog has been processed and all orders are now available in the Dashboard.
[PT] Continuamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, porém, devido a quantidade de pedidos represados, deve ainda precisamos de algumas horas até que o restante dos pedidos represados estejam disponíveis para consulta. // [EN] We continue progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, however, due to the size of the backlog, we'll need several hours for all orders to be available for query.
[PT] Continuamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, porém, devido a quantidade de pedidos represados, deve ainda precisamos de algumas horas até que o restante dos pedidos represados estejam disponíveis para consulta. // [EN] We continue progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, however, due to the size of the backlog, we'll need several hours for all orders to be available for query.
[PT] Continuamos trabalhando para resolver o atraso na replicação dos dados. // [EN] We're still working to fix the data visualization delay.
[PT] Continuamos trabalhando para resolver o atraso na replicação dos dados. // [EN] We're still working to fix the data visualization delay.
IDENTIFIED [PT] Identificamos um problema que está causando atraso na visualização dos dados. // [EN] We’ve identified an issue causing data visualization delays in the application.
Report: "[PT] Atraso na visualização de dados / [EN] Delay in data visualization"
Last update[PT] Todos os pedidos pendentes foram sincronizados e estão disponíveis no Portal. // [EN] The backlog has been processed and all orders are now available in the Dashboard.
We are continuing to monitor for any further issues.
[PT] Estamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, e estamos trabalhando para processar o restante dos pedidos represados. // [EN] We're making progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, and we're working to process the order backlog.
[PT] Identificamos um problema que está causando atraso na visualização dos dados. // [EN] We’ve identified an issue causing data visualization delays in the application.
Report: "[PT] Atraso na visualização de dados / [EN] Delay in data visualization"
Last update[PT] Todos os pedidos pendentes foram sincronizados e estão disponíveis no Portal. // [EN] The backlog has been processed and all orders are now available in the Dashboard.
[PT] Estamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, e estamos trabalhando para processar o restante dos pedidos represados. // [EN] We're making progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, and we're working to process the order backlog.
[PT] Continuamos trabalhando para resolver o atraso na replicação dos dados. // [EN] We’re still working to fix the data visualization delay.
[PT] Identificamos um problema que está causando atraso na visualização dos dados. // [EN] We’ve identified an issue causing data visualization delays in the application.
Report: "[PT] Atraso na visualização de dados / [EN] Delay in data visualization"
Last update[PT] Todos os pedidos pendentes foram sincronizados e estão disponíveis no Portal. // [EN] The backlog has been processed and all orders are now available in the Dashboard.
[PT] Estamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, e estamos trabalhando para processar o restante dos pedidos represados. // [EN] We're making progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, and we're working to process the order backlog.
[PT] Continuamos trabalhando para resolver o atraso na replicação dos dados // [EN] We’re still working to fix the data visualization delay.
[PT] Identificamos um problema que está causando atraso na visualização dos dados. // [EN] We’ve identified an issue causing data visualization delays in the application.
Report: "[PT] Atraso na visualização de dados / [EN] Delay in data visualization"
Last update[PT] Todos os pedidos pendentes foram sincronizados e estão disponíveis no Portal. // [EN] The backlog has been processed and all orders are now available in the Dashboard.
We are continuing to work on a fix for this issue.
[PT] Estamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, e estamos trabalhando para processar o restante dos pedidos represados. // [EN] We're making progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, and we're working to process the order backlog.
[PT] Ainda estamos trabalhando para resolver o atraso na replicação dos dados // [EN] We’re still working to fix the data visualization delay.
[PT] Identificamos um problema que está causando atraso na visualização dos dados. Estamos trabalhando em uma correção. // [EN] We’ve identified an issue causing data visualization delays in the application. We’re working on a fix.
Report: "[PT] Atraso na visualização de dados / [EN] Delay in data visualization"
Last update[PT] Todos os pedidos pendentes foram sincronizados e estão disponíveis no Portal. // [EN] The backlog has been processed and all orders are now available in the Dashboard.
[PT] Continuamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, e estamos trabalhando para processar o restante dos pedidos represados até as primeiras horas da terça-feira. // [EN] We continue progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, and we're working to process the order backlog until the early hours of Tuesday.
[PT] Continuamos progredindo na solução para o atraso na replicação dos dados. Novas transações já aparecem em tempo real no Portal, e estamos trabalhando para processar o restante dos pedidos represados. // [EN] We continue progress on the data visualization delay. New transactions are showing up in real time in the Dashboard, and we're working to process the order backlog.
[PT] Continuamos progredindo na solução para o atraso na replicação dos dados. Porém, devido a quantidade de pedidos represados, deve demorar algumas horas até que o Portal esteja 100% sincronizado. Em alguns casos pedidos mais recentes podem já estar disponíveis, enquanto o backlog é processado. // [EN] We continue progress on the data visualization delay. However, due to the size of the backlog, it should be a few hours until everything is 100% in sync. In some cases new orders might already be displayed while the backlog is still being processed.
[PT] Estamos progredindo na solução para o atraso na replicação dos dados. Porém, devido a quantidade de pedidos represados, deve demorar algumas horas até que o Portal esteja 100% sincronizado. Em alguns casos pedidos mais recentes podem já estar disponíveis, enquanto o backlog é processado. // [EN] We're making progress on the data visualization delay. However, due to the size of the backlog, it should be a few hours until everything is 100% in sync. In some cases new orders might already be displayed while the backlog is still being processed.
[PT] Continuamos trabalhando para resolver o atraso na replicação dos dados. Porém, devido a quantidade de pedidos represados, deve demorar algumas horas até que o Portal esteja sincronizado. // [EN] We're still working to fix the data visualization delay. However, due to the size of the backlog, it should be a few hours until everything is in sync.
[PT] Continuamos trabalhando para resolver o atraso na replicação dos dados // [EN] We're still working to fix the data visualization delay.
[PT] Ainda estamos trabalhando para resolver o atraso na replicação dos dados // [EN] We're still working to fix the data visualization delay.
[PT] Identificamos um problema que está causando atraso na visualização dos dados. Estamos trabalhando em uma correção. // [EN] We've identified an issue causing data visualization delays in the application. We're working on a fix.
Report: "Atraso na visualização de pedidos no Portal"
Last update[PT] O atraso foi resolvido e os pedidos estão online. Agradecemos a compreensão durante a solução deste caso. [EN] The replication delay has been solved and orders are in sync. We appreciate your understanding during the resolution of this case.
[PT] Estamos avançando na redução do atraso na visualização de pedidos no Portal. Esperamos que o atraso seja eliminado nas próximas horas. [EN] We're making progress on reducing the order visualization delay. We expect the delay to be eliminated in the next few hours.
[PT] Continuamos com os esfoços para zerar o atraso na replicação dos dados. Nossa estimativa é que este processo se normalize durante a madrugada de 10/SET. [EN] We continue our efforts to eliminate the data replication delay. We expect the queue to be normalized during the first ours of Sept. 10th BRT.
[PT] O problema persiste mas não tem evoluído mais além do atraso atual. Continuamos trabalhando para reduzir este o atraso. [EN] The issue persists but the delay is not growing any bigger. We continue to work on reducing the data replication delay.
[PT] Continuamos trabalhando para reduzir o atraso na replicação dos dados. [EN] We continue to work on reducing the data replication delay.
[PT] Continuamos trabalhando para reduzir o atraso na replicação dos dados. [EN] We continue to work on reducing the data replication delay.
[PT] Identificamos um problema que está causando um atraso na replicação/visualização de pedidos no Portal. Estamos trabalhando em uma solução. [EN] We've identified an issue causing delays in order replication/visualization in our Dashboard. We're working on a solution.
Report: "Timeouts and longer response times in the API"
Last updateThis incident has been resolved.
[PT] Subimos uma correção e a aplicação parece estar respondendo normalmente. Vamos monitorar pelos próximos minutos. [EN] We've deploy a fix and the app seems to be responding normally. We'll monitor for the next few minutes.
[PT] Estamos investigando problemas de timeout e tempo de resposta mais alto na API de Pedidos. [EN] We're investigating timeout and response time issues in the Orders API.
Report: "Timeouts and longer response times in the API"
Last updateThis incident has been resolved.
[PT] Continuamos monitorando a saúde da aplicação. [EN] We continue to monitor the health of the application.
[PT] Subimos uma correção e estamos monitorando o efeito. [EN] We've deployed a fix and we've monitoring it's effects.
[PT] Estamos investigando problemas de timeout e tempo de resposta mais alto na API de Pedidos. [EN] We're investigating timeout and response time issues in the Orders API.
Report: "[EN] Delayed webhooks / [PT] Webhooks atrasados"
Last updateThis incident has been resolved.
[EN] The fix has been implemented and the notification queue has been restored. We'll keep monitoring for the next few minutes. [PT] Uma correção foi implementada e a fila de notificações voltou ao normal. Vamos monitorar pelos próximos minutos.
[EN] We've identified an issue causing delays in delivery webhooks and we're working on a fix. Until then, webhooks will take longer to be sent. [PT] Identificamos um problema que está causando atraso no envio dos webhooks. Até a correção as mensagens demorarão mais tempo para serem entregues.
Report: "Timeouts and HTTP 500 errors"
Last updateThis incident has been resolved.
We've deployed a fix and we're monitoring the app's performance.
We've identified an error causing HTTP 500 erros and timeouts.
Report: "High error rate in Orders API"
Last updateThis incident has been resolved.
[PT] A API parece estável. Vamos monitorar pelos próximos minutos. [EN] The API is back to normal. We'll be monitoring for the next few minutes.
[PT] Identificamos um problema na API, causando erros HTTP 500 e alto tempo de resposta. Já subimos correções e a API parece estável. [EN] We've identified an issue with the API causing HTTP 500 errors and high response time. We've deployed a fix and the API seems stable.
Report: "Atraso na entrega de webhooks / Webhook delivery delay"
Last update[PT] O atraso nos envios dos webhooks foi resolvido. [EN] The delay on the webhooks dispach has been resolved.
[PT] Subimos uma correção para o envio dos webhooks, que deve se normalizar nos próximos minutos. [EN] We've deployed a fix that should bring the webhooks back to normal in the next few minutes.
[PT] Estamos investigando um atraso na entrega de webhooks de atualização de pedidos. Este problema não afeta o processamento de transações. [EN] We're investigating an issue causing delays in the delivery of webhooks. This does not affect the processing of new transactions.
Report: "Orders API timeouts and errors"
Last updateThis incident has been resolved.
[PT] Subimos uma correção para o problema de timeouts e erros da API de Pedidos. Vamos monitorar a aplicação pelos próximos minutos. [EN] We've deployed a fix to the timeouts and errors in the Orders API. We'll be monitoring the application for the next few minutes.
We are continuing to investigate this issue.
We're investigating an issue causing timeouts and errors in the Orders API.
Report: "Inconsistência em relatórios agendados / Inconsistencies in scheduled reports"
Last updateThis incident has been resolved.
[PT] Subimos uma nova correção e estamos monitorando os relatórios agendados. [EN] We've implemented a fix and we're monitoring new scheduled reports.
[PT] Estamos investigando novos relatos de inconsistências nos relatórios agendados. Os relatórios sob demanda extraídos do Portal estão funcionando normalmente. [EN] We're investigating new reports of inconsistencies in the scheduled reports. The on-demand reports exported through the Dashboard are working properly.
Report: "Inconsistência em relatórios agendados / Inconsistencies in scheduled reports"
Last updateThis incident has been resolved.
[PT] Subimos uma correção para os relatórios agendados e vamos monitorar os novos relatórios. Vale lembrar que os relatórios sob demanda extraídos do Portal estão funcionando normalmente. [EN] We've implemented a fix for the scheduled reports and we'll monitor newly issued files. As a reminder, on-demand reports exported through the Dashboard are working properly.
[PT] Identificamos um problema no sistema de relatório agendados que está causando inconsistências nos dados ou relatórios vazios. Já estamos trabalhando em uma correção. Os relatórios sob demanda extraídos do Portal estão funcionando normalmente. [EN] We've identified an issue on the scheduled reports that are causing data inconsistencies or empty reports. We're working on a fix. The on-demand reports exported through the Dashboard are working properly.
Report: "Erros HTTP 500 na API"
Last update[PT] Já não vemos mais erros HTTP 500 na API de Pedidos após o período de monitoramento. Obrigado. [EN] We no longer see HTTP 500 errors in the Orders API. Thank you.
[PT] O sistema de failover agiu rapidamente para sanar os erros HTTP 500. Vamos monitorar a aplicação para garantir a estabilidade. [EN] The failover system acted swiftly to fix the HTTP 500 errors. We'll monitor the app for the next few minutes.
[PT] Estamos investigando alertas de HTTP 500 na API de Pedidos. [EN] We're investigating HTTP 500 errors in the Orders API.
Report: "Atraso na visualização de pedidos do Portal"
Last updateA visualização de pedidos no Portal está online novamente. Obrigado.
A visualização de pedidos no Portal foi normalizada. Vamos monitorar pelos próximos minutos para garantir que está tudo funcionando corretamente.
Estamos investigando um atraso na visualização (replicação) de pedidos no Portal.
Report: "Erros na API de Pedidos"
Last update## Introdução Na quinta-feira, 28/01, a Konduto teve um incidente de tecnologia que deixou o nosso sistema fora do ar por aproximadamente 2h30, entre 13h06 e 15h39 BRT. Este foi o downtime mais longo dos nossos quase 7 anos de história. Nos orgulhamos em entregar os nossos clientes uma disponibilidade excepcional, mas neste incidente nós falhamos neste quesito. Este relatório traz os detalhes do incidente de 28/01, detalhando a causa raíz e o plano de ação para que um novo episódio similar não aconteça novamente. ## Resumo do incidente * Às 13h06 nosso monitoramento identificou problemas na API, causando erros para os clientes * As causas mais comuns foram rapidamente descartadas * A reversão de um código recente e o aumento da capacidade dos servidores também não surtiram efeito, direcionando o time para uma investigação mais detalhada * O problema foi identificado: um gargalo do sistema operacional \(SO\) ligado a quantidade de arquivos \(modelos de risco\) que estavam sendo sincronizados no sistema * Nossa equipe passou a remover arquivos \(modelos\) antigos, permitindo que o SO voltasse a operar normalmente às 15h39 ## Detalhamento e causa raíz Às 13h06 nosso monitoramento indicou problemas na API principal, gerando timeouts e erros HTTP 500 para nossos clientes. A primeira sondagem dos lugares mais comuns não indicavam problemas - banco de dados, conexão de rede e carga nos servidores estavam dentro do normal. Os logs indicavam um problema para ler/escrever em disco. Dois dias antes nós havíamos feito mudanças no código que envolviam disco, e pensamos que poderia ser algum bug latente, apesar do código já estar no ar há dois dias e ter sido amplamente testado. Voltamos a uma versão anterior do código, mas isto não surtiu efeito. O disco dos servidores estava cheio \(92%\), mas não o suficiente para causar problemas. De qualquer modo, triplicamos a capacidade de disco para garantir que isto não era a causa. Mesmo assim o erro continuava, e os logs apontavam para problemas em ler arquivos em disco, especificamente no diretório de modelos de fraude. Cada cliente dentro da Konduto tem um modelo de fraude dedicado, e alguns possuem mais de um modelo rodando em paralelo. Por questões de desempenho, estes modelos são baixados de um repositório central e ficam em um diretório dentro de cada servidor. Quando chega uma transação de um determinado cliente, o sistema vai no diretório local, lê o arquivo, carrega o modelo na memória e faz a escoragem do pedido. Nós não temos a prática de apagar modelos antigos, de clientes que ganharam uma versão nova ou que deixaram de transacionar. O repositório central, então, contém modelos ativos e também o histórico. Neste dia o diretório continha aproximadamente 33 mil arquivos de modelos, e o que estávamos enfrentando era um gargalo do sistema operacional \(SO\) em ler e buscar os modelos dentro deste diretório. Eram arquivos demais para o SO conseguir achar e ler em milissegundos. Para testar esta hipótese nós apagamos, em um dos servidores, todos os arquivos de modelo, exceto por 1. Com isto o sistema voltou a funcionar e confirmamos a causa do problema. Porém, é claro que não poderíamos deixar apenas 1 modelo no ar. Nosso time então foi ao repositório central e apagou todos os modelos antigos, reduzindo consideravelmente a quantidade de arquivos que eram sincronizados e armazenados nos servidores. Esta tarefa levou quase 1 hora. Quando foi terminada nos re-sincronizamos os servidores com o repositório central, e o sistema voltou a operar normalmente. ## Plano de ação Para evitar que este problema aconteça planejamos duas ações de curto prazo: monitoramento e reformulação da sincronização de modelos. Embora monitoremos o desempenho dos servidores \(memória, CPU, disco, rede, etc\), o problema foi causado pela concentração de muitos arquivos em um único diretório só, causando perda de eficiência na busca de arquivos. Os servidores em si estavam bons, e o monitoramento de desempenho sozinho não identificaria um novo problema. A primeira ação, que já está no ar, foi criar um monitoramento especial para o diretório que armazena os modelos. Periodicamente veremos quantos arquivos de modelos há no diretório e gerar um alerta caso ultrapasse um número razoável. A segunda ação é reformular a forma como sincronizamos e apagamos arquivos de modelos. Não há um motivo técnico para termos modelos antigos nos servidores, então vamos mudar o sistema para sincronizar apenas os modelos novos, ativos e em uso pelos nossos clientes. Uma vez concluídas estas ações, tiramos do futuro próximo a possibilidade de um problema similar. Vamos, então, estudar alternativas permanentes de gestão destes arquivos de modelos, para evitar problemas quando tivermos de fato ~33 mil modelos ativos. ## Conclusão Sabemos que o nosso serviço é essencial para a operação dos nossos clientes. Nos preocupamos muito com a disponibilidade da ferramenta e nos orgulhamos de ter trazido aos nossos clientes em 2020 um uptime de 99.99%. Porém, neste caso, desapontamos os nossos clientes e pedimos desculpas pelo incidente. Identificamos a causa do problema, criamos monitoramentos adicionais e estamos alternando a forma de sincronização dos modelos para evitar casos similares no futuro.
A aplicação está respondendo bem e estamos há bastante tempo sem erros. Vamos continuar monitorando a API, mas encerraremos este incidente. Novamente, pedimos desculpas por esta instabilidade de aproximadamente 2h30. Nos orgulhamos de prover um serviço com excelente uptime, mas hoje falhamos nesta missão. Nos próximos dias publicaremos um relatório de incidente após uma investigação mais profunda.
Continuamos a monitorar o desempenho da API após as correções. Vamos mantendo-os atualizados.
Ainda estamos vendo alguma instabilidade na API. Estamos trabalhando para resolvê-la.
Uma correção foi ao ar agora há pouco que parece ter resolvido o problema. Vamos monitorar a performance do sistema para garantir a integridade. Agradecemos a paciência e pedimos desculpas pelo downtime. Iremos submeter um registro de incidente após uma investigação mais profunda.
Identificamos o problema causando downtime na API. Estamos trabalhando para uma correção assim que possível.
Continuamos trabalhando para recuperar a API de Pedidos.
Nossa primeira tentativa de correção não deu frutos. Estamos tentando um rollback para recuperar a API.
Estamos trabalhando para recuperar a API de Pedidos. Em breve postaremos atualizações.
Estamos investigando erros de HTTP 500 e timeouts na API de Pedidos.
Report: "API errors and timeouts"
Last updateThis incident has been resolved.
[PT] O serviço parece ter se recuperado e vamos monitorar o desempenho pelos próximos minutos. [EN] The service seems to have recovered. We will be monitoring the performance for the next few minutes.
[PT] Identificamos o problema causando os erros HTTP 500 e subimos uma correção. [EN] We've identified the issue causing the HTTP 500s and we've deployed a fix
We've investigating an issue causing HTTP 500s and API timeouts.
Report: "Timeouts da API e erros HTTP 500 /Orders API timeouts and HTTP 500 errors"
Last update[PT] As aplicações estão respondendo normalmente após o failover automático do banco de dados. Estamos encerrando então este incidente. Obrigado. [EN] The apps are responding properly after the automated database failover. We're closing this incident. Thank you.
We are continuing to monitor for any further issues.
[PT] O problema foi uma falha no banco de dados principal da aplicação. Os sistemas de alta disponibilidade/failover agiram rapidamente e a aplicação se recuperou em 4mins. Vamos monitorar o sistema pelos próximos minutos para garantir que tudo está de volta ao normal. [EN] The issue was a database failure in our primary instance. The HA/failover systems acted swiftly and the app recoved within 4 minutes. We will keep monitoring for the next several minutes to make sure everything is back to normal.
[PT] Estamos investigando um problema geral que está causando timeouts e erros HTTP 500 na API. [EN] We've investigating an issue causing timeouts and HTTP 500 errors.
Report: "[PT] Atraso na visualização de pedidos / [EN] Delay in order visualization"
Last updateThis issue has been resolved.
[PT] O atraso na replicação foi zerado e o portal está mostrando as transações em tempo real. [EN] The dashboard is no longer presenting delays in data visualization.
[PT] Estamos com atraso na visualização de pedidos no portal. As transações estão sendo processadas normalmente, mas a sua visualização em relatórios do Portal está atrasada. Estamos trabalhando para a normalização. [EN] We're experiencing delays in order visualization. The transactions are being processed normally, but there's a delay in viewing them in reports in our Dashboard. We're working on a fix.
Report: "[PT] Altas taxas de erros na API de Pedidos / [EN] High error rate in the Orders API"
Last updateThis issue has been resolved. Thank you.
[PT] Subimos uma correção para os erros da API de Pedidos. Vamos monitorar a estabilidade do sistema pelos próximos minutos. [EN[ We've implemented a fix for the Orders API. We'll be monitoring the system for the next several minutes to ensure everything is back to normal.
We're implementing a fix for this issue.
[PT] Estamos investigando uma taxa alta de erros na API de Pedidos. [EN] We're investigating a high error rate in the Orders API
Report: "[PT] Notificações de Webhook e Emails paradas / [EN] Webhook and Email notifications stuck"
Last updateThis incident has been resolved.
[PT] Uma correção já está no ar e os webhooks e e-mails voltaram a ser enviados. Ainda há um atraso na entrega, que o sistema deve zerar logo mais. [EN] A fix is in place and webhooks/e-mails are back. There is still a backlog that will be cleared soon.
[PT] Estamos investigando um problema que afeta o envio de webhooks e e-mails de notificação. [EN] We're investigating an issue affecting webhooks and e-mail notifications.
Report: "[PT] Atraso na visualização de pedidos / [EN] Delay in order visualization"
Last updateThis incident has been resolved.
[PT] O atraso foi zerado e a visualização está de volta ao normal. Vamos monitorar a situação pelos próximos minutos. [EN] The visualization is back in-sync. We'll be monitoring the status for the next few minutes.
[PT] Estamos com atraso na visualização de pedidos no portal. As transações estão sendo processadas normalmente, mas a sua visualização em relatórios do Portal está atrasada. Estamos implementando uma correção para isto. [EN] We're experiencing delays in order visualization. The transactions are being processed normally, but there's a delay in viewing them in reports in our Dashboard. We've implementing a fix. Dashboard Reporting
Report: "[PT] Atraso na visualização de pedidos / [EN] Delay in order visualization"
Last updateThis issue has been resolved.
[PT] Os pedidos estão sendo visualizados normalmente. Vamos monitorar pelos próximos minutos para garantir. [EN] The orders are back in sync. We'll be monitoring the app for the next few minutes just in case.
[PT] Estamos com atraso na visualização de pedidos no portal. As transações estão sendo processadas normalmente, mas a sua visualização em relatórios do Portal está atrasada. Estamos implementando uma correção para isto. [EN] We're experiencing delays in order visualization. The transactions are being processed normally, but there's a delay in viewing them in reports in our Dashboard. We've implementing a fix.
Report: "[PT] Atraso na visualização de pedidos no portal / [EN] Order view delay in dashboard"
Last updateThis issue has been resolved. Thank you.
[PT] O dashboard está online e todos os pedidos estão disponíveis. Vamos monitorar pelos próximos minutos para garantir que está tudo funcionando bem. [EN] The dashboard is up-to-date and all orders area available for vieweing. We'll be monitoring the app for the next several minutes to make sure everything is working properly.
[PT] Identificamos um problema que está causando atraso da visualização dos pedidos no portal. Eles estão sendo processados normalmente na API, mas demoram para aparecem no portal para visualização. Já estamos trabalhando para resolver este problema. [EN] We've identified an issue causing delays in viewing data on our dashboard. Orders are being processed normally in the API, but are taking longer to show in reports and dashboards. We're working on a fix.
Report: "[PT] Relatórios sob demanda com problemas / [EN] On demand reports presenting issues"
Last updateThis incident has been resolved. Thank you.
[PT] Subimos uma correção para o problema com os relatórios sob demanda. Vamos monitorar para garantir que novos relatórios estão sendo exportados normalmente. [EN] We've implemented a fix for the on demand reports issues. We'll be monitoring for the next few mins to make sure new reports are being exported properly.
[PT] Identificamos um problema que está gerando relatórios sob demanda vazios (sem informações). Já estamos trabalhando para subir uma correção. [EN] We've identified an issue causing empty on demand reports (no data). We're working on a fix.
Report: "[PT] Problema com alguns relatórios agendados / [EN] Issue with some scheduled reports"
Last update[PT] O problema com os relatórios agendados foi resolvido e eles voltaram a rodar normalmente. Obrigado pela paciência! [EN] The issue with scheduled reports has been solved and they are back to normal. Thank you for your patience!
[PT] Colocamos no ar a correção para trazer de volta os relatórios agendados! Vamos monitorar o estado dos próximos relatórios enviados para garantir que está tudo funcionando corretamente. [EN] We've implemented a fix for the scheduled reports! We'll be monitoring the status of the next outbound reports to make sure everything is working properly.
[PT] Continuamos trabalhando para restaurar a funcionalidade de relatórios agendados. Lembrando que os relatórios gerados sob demanda em nosso Portal estão funcionando normalmente! Obrigado pela compreensão. [EN] We continue to work in bringing back scheduled reports. On-demand reports generated through our Dashboard are working properly. Thank you for your patience.
[PT] Continuamos trabalhando para restabelecer os relatórios agendados. Lembrando que os relatórios gerados sob demanda em nosso Portal estão funcionando normalmente! Obrigado. [EN] We continue to work to reestablish scheduled reports. As a reminder, on-demand reports generated through our Dashboard are working properly! Thank you.
[PT] Estamos com problemas para gerar alguns relatórios agendados, entregues periodicamente por e-mail para clientes com esta funcionalidade. Já identificamos a causa, mas a correção deve se extender por alguns dias. Os relatórios gerados sob demanda em nosso Portal estão funcionando normalmente! Este problema afeta apenas os relatórios agendados. Vamos atualizando conforme tivermos novidades. [EN] We're facing an issue to generate some scheduled reports, delivered periodically over e-mail to customers with this feature. We've identified the cause, but the fix will take a few days still. The on-demand reports generated in our Dashboard are working fine! This only affects scheduled reports. We'll post updates as we progress.
Report: "Instabilidade no Portal / Dashboard unresponsive"
Last updateThis issue has been resolved.
[PT] Identificamos o problema e uma correção já foi aplicada. Vamos monitorar a aplicação pelos próximos minutos. [EN] We've identified the issue and applied a fix. We'll be monitoring the app for the next few minutes.
[PT] Estamos investigando uma instabilidade no portal. [EN] We're investigating an instability in our dashboard.
Report: "API unresponsive"
Last update[PT] Voltamos a operar normalmente e não vemos mais erros intermitentes de handshake de TLS. Nossa equipe irá investigar o caso mais a fundo para entender a causa raiz. Obrigado! [EN] We're operating normally and the intermitent TLS handshake are gone. We'll conduct a deeper investigation on the root cause of this issue. Thank you!
[PT] A correção parece ter funcionado e não vemos mais erros de handshake de TLS ou HTTP 500. Vamos monitorar pelos próximos minutos para garantir a estabilidade. [EN] The fix seems to have works and we're no longer seeing TLS handshake errors or HTTP 500s. We'll be monitoring the app for the next few minutes to make sure everything is working properly.
[PT] Identificamos que parte das requisições estão falhando com erros de terminação de TLS, embora outras continuem chegando normalmente. Subimos uma correção para isto. [EN] We've identified that part of the requests are failing due to TLS termination errors, although other requests are coming through normally. We've implemented a fix.
[PT] Estamos invstigando um problema na API que está causando erros no envio de pedidos. [EN] We're investigating an issue causing HTTP 500 errors in the API.
Report: "Dashboard unresponsive"
Last update[PT] O portal está operando normalmente. Obrigado pela paciência! [EN] The dashboard is operating normally. Thanks again for your patience!
[PT] Estamos monitorando o desempenho do Portal após a correção, mas ele está respondendo normalmente. [EN] We're monitoring the app's performance after the fix, but everything is looking normal again.
[PT] Identificamos a causa da instabilidade e estamos aplicando uma correção. [EN] We've identified the cause of the instability and we're implementing a fix.
[PT] Estamos investigando uma instabilidade no Portal. [EN] We're investigating a stability issue with the Dashboard.
Report: "[EN] Report backlog / [PT] Acúmulo de relatórios"
Last update[PT] Os relatórios estão normalizados. Obrigado pela paciência! [EN] The reports are back to normal. Thank you for your patience!
[PT] A correção foi aplicada e novos relatórios devem ser gerados normalmente. Vamos monitorar o sistema por alguns minutos para garantir que está tudo OK [EN] The fix has been implemented and new reports should be generated normally. We'll be monitoring the app for the next few minutes to make sure everything is OK.
[PT] A ferramenta de geração de relatórios está apresentando problemas para exportação de dados. Já identificamos o problema e estamos aplicando uma correção. [EN] Our reporting tool is failing to export new data. We've identified the issue and we're implementing a fix.
Report: "Dashboard unresponsive"
Last update[PT] O portal tem respondido bem nos últimos minutos; portanto, estamos fechando este incidente. Obrigado. [EN] The app has been responding well for the last few minutes, so we're closing this incident. Thank you.
[PT] A correção parece ter funcionado e o portal está respondendo normalmente. Vamos monitorar pelos próximos minutos para garantir que está tudo bem. [EN] The fix seems to have worked and the dashboard is back to normal. We'll monitor the app for the next several minutes to make sure everything is working properly.
[PT] Identificamos o problema que estava causando a instabilidade no Portal e aplicamos uma correção. [EN] We've identified the issue and we've applied a fix.
[PT] Estamos investigando um problema de instabilidade no Portal. [EN] We're investigating a stability issue with our Dashboard.
Report: "[PT] Problemas de acesso no portal / [EN] Problems accessing the dashboard"
Last update[PT] O portal parece estável depois da correção. Obrigado pela compreensão! [EN] The dashboard looks stable after the fix. Thanks for understanding!
[PT] A correção teve efeito e o portal está operacional novamente. Vamos monitorar pelos próximos minutos para garantir que tudo está funcionando bem. [EN] The fix was successful and the dashboard is back up. We'll continue to monitor for the next several minutes to make sure everything is working.
[PT] Identificamos o problema e estamos implementando uma correção para trazer o Portal de volta. [EN] We've identified the issue and we're implementing a fix.
[PT] Estamos investigando alertas de problemas de acesso do portal. Em breve atualizaremos com novidades. [EN] We're investigating reports of problems with login/access to our dashboard. We'll update as soon as we know more.
Report: "Portal sem resposta / Dashboard unresponsive"
Last update[PT] O Portal está estável desde que subiu a correção. Obrigado! [EN] Dashboard seems stable after the fix. Thanks!
[PT] A correção foi feita e o Portal já está respondendo novamente. Vamos monitorar o serviço por alguns minutos. [EN] A fix was implemented and the Dashboard is responding again. We'll be monitoring the service for a few minutes.
[PT] Identificamos um problema que está causando lentidão e falta de resposta do Portal. Estamos colocando em breve uma solução. [EN] We've identified an issue that is causing our Dashboard to be unresponsive. We're implementing a fix and will post updates soon.
Report: "Tempo de resposta maiores na API de pedidos -- Longer response times in orders API"
Last update[PT] O tempo de resposta voltou aos valores esperados. -- [EN] Response times returned to expected values.
Foram aplicadas mudanças nas configurações da aplicação da API. A expectativa é que os tempos de resposta voltem ao normal nos próximos minutos. Continuaremos monitorando. -- Changes were applied to the configuration of the API. We expect response time to normalize in the next minutes. We will keep monitoring it in the meanwhile.
We are continuing to investigate this issue.
Percebemos que os tempos médios de resposta dos métodos POST e GET da API de pedidos estão maiores que o normal. Estamos investigando o motivo. --- We noticed longer response times in orders API for POST and GET methods. We're currently investigating the issue.
Report: "High error rate of Orders API"
Last updateThe application seems healthy and we're no longer seeing timeouts or HTTP errors. We're closing this incident. Thank you!
The fix is looking good. We'll continue to monitor the application for the next several minutes.
We've identified the issue and have implemented a fix.
We're investigating an issue causing longer response times and errors in our main Orders API. We'll post updates as soon as we know more.
Report: "[PT] Atraso na visualização de dados no Portal / [EN] Delay in Dashboard data visualization"
Last update[PT] Este incidente do atraso na visualização de dados está resolvido. Obrigado! [EN] This incident on data visualization delay has been resolved. Thanks!
[PT] As correções aplicadas pela nossa equipe parecem ter tido efeito e o atraso na visualização de dados foi zerado. Os pedidos estão 100% sincronizados. Manteremos o monitoramento ativo para garantir que se manterá assim até o final deste final de semana. [EN] The fixes implemented by our team seem to have workd and the data visualization delay has been solved. The orders are 100% in sync. We'll keep monitoring the application to makre sure it stays that way throughout the weekend.
[PT] Identificamos um problema que está causando um atraso na visualização de dados no Portal. Os pedidos estão cerca de 10 minutos atrasados entre a hora de chegada do pedido. Isto NÃO afeta a análise dos pedidos e a resposta do nosso sistema, apenas a visualização dos dados no Porta. Nossa equipe está trabalhando para reduzir e eliminar este atraso. Atualizaremos este incidente quando tivermos mais novidades. Obrigado pela compreensão. [EN] We've identified an issue causing data visualization delays in our Dashboard. The orders are roughly 10 minutes behind their processing date. This DOES NOT affect order processing and scoring, just data visualization. Our team is working on reducing and eliminating this delay. We'll update this incident as soon as we have news. Thank you.
Report: "Transactional emails are not being sent"
Last update[EN] The issue has been resolved and the email queue is now online. Our apologies! [BR] O problema foi resolvido e a fila de emails está online. Desculpe!
[EN] We've identified the issue and we've implemented a fix. We're monitoring the email queue closely for the next few minutes. [BR] Encontramos o problema e implementamos uma correção. Estamos monitorando a fila de emails nos próximos minutos.
[EN] We're investigating reports that transactional emails are not being sent by the application. We'll update this as soon as we know more. [BR] Estamos investigando relatos de que emails transacionais não estão sendo enviados pelo sistema. Vamos postar uma atualização assim que tivermos mais informações.
Report: "Longer response times in the Orders API"
Last updateIt looks like everything is back to normal! Thank you and have a great weekend :)
The fix has been implemented and we'll be monitoring the app's performance for the next sereval minutes.
We've identified an issue that is causing longer response times in our Orders API. We're implementing a fix in the next few minutes that should solve this. We'll keep you posted.
Report: "Longer response time in the orders API"
Last updateThe maintenance has finished. APIs' response times are now normalized. The maintenance caused GET and PUT methods of the sandbox environment in the orders API to be unstable between 7:38 UTC and 8:00 UTC unstable.
During a maintenance operation in our database longer response times in the production API, specifically in PUT and POST operations, have been detected.