Historical record of incidents for Mercos
Report: "Indisponibilidade Total"
Last updateIdentificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários. Estamos investigando para encontrar a raiz do problema.
Report: "Indisponibilidade Total"
Last updateIdentificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários. Estamos investigando para encontrar a raiz do problema.
Report: "Indisponibilidade Total"
Last updateA solução elaborada foi efetiva e o sistema está operando normalmente.
Implementamos uma correção e estamos monitorando o restabelecimento dos serviços.
Identificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários. Estamos investigando para encontrar a raiz do problema.
Report: "Indisponibilidade Total"
Last updateIdentificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários, iniciando às 18h42. O problema foi solucionado às 19h12.
Report: "Indisponibilidade Parcial"
Last updateA solução elaborada foi efetiva e o sistema está operando normalmente.
Liberamos uma solução e estamos monitorando se o problema foi resolvido.
Identificamos a causa do problema e estamos implementando uma correção.
Identificamos uma indisponibilidade na api externa quando acessada pela rota antiga de integração: integracao.meuspedidos.com.br. Estamos investigando o problema. Integrações que acessam a api pela rota app.mercos.com não foram afetados por este problema e continuam funcionando normalmente.
Report: "Degradação de desempenho"
Last updateIdentificamos uma degradação no desempenho do sistema online, devido ao alto volume de requisições, entre às 17:10h e 18h. A situação já está normalizada.
Report: "Indisponibilidade Total"
Last updateA solução elaborada foi efetiva e o sistema está operando normalmente.
O sistema voltou a funcionar e estamos monitorando a situação.
Identificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários. Estamos investigando para encontrar a raiz do problema.
Report: "Indisponibilidade Total"
Last updateIdentificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários, iniciando às 18h15. O problema foi solucionado às 18h28. O sistema está operando normalmente.
Report: "Indisponibilidade do Site e Sistema online Mercos"
Last updateO site da Mercos e o sistema online ficaram fora do ar por cerca de 20 minutos. Já corrigirmos o problema e o sistema está operacional novamente. Os aplicativos para iOS, Android e a API de integração não foram afetados em nenhum momento.
Report: "Indisponibilidade Parcial"
Last updateA liberação de uma atualização fez com que a tela de detalhes do pedido deixasse de funcionar corretamente. Voltamos o sistema para uma versão anterior enquanto investigamos a causa raiz do problema. O sistema já está funcionando normalmente.
Report: "Indisponibilidade Total"
Last updateA solução elaborada foi efetiva e o sistema está operando normalmente.
Identificamos que o problema foi causado por uma falha de um dos componentes da nossa infraestrutura. Liberamos uma solução e estamos monitorando o sistema até que ele normalize.
Identificamos uma indisponibilidade total do sistema, afetando todas as rotas e todos os usuários. Estamos investigando para encontrar a raiz do problema.
Report: "Instabilidade Parcial"
Last updateNosso monitoramento identificou uma instabilidade, afetando lentidão para alguns usuários em algumas rotas. O problema começou às 14:55h e foi resolvido às 15:15h. O sistema já está operando normalmente.
Report: "Atraso no envio de emails"
Last updateO envio de email foi totalmente reestabelecido e não apresenta atrasos.
Novos emails estão sendo enviados em poucos minutos. Emails enviados anteriormente ainda estão sendo processados e estão com maior atraso.
Os emails ainda estão com certo atraso, mas estamos buscando acelerar estes envios junto com nosso parceiro.
Os emails mais antigos já foram enviados, estamos buscando formas de acelerar os envios dos emails pendentes e normalizar o serviço o mais rápido possível.
Estamos com atrasos no envio de emails feito por dentro do Mercos. Nós utilizamos um serviço especializado em envios de email que está passando por uma instabilidade. Estamos monitorando junto com eles este problema e assim que tivermos novidades nós atualizaremos aqui. Por enquanto recomendamos que os pedidos sejam enviados de forma manual, fazendo o download do PDF e então enviando através do seu próprio email. Desculpe-nos o inconveniente.
Report: "Instabilidade Parcial"
Last updateO sistema está funcionando normalmente.
Identificamos uma instabilidade no sistema, fazendo com que alguns relatórios apresentem informações desatualizadas aos usuários. A sincronização com os aplicativos mobile também foi afetada. Estamos trabalhando na correção.
Report: "Indisponibilidade Parcial"
Last updateUma manutenção no banco de dados causou uma indisponibilidade parcial do sistema, afetando alguns usuários em algumas rotas. A duração do evento foi de 10 minutos.
Report: "Instabilidade Parcial"
Last updateNosso monitoramento identificou uma instabilidade, que causou lentidão para alguns usuários em algumas rotas. O problema já foi solucionado.
Report: "Instabilidade Parcial"
Last updateDurante uma atualização de banco de dados o sistema ficou temporariamente e parcialmente instável, afetando lentidão para alguns usuários em algumas rotas. Corrigimos o problema rapidamente.
Report: "Indisponibilidade parcial"
Last updateDurante um procedimento de atualização o sistema ficou impossibilitado de fazer a adição de novos produtos ou atualização de produtos existentes. O restante do sistema continuou funcionando normalmente. O sistema voltou ao normal às 23:00h.
Report: "Instabilidade no ambiente de produção"
Last updateO sistema retornou ao estado de performance usual
Atualizamos o componente e estamos monitorando o sistema que deve retornar à performance normal nos próximos minutos
Um componente da nossa infraestrutura cloud foi impactado com uma indisponibilidade temporária. Estamos atualizando o componente para que ele volte ao ar.
A instabilidade está causando com que o sistema fique indisponível em alguns casos Continuamos investigando a causa do problema e preparando uma solução.
A instabilidade está causando uma lentidão generalizada no sistema. Estamos investigando a causa e preparando uma solução.
Report: "Indisponibilidade Parcial dos Sistemas"
Last updatePor volta das 22:16 os sistemas Web, Ecommerce e API Mobile ficaram indisponíveis por um problema de rede. A API Externa para os parceiros de integração apenas sofreu uma degradação de desempenho. Às 22:42 os sistemas voltaram a operar normalmente.
Report: "Problemas de Performance em Produção"
Last updateResolvemos os problemas pendentes e os sistemas estão funcionando normalmente.
Fizemos uma série de otimizações que parecem ter amenizado bastante o problema. Durante o fim do dia (26 abril) e a noite, o sistema se comportou normalmente. Vamos continuar monitorando o desempenho ao longo do dia de hoje.
Conseguimos fazer uma melhoria que tornou o sistema utilizável novamente, no entanto, ele ainda está com a performance afetada e continuamos as investigações.
Estamos investigando um problema de performance na plataforma WEB. Pode estar impactando outros sistemas (B2B/API).
Report: "Indisponibilidade em Produção"
Last updateAplicamos uma correção no código para minimizar o impacto na próxima vez que o serviço de arquivos estáticos ficar indisponível.
Aparentemente nosso serviço teve uma indisponibilidade temporária, estamos monitorando e tentando verificar a causa.
Estamos verificando uma falha no nosso serviço de distribuição de estáticos que está impactando o funcionamento do sistema.
Report: "APIs Indisponíveis"
Last updateSistemas estão de volta a normalidade.
Por conta da indisponibilidade, o desempenho da aplicação como um todo estará ligeiramente pior até que a sincronização dos aplicativos terminem.
Por volta das 02:00 até as 8:40 tivemos um problema de falta de recursos ocasionado por uma falha do nosso lado. Isso tornou indisponíveis as APIs: de Integração, Ecommerce e Mobile. Realizamos a correção e estamos monitorando.
Report: "Indisponibilidade Temporária"
Last updateNosso provedor de Cloud (AWS) teve uma indisponibilidade de cerca de 30 minutos e por consequência nossas aplicações "online" pararam de funcionar. O app mobile continuou funcionando, mas sem poder sincronizar durante aquele período.
Report: "Lentidão nos Relatórios e Visualização de Pedidos"
Last updateTivemos uma sobrecarga no uso de serviços de relatoria o que impactou principalmente os indicadores da página inicial e demais relatórios. O sistema voltou a normalidade por volta das 18 horas. Estamos reavaliando o uso de recursos para que isso não se repita no próximo mês.
Report: "API Externa com desempenho impactado"
Last updateOs sistemas já voltaram a normalidade. Um determinado IP fez uso excessivo da API gerando instabilidade no sistema, estamos apurando os detalhes para tomar ações para que isso não volte a ocorrer.
Estamos investigando um aumento de erros 5xx e lentidão na API Externa.
Report: "Headers de resposta da API Mercos ficaram com texto em minúsculo."
Last updateAtualizamos um dos proxies que temos na aplicação para a coleta de métricas, e este fez com que os headers de retorno ficassem minúsculos. Devido a esta alteração, algumas integrações, que não estavam tratando o Header HTTP conforme o especificado em https://www.ietf.org/rfc/rfc2616.txt (4.2 Message Headers) tiveram problemas. O que faremos para evitar este problema no futuro: - Embora já seja mencionado o uso do protocolo HTTP na nossa documentação, vamos enfatizar a informação de que a leitura dos headers HTTP devem ser case insensitive; - Criaremos um teste automatizado para evitar que este tipo de alteração aconteça novamente. O que recomendamos que os integradores façam: - Implementações de integrações não deveriam reenviar requisições quando as respostas da Mercos forem de sucesso, mesmo que o lado do integrador falhe. Isso evitará duplicações no caso de falha no código do integrador. - Tratem os Headers HTTP de forma case insensitive, conforme o protocolo HTTP. Este problema ficou ativo por volta das 11:00 até as 19:30.
Report: "Problemas de Desempenho"
Last updatePor causa de uma falha em um dos mecanismos de logging do sistema, alguns ambientes em situações específicas ficaram com desempenho degradado. Isso ocorreu principalmente (mas não apenas) para clientes da API Externa que ainda usam a rota 'integracao.meuspedidos.com.br'. Enfatizamos a importância de utilizar a nova rota: app.mercos.com. Os sistemas ficaram cerca de 3 horas com desempenho degradado.
Report: "API Legada (integracao.meuspedidos.com.br) indisponível."
Last updateAtualizações na nossa infraestrutura, fizeram que o ambiente legado: integracao.meuspedidos.com.br ficasse indisponível por cerca de 30 minutos. Reiteramos os parceiros para atualizarem para a nova rota: https://app.mercos.com/ para evitarem futuros problemas, lembrando também que eventualmente esta rota será completamente descontinuada.
Report: "Indisponibilidade Total"
Last updateO Sistema esteve indisponível completamente no período de 23:15:23 e 23:38:37, horário de Brasília. A indisponibilidade foi causada pelo componente de persistência do sistema.
Report: "Problemas de Conectividade"
Last updateTivemos um problema em um procedimento interno que causou a indisponibilidade temporária.
Os sistemas voltaram a operar normalmente, vamos investigar a causa.
Verificamos um problema de rede interno que pode ter deixado o sistema indisponível. Estamos investigando.
Report: "API de Integração instável"
Last updateO problema foi resolvido e as taxas de erro voltaram a normalidade. Ao que indica tivemos um problema de networking com o nosso provedor cloud, vamos entrar em contato com eles para validar o que pode ser feito no futuro para que isso não se repita.
Estamos verificando que alguns clientes estão recebendo erros 5xx na API. Aparentemente, isso está afetando mais aqueles que usam a rota antiga: "https://integracao.meuspedidos.com.br", em vez da nova "https://app.mercos.com". Recomendamos migrar para rota nova de qualquer forma, mas estamos investigando.
Report: "Lentidão no Sistema"
Last updateFizemos as correções nas duas operações lentas, relacionadas às consultas de Comissões e Faturamento.
Encontramos dois pontos que poderiam estar ocasionando a lentidão, já corrigimos um deles e estamos avaliando o segundo ponto.
Alguns clientes estão reportando uma grande lentidão ao usar o sistema. Estamos investigando a causa.
Report: "Processos assíncronos como envio de e-mail e exportação de planilhas paralisados"
Last updateA atualização na versão de uma das nossas bibliotecas de tarefas assíncronas desencadeou o problema. Voltamos a versão do código e vamos rever essa atualização.
Estamos investigando um problema nos nossos workers de processos assíncronos. Serviços como envio de e-mail e exportação de planilhas estão inoperantes.
Report: "Documentação da API Indisponível"
Last updateO link do apiary (https://app.mercos.com/api) está novamente disponível.
O parceiro que utilizamos para hospedar a documentação da API está indisponível e estamos acompanhando o eventual retorno do serviço.
Report: "Indisponibilidade eventual"
Last updateIncidente Resolvido.
Após a verificação de grandes perdas de pacote para um dos centros de dados o tráfego foi redirecionado para um segundo centro de dados. Após alguns minutos de testes intensivos de carga e sem erros, concluímos que o sandbox voltou a se comportar de maneira adequada.
Uma configuração de reparo foi efetuada na saída de internet do ambiente e o mesmo não apresentou mais erros após esta ação.
O Sandbox tem apresentado instabilidade desde às 16:40PM e estamos investigando as possíveis causas.
Report: "Envio de Pedidos por E-mails Indisponível"
Last updateUma alteração na nossa rotina de envio de pedidos por e-mail fez com que e-mails enviados a partir de 18:19 do dia 15 de Abril, sempre gerassem um erro. As 09:30 reenviamos os e-mails que falharam para esse erro específico durante este período. Nossos alertas estavam configurados para verificar e-mails que estivessem pendente de envio, como houve erros e o sistema interpretou como uma situação "normal de falha", não fomos notificados antes. Vamos reconfigurar os alertas para que isso não ocorra novamente.
Report: "Indisponibilidade dos sistemas de produção"
Last updateAplicamos a correção definitiva.
O sistema está estável e estamos preparando as correções.
Voltamos a versão e tudo está funcionando corretamente.
Uma alteração na forma como fazemos as publicações de versões nos nossos servidores desencadeou um problema no acesso do sistema. Estamos voltando a versão antiga para investigar melhor.
Report: "Lentidão no Envio de E-mails"
Last updateOs envios foram normalizados. Estaremos publicando a correção definitiva nos próximos dias.
Um problema no nosso monitoramento nas filas de envio de e-mail fez que o mecanismo de autoscaling desse processo de envio não funcionasse. Com isso, um número muito grande de e-mails ficaram pendentes de envio, ocasionando a lentidão no envio. Identificamos o problema e estamos fazendo uma correção. O envio de e-mail será normalizado em instantes.
Report: "Indisponibilidade total das plataformas Web, Integração e B2B"
Last updateHouve uma paralização completa nos nossos serviços, ocasionada por uma publicação de um novo recurso de monitoramento. Havia uma falha em um dos parâmetros levando o sistema a ficar indisponível. Voltamos a versão anterior do sistema imediatamente, mas isso acabou gerando uma indisponibilidade de cerca de 5 minutos.
Report: "Instabilidade nos ambientes de produção"
Last updateConcluímos a manutenção e os ambientes voltaram a funcionar normalmente.
Identificamos um problema de performance durante uma manutenção no nosso banco de dados. Os sistemas ficaram indisponíveis brevemente e o cadastro de pedidos esta temporariamente indisponível, mas devem normalizar em breve. Estamos acompanhando.
Report: "Alta latência/taxa de erros na API de Integração"
Last update2 dos servidores que processavam as requisições da API de Integração pararam de funcionar e o nosso healthcheck não conseguiu identificar este cenário. Removemos os servidores defeituosos e vamos trabalhar numa melhoria no healthcheck para que este erro não se repita.
Nosso monitoramento identificou um aumento nas taxas de latência e erro nas APIs de Integração. Isso parece não estar afetando todos os usuários. Estamos investigando.
Report: "Aumento no número de erros nas APIs"
Last updateSubstituímos os servidores responsáveis pela manutenção da API. Ao que tudo indica, uma falha de hardware.
Nosso monitoramento identificou uma quantidade anormal de erros 5xx nas API de Integração e Mobile. Estamos investigando.
Report: "Instabilidade no banco de dados"
Last updateNosso banco de dados ficou sobrecarregado causando lentidão em todos os sistemas da Mercos. Um bug na versão do nosso banco de dados, fez com que o handshake das conexões SSL ao banco utilizassem muito mais recursos que o normal. A medida que novos servidores eram criados para compensar a latência no serviço, mais conexões foram geradas, fazendo com que o problema só piorasse.