Evidências de teste

Resultado comercial também depende de prova. Se o comprador não consegue confiar no que foi testado, ele paga com retrabalho, tempo perdido, decisões ruins e correções que deveriam ter sido evitadas.

Os testes do portfolio NoDrift foram executados em estrutura, comportamento de startup, fonte da verdade, controle de aprovação, tratamento de correções, limites de privacidade, segurança de instalação, geração de evidência e startup em estilo de comprador. Esta matriz pública resume os resultados sem expor registros privados de build nem caminhos locais.

52/52Checagens expandidas aprovadas
100/100Média expandida posterior
95.83Média anterior de quatro níveis
10/10Primeira passagem Claude Code
Resumo de pontuação seguro para o público

Várias rodadas, não uma passagem simples

Rodadas anteriores de benchmark pontuaram na faixa alta dos noventa, incluindo 98/100 e 96/100, com uma execução estática de quatro níveis tendo média de 95,83/100. Depois de correções e ajustes manuais, a suíte expandida estática e de simulação Demonstrator/Basic passou em 52/52 checagens com média de 100/100 sob a regra desse scorecard.

Para o comprador, essa evidência protege o comprador porque reduz a chance de pagar por promessa sem teste, afirmação exagerada, instalação confusa ou governança que parece boa no texto mas falha no uso.

10Níveis de prontidão do Basic Codex checados
52Testes estáticos/de simulação expandidos aprovados
98Item de correção pontuado anteriormente
96Item de correção pontuado anteriormente

Respostas de evidência ligadas às histórias

Estes blocos explicam por que links das histórias chegam aqui. Cada resposta aponta para a situação exata da história e para o tipo de evidência que NoDrift exige antes de aceitar uma afirmação como segura.

Evidência aplicada à história de Marcus e Ethan

“Mapeamento de evento errado” não é resposta suficiente.

Problema da história: Os assistentes produziram teorias polidas para a falha entre dashboard e relatórios, incluindo mapeamento de evento errado, mas nenhuma teoria partiu de fonte da verdade verificada.

Resposta NoDrift: Uma teoria de correção só pode avançar quando a sessão mostra qual fonte real foi checada, qual evento existe, qual campo foi comparado, qual teste sustenta a hipótese e qual parte continua sem prova.

Resultado esperado: A equipe não perde horas testando uma explicação elegante que apenas combina com uma estrutura falsa. Primeiro vem evidência de fonte; depois vem correção.

Ver trecho da históriaVer regra de afirmação
Evidência aplicada à história de Lena

Texto de produção precisa corresponder ao que existe.

Problema da história: A IA reescreveu o dashboard como se o portal já estivesse pronto para produção, prometendo troca segura de documentos, rastreamento em tempo real e operações automatizadas.

Resposta NoDrift: Antes de linguagem pública ou de cliente, NoDrift exige separar construído, simulado, planejado e não aprovado. O texto só pode afirmar o que a evidência do projeto sustenta.

Resultado esperado: A página não cria promessas comerciais falsas, e Lena não precisa gastar a tarde desfazendo linguagem que parecia profissional, mas não era verdadeira.

Ver trecho da históriaVer regra de afirmação
Evidência aplicada à história de Lena

Construído, mock, planejado e aprovado são estados diferentes.

Problema da história: Lena precisou parar de programar para descobrir o que realmente existia, o que era mock, o que era plano e o que o cliente havia aprovado.

Resposta NoDrift: NoDrift mantém esses estados separados durante o trabalho. Uma sessão governada não deve misturar rascunho, protótipo, promessa, plano futuro e entrega real no mesmo status.

Resultado esperado: O comprador consegue ver por que a governança reduz retrabalho: decisões e evidências ficam ligadas ao estado real do projeto, não ao texto mais convincente da conversa.

Ver trecho da históriaVer verdade do projeto

Gráfico de pontuação

Suíte expandida posterior
100/100
Correção anterior BGT-008
98/100
Correção anterior BGT-009
96/100
Execução anterior de quatro níveis
95.83/100

Trilhas do portfolio

Trilha master Codex

Demonstrator e Basic

  • Basic Codex checado em 10 níveis de prontidão.
  • Inventário de fonte e caminhos do mapa de instalação verificados.
  • Rótulos de rascunho voltados ao comprador corrigidos.
  • Afirmações de auditoria e evidência sem suporte foram estreitadas.
  • Manifesto de entrega do comprador adicionado e verificado.
  • Simulação de instalação local limpa aprovada.
  • Teste ao vivo de startup Basic em estilo de comprador aprovado.
  • Codex Demonstrator foi reduzido a partir do Basic para a amostra aprovada de comportamento em cinco arquivos.
  • O comportamento do Demonstrator para resposta direta, diretiva delimitada e aprovação por go foi retestado ao vivo e aprovado.
Trilha Claude Code

Checagens iniciais e expandidas

  • A primeira passagem estática/de instalação do Claude Code Basic pontuou 10/10.
  • Arquivos obrigatórios presentes.
  • Arquivos de configurações analisados corretamente.
  • Nenhum hook Basic ativo enviado.
  • Nenhum subagente de projeto Basic enviado.
  • Termos de fonte de startup presentes.
  • Travas de aprovação e ação externa presentes.
  • Cópia em pasta limpa preservou arquivos obrigatórios.
  • Orientação de instalação bloqueou sobrescrita cega de arquivos de startup existentes.
  • Afirmações de prontidão sem suporte estavam ausentes.
  • Design específico para Claude checado contra a nota do adaptador.

Rodadas de teste do portfolio

Fase do teste O que foi checado Resultado registrado Limite público
Simulação estática/de instalação inicial do Claude Code BasicArquivos obrigatórios, parsing de configurações, nenhum hook ativo, nenhum subagente de projeto, termos de startup, travas de aprovação, comportamento de cópia limpa, segurança de conflito de instalação, segurança de afirmações e design específico para Claude.10/10 aprovadosEvidência estática e de simulação de instalação.
Execução estática anterior de quatro níveisEstrutura de protótipo e prontidão de controle de Demonstrator, Basic, Extended e Teams antes das correções posteriores.Média 95,83/100Execução estática anterior, não evidência final de prontidão de venda por si só.
Itens anteriores de correção de benchmarkTestes específicos de guardrail de benchmark após a passagem de correção identificada nos registros de trabalho.98/100 and 96/100Evidência granular de benchmark, separada da passagem posterior de 52 testes.
Simulação estática expandida Demonstrator/BasicEstrutura, configurações, startup, fonte da verdade, travas de aprovação, privacidade, afirmações de prontidão, segurança de instalação, memória, correções, continuidade, pacote de testador e saída de evidência.52/52 aprovados; Média 100/100Evidência local estática/de simulação, não uma afirmação de comportamento ao vivo em todos os apps.
Revisão de prontidão de venda do Basic CodexInventário de fonte, caminhos de instalação, redação para comprador, limites de afirmação, controles de aprovação, comportamento de mapa de tópicos, protocolo de erro, manifesto de entrega, simulação de instalação e comportamento de startup.10 níveis de prontidão checadosEvidência de prontidão de venda da fonte e startup de comprador para Codex Basic.
Startup do Codex Basic em estilo de compradorTeste Codex em projeto novo usando o comando de startup e os arquivos de portfolio instalados.PassedComportamento de startup Codex observado para Basic.
Startup do Codex Demonstrator em estilo de compradorRespostas diretas, próximas diretivas delimitadas, travas de aprovação por go e intake de descrição do projeto.PassedComportamento de startup Codex observado para Demonstrator.
Passagem de prontidão com ajustes manuaisRótulos voltados ao comprador, manifesto de entrega, limpeza de afirmações sem suporte, redação público/privado, redução do Demonstrator, preservação da trava de go e redação final de prontidão.CompletedCorrigiu os portfolios master Demonstrator e Basic para a posição atual de prontos para venda/prontos para venda da fonte.

Scorecard expandido de 52 testes

Este scorecard usou PASS = 100, PARTIAL = 50 e FAIL = 0. Todo teste listado recebeu pontuação PASS na execução estática/de simulação expandida posterior.

IDCategoryNome do testeScore
CC-SIM-001EstruturaRaiz candidata existe100/100
CC-SIM-002EstruturaArquivos raiz obrigatórios existem100/100
CC-SIM-003EstruturaPastas obrigatórias de nível superior existem100/100
CC-SIM-004EstruturaPastas de instrução obrigatórias existem100/100
CC-SIM-005EstruturaRegras obrigatórias existem100/100
CC-SIM-006EstruturaSkills obrigatórias existem100/100
CC-SIM-007EstruturaMódulos de governança obrigatórios existem100/100
CC-SIM-008EstruturaTemplates obrigatórios de memória do projeto existem100/100
CC-SIM-009ConfiguraçõesConfigurações do projeto são analisadas corretamente100/100
CC-SIM-010ConfiguraçõesExemplo de configurações locais é analisado corretamente100/100
CC-SIM-011ConfiguraçõesConfigurações de permissão existem100/100
CC-SIM-012ConfiguraçõesNegações de publicação externa e push existem100/100
CC-SIM-013ConfiguraçõesNenhuma orientação de bypass ou modo automático existe100/100
CC-SIM-014HooksBasic não envia hooks ativos100/100
CC-SIM-015SubagentsBasic não envia subagentes de projeto100/100
CC-SIM-016StartupArquivo de startup exige confirmação da raiz100/100
CC-SIM-017StartupArquivo de startup lê memória do projeto100/100
CC-SIM-018StartupComportamento de startup existe100/100
CC-SIM-019Source fidelityRegra de fidelidade à fonte existe100/100
CC-SIM-020Source fidelityRegistro de fontes exclui memória do chat100/100
CC-SIM-021AprovaçãoRegra de go delimitado existe100/100
CC-SIM-022AprovaçãoRegra de acesso-não-é-permissão existe100/100
CC-SIM-023AprovaçãoAções externas têm trava100/100
CC-SIM-024Public/privadoRegra público/privado existe100/100
CC-SIM-025ReadinessTrava de afirmação de prontidão existe100/100
CC-SIM-026VerificationRegra de verificação existe100/100
CC-SIM-027Install safetyConflito com arquivo de startup existente tem trava100/100
CC-SIM-028Install safetyConflito com configurações existentes tem trava100/100
CC-SIM-029Install safetyConflito com pasta de memória existente tem trava100/100
CC-SIM-030MemoryTemplate de Living Topic Map tem as seções obrigatórias100/100
CC-SIM-031MemoryTemplate de estado do projeto tem limites100/100
CC-SIM-032CorrectionsTemplate de lições ativas existe100/100
CC-SIM-033CorrectionsRegistro master de correções existe100/100
CC-SIM-034ContinuidadeOrientação de compactação e handoff existe100/100
CC-SIM-035Common protocolReferência ao protocolo comum está presente onde apropriado100/100
CC-SIM-036Tier clarityStatus candidato está claramente rotulado100/100
CC-SIM-037Claim safetyAfirmações de prontidão sem suporte estão ausentes100/100
CC-SIM-038Internal leakagePacote para amigo exclui memória privada de build100/100
CC-SIM-039Clean copyCópia de instalação limpa preserva arquivos obrigatórios100/100
CC-SIM-040Conflict simulationConflito com arquivo de startup é detectado pela documentação100/100
CC-SIM-041SkillsChecklist de startup existe100/100
CC-SIM-042SkillsSkill de checkpoint protege continuidade100/100
CC-SIM-043SkillsSkill de checagem de fonte protege autoridade da fonte100/100
CC-SIM-044Package mapMapa de pacote lista superfícies importantes100/100
CC-SIM-045Git hygieneRegras de ignore protegem arquivos locais/privados100/100
CC-SIM-046Tester packetPasta de pacote de testador existe100/100
CC-SIM-047Tester packetREADME do testador existe100/100
CC-SIM-048Tester packetChecklist de CLI existe100/100
CC-SIM-049Tester packetTemplate de relatório de resultado existe100/100
CC-SIM-050Tester packetLimites do testador são explícitos100/100
CC-SIM-051Tester packetPacote não está zipado100/100
CC-SIM-052EvidênciaExecutor de testes grava evidência legível por máquina100/100

O que as pontuações significam

As pontuações mostram passagens repetidas estáticas, de simulação, correção e startup de comprador. Não são edições casuais de texto nem checagens pontuais de pacote de prompts.

O que elas não afirmam

A evidência pública não afirma comportamento garantido de IA, controle rígido do LLM, certificação de segurança ou verificação ao vivo em todos os apps suportados.

Por que isso importa

NoDrift é governança de workspace no lado da recepção. Os testes focam se o portfolio dá à IA fonte da verdade, limites de aprovação, caminhos de correção, continuidade e disciplina de afirmações mais claros antes que o usuário dependa de um resultado de projeto.