Evidências de teste

Resultado comercial também depende de prova. Se o comprador não consegue confiar no que foi testado, ele paga com retrabalho, tempo perdido, decisões ruins e correções que deveriam ter sido evitadas.

Os testes do portfolio NoDrift foram executados em estrutura, comportamento de startup, fonte da verdade, controle de aprovação, tratamento de correções, limites de privacidade, segurança de instalação, geração de evidência e startup em estilo de comprador. Esta matriz pública resume os resultados sem expor registros privados de build nem caminhos locais.

52/52Checagens expandidas aprovadas

100/100Média expandida posterior

95.83Média anterior de quatro níveis

10/10Primeira passagem Claude Code

Resumo de pontuação seguro para o público

Várias rodadas, não uma passagem simples

Rodadas anteriores de benchmark pontuaram na faixa alta dos noventa, incluindo 98/100 e 96/100, com uma execução estática de quatro níveis tendo média de 95,83/100. Depois de correções e ajustes manuais, a suíte expandida estática e de simulação Demonstrator/Basic passou em 52/52 checagens com média de 100/100 sob a regra desse scorecard.

Para o comprador, essa evidência protege o comprador porque reduz a chance de pagar por promessa sem teste, afirmação exagerada, instalação confusa ou governança que parece boa no texto mas falha no uso.

10Níveis de prontidão do Basic Codex checados

52Testes estáticos/de simulação expandidos aprovados

98Item de correção pontuado anteriormente

96Item de correção pontuado anteriormente

Respostas de evidência ligadas às histórias

Estes blocos explicam por que links das histórias chegam aqui. Cada resposta aponta para a situação exata da história e para o tipo de evidência que NoDrift exige antes de aceitar uma afirmação como segura.

Evidência aplicada à história de Marcus e Ethan

“Mapeamento de evento errado” não é resposta suficiente.

Problema da história: Os assistentes produziram teorias polidas para a falha entre dashboard e relatórios, incluindo mapeamento de evento errado, mas nenhuma teoria partiu de fonte da verdade verificada.

Resposta NoDrift: Uma teoria de correção só pode avançar quando a sessão mostra qual fonte real foi checada, qual evento existe, qual campo foi comparado, qual teste sustenta a hipótese e qual parte continua sem prova.

Resultado esperado: A equipe não perde horas testando uma explicação elegante que apenas combina com uma estrutura falsa. Primeiro vem evidência de fonte; depois vem correção.

Ver trecho da história Ver regra de afirmação

Evidência aplicada à história de Lena

Texto de produção precisa corresponder ao que existe.

Problema da história: A IA reescreveu o dashboard como se o portal já estivesse pronto para produção, prometendo troca segura de documentos, rastreamento em tempo real e operações automatizadas.

Resposta NoDrift: Antes de linguagem pública ou de cliente, NoDrift exige separar construído, simulado, planejado e não aprovado. O texto só pode afirmar o que a evidência do projeto sustenta.

Resultado esperado: A página não cria promessas comerciais falsas, e Lena não precisa gastar a tarde desfazendo linguagem que parecia profissional, mas não era verdadeira.

Ver trecho da história Ver regra de afirmação

Evidência aplicada à história de Lena

Construído, mock, planejado e aprovado são estados diferentes.

Problema da história: Lena precisou parar de programar para descobrir o que realmente existia, o que era mock, o que era plano e o que o cliente havia aprovado.

Resposta NoDrift: NoDrift mantém esses estados separados durante o trabalho. Uma sessão governada não deve misturar rascunho, protótipo, promessa, plano futuro e entrega real no mesmo status.

Resultado esperado: O comprador consegue ver por que a governança reduz retrabalho: decisões e evidências ficam ligadas ao estado real do projeto, não ao texto mais convincente da conversa.

Ver trecho da história Ver verdade do projeto

Gráfico de pontuação

Suíte expandida posterior

100/100

Correção anterior BGT-008

98/100

Correção anterior BGT-009

96/100

Execução anterior de quatro níveis

95.83/100

Trilhas do portfolio

Trilha master Codex

Demonstrator e Basic

Basic Codex checado em 10 níveis de prontidão.
Inventário de fonte e caminhos do mapa de instalação verificados.
Rótulos de rascunho voltados ao comprador corrigidos.
Afirmações de auditoria e evidência sem suporte foram estreitadas.
Manifesto de entrega do comprador adicionado e verificado.
Simulação de instalação local limpa aprovada.
Teste ao vivo de startup Basic em estilo de comprador aprovado.
Codex Demonstrator foi reduzido a partir do Basic para a amostra aprovada de comportamento em cinco arquivos.
O comportamento do Demonstrator para resposta direta, diretiva delimitada e aprovação por go foi retestado ao vivo e aprovado.

Trilha Claude Code

Checagens iniciais e expandidas

A primeira passagem estática/de instalação do Claude Code Basic pontuou 10/10.
Arquivos obrigatórios presentes.
Arquivos de configurações analisados corretamente.
Nenhum hook Basic ativo enviado.
Nenhum subagente de projeto Basic enviado.
Termos de fonte de startup presentes.
Travas de aprovação e ação externa presentes.
Cópia em pasta limpa preservou arquivos obrigatórios.
Orientação de instalação bloqueou sobrescrita cega de arquivos de startup existentes.
Afirmações de prontidão sem suporte estavam ausentes.
Design específico para Claude checado contra a nota do adaptador.

Rodadas de teste do portfolio

Fase do teste	O que foi checado	Resultado registrado	Limite público
Simulação estática/de instalação inicial do Claude Code Basic	Arquivos obrigatórios, parsing de configurações, nenhum hook ativo, nenhum subagente de projeto, termos de startup, travas de aprovação, comportamento de cópia limpa, segurança de conflito de instalação, segurança de afirmações e design específico para Claude.	10/10 aprovados	Evidência estática e de simulação de instalação.
Execução estática anterior de quatro níveis	Estrutura de protótipo e prontidão de controle de Demonstrator, Basic, Extended e Teams antes das correções posteriores.	Média 95,83/100	Execução estática anterior, não evidência final de prontidão de venda por si só.
Itens anteriores de correção de benchmark	Testes específicos de guardrail de benchmark após a passagem de correção identificada nos registros de trabalho.	98/100 and 96/100	Evidência granular de benchmark, separada da passagem posterior de 52 testes.
Simulação estática expandida Demonstrator/Basic	Estrutura, configurações, startup, fonte da verdade, travas de aprovação, privacidade, afirmações de prontidão, segurança de instalação, memória, correções, continuidade, pacote de testador e saída de evidência.	52/52 aprovados; Média 100/100	Evidência local estática/de simulação, não uma afirmação de comportamento ao vivo em todos os apps.
Revisão de prontidão de venda do Basic Codex	Inventário de fonte, caminhos de instalação, redação para comprador, limites de afirmação, controles de aprovação, comportamento de mapa de tópicos, protocolo de erro, manifesto de entrega, simulação de instalação e comportamento de startup.	10 níveis de prontidão checados	Evidência de prontidão de venda da fonte e startup de comprador para Codex Basic.
Startup do Codex Basic em estilo de comprador	Teste Codex em projeto novo usando o comando de startup e os arquivos de portfolio instalados.	Passed	Comportamento de startup Codex observado para Basic.
Startup do Codex Demonstrator em estilo de comprador	Respostas diretas, próximas diretivas delimitadas, travas de aprovação por go e intake de descrição do projeto.	Passed	Comportamento de startup Codex observado para Demonstrator.
Passagem de prontidão com ajustes manuais	Rótulos voltados ao comprador, manifesto de entrega, limpeza de afirmações sem suporte, redação público/privado, redução do Demonstrator, preservação da trava de go e redação final de prontidão.	Completed	Corrigiu os portfolios master Demonstrator e Basic para a posição atual de prontos para venda/prontos para venda da fonte.

Scorecard expandido de 52 testes

Este scorecard usou PASS = 100, PARTIAL = 50 e FAIL = 0. Todo teste listado recebeu pontuação PASS na execução estática/de simulação expandida posterior.

ID	Category	Nome do teste	Score
CC-SIM-001	Estrutura	Raiz candidata existe	100/100
CC-SIM-002	Estrutura	Arquivos raiz obrigatórios existem	100/100
CC-SIM-003	Estrutura	Pastas obrigatórias de nível superior existem	100/100
CC-SIM-004	Estrutura	Pastas de instrução obrigatórias existem	100/100
CC-SIM-005	Estrutura	Regras obrigatórias existem	100/100
CC-SIM-006	Estrutura	Skills obrigatórias existem	100/100
CC-SIM-007	Estrutura	Módulos de governança obrigatórios existem	100/100
CC-SIM-008	Estrutura	Templates obrigatórios de memória do projeto existem	100/100
CC-SIM-009	Configurações	Configurações do projeto são analisadas corretamente	100/100
CC-SIM-010	Configurações	Exemplo de configurações locais é analisado corretamente	100/100
CC-SIM-011	Configurações	Configurações de permissão existem	100/100
CC-SIM-012	Configurações	Negações de publicação externa e push existem	100/100
CC-SIM-013	Configurações	Nenhuma orientação de bypass ou modo automático existe	100/100
CC-SIM-014	Hooks	Basic não envia hooks ativos	100/100
CC-SIM-015	Subagents	Basic não envia subagentes de projeto	100/100
CC-SIM-016	Startup	Arquivo de startup exige confirmação da raiz	100/100
CC-SIM-017	Startup	Arquivo de startup lê memória do projeto	100/100
CC-SIM-018	Startup	Comportamento de startup existe	100/100
CC-SIM-019	Source fidelity	Regra de fidelidade à fonte existe	100/100
CC-SIM-020	Source fidelity	Registro de fontes exclui memória do chat	100/100
CC-SIM-021	Aprovação	Regra de go delimitado existe	100/100
CC-SIM-022	Aprovação	Regra de acesso-não-é-permissão existe	100/100
CC-SIM-023	Aprovação	Ações externas têm trava	100/100
CC-SIM-024	Public/privado	Regra público/privado existe	100/100
CC-SIM-025	Readiness	Trava de afirmação de prontidão existe	100/100
CC-SIM-026	Verification	Regra de verificação existe	100/100
CC-SIM-027	Install safety	Conflito com arquivo de startup existente tem trava	100/100
CC-SIM-028	Install safety	Conflito com configurações existentes tem trava	100/100
CC-SIM-029	Install safety	Conflito com pasta de memória existente tem trava	100/100
CC-SIM-030	Memory	Template de Living Topic Map tem as seções obrigatórias	100/100
CC-SIM-031	Memory	Template de estado do projeto tem limites	100/100
CC-SIM-032	Corrections	Template de lições ativas existe	100/100
CC-SIM-033	Corrections	Registro master de correções existe	100/100
CC-SIM-034	Continuidade	Orientação de compactação e handoff existe	100/100
CC-SIM-035	Common protocol	Referência ao protocolo comum está presente onde apropriado	100/100
CC-SIM-036	Tier clarity	Status candidato está claramente rotulado	100/100
CC-SIM-037	Claim safety	Afirmações de prontidão sem suporte estão ausentes	100/100
CC-SIM-038	Internal leakage	Pacote para amigo exclui memória privada de build	100/100
CC-SIM-039	Clean copy	Cópia de instalação limpa preserva arquivos obrigatórios	100/100
CC-SIM-040	Conflict simulation	Conflito com arquivo de startup é detectado pela documentação	100/100
CC-SIM-041	Skills	Checklist de startup existe	100/100
CC-SIM-042	Skills	Skill de checkpoint protege continuidade	100/100
CC-SIM-043	Skills	Skill de checagem de fonte protege autoridade da fonte	100/100
CC-SIM-044	Package map	Mapa de pacote lista superfícies importantes	100/100
CC-SIM-045	Git hygiene	Regras de ignore protegem arquivos locais/privados	100/100
CC-SIM-046	Tester packet	Pasta de pacote de testador existe	100/100
CC-SIM-047	Tester packet	README do testador existe	100/100
CC-SIM-048	Tester packet	Checklist de CLI existe	100/100
CC-SIM-049	Tester packet	Template de relatório de resultado existe	100/100
CC-SIM-050	Tester packet	Limites do testador são explícitos	100/100
CC-SIM-051	Tester packet	Pacote não está zipado	100/100
CC-SIM-052	Evidência	Executor de testes grava evidência legível por máquina	100/100

O que as pontuações significam

As pontuações mostram passagens repetidas estáticas, de simulação, correção e startup de comprador. Não são edições casuais de texto nem checagens pontuais de pacote de prompts.

O que elas não afirmam

A evidência pública não afirma comportamento garantido de IA, controle rígido do LLM, certificação de segurança ou verificação ao vivo em todos os apps suportados.

Por que isso importa

NoDrift é governança de workspace no lado da recepção. Os testes focam se o portfolio dá à IA fonte da verdade, limites de aprovação, caminhos de correção, continuidade e disciplina de afirmações mais claros antes que o usuário dependa de um resultado de projeto.

Pontuações e checagens