Guia completo da teoria e prática da validação estatística em Testes A/B para Data Science

Este artigo extenso tem o objetivo de cobrir especificamente a parte da teoria e práticas das etapas de construção de hipóteses e validação estatística de testes A/B. A implementação dos testes e ferramentas necessárias para realização dos testes não serão abordadas.

Se você torturar os dados o suficiente, eles confessarão qualquer coisa.

Ronald H. Coase, um renomado economista britânico.

O teste de hipóteses estatístico é uma ferramenta valiosa para tomar decisões informadas em um ambiente de negócios. Por exemplo, se você está lançando um novo produto e deseja saber se ele é realmente mais popular que o produto anterior, você pode usar um teste de hipóteses para analisar os dados de vendas e determinar se há uma diferença significativa entre os dois. Isso ajuda a tomar decisões estratégicas com base em evidências sólidas.

É uma técnica fundamental na inferência estatística. Ele permite que os pesquisadores avaliem as afirmações com base em dados amostrais e determinem se essas afirmações são estatisticamente significativas. Isso é feito comparando os resultados observados com o que seria esperado ao acaso, usando métodos estatísticos.

Antes de nos aprofundarmos em uma análise completa e detalhada de um teste AB, é crucial realizar uma reflexão. Vamos começar esclarecendo alguns pontos fundamentais:

Testes AB bem projetados são bem-sucedidos em qualquer caso:

Mesmo que o resultado não seja o esperado. O que importa são as aprendizagens; um teste AB bem estruturado nos permite planejar os próximos passos com base nele, novamente, mesmo que o resultado não seja o esperado.

O teste AB funciona como uma ferramenta, não como um obstáculo.

Frequentemente, ouvimos diferentes pessoas reclamando do tempo que os testes AB consomem e como estão atrasando a implementação de mudanças. O problema é que, uma vez que uma nova alteração é implementada, se algo der errado, não conseguimos ter 100% de certeza se é por causa da última mudança ou não.

De fato, mesmo se tudo correr bem, não conseguiremos garantir que isso aconteceu por causa daquela nova alteração. Correlação e causalidade são duas coisas diferentes.

Na teoria, os testes AB giram principalmente em torno das técnicas estatísticas para avaliar diferentes variantes e comprovar ou rejeitar uma hipótese.

No entanto, na vida real, as coisas são um pouco diferentes. De fato, eu diria que em qualquer campo relacionado a dados, um dos principais temas é a limpeza e pré-processamento de dados. Isso é especialmente relevante quando pensamos em como os testes AB reais funcionam.

Por exemplo, aplicar diferentes tratamentos a diferentes usuários em aplicativos móveis ou sites requer o uso de ferramentas especiais, que, embora eficazes, não são infalíveis. Portanto, se não prepararmos os dados levando isso em consideração, quaisquer passos futuros serão prejudicados por erros.

Normalmente, em uma empresa, não teremos todo o tempo que gostaríamos para investigar todas as opções e maneiras diferentes de realizar testes AB.

Além disso, construir um pipeline para automatizar isso leva tempo, se pensarmos agora em adicionar dashboards para que usuários não técnicos e analistas possam analisar os resultados, isso leva ainda mais tempo.

Por causa disso, em muitos casos, eu sugeriria começar com abordagens mais simples. Se realmente não entendermos por que estamos escolhendo uma abordagem mais complexa em vez de uma mais simples, estamos fazendo algo errado.

Como regra básica, a abordagem mais fácil que atende às nossas necessidades é a opção certa.

Testagem A/B

O projeto de experimentos é um dos pilares da prática estatística, com aplicações em praticamente todas as áreas de pesquisa. O objetivo é projetar um experimento a fim de confirmar ou rejeitar uma hipótese.

Os cientistas de dados são confrontados com a necessidade de conduzir experimentos contínuos, especialmente no que diz respeito à interface de usuário e marketing de produto.

Um teste A/B é um experimento com dois grupos para determinar gual dos dois tratamentos, produtos, procedimentos ou semelhantes é o superior. Geralmente, um dos dois tratamentos é o tratamento-padrão existente, ou nenhum tratamento.

Alejando Attento

Se um tratamento-padrão (ou nenhum) for usado, este será chamado de controle. A hipótese mais comum utilizada em testes A/B é a de que o tratamento seja melhor que o controle.

Termos-chave para Testagem A/B

  • Tratamento: Algo (droga, preço, título de site) ao qual um indivíduo é exposto. (Popularmente conhecido como variação, versão ou hipótese)
  • Grupo de tratamento: Um grupo de indivíduos expostos a um tratamento específico.
  • Grupo de controle: Um grupo de indivíduos expostos a nenhum tratamento (ou padrão).
  • Randomização: O processo de atribuir aleatoriamente indivíduos a tratamentos.
  • Individuos: Os itens (visitantes de um site, pacientes etc.) que são expostos aos tratamentos.
  • Estatística de teste: A métrica usada para medir o efeito do tratamento.

Um teste A/B adequado tem indivíduos que podem ser atribuídos a um tratamento ou outro. O indivíduo pode ser uma pessoa, uma semente, um visitante de site, e o objetivo é que o indivíduo seja exposto ao tratamento.

O ideal é que os indivíduos sejam randomizados (atribuídos aleatoriamente) aos tratamentos. Dessa forma, sabe-se que qualquer diferença entre os grupos de tratamento é devido a um dos seguintes motivos:

  • O efeito de diferentes tratamentos.
  • O sorteio no qual os indivíduos são atribuídos a quais tratamentos (ou seja, a atribuição aleatória pode resultar a concentração de indivíduos com melhor desempenho em A ou B).

É necessário também prestar atenção à estatística de teste ou métrica usada para comparar o grupo A ao grupo B. Talvez a métrica mais comum em ciências de dados seja uma variável binária: clicar ou não clicar, comprar ou não comprar, fraude ou não fraude e assim por diante.

O que é uma Hipótese

O processo de experimentos começa com uma hipótese (“a droga A é melhor que a droga-padrão exis-tente”, “o preço A é mais lucrativo que o preço B existente”). O teste (A/B) é um tipo de experimento desenhado para testar a hipótese projetado para trazer resultados conclusivos.

Os dados são coletados e analisados, e então se tira uma conclusão. O termo inferência reflete a intenção de aplicar os resultados do experimento, o que envolve um conjunto limitado de dados, em um processo ou população maiores.

A cadeia clássica da inferência estatística

Uma hipótese é uma ideia que você tem sobre alguma coisa com base no que você já sabe. É como fazer uma previsão educada antes de fazer um experimento ou investigação para ver se a sua ideia está correta. As empresas testam essas hipóteses por meio de pesquisas de mercado, feedback dos clientes e análise de dados para tomar decisões informadas sobre seus negócios.

Na estatística, uma hipótese trata-se de uma suposição quanto ao valor de um parâmetro populacional ou quanto à natureza da distribuição de probabilidade de uma variável populacional.

As hipóteses, sempre irão ser construídas em relação à população e nunca para a amostra, pois não faz sentido gerar uma hipótese para a amostra. A amostra sempre será utilizada para gerar o cálculo para provar a hipótese, e nunca o contrário.

Premissas para construção de uma hipótese:

A construção de uma hipótese estatística segue um processo rigoroso e requer algumas premissas fundamentais para que seja considerada válida. Afinal, se você não consegue comprovar estatisticamente de forma válida sua hipótese, suas conclusões serão meramente intuitivas e sem sustento científico, o que prejudica a tomada de decisões acertivas.

As premissas podem variar dependendo do tipo de teste estatístico que está sendo realizado, mas aqui estão as premissas gerais para a construção de uma hipótese estatística:

prof. fernanda maciel

Variáveis: É importante identificar claramente as variáveis envolvidas na hipótese. Uma variável independente é aquela que é manipulada ou considerada como causa, enquanto uma variável dependente é aquela que é medida ou considerada como resultado.

Teste Estatístico Adequado: Escolher o teste estatístico apropriado com base na natureza das variáveis (por exemplo, teste t para comparação de médias, teste qui-quadrado para associação entre variáveis categóricas, regressão linear para modelagem de relacionamentos etc.).

Distribuição dos Dados: Pressupõe-se que os dados sigam uma distribuição estatística conhecida, geralmente a distribuição normal. Se os dados não atenderem a essa premissa, podem ser necessários ajustes ou testes estatísticos não paramétricos.

Independência das Observações: Cada observação deve ser independente das outras. Isso significa que os dados de uma observação não devem ser influenciados pelos dados de outras observações.

Homogeneidade das Variâncias: Em muitos testes, assume-se que as variâncias nas diferentes categorias ou grupos sendo comparados são aproximadamente iguais. Isso é conhecido como homogeneidade de variâncias.

Tamanho da Amostra Adequado: É importante ter um tamanho de amostra suficientemente grande para que os resultados do teste estatístico sejam confiáveis. O tamanho da amostra depende da natureza dos dados e do poder do teste desejado.

Nível de Significância (α): É necessário escolher um nível de significância antes de realizar o teste. O nível de significância (geralmente definido como 0,05) determina a probabilidade de cometer um erro do Tipo 1 (rejeitar erroneamente a hipótese nula) que será explicado mais a frente.

Poder do Teste (1 – β): O poder do teste é a capacidade do teste de detectar uma diferença ou efeito quando ele realmente existe. Um poder de teste mais alto é desejável.

Plano de Amostragem: Definir claramente como a amostra foi coletada, incluindo o método de seleção e critérios de inclusão/exclusão (por exemplo através de pesquisa online, quais perguntas foram feitas, se as perguntas eram tendenciosas, se a amostra foi selecionada de forma totalmente aleatória dentre outros fatores).

Assunções Específicas: Alguns testes estatísticos podem ter premissas específicas adicionais. Por exemplo, na regressão linear, é importante verificar a multicolinearidade e a normalidade dos resíduos.

Certifique-se de que todas essas premissas sejam atendidas antes de prosseguir com o teste estatístico. Caso contrário, os resultados podem ser comprometidos e as conclusões podem ser inválidas.

Além disso, a construção adequada de hipóteses estatísticas é uma parte fundamental da análise estatística e da pesquisa científica.

Estrutura de uma hipótese

Para formular hipóteses científicas em testes A/B, é necessário seguir alguns princípios:

  1. Clareza e precisão: A hipótese deve ser clara, concisa e facilmente compreensível. Evite linguagem ambígua ou termos vagos.
  2. Falsificabilidade: A hipótese deve ser testável e potencialmente refutável. Ou seja, deve ser possível coletar dados que a contradigam ou sustentem.
  3. Relevância: A hipótese deve ser relevante para o objetivo do teste A/B e para a questão de pesquisa que você está tentando responder.
  4. Especificidade: A hipótese deve ser específica e quantificável, definindo claramente as variáveis e os resultados esperados.
  5. Objetividade: A hipótese deve ser neutra e imparcial, evitando viés ou pré-concepções.

Uma boa estrutura para uma hipótese científica em testes A/B pode seguir o seguinte formato:

Se (condição A), então (resultado B).

Por exemplo:

Se (alterarmos o título da página para X), então (a taxa de conversão aumentará em Y%)

Na hipótese “Se (alterarmos o título da página para X), então (a taxa de conversão aumentará em Y%)”, podemos identificar os seguintes elementos:

1. Condição:Alterarmos o título da página para X“: Essa parte define a condição que será testada. No caso, a variável independente é o título da página, que será alterado para uma nova versão “X”.

2. Resultado:A taxa de conversão aumentará em Y%“: Essa parte define o resultado esperado da mudança. A variável dependente é a taxa de conversão, que se espera que aumente em uma quantidade específica “Y%” como resultado da alteração do título.

3. Relação causal: A palavra “então” indica uma relação causal entre a condição e o resultado. A hipótese sugere que a mudança no título da página causa um aumento na taxa de conversão.

4. Falsificabilidade: A hipótese é falsificável, pois é possível coletar dados que a contradizem. Se a taxa de conversão não aumentar ou até mesmo diminuir após a mudança do título, a hipótese seria refutada.

5. Especificidade: A hipótese é específica, pois define claramente a variável independente (título da página), a variável dependente (taxa de conversão) e o efeito esperado (aumento de Y%).

6. Objetividade: A hipótese é objetiva, pois não apresenta viés ou pré-concepções sobre o resultado da mudança.

Exemplos de hipóteses científicas para testes A/B:

  1. Se (alterarmos o título da página para X), então (a taxa de conversão aumentará em Y%).
  2. Se (personalizarmos o conteúdo da página para cada usuário), então (o tempo médio gasto na página aumentará em Z%).
  3. Se (removermos o formulário de inscrição), então (a taxa de abandono do carrinho diminuirá em W%).
  4. Se (oferecermos um desconto de X%), então (as vendas aumentarão em Y%).
  5. Se (enviarmos um e-mail de acompanhamento após 24 horas), então (a taxa de resposta aumentará em Z%).

Dicas para formular hipóteses:

  • Comece com uma pergunta de pesquisa clara e específica.
  • Realize uma pesquisa inicial para entender o contexto e as variáveis relevantes.
  • Faça brainstorming e gere várias hipóteses possíveis.
  • Avalie a viabilidade e a testabilidade de cada hipótese.
  • Selecione a hipótese mais relevante e com maior potencial de impacto.
  • Refine a hipótese para torná-la clara, específica e quantificável.

Com um processo rigoroso e criterioso, você pode formular hipóteses científicas robustas para seus testes A/B, aumentando as chances de obter resultados válidos e insights valiosos para otimizar suas campanhas e produtos.

Hipótese Nula e Hipótese Alternativa

Para testar um parâmetro amostral, devemos afirmar cuidadosamente um par de hipóteses:

  1. Uma que represente a realidade atual e nula (H0)
  2. Outra que represente seu contraponto (Ha)

Quando uma dessas hipóteses for falsa, a outra deve ser verdadeira

Essas duas hipóteses são chamadas de hipótese nula e hipótese alternativa

Em um teste de hipóteses, sempre partimos do pressuposto que a hipótese nula (H0) é verdadeira. Daí podemos tomar duas decisões:

  1. Aceitar H0 rejeitando Ha
  2. Aceitar Ha rejeitando H0
fonte da imagem: learning about eletronics

Hipótese Nula (H0)

Uma hipótese nula geralmente afirma que não existe relação entre dois fenômenos medidos. Em pesquisa de mercado: “um aumento de 5% no preço de um determinado produto não afetará adversamente as vendas dele”. 

Quando não é possível ou viável observar toda a população, o teste é baseado na observação de uma amostra aleatória da população. Tal parâmetro é frequentemente a média ou o desvio padrão. 

Se quisermos comparar os resultados nos exames de duas amostras aleatórias de homens e mulheres, a hipótese nula poderia ser “que a média do resultado no exame da população masculina do qual a primeira amostra foi retirada é o mesmo que o da amostra de população feminina, da segunda amostra”:

em que:

  • H0 = a hipótese nula
  • μ1 = a média da população 1, e
  • μ2 = a média da população 2.

Alternativamente, a hipótese nula pode postular que as duas amostras são retiradas da mesma população:

Ou seja, a hipótese nula significa que não houve nenhuma diferença entre a amostra de controle e a variação.

A hipótese nula representa a situação padrão, o status quo que você assume ser verdadeiro. A hipótese alternativa é a que você quer confirmar como verdadeira.

Por exemplo, se você está testando uma nova estratégia de marketing, a hipótese nula pode ser que a estratégia antiga é tão eficaz quanto a nova, e a hipótese alternativa é que a nova estratégia é melhor.

Você coleta dados para ver se pode rejeitar a hipótese nula e adotar a nova estratégia com confiança.

Em estatísticas, a hipótese nula (H0) é uma afirmação que assume que não há efeito ou diferença significativa em um conjunto de dados.

Hipótese Alternativa (Ha)

A hipótese alternativa em um contexto de negócios é uma suposição que uma empresa faz ao lançar um novo produto, serviço ou estratégia. Ela representa a ideia de que essa nova abordagem será bem-sucedida e levará a resultados positivos.

Ao coletar dados e realizar análises, a empresa tenta determinar se a hipótese alternativa é válida e se a nova iniciativa é realmente eficaz. Em resumo, a hipótese alternativa é a aposta de que uma mudança ou ação terá um impacto positivo nos negócios.

Na estatística, a hipótese alternativa é uma declaração que desafia a hipótese nula (H0) em um teste de hipóteses. Ela é formulada com base na suposição de que há um efeito, diferença, associação ou relação estatisticamente significativa entre as variáveis em estudo.

Em outras palavras, a hipótese alternativa (geralmente denotada como H1 ou Ha) é a hipótese que um pesquisador ou analista deseja testar e provar. Ela representa a ideia de que há algo acontecendo nos dados que não é devido ao acaso ou ao erro amostral.

A hipótese alternativa é crucial porque direciona o teste estatístico e as análises subsequentes. O objetivo é coletar evidências dos dados que apoiem a hipótese alternativa e refutem a hipótese nula. Isso é feito calculando uma estatística de teste apropriada e comparando-a com um valor crítico ou calculando um valor p para determinar se as diferenças observadas são estatisticamente significativas.

Ela sugere que há uma relação ou efeito de interesse nas variáveis estudadas e é usada para determinar se os resultados dos dados são estatisticamente convincentes o suficiente para rejeitar a hipótese nula.

Significância Estatística e Valores P

Em estatísticas, a significância estatística refere-se à probabilidade de que os resultados de um estudo ou experimento não são devidos ao acaso. Geralmente, é representada por um valor de p.

Se o valor de p for menor que um limite como 0,05 (que é o nosso alpha), os resultados são considerados estatisticamente significativos. Isso sugere que a diferença observada ou o efeito é provavelmente real e não simplesmente um acaso estatístico. Se o resultado estiver além do domínio da variação do acaso, é chamado de estatisticamente significante.

O Valor P (P-value)

Uma vez que entendemos o que é significância estatística, como vamos medi-la? A simples observação de um gráfico não é uma maneira muito precisa de medir a significância estatística. O valor de P é o número que olhamos para compreender a significância estatística de um Teste, o que torna essa validação mais fácil e interessante.

Six Sigma Material

Alpha

Em experimentos A/B, o “alpha” é o nível de significância que usamos para avaliar a diferença entre as variantes A e B. Os típicos niveis de alfa são 5% e 1%. É como uma regra que decidimos antes de começar a testar coisas.

Os estatísticos não gostam da ideia de deixar a definição de um resultado como “muito incomum” para acontecer por acaso a critério dos pesquisadores. Em vez disso, especifica-se com antecedência um limiar, como em “mais extremo que 5% do resultado do acaso (hipótese nula)”. Esse limiar é conhecido como alpha.

Qualquer nível escolhido é uma escolha arbitrária a critério de quem está construindo o teste, o que significa que há 5% de chance de observarmos uma diferença quando não há realmente nenhuma. É uma medida crítica para controlar erros ao tirar conclusões de experimentos.

statisticsfromatoz

Não há nada no processo que garante decisões corretas x% do tempo. Isso acontece porque a questão de probabilidade não é respondida com “qual a probabilidade de isso ter acontecido por acaso?” mas, sim, “dado um modelo de acaso, qual é a probabilidade de haver um resultado tão extremo?”

O Poder do Teste (Observed Power) e o Tamanho da Amostra (Sample Size)

Um alto poder do teste significa que você está mais propenso a identificar padrões, tendências ou relações importantes em seus dados, o que é crucial para tomar decisões de negócios informadas e bem-sucedidas. Em resumo, quanto maior o poder do teste, mais confiável é a análise estatística.

Tamanho do efeito: O tamanho mínimo do efeito que se espera poder detectar em um teste estatístico, por exemplo, “uma melhora de 20% em taxas de clique”.

Poder: A probabilidade de detectar um dado tamanho de efeito com dado tamanho de amostra.

O poder é a probabilidade de detectar um tamanho de efeito especificado com características de amostra especificadas (tamanho e variabilidade).

towards data science

É um conceito crucial em estatística e testes de hipóteses. Ele representa a probabilidade de rejeitar corretamente a hipótese nula quando ela é, de fato, falsa. Em outras palavras, é a probabilidade de encontrar um efeito significativo se esse efeito realmente existir nos dados.

Ele também pode ser entendido como a probabilidade a longo prazo de obter resultados significativos em uma série de estudos de replicação exata. Por exemplo, um poder de 50% significa que um conjunto de 100 estudos é esperado para produzir 50 resultados significativos e 50 resultados não significativos.

Os números exatos em um conjunto real de estudos variarão devido ao erro de amostragem aleatória, da mesma forma que 100 lançamentos de moedas nem sempre produzirão uma divisão de 50:50 entre caras e coroas. No entanto, à medida que o número de estudos aumenta, a porcentagem de resultados significativos se aproximará cada vez mais do poder de um estudo específico.

Relação com o Erro Tipo II:

O poder do teste está inversamente relacionado ao Erro Tipo II (β). Quanto maior o poder do teste, menores são as chances de cometer um erro do Tipo II, que ocorre quando você não rejeita a hipótese nula quando deveria.

Existem várias maneiras de interpretar o poder do teste:

  • O poder é a probabilidade de rejeitar a hipótese nula quando, na verdade, ela é falsa.
  • O poder é a probabilidade de tomar uma decisão correta (rejeitar a hipótese nula) quando a hipótese nula é falsa.
  • O poder é a probabilidade de um teste de significância detectar um efeito que está presente.
  • O poder é a probabilidade de um teste de significância detectar uma discrepância em relação à hipótese nula, caso tal discrepância exista.
  • O poder é a probabilidade de evitar um erro do Tipo II.

Aumentando o Poder do Teste:

É importante observar que falamos sobre o poder (power) do teste de hipóteses quando a hipótese alternativa (Ha) é verdadeira. Se, infelizmente, a hipótese nula (H0) for verdadeira e não houver nenhum efeito real, nenhum grau de poder vai nos ajudar. Como pode ser visto no gráfico, quando H0 é verdadeira, lidamos apenas com o erro do tipo I (alpha).

No entanto, na vida real, não temos ideia se H0 ou Ha é verdadeira, e não podemos alterar a verdade fundamental. Tudo o que podemos controlar é a decisão de rejeitar ou não rejeitar H0, com a esperança de que Ha seja verdadeira. Apesar disso, ainda queremos aumentar nosso poder estatístico, para que tenhamos a melhor chance de detectar um efeito real quando ele de fato existe.

No entanto, o poder não pode fazer nada se H0 for verdadeira e não houver efeito real para ser detectado. Portanto, o aumento do poder é uma estratégia para melhorar nossas chances de encontrar um efeito quando ele está presente, mesmo que não possamos garantir a verdade das hipóteses.

Você pode aumentar o poder do teste aumentando o tamanho da amostra, usando testes mais sensíveis ou refinando a forma como você conduz seu experimento.

Tamanho da Amostra (Sample Size)

Pelo tamanho da amostra, entendemos um grupo de indivíduos selecionados da população em geral e considerado representativo da verdadeira população para aquele estudo específico.

Por exemplo, se quisermos prever como a população em um grupo etário específico reagirá a um novo produto, podemos primeiro testá-lo em um tamanho de amostra que seja representativo da população-alvo. O tamanho da amostra, neste caso, será dado pelo número de pessoas nesse grupo etário que serão pesquisadas.

Em testes A/B, o tamanho da amostra é crítico para a confiabilidade dos resultados. Quanto maior a amostra, mais confiáveis são as conclusões tiradas do experimento. Isso está diretamente relacionado ao poder do teste, que é a probabilidade de detectar uma diferença real quando ela existe. Um tamanho de amostra maior geralmente aumenta o poder do teste.

Starlight Analytics

Um dos passos nos cálculos estatísticos para tamanho de amostra é perguntar: “Um teste de hipótese revelará realmente uma diferença entre os tratamentos A e B?” O resultado de um teste de hipótese (o valor p) depende da real diferença entre os tratamentos A e B.

Depende também da sorte na extração, ou seja, quem é selecionado para os grupos no experimento. Mas faz sentido que quanto maior a diferença real entre os tratamentos A e B, maior a probabilidade de que o experimento a revelará. E quanto menor a diferença, mais dados serão necessários para detectá-la.

O uso mais comum dos cálculos de potência é estimar quão grande será a amostra necessária. Por exemplo, suponha que estejamos observando taxas de clique e testando um novo anúncio contra um anúncio existente. Quantos cliques serão necessários no experimento?

Se estivermos interessados apenas em resultados que mostrem uma enorme diferença (digamos, uma diferença de 50%), uma amostra relativamente pequena poderia ser útil. Se, por outro lado, estamos tentando analisar qualquer diferença por menor que seja, então é necessário ter uma amostra muito maior.

Uma abordagem padrão é estabelecer uma política de que um novo anúncio tem que ser melhor que o existente em certo percentual, digamos 10%, ou então o anúncio existente continuará ativo.

Este objetivo, o “tamanho do efeito”, define o tamanho da amostra. Por exemplo, suponhamos que as taxas de clique atuais sejam de cerca de 1,1%, e estamos buscando um aumento de 10% para 1,21%. Então, temos duas caixas: caixa A com 1,1% de uns (digamos, 110 uns e 9.890 zeros), e caixa B com 1,21% de uns (digamos, 121 uns e 9.879 zeros). Para começar, façamos 300 extrações de cada caixa (isso seria como 300 “impressões” para cada anúncio).

Executando o teste de Hipótese

O primeiro passo no teste de hipóteses é calcular a estatística do teste. A fórmula para a estatística do teste depende de se o desvio padrão da população (σ) é conhecido ou desconhecido.

Teste Z ou Teste T?

Se σ for conhecido, nosso teste de hipóteses é conhecido como teste z e usamos a distribuição z. Se σ for desconhecido, nosso teste de hipóteses é conhecido como teste t e usamos a distribuição t. O uso da distribuição t depende dos graus de liberdade, que é igual ao tamanho da amostra menos um.

Além disso, se o desvio padrão da população σ for desconhecido, o desvio padrão da amostra s é usado em seu lugar. Para alternar de σ conhecido para σ desconhecido, você pode utilizar uma calculadora de teste de hipóteses e selecionar a opção apropriada.

Em resumo, a escolha entre o teste z e o teste t depende de se o desvio padrão da população é conhecido e envolve o uso da distribuição correspondente (z ou t) para calcular a estatística do teste.

Se o desvio padrão da população não for conhecido, o desvio padrão da amostra e os graus de liberdade desempenham um papel importante no cálculo da estatística do teste.

Teste Z (Z-test)

O teste Z, também conhecido como Teste Z de uma amostra, é uma técnica estatística usada para avaliar se a média de uma amostra é estatisticamente significativamente diferente da média populacional conhecida ou da média de uma população de referência. O teste Z é particularmente útil quando a variância populacional é conhecida.

Premissas do Teste Z

Para realizar um teste Z, é necessário que as seguintes premissas sejam atendidas:

Variância Populacional Conhecida ou Grande Tamanho da Amostra: A principal premissa é que você conhece a variância populacional (σ²) ou tem um tamanho de amostra (n) suficientemente grande. Um tamanho de amostra grande é geralmente definido como n > 30, embora essa regra possa variar dependendo do contexto.

Independência das Observações: Cada observação na amostra deve ser independente das outras. Isso significa que o valor de uma observação não deve ser afetado pelo valor de outra observação.

Distribuição Normal ou Amostra Grande: Se a variância populacional é conhecida e o tamanho da amostra não é grande (n ≤ 30), é importante que os dados sigam uma distribuição normal. Se o tamanho da amostra for grande, os dados podem não precisar seguir rigorosamente a distribuição normal devido ao Teorema do Limite Central.

Fórmula do Teste Z:
A estatística do teste Z é calculada usando a seguinte fórmula:

fonte da imagem: Kayli Leung
  • ( Z ) é a estatística do teste Z.
  • ( X ) é a média da amostra.
  • ( μ ) é a média populacional (ou média de referência).
  • ( σ ) é o desvio padrão populacional.
  • ( n ) é o tamanho da amostra.

Tabela Z (Z-table)

A tabela Z, também conhecida como Z-table ou Tabela de Distribuição Normal Padrão, é uma ferramenta fundamental em estatística usada para encontrar probabilidades associadas a uma distribuição normal padrão. A distribuição normal padrão é uma distribuição com média zero (μ = 0) e desvio padrão um (σ = 1).

A tabela Z é usada principalmente em conjunto com o teste Z (ou Teste Z) e outros testes estatísticos que envolvem a distribuição normal padrão. Ela permite que os pesquisadores e analistas encontrem rapidamente a probabilidade associada a um valor de Z específico.

A tabela Z é organizada de forma que as probabilidades são fornecidas para diferentes valores de Z, que correspondem aos desvios padrão acima ou abaixo da média da distribuição normal padrão. A tabela mostra a área sob a curva normal à esquerda de um determinado valor de Z.

Para acessar a tabela existe uma versão em https://www.z-table.com/ ou você pode observá-la abaixo:

Tabela Z com valores positivos:

Z,00,01,02,03,04,05,06,07,08,09
0,00,50000,50400,50800,51200,51600,51990,52390,52790,53190,5359
0,10,53980,54380,54780,55170,55570,55960,56360,56750,57140,5754
0,20,57930,58320,58710,59100,59480,59870,60260,60640,61030,6141
0,30,61790,62170,62550,62930,63310,63680,64060,64430,64800,6517
0,40,65540,65910,66280,66640,67000,67360,67720,68080,68440,6879
0,50,69150,69500,69850,70190,70540,70880,71230,71570,71900,7224
0,60,72580,72910,73240,73570,73890,74220,74540,74860,75180,7549
0,70,75800,76120,76420,76730,77040,77340,77640,77940,78230,7852
0,80,78810,79100,79390,79670,79960,80230,80510,80790,81060,8133
0,90,81590,81860,82120,82380,82640,82890,83150,83400,83650,8389
1,00,84130,84380,84610,84850,85080,85310,85540,85770,85990,8621
1,10,86430,86650,86860,87080,87290,87490,87700,87900,88100,8830
1,20,88490,88690,88880,89070,89250,89440,89620,89800,89970,9015
1,30,90320,90490,90660,90820,90990,91150,91310,91470,91620,9177
1,40,91920,92070,92220,92360,92510,92650,92790,92920,93060,9319
1,50,93320,93450,93570,93700,93820,93940,94060,94180,94300,9441
1,60,94520,94630,94740,94850,94950,95050,95150,95250,95350,9545
1,70,95540,95640,95730,95820,95910,95990,96080,96160,96250,9633
1,80,96410,96490,96560,96640,96710,96780,96860,96930,97000,9706
1,90,97130,97190,97260,97320,97380,97440,97500,97560,97620,9767
2,00,97730,97780,97830,97880,97930,97980,98030,98080,98120,9817
2,10,98210,98260,98300,98340,98380,98420,98460,98500,98540,9857
2,20,98610,98650,98680,98710,98750,98780,98810,98840,98870,9890
2,30,98930,98960,98980,99010,99040,99060,99090,99110,99130,9916
2,40,99180,99200,99220,99250,99270,99290,99310,99320,99340,9936
2,50,99380,99400,99410,99430,99450,99460,99480,99490,99510,9952
2,60,99530,99550,99560,99570,99590,99600,99610,99620,99630,9964
2,70,99650,99660,99670,99680,99690,99700,99710,99720,99730,9974
2,80,99740,99750,99760,99770,99770,99780,99790,99800,99800,9981
2,90,99810,99820,99830,99830,99840,99840,99850,99850,99860,9986
3,00,99870,99870,99870,99880,99880,99890,99890,99890,99900,9990
3,10,99900,99910,99910,99910,99920,99920,99920,99920,99930,9993
3,20,99930,99930,99940,99940,99940,99940,99940,99950,99950,9995
3,30,99950,99950,99960,99960,99960,99960,99960,99960,99960,9997
3,40,99970,99970,99970,99970,99970,99970,99970,99970,99980,9998
3,50,99980,99980,99980,99980,99980,99980,99980,99980,99980,9998
3,60,99980,99990,99990,99990,99990,99990,99990,99990,99990,9999
3,70,99990,99990,99990,99990,99990,99990,99990,99990,99990,9999
3,80,99990,99990,99990,99990,99990,99990,99991,00001,00001,0000
3,91,00001,00001,00001,00001,00001,00001,00001,00001,00001,0000
Os scores positivos na tabela Z correspondem aos valores que são maiores do que a média.

Tabela Z com valores negativos:

Z,00,01,02,03,04,05,06,07,08,09
-3,90,000050,000050,000040,000040,000040,000040,000040,000040,000030,00003
-3,80,000070,000070,000070,000060,000060,000060,000060,000050,000050,00005
-3,70,000110,000100,000100,000100,000090,000090,000080,000080,000080,00008
-3,60,000160,000150,000150,000140,000140,000130,000130,000120,000120,00011
-3,50,000230,000220,000220,000210,000200,000190,000190,000180,000170,00017
-3,40,000340,000320,000310,000300,000290,000280,000270,000260,000250,00024
-3,30,000480,000470,000450,000430,000420,000400,000390,000380,000360,00035
-3,20,000690,000660,000640,000620,000600,000580,000560,000540,000520,00050
-3,10,000970,000940,000900,000870,000840,000820,000790,000760,000740,00071
-3,00,001350,001310,001260,001220,001180,001140,001110,001070,001040,00100
-2,90,001870,001810,001750,001690,001640,001590,001540,001490,001440,00139
-2,80,002560,002480,002400,002330,002260,002190,002120,002050,001990,00193
-2,70,003470,003360,003260,003170,003070,002980,002890,002800,002720,00264
-2,60,004660,004530,004400,004270,004150,004020,003910,003790,003680,00357
-2,50,006210,006040,005870,005700,005540,005390,005230,005080,004940,00480
-2,40,008200,007980,007760,007550,007340,007140,006950,006760,006570,00639
-2,30,010720,010440,010170,009900,009640,009390,009140,008890,008660,00842
-2,20,013900,013550,013210,012870,012550,012220,011910,011600,011300,01101
-2,10,017860,017430,017000,016590,016180,015780,015390,015000,014630,01426
-2,00,022750,022220,021690,021180,020680,020180,019700,019230,018760,01831
-1,90,028720,028070,027430,026800,026190,025590,025000,024420,023850,02330
-1,80,035930,035150,034380,033620,032880,032160,031440,030740,030050,02938
-1,70,044570,043630,042720,041820,040930,040060,039200,038360,037540,03673
-1,60,054800,053700,052620,051550,050500,049470,048460,047460,046480,04551
-1,50,066810,065520,064260,063010,061780,060570,059380,058210,057050,05592
-1,40,080760,079270,077800,076360,074930,073530,072150,070780,069440,06811
-1,30,096800,095100,093420,091760,090120,088510,086910,085340,083790,08226
-1,20,115070,113140,111230,109350,107490,105650,103830,102040,100270,09853
-1,10,135670,133500,131360,129240,127140,125070,123020,121000,119000,11702
-1,00,158660,156250,153860,151510,149170,146860,144570,142310,140070,13786
-0,90,184060,181410,178790,176190,173610,171060,168530,166020,163540,16109
-0,80,211860,208970,206110,203270,200450,197660,194890,192150,189430,18673
-0,70,241960,238850,235760,232700,229650,226630,223630,220650,217700,21476
-0,60,274250,270930,267630,264350,261090,257850,254630,251430,248250,24510
-0,50,308540,305030,301530,298060,294600,291160,287740,284340,280960,27760
-0,40,344580,340900,337240,333600,329970,326360,322760,319180,315610,31207
-0,30,382090,378280,374480,370700,366930,363170,359420,355690,351970,34827
-0,20,420740,416830,412940,409050,405170,401290,397430,393580,389740,38591
-0,10,460170,456200,452240,448280,444330,440380,436440,432510,428580,42465
-0,00,500000,496010,492020,488030,484050,480060,476080,472100,468120,46414
Escore negativos na tabela Z correspondem aos valores que são menores do que a média.
fonte da imagem: z-table.com

A tabela Z é composta por duas colunas principais:

Valor Z: Esta coluna lista os valores de Z, que representam o número de desvios padrão acima (positivos) ou abaixo (negativos) da média zero.

Área Sob a Curva Normal: Esta coluna fornece a área sob a curva normal à esquerda do valor Z correspondente. Essa área representa a probabilidade acumulada de obter um valor menor que Z em uma distribuição normal padrão.

Para usar a tabela Z, você segue os seguintes passos:

  1. Localize o valor Z calculado na coluna “Valor Z” da tabela Z.
  2. Leia a probabilidade associada a esse valor Z na coluna “Área Sob a Curva Normal”. Essa probabilidade representa a chance de obter um valor menor que Z em uma distribuição normal padrão.

Exemplo de Z-score para 1.14

A tabela Z é uma ferramenta essencial para realizar testes de hipóteses, calcular intervalos de confiança e realizar análises estatísticas que envolvem a distribuição normal. Ela permite que os analistas determinem rapidamente a probabilidade de eventos específicos ocorrerem em uma distribuição normal padrão, o que é fundamental para tomada de decisões baseadas em dados e inferência estatística.

Hoje em dia, com o uso de software estatístico, a consulta à tabela Z é menos comum, mas ainda é uma base importante para entender os conceitos estatísticos subjacentes.

Após calcular a estatística do teste Z, você pode compará-la a um valor crítico de Z (obtido a partir de tabelas de distribuição normal padrão) ou usar software estatístico para encontrar o valor p associado. Use esta tabela Z, também conhecida como tabela de escores Z, tabela de distribuição normal padrão e gráfico de valores Z, para encontrar um escore Z.

Em posse do número de Z basta acessar a tabela de Z e buscar o número do Z-score da seguinte forma:

O valor p representa a probabilidade de obter a estatística do teste Z observada (ou mais extrema) sob a hipótese nula.

  • Se o valor p for menor que o nível de significância escolhido (geralmente 0,05), você rejeitará a hipótese nula (H0) em favor da hipótese alternativa (H1). Isso significa que há evidências estatísticas para a diferença entre a média da amostra e a média populacional (ou média de referência).
  • Se o valor p for maior que o nível de significância, você não terá evidências estatísticas suficientes para rejeitar a hipótese nula, o que sugere que não há diferença estatisticamente significativa.

O Teste Z é uma ferramenta útil para análises comparativas, como testar se a média de um grupo de amostra difere da média populacional ou da média de outro grupo. No entanto, é importante lembrar que as premissas do teste devem ser atendidas para que os resultados sejam confiáveis. Se as premissas não forem atendidas, outras técnicas estatísticas podem ser necessárias.

Cauda inferior (lower tail), cauda superior (upper tail) ou bicaudal (two-tailed)

Em seguida, a estatística do teste é usada para realizar o teste de hipóteses, usando ou a abordagem do valor-p (p-value) ou a abordagem do valor crítico (critical value).

Os passos específicos adotados em cada abordagem dependem principalmente da forma do teste de hipóteses: cauda inferior (lower tail), cauda superior (upper tail) ou bicaudal (two-tailed). A forma do teste pode ser facilmente identificada olhando para a hipótese alternativa (Ha).

Aqui estão as diretrizes gerais para identificar a forma do teste com base na hipótese alternativa:

  • Se a hipótese alternativa (Ha) contém um sinal de menor que (<), é um teste de cauda inferior (lower tail). Nesse caso, estamos interessados em provar que a estatística do teste é menor do que um determinado valor crítico.
  • Se a hipótese alternativa (Ha) contém um sinal de maior que (>), é um teste de cauda superior (upper tail). Aqui, estamos tentando mostrar que a estatística do teste é maior do que um valor crítico específico.
  • Se a hipótese alternativa (Ha) contém um sinal de desigualdade diferente de (), é um teste bicaudal (two-tailed). Isso significa que estamos interessados em detectar qualquer diferença significativa, seja menor ou maior do que um valor crítico.

Com base nessa identificação da forma do teste, podemos prosseguir com a abordagem do valor-p, onde a estatística do teste é usada para calcular um valor-p, ou com a abordagem do valor crítico, onde a estatística do teste é comparada com um valor crítico predefinido.

Em resumo, a escolha entre as abordagens de valor-p e valor crítico depende da forma do teste, que, por sua vez, é determinada pela hipótese alternativa. A análise estatística é conduzida de acordo com a forma específica do teste.

Abordagem utilizando o valor de p (p-value)

O valor de p é uma medida estatística que avalia a probabilidade de obter resultados tão extremos ou mais extremos do que os observados, supondo que a hipótese nula seja verdadeira. É como um indicador de quão confiáveis são os dados que você está analisando.

Se o valor de p for baixo, isso sugere que os resultados são estatisticamente significativos e podem ser confiáveis para tomar decisões de negócios. Se for alto, pode indicar que os resultados podem ter ocorrido por acaso e devem ser interpretados com cautela.

fonte da imagem: Umair Khan

Na abordagem do valor-p (p-value), a estatística do teste é usada para calcular um valor-p. A interpretação do valor-p depende do tipo de teste de hipóteses:

Teste de Cauda Inferior (Lower Tail): Se o teste for de cauda inferior, o valor-p é a probabilidade de obter um valor para a estatística do teste pelo menos tão pequeno quanto o valor observado na amostra. Em outras palavras, é a probabilidade de observar resultados tão extremos ou mais extremos do que os observados, assumindo que a hipótese nula (H0) seja verdadeira.

fonte da imagem: statssolver

Teste de Cauda Superior (Upper Tail): Se o teste for de cauda superior, o valor-p é a probabilidade de obter um valor para a estatística do teste pelo menos tão grande quanto o valor observado na amostra. Novamente, isso implica que estamos avaliando a probabilidade de observar resultados tão extremos ou mais extremos, sob a suposição de que H0 seja verdadeira.

fonte da imagem: statssolver

Teste Bicaudal (Two-Tailed): Em um teste bicaudal, o valor-p é a probabilidade de obter um valor para a estatística do teste tão improvável quanto o valor observado na amostra, seja na cauda inferior ou superior da distribuição. Isso significa que estamos considerando a probabilidade de observar diferenças significativas em ambas as direções, em relação à hipótese nula.

fonte da imagem: statssolver

Em todos os casos, um valor-p baixo (geralmente menor que um nível de significância predefinido, como 0,05) sugere que temos evidências estatísticas para rejeitar a hipótese nula (H0). Quanto menor o valor-p, mais forte é a evidência contra a H0. Por outro lado, um valor-p alto indica que não temos evidências suficientes para rejeitar H0.

O valor-p é uma medida importante para tomar decisões estatísticas em testes de hipóteses e é usado para determinar se os resultados observados são estatisticamente significativos.

Tomada de decisão na abordagem do p-value

Na abordagem do valor-p (p-value), a tomada de decisão em relação à hipótese nula (H0) é baseada na comparação do valor-p com o nível de significância (α) predefinido:

  • Se o valor-p for menor ou igual ao nível de significância (α), rejeita-se a hipótese nula (H0). Isso indica que há evidências estatísticas suficientes para suportar a hipótese alternativa (Ha).
  • Se o valor-p for maior que o nível de significância (α), não se rejeita a hipótese nula (H0). Nesse caso, não há evidências estatísticas significativas para apoiar Ha, e a H0 é mantida.

Essa abordagem não muda, independentemente de ser um teste de cauda inferior, cauda superior ou teste bicaudal. A decisão de rejeitar ou não a hipótese nula depende exclusivamente da relação entre o valor-p e o nível de significância.

Abordagem utilizando o valor crítico (critical value):

O nível de significância (α) é usado para calcular o valor crítico.

Em um teste de cauda inferior, o valor crítico é o valor da estatística do teste que fornece uma área de α na cauda inferior da distribuição amostral da estatística do teste.

fonte da imagem: statssolver

Em um teste de cauda superior, o valor crítico é o valor da estatística do teste que fornece uma área de α na cauda superior da distribuição amostral.

fonte da imagem: statssolver

Em um teste bicaudal, existem dois valores críticos, um na cauda inferior e outro na cauda superior, cada um fornecendo uma área de α/2 em suas respectivas caudas da distribuição amostral.

fonte da imagem: statssolver

Após calcular os valores críticos, você compara a estatística do teste obtida na amostra com esses valores críticos. Se a estatística do teste for maior que o valor crítico na cauda superior ou menor que o valor crítico na cauda inferior (ou fora dos dois valores críticos em um teste bicaudal), você rejeita a hipótese nula (H0). Caso contrário, você não rejeita H0.

Tomada de decisão na abordagem do valor crítico

Na abordagem do valor crítico (critical value), a decisão sobre a hipótese nula (H0) depende da comparação entre o valor crítico e a estatística do teste obtida na amostra. A decisão é tomada de acordo com a forma específica do teste de hipóteses:

Teste de Cauda Inferior (Lower Tail): Se o teste for de cauda inferior, você compara a estatística do teste com o valor crítico na cauda inferior da distribuição amostral. Se a estatística do teste for menor ou igual ao valor crítico, rejeita-se a hipótese nula (H0).

Teste de Cauda Superior (Upper Tail): Se o teste for de cauda superior, você compara a estatística do teste com o valor crítico na cauda superior da distribuição amostral. Se a estatística do teste for maior ou igual ao valor crítico, rejeita-se a hipótese nula (H0).

Teste Bicaudal (Two-Tailed): Em um teste bicaudal, você compara a estatística do teste com os valores críticos na cauda inferior e na cauda superior da distribuição amostral. Se a estatística do teste for menor ou igual ao valor crítico na cauda inferior OU maior ou igual ao valor crítico na cauda superior (ou seja, fora da região entre os dois valores críticos), rejeita-se a hipótese nula (H0).

Essa abordagem difere da abordagem do valor-p, onde a decisão de rejeitar ou não a hipótese nula é baseada na comparação entre o valor-p e o nível de significância (α), independentemente da forma do teste.

No método do valor crítico, a decisão depende do relacionamento direto entre a estatística do teste e os valores críticos especificados com base no nível de significância e na forma do teste. É importante escolher a abordagem apropriada com base nas características do teste de hipóteses que está sendo conduzido.

Erros em Hipóteses

Em testes de hipóteses estatísticas, os erros são situações nas quais as conclusões tiradas a partir dos dados amostrais podem estar incorretas. Existem dois tipos principais de erros que podem ocorrer em testes de hipóteses: erro do Tipo 1 (também chamado de erro alfa) e erro do Tipo 2 (também chamado de erro beta).

fonte: flowingdata

Erro do Tipo 1 (Erro Alfa):

O erro do Tipo 1 ocorre quando uma hipótese nula verdadeira é erroneamente rejeitada. Em outras palavras, é um falso positivo.

Probabilidade de Ocorrência: A probabilidade de cometer um erro do Tipo 1 é geralmente representada pelo nível de significância (alfa, α) escolhido para o teste. Um valor comum para α é 0,05, o que significa que há uma chance de 5% de cometer um erro do Tipo 1 ao rejeitar a hipótese nula.

Consequências: Rejeitar erroneamente uma hipótese nula verdadeira pode levar a conclusões incorretas e ações inadequadas.

Erro do Tipo 2 (Erro Beta):

O erro do Tipo 2 ocorre quando uma hipótese nula falsa não é rejeitada. Em outras palavras, é um falso negativo.

Probabilidade de Ocorrência: A probabilidade de cometer um erro do Tipo 2 é representada pela letra beta (β).

Consequências: Não rejeitar a hipótese nula quando ela é falsa significa que não detectamos um efeito real que existe nos dados. Isso pode levar a conclusões incorretas de que não há diferença ou efeito quando na verdade existe.

Erro do Tipo 1 (Erro Alfa) envolve a rejeição incorreta de uma hipótese nula verdadeira e é controlado pelo nível de significância (α) escolhido para o teste.

Erro do Tipo 2 (Erro Beta) envolve a não rejeição incorreta de uma hipótese nula falsa e é influenciado pelo poder do teste (1 – β).

Ao planejar um teste de hipóteses, você deve tentar equilibrar a minimização do erro do Tipo 1 (para evitar conclusões precipitadas) e a minimização do erro do Tipo 2 (para evitar a não detecção de efeitos reais).

Isso envolve escolher um nível de significância apropriado e, se possível, aumentar o tamanho da amostra para aumentar o poder do teste e reduzir o erro do Tipo 2. O poder do teste é a capacidade do teste de detectar uma diferença ou efeito quando ele realmente existe.

Conclusão

Realizar um teste de hipóteses é fundamental porque eles oferecem um método científico e estatístico para tomada de decisões informadas. Através desses testes, as pessoas podem avaliar a validade de suposições e fundamentar suas conclusões em evidências objetivas.

No contexto dos negócios, o testes de hipóteses desempenham um papel crucial na otimização de estratégias, na identificação de oportunidades de melhoria e na mitigação de riscos.

Esse teste capacita empresas a tomar decisões baseadas em dados, seja para lançar um novo produto, ajustar preços, aprimorar processos ou direcionar campanhas de marketing, garantindo uma abordagem mais precisa e eficaz para alcançar metas e maximizar o sucesso no mercado competitivo.

Referências:

Compartilhe nas redes sociais:
Alexandre Polselli
Alexandre Polselli

Escrevo artigos e desenvolvo projetos nas minhas áreas de maior interesse: Data Science, Data Analytics, Estatística e Probabilidade, Inteligência Artificial e Machine Learning.

Artigos: 26

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *