“Y que hay emociones que producen más engagement que las demás.”

El Enemigo Conoce el Sistema, Marta Peirano

7 - Probabilidade e Estatística

7.1 - Eventos.

Suponha um experimento de jogar uma moeda para o alto, pegá-la do chão e anotar o resultado. As possíveis opções ao pegarmos a moeda são: cara e coroa. Não podemos prever o resultado de antemão, mas sabemos que será apenas uma das duas opções dadas. Dizemos então que S é o conjunto de todos os resultados possíveis de um experimento. Nesse caso $S=\{ cara, coroa \}$. Como uma opção é escolhida entre duas, a *probabilidade* de tirarmos cara ou coroa é 1/2=0.5. S é chamado de espaço amostral. Um elemento de S é chamado de ponto amostral. Se $E\subseteq S$ , dizemos que $E$ é evento.

Como nos casos anteriores de conjuntos, temos que $\emptyset\in S$, é o chamado evento impossível ou nulo. As seguintes propriedades também são verdadeiras:

  1. $A\cup B$ é um evento que ocorre sse A acontece e/ou B acontece;
  2. $A\cap B$ é um evento que ocorre sse A ocorre e B também ocorre;
  3. $A^c$, o complemento de A, também escrito como $\bar{A}$ , é o evento que acontece quando A não ocorre.

Dizemos que dois eventos são mutualmente exclusivos quando sua intersecção é vazia, ou seja, $A\cap B=\emptyset$.

Dizemos que dois eventos A e B são independentes se a ocorrência de um não afeta a ocorrência do outro, ou seja, $P(A\cap B)=P(A)P(B)$, isso implica em $P(B|A)=P(B)$ e $P(A|B)=P(A)$.

7.2 - Experimentos Aleatórios.

Um experimento aleatório ocorre sempre que observamos algo com incerteza. No exemplo anterior, da moeda, os resultados podem ser listados, mas não previstos em cada tentativa. O mesmo vale para jogar dados. Quando definimos uma probabilidade para cada ponto amostral no espaço S, estamos na verdade definindo uma função que recebe o ponto e devolve sua probabilidade de ocorrência. A função probabilidade P tem as seguintes propriedades:

P1 - Para cada evento A, $0\leq P(A)\leq 1$

P2 - $P(S) =1$

P3 - Se os eventos A e B são mutuamente exclusivos, então: $P(A\cup B)=P(A)+P(B)$

Sabemos que se A aconteceu com probabilidade p então o complementar de A tem a probabilidade 1-p. Ainda temos as seguintes propriedades para analisar:

  1. $P(\emptyset)=0$
  2. $P(A\setminus B)=P(A)-P(A\cap B)$
  3. Se $A\subseteq B$ então $P(A)\leq P(B)$

Princípio da adição: Para quaisquer eventos A e B $P(A\cup B)=P(A)+P(B)-P(A\cup B)$

Probabilidade condicional: Suponha S um espaço equiprovável, com A e E eventos. Então:

$$ P(A|E)=\frac{P(A\cap E)}{P(E)}=\frac{n(A\cap E)}{n(E)} $$

Multiplicando os dois lados por $P(A)>0$, obtemos o teorema multiplicativo da probabilidade condicional: $P(A\cap B)=P(A)P(B|A)$

7.3 - Análise Exploratória de Dados.

Quando fazemos levantamos de dado para fins de análise de padrões, podemos dividir as variáveis encontradas em dois tipos:

  1. Qualitativas: qualidades ou atributos. Podem ser divididas em nominais (não possui ordem) e ordinal (existe uma ordem);
  2. Quantitativas: Números resultantes de contagem. Podem Ser dividas entre discretas (podem ser enumeradas) e contínuas (não podem ser enumeradas).

Podemos converter variáveis qualitativas em quantitativas. Um tipo importante de variável qualitativa é chamada de dicotômica, onde só temos duas opções possíveis, sucesso e fracasso.

Na medida que os valores de determinadas medidas são agrupados e separados segundo a frequência de aparição, algumas notações são úteis para análise. Dado n o número total de observações:

  1. $f_i=\frac{n_i}{n}$ , frequência relativa, $n_i$ frequência absoluta;
  2. intervalo de classe: $a\vdash b$ ;
  3. intervalo único $\Delta_i$
  4. $f_i/\Delta _i$ ou $n_i/\Delta _i$ , densidade de frequência.

Histograma: Gráfico de barras contíguas, com bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência.

7.4 - Descrição Estatística dos Dados.

Quando resumimos os dados com gráficos queremos apresentar informações agrupadas que sejam úteis para análise de padrões. Uma outra forma de se encontrar valores representativos é através de variáveis estatísticas dos dados, como por exemplo, moda, média e mediana. São chamadas de medidas de posição.

Moda: É a realização mais frequência em um conjunto de dados;

Mediana: Elemento que ocupa posição central nas observações, com dados ordenados;

$md(X)=\frac{n+1}{2}$, se n ímpar
$md(X)=\frac{n/2+(n/2+1)}{2}$, se n par

Média: Soma das observações divida pelo número delas.

$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$

$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}n_ix_i$

$\bar{x}=\sum_{i=1}^{n}f_ix_i$

Entretanto, as medidas de posição não nos informam como os dados estão distribuídos. Para isso utilizados medidas de dispersão. Olhando para a média, podemos analisar o desvio médio e a variância. Eles indicam qual será o erro de se utilizar a média em cada elemento do conjunto de observação.

Desvio médio: $dm(X)=\frac{\sum_{i=1}^{n}|x_i-\bar{x}|}{n}=\frac{\sum_{i=1}^{k}n_i|x_i-\bar{x}|}{n}=\sum_{i=1}^{k}f_i|x_i-\bar{x}|$

Variância: $var(X)=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}=\frac{\sum_{i=1}^{k}n_i(x_i-\bar{x})^2}{n}==\sum_{i=1}^{k}f_i(x_i-\bar{x})^2$

O desvio padrão nos informa a raiz quadrada positiva da variância, o que informa melhor a homogeneidade dos dados:

Desvio padrão: $dp(X)=\sqrt{var(X)}$

Esses valores são relevantes quando a distribuição dos dados é aproximadamente normal. Quando os valores são muito dispersos, a mediana pode ficar resistente aos pontos extremos. Podemos utilizar então quantis empíricos para avaliar a distribuição. Um p-quantil, q(p), é uma proporção qualquer, ou seja, 0 < p < 1, olhando para os elementos dentro daquele percentual depois de ordenados os dados. Queremos encontrar o elemento que separa x% à esquerda no conjunto ordenado. Por exemplo, q(0,25), ou 1º quartil, olhamos para o subconjunto onde os valores são menores que um elemento que divide o conjunto original em 25% dos menores e 75% maiores que ele.

A distância interquartil é definida como : $d_q=q_3-q_1$

onde o $q_1$ e o $q_3$, são primeiro e terceiro quartis.

Quando utilizamos cinco números, valor mínimo, primeiro quartil, média, mediana, terceiro quartil e valor máximo, podemos fazer um gráfico chamado de box plot.

Quantis podem ser usados para verificar se a distribuição de valores é simétrica. Isso vai acontecer se: $q(0,5)-x_{(i)}=x_{(n+1-i)}-q(0,5)$

Podemos aplicar transformações nos dados para visualizar relações de simetria:

$$ x^p,\;se\; p>0\\ ln(x),\;se\;p=0\\ -x^p, \;se\;p < 0 $$
7.5 - Espaços Amostrais.

Quando analisamos um determinado fenômeno aleatório, podemos abstrair sua estrutura através de 3 elementos:

  1. Espaço amostral $\Omega$
  2. Espaço de eventos $\mathcal{F}$
  3. Função probabilidade P
  • Esses elementos devem satisfazer certos axiomas, de forma que o tripleto $(\Omega,\mathcal{F}, P)$ formam um modelo chamado espaço de probabilidade. O elemento $\mathcal{F}$ também é conhecido como $\sigma$-álgebra. A função $P:\mathcal{F}\rightarrow [0,1]$ define a medida de probabilidade de zero ou mais eventos. Listamos as seguintes propriedades dos elementos:
    • $\Omega$ é um conjunto arbitrário não vazio;
    • $\mathcal{F}\subseteq 2^\Omega$, $\sigma$-álgebra ou $\sigma$-corpo, um conjunto de subconjuntos de $\Omega$, chamado de eventos:
      • $\mathcal{F}$ contém o espaço amostral $\Omega$;
      • $\mathcal{F}$ é fechado por complemento: se $A\in\mathcal{F}$ então $(\Omega\setminus A)\in \mathcal{F}$;
      • $\mathcal{F}$ é fechado por união de contáveis: Se $A_i\in \mathcal{F}$ para i=1,2,…, então $\cup_{i=1}^\infty A_I\in \mathcal{F}$;
    • A medida de probabilidade P é uma função tal que:
      • $P$ é aditiva contável ($\sigma$-aditiva). Se $\{A_i\}_{i=1}^\infty \subseteq \mathcal{F}$ é um coleção contável de conjuntos disjuntos, então $P( \cup_{i=1}^\infty A_i )=\sum_{i=1}^\infty P(A_i)$;
      • A medida do espaço amostral é igual à 1: $P(\Omega)=1$
    7.6 - Probabilidades em Espaços Amostrais Discretos.

    No caso discreto do que vimos na seção anterior, precisamos um espaço amostral contável $\Omega$. Determinamos então uma função massa de probabilidade (FMP), $p:\Omega\rightarrow[0,1]$, de forma que $\sum_{\omega \in \Omega}p(\omega)=1$. Com isso podemos tratar os subconjuntos do espaço amostral como eventos.

    $$ P(A)=\sum_{\omega \in A}p(\omega), \forall A\subseteq\Omega $$
    7.7 - Distribuições de Probabilidades de Variáveis Aleatórias Unidimensionais e Bidimensionais.

    Uma função X, definida em um espaço amostral $\Omega$ e com valores em um conjunto enumerável de pontos da reta é dita variável aleatória discreta. Com essa função X, podemos tomar os elementos e associar com a sua probabilidade de ocorrência.

    $$ P(X=x_i)=P(A)\\ A=\{ \omega_i, \omega_2, ...\}\subset \Omega $$

    onde $X(\omega_i)=x_i$, se $\omega_i\in A$ e $X(\omega_i)\neq x_i,$ se $\omega_i\in A^c$.

    A função de probabilidade da variável aleatória discreta X é tal que

    $$ p(x_i)=P(X=x_i)=p_i, i=1,2,... $$

    Alguns modelos probabilísticos são importantes:

    1. Distribuição uniforme: Qualquer $x\in X$ tem a mesma probabilidade. $P(X=x_i)=p(x_i)=p=1/k$ $E(X)=\frac{1}{k}\sum_{i=1}^kx_i$ $Var(X)=\frac{1}{k}\{\sum x_i^2-\frac{(\sum x_i)^2}{k}\}$
    2. Bernoulli: $X$ assume apenas 0 ou 1. $p(0)=p(X=0)=1-p$, $p(1)=P(X=1)=p$ $E(X)=p$ $Var(X)=p-p^2=p(1-p)$
    3. Distribuição binomial: n ensaios de Bernoulli, independentes, com probabilidade sempre igual a p, 0 < p < 1. $(k;n,p)=P(X=k|n,p)=\binom{n}{k}p^kq^n-k, k=0,1,...,n$

    O p-quantil de uma variável aleatória discreta X é o valor Q(p) que satisfaz

    $$ P(X\leq Q(p))\geq p \; e\\ P(X\geq Q(p))\geq 1-p $$

    Ou seja, Q(p) é o valor tal que a soma das probabilidades dos valores menos do que ele, é p.

    7.8 - Esperança Matemática.

    Dada uma variável discreta X, assumindo valores $x_1, x_2, ...$, chamamos o valor médio ou esperança matemática de X

    $$ E(X)=\sum_{i=1}^nP(X=x_i)=\sum_{i=1}^nx_ip_i $$

    A variância agora pode ser calculada com base na esperança:

    $$ Var(X)=\sum_{i=1}^n[x_i-E(X)]^2p_i $$
    7.9 - Variância e Coeficientes de Correlação.

    Quando temos mais de uma variável nos dados observadores e queremos avaliar se existe relação entre elas, utilizamos coeficientes de associação ou de correlação. Normalmente os coeficientes são números que variam entre 0 e 1 ou entre -1 e 1.

    No caso qualitativo, devido ao trabalho de K. Pearson, utilizados o coeficiente de contingência e uma variação dele:

    Coeficiente de contingência: $C=\sqrt{\frac{\chi^2}{\chi^2+n}}$

    onde $\chi^2$ é a soma de todos os desvios, onde cada um é dado por $\frac{(o_i-e_i)}{e_i}$, onde $o_i$ é o valor observado e $e_i=\bar{x}-x_i$ o valor esperado. Então, temos

    $$ \chi^2=n\sum_{i=1}^{r}\sum_{j=1}^{s}\frac{(f_{ij}-f_{ij}^*)^2}{f_{ij}^*} $$

    usando as frequências relativas. O coeficiente alternativo é dado por:

    $$ T=\sqrt{\frac{\chi^2/n}{(r-1)(s-1)}} $$

    que toma valor máximo igual 1 quando r = s.

    No caso quantitativo podemos calcular a soma dos produtos das variáveis depois de executar algumas operações. Por exemplo, suponha que tenhamos um conjunto de dados $(x_i,y_i)$ e calculamos, para um determinado i, $z_i=(\frac{x_i-\bar{x}}{dp(x)})\cdot (\frac{y_i-\bar{y}}{dp(y)})$. Ao somar todos os $z_i$ temos o coeficiente de relação, que se maior do zero dá uma relação linear positiva e ao contrário para menor do zero. Se aproximadamente zero, não há relação entre x e y.

    $$ corr(X,Y)=\frac{1}{n}\sum_i z_i=\frac{1}{n}\sum_i (\frac{x_i-\bar{x}}{dp(x)})\cdot (\frac{y_i-\bar{y}}{dp(y)}) $$

    Deste valor podemos definir a covariância:

    $$ cov(X,Y)=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n} $$
    7.10 - Aproximação Normal.

    As distribuições de probabilidade para as V.A. discretas que vimos anteriormente podem ser aproximadas por uma distribuição normal para facilitar alguns cálculos. No caso contínuo, para calcularmos a função densidade de probabilidade, devemos escolher um intervalo da distribuição, seja $x_1$ até $x_2$ e calcular a seguinte integral:

    $$ p(x)=\int_{x_1}^{x_2}\frac{1}{\sigma\sqrt{2\pi}} exp(\frac{-(x-\mu)^2}{2\sigma^2})dx $$

    onde $\sigma$ é o desvio padrão da amostra e $\mu$ o valor médio.

    7.11 - Estimação Pontual e por Intervalo.

    A estimação pontual procura indicar, através de um único número, que a amostra representa as características da população. Já no caso do intervalo, não é apenas um número, mas um conjunto de valores.

    A média pode ser considerada com uma estimação pontual.

    A precisão da estimativa é dada pela distribuição de amostragem da estatística escolhida. A estatística pode ser (não)-viesada e (não)-tendenciosa. Essa escolha incorre em selecionar a estrutura com menor desvio padrão. Devemos nos preocupar com o problema da amostra. Variando o subconjunto da população, estamos de fato representando-a de forma mais fiel possível?

    Quando utilizamos um intervalo de confiança, ao invés de um único número, informamos que se o mesmo experimento aleatório for executado diversas vezes, o resultado estará dentro dos limites em x% das tentativas. É a taxa de sucesso do método para permitir que diferentes características das amostras representarem a população. Se $\mu$ é a média da amostra e $\mu_p=\pi$ , ou seja, a proporção da população com determinada característica, sendo $p=\text{sucessos}/n$, definimos o desvio padrão de p como: $\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}$. De forma que podemos selecionar uma amostra da população inferior a 10% de seu tamanho e teremos uma aproximação normal. Um intervalo de confiança de 95% por exemplo, nos diz que todas as amostras de tamanho n estarão dentro de 1,96 $\sigma_p$ da verdadeira proporção populacional.

    7.12 - Teste de Hipóteses para Médias. Testes do Qui-Quadrado

    Sejam $X_1$ e $X_2$ duas populações com médias $\mu_1, \mu_2$ e desvios-padrão $\sigma_1,\sigma_2$. Podemos escrever essas v.a. e parâmetros como

    $$ X_1\sim N(\mu_1,\sigma_1^2)\\ X_2\sim N(\mu_2,\sigma_2^2) $$

    Com isso podemos criar uma nova variável $\bar{X}_d=(\bar{X}_1-\bar{X}_2)$ que também possui distribuição normal. A distribuição amostral da diferença de médias é:

    $$ \bar{X}_d=(\bar{X}_1-\bar{X}_2)\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) $$

    A estatística de teste é dada por :

    $$ z=[(\bar{x}_1-\bar{x_2})-(\mu_1-\mu_2)]\cdot\frac{1}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})}} $$

    O teste do qui quadrado nos permite avaliar a associação entre variáveis qualitativas, é um tipo de teste não paramétrico, ou seja, não depende de parâmetros populacionais (média e variância).

    O teste de heterogeneidade permite avaliar se diferentes amostras de uma população são homogêneas ou não. Nesse caso calculamos o $\chi^2$ de cada amostra e o $\chi^2_t$ do total. Com isso somam-se os $\chi^2$ obtidos e dai se subtrai o valor para o total de $\chi^2_t$.

    7.13 - Testes de Comparações de Médias

    Suponha que temos duas amostras de uma população $Y_1$ e $Y_2$, queremos executar um teste nos parâmetros das amostras para compará-las. O teste t de Student nos diz como encontrar essa informação, em uma razão de sinal e ruído.

    Quando os valores do desvio-padrão não são conhecidos utilizamos a estimativa amostral $s^2$. Disso a estatística teste fica:

    $$ t=(\bar{x}_1-\bar{x_2})\cdot\frac{1}{\sqrt{\frac{\hat{s}_1^2}{n_1}+\frac{\hat{s}_2^2}{n_2})}} $$

    onde $v=n_1+n_2-2$ denota os graus de liberdade. Precisamos calcular o valor de teste de t para comparar se o número obtido nos permite rejeitar ou não a hipótese.

    7.14 - Regressão e Correlação.

    Suponha que temos dois conjuntos de dados que queremos avaliar se estão correlacionados. Regressão é um processo para avaliar a força dessa correlação. Uma regressão linear é uma tentativa de adaptar uma reta aos dados, $y=f(x)$, minimizando as distâncias entre os pares $(x_i,y_i)$ de dados à reta, somados ao quadrado. Denotamos essa reta por $\hat{Y}$. Os erros dos pontos à reta são representados por $\sum e^2$. Podemos resumir em único número, R², a adequação da curva aos pontos. Depois de calcularmos a soma dos quadrados pela regressão SSR, a soma dos erros SSE, temos a soma dos desvios-padrão $SST=SSR+SSE$, e então $R^2=SSR/SST$.

    A função de regressão de uma população é dada por

    $$ Y=\beta_0+\beta_1X+\epsilon $$

    onde o último termo é um erro relacionado com a população.

    Referências:

    1. Estatística Básica - Morettin & Bussab