“Y que hay emociones que producen más engagement que las demás.”
El Enemigo Conoce el Sistema, Marta Peirano
Suponha um experimento de jogar uma moeda para o alto, pegá-la do chão e anotar o resultado. As possíveis opções ao pegarmos a moeda são: cara e coroa. Não podemos prever o resultado de antemão, mas sabemos que será apenas uma das duas opções dadas. Dizemos então que S é o conjunto de todos os resultados possíveis de um experimento. Nesse caso $S=\{ cara, coroa \}$. Como uma opção é escolhida entre duas, a *probabilidade* de tirarmos cara ou coroa é 1/2=0.5. S é chamado de espaço amostral. Um elemento de S é chamado de ponto amostral. Se $E\subseteq S$ , dizemos que $E$ é evento.
Como nos casos anteriores de conjuntos, temos que $\emptyset\in S$, é o chamado evento impossível ou nulo. As seguintes propriedades também são verdadeiras:
Dizemos que dois eventos são mutualmente exclusivos quando sua intersecção é vazia, ou seja, $A\cap B=\emptyset$.
Dizemos que dois eventos A e B são independentes se a ocorrência de um não afeta a ocorrência do outro, ou seja, $P(A\cap B)=P(A)P(B)$, isso implica em $P(B|A)=P(B)$ e $P(A|B)=P(A)$.
Um experimento aleatório ocorre sempre que observamos algo com incerteza. No exemplo anterior, da moeda, os resultados podem ser listados, mas não previstos em cada tentativa. O mesmo vale para jogar dados. Quando definimos uma probabilidade para cada ponto amostral no espaço S, estamos na verdade definindo uma função que recebe o ponto e devolve sua probabilidade de ocorrência. A função probabilidade P tem as seguintes propriedades:
P1 - Para cada evento A, $0\leq P(A)\leq 1$
P2 - $P(S) =1$
P3 - Se os eventos A e B são mutuamente exclusivos, então: $P(A\cup B)=P(A)+P(B)$
Sabemos que se A aconteceu com probabilidade p então o complementar de A tem a probabilidade 1-p. Ainda temos as seguintes propriedades para analisar:
Princípio da adição: Para quaisquer eventos A e B $P(A\cup B)=P(A)+P(B)-P(A\cup B)$
Probabilidade condicional: Suponha S um espaço equiprovável, com A e E eventos. Então:
$$ P(A|E)=\frac{P(A\cap E)}{P(E)}=\frac{n(A\cap E)}{n(E)} $$Multiplicando os dois lados por $P(A)>0$, obtemos o teorema multiplicativo da probabilidade condicional: $P(A\cap B)=P(A)P(B|A)$
Quando fazemos levantamos de dado para fins de análise de padrões, podemos dividir as variáveis encontradas em dois tipos:
Podemos converter variáveis qualitativas em quantitativas. Um tipo importante de variável qualitativa é chamada de dicotômica, onde só temos duas opções possíveis, sucesso e fracasso.
Na medida que os valores de determinadas medidas são agrupados e separados segundo a frequência de aparição, algumas notações são úteis para análise. Dado n o número total de observações:
Histograma: Gráfico de barras contíguas, com bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência.
Quando resumimos os dados com gráficos queremos apresentar informações agrupadas que sejam úteis para análise de padrões. Uma outra forma de se encontrar valores representativos é através de variáveis estatísticas dos dados, como por exemplo, moda, média e mediana. São chamadas de medidas de posição.
Moda: É a realização mais frequência em um conjunto de dados;
Mediana: Elemento que ocupa posição central nas observações, com dados ordenados;
$md(X)=\frac{n+1}{2}$, se n ímpar
$md(X)=\frac{n/2+(n/2+1)}{2}$, se n par
Média: Soma das observações divida pelo número delas.
$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$
$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}n_ix_i$
$\bar{x}=\sum_{i=1}^{n}f_ix_i$
Entretanto, as medidas de posição não nos informam como os dados estão distribuídos. Para isso utilizados medidas de dispersão. Olhando para a média, podemos analisar o desvio médio e a variância. Eles indicam qual será o erro de se utilizar a média em cada elemento do conjunto de observação.
Desvio médio: $dm(X)=\frac{\sum_{i=1}^{n}|x_i-\bar{x}|}{n}=\frac{\sum_{i=1}^{k}n_i|x_i-\bar{x}|}{n}=\sum_{i=1}^{k}f_i|x_i-\bar{x}|$
Variância: $var(X)=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}=\frac{\sum_{i=1}^{k}n_i(x_i-\bar{x})^2}{n}==\sum_{i=1}^{k}f_i(x_i-\bar{x})^2$
O desvio padrão nos informa a raiz quadrada positiva da variância, o que informa melhor a homogeneidade dos dados:
Desvio padrão: $dp(X)=\sqrt{var(X)}$
Esses valores são relevantes quando a distribuição dos dados é aproximadamente normal. Quando os valores são muito dispersos, a mediana pode ficar resistente aos pontos extremos. Podemos utilizar então quantis empíricos para avaliar a distribuição. Um p-quantil, q(p), é uma proporção qualquer, ou seja, 0 < p < 1, olhando para os elementos dentro daquele percentual depois de ordenados os dados. Queremos encontrar o elemento que separa x% à esquerda no conjunto ordenado. Por exemplo, q(0,25), ou 1º quartil, olhamos para o subconjunto onde os valores são menores que um elemento que divide o conjunto original em 25% dos menores e 75% maiores que ele.
A distância interquartil é definida como : $d_q=q_3-q_1$
onde o $q_1$ e o $q_3$, são primeiro e terceiro quartis.
Quando utilizamos cinco números, valor mínimo, primeiro quartil, média, mediana, terceiro quartil e valor máximo, podemos fazer um gráfico chamado de box plot.
Quantis podem ser usados para verificar se a distribuição de valores é simétrica. Isso vai acontecer se: $q(0,5)-x_{(i)}=x_{(n+1-i)}-q(0,5)$
Podemos aplicar transformações nos dados para visualizar relações de simetria:
$$ x^p,\;se\; p>0\\ ln(x),\;se\;p=0\\ -x^p, \;se\;p < 0 $$Quando analisamos um determinado fenômeno aleatório, podemos abstrair sua estrutura através de 3 elementos:
No caso discreto do que vimos na seção anterior, precisamos um espaço amostral contável $\Omega$. Determinamos então uma função massa de probabilidade (FMP), $p:\Omega\rightarrow[0,1]$, de forma que $\sum_{\omega \in \Omega}p(\omega)=1$. Com isso podemos tratar os subconjuntos do espaço amostral como eventos.
$$ P(A)=\sum_{\omega \in A}p(\omega), \forall A\subseteq\Omega $$Uma função X, definida em um espaço amostral $\Omega$ e com valores em um conjunto enumerável de pontos da reta é dita variável aleatória discreta. Com essa função X, podemos tomar os elementos e associar com a sua probabilidade de ocorrência.
$$ P(X=x_i)=P(A)\\ A=\{ \omega_i, \omega_2, ...\}\subset \Omega $$onde $X(\omega_i)=x_i$, se $\omega_i\in A$ e $X(\omega_i)\neq x_i,$ se $\omega_i\in A^c$.
A função de probabilidade da variável aleatória discreta X é tal que
$$ p(x_i)=P(X=x_i)=p_i, i=1,2,... $$Alguns modelos probabilísticos são importantes:
O p-quantil de uma variável aleatória discreta X é o valor Q(p) que satisfaz
$$ P(X\leq Q(p))\geq p \; e\\ P(X\geq Q(p))\geq 1-p $$Ou seja, Q(p) é o valor tal que a soma das probabilidades dos valores menos do que ele, é p.
Dada uma variável discreta X, assumindo valores $x_1, x_2, ...$, chamamos o valor médio ou esperança matemática de X
$$ E(X)=\sum_{i=1}^nP(X=x_i)=\sum_{i=1}^nx_ip_i $$A variância agora pode ser calculada com base na esperança:
$$ Var(X)=\sum_{i=1}^n[x_i-E(X)]^2p_i $$Quando temos mais de uma variável nos dados observadores e queremos avaliar se existe relação entre elas, utilizamos coeficientes de associação ou de correlação. Normalmente os coeficientes são números que variam entre 0 e 1 ou entre -1 e 1.
No caso qualitativo, devido ao trabalho de K. Pearson, utilizados o coeficiente de contingência e uma variação dele:
Coeficiente de contingência: $C=\sqrt{\frac{\chi^2}{\chi^2+n}}$
onde $\chi^2$ é a soma de todos os desvios, onde cada um é dado por $\frac{(o_i-e_i)}{e_i}$, onde $o_i$ é o valor observado e $e_i=\bar{x}-x_i$ o valor esperado. Então, temos
$$ \chi^2=n\sum_{i=1}^{r}\sum_{j=1}^{s}\frac{(f_{ij}-f_{ij}^*)^2}{f_{ij}^*} $$usando as frequências relativas. O coeficiente alternativo é dado por:
$$ T=\sqrt{\frac{\chi^2/n}{(r-1)(s-1)}} $$que toma valor máximo igual 1 quando r = s.
No caso quantitativo podemos calcular a soma dos produtos das variáveis depois de executar algumas operações. Por exemplo, suponha que tenhamos um conjunto de dados $(x_i,y_i)$ e calculamos, para um determinado i, $z_i=(\frac{x_i-\bar{x}}{dp(x)})\cdot (\frac{y_i-\bar{y}}{dp(y)})$. Ao somar todos os $z_i$ temos o coeficiente de relação, que se maior do zero dá uma relação linear positiva e ao contrário para menor do zero. Se aproximadamente zero, não há relação entre x e y.
$$ corr(X,Y)=\frac{1}{n}\sum_i z_i=\frac{1}{n}\sum_i (\frac{x_i-\bar{x}}{dp(x)})\cdot (\frac{y_i-\bar{y}}{dp(y)}) $$Deste valor podemos definir a covariância:
$$ cov(X,Y)=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{n} $$As distribuições de probabilidade para as V.A. discretas que vimos anteriormente podem ser aproximadas por uma distribuição normal para facilitar alguns cálculos. No caso contínuo, para calcularmos a função densidade de probabilidade, devemos escolher um intervalo da distribuição, seja $x_1$ até $x_2$ e calcular a seguinte integral:
$$ p(x)=\int_{x_1}^{x_2}\frac{1}{\sigma\sqrt{2\pi}} exp(\frac{-(x-\mu)^2}{2\sigma^2})dx $$onde $\sigma$ é o desvio padrão da amostra e $\mu$ o valor médio.
A estimação pontual procura indicar, através de um único número, que a amostra representa as características da população. Já no caso do intervalo, não é apenas um número, mas um conjunto de valores.
A média pode ser considerada com uma estimação pontual.
A precisão da estimativa é dada pela distribuição de amostragem da estatística escolhida. A estatística pode ser (não)-viesada e (não)-tendenciosa. Essa escolha incorre em selecionar a estrutura com menor desvio padrão. Devemos nos preocupar com o problema da amostra. Variando o subconjunto da população, estamos de fato representando-a de forma mais fiel possível?
Quando utilizamos um intervalo de confiança, ao invés de um único número, informamos que se o mesmo experimento aleatório for executado diversas vezes, o resultado estará dentro dos limites em x% das tentativas. É a taxa de sucesso do método para permitir que diferentes características das amostras representarem a população. Se $\mu$ é a média da amostra e $\mu_p=\pi$ , ou seja, a proporção da população com determinada característica, sendo $p=\text{sucessos}/n$, definimos o desvio padrão de p como: $\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}$. De forma que podemos selecionar uma amostra da população inferior a 10% de seu tamanho e teremos uma aproximação normal. Um intervalo de confiança de 95% por exemplo, nos diz que todas as amostras de tamanho n estarão dentro de 1,96 $\sigma_p$ da verdadeira proporção populacional.
Sejam $X_1$ e $X_2$ duas populações com médias $\mu_1, \mu_2$ e desvios-padrão $\sigma_1,\sigma_2$. Podemos escrever essas v.a. e parâmetros como
$$ X_1\sim N(\mu_1,\sigma_1^2)\\ X_2\sim N(\mu_2,\sigma_2^2) $$Com isso podemos criar uma nova variável $\bar{X}_d=(\bar{X}_1-\bar{X}_2)$ que também possui distribuição normal. A distribuição amostral da diferença de médias é:
$$ \bar{X}_d=(\bar{X}_1-\bar{X}_2)\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) $$A estatística de teste é dada por :
$$ z=[(\bar{x}_1-\bar{x_2})-(\mu_1-\mu_2)]\cdot\frac{1}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})}} $$O teste do qui quadrado nos permite avaliar a associação entre variáveis qualitativas, é um tipo de teste não paramétrico, ou seja, não depende de parâmetros populacionais (média e variância).
O teste de heterogeneidade permite avaliar se diferentes amostras de uma população são homogêneas ou não. Nesse caso calculamos o $\chi^2$ de cada amostra e o $\chi^2_t$ do total. Com isso somam-se os $\chi^2$ obtidos e dai se subtrai o valor para o total de $\chi^2_t$.
Suponha que temos duas amostras de uma população $Y_1$ e $Y_2$, queremos executar um teste nos parâmetros das amostras para compará-las. O teste t de Student nos diz como encontrar essa informação, em uma razão de sinal e ruído.
Quando os valores do desvio-padrão não são conhecidos utilizamos a estimativa amostral $s^2$. Disso a estatística teste fica:
$$ t=(\bar{x}_1-\bar{x_2})\cdot\frac{1}{\sqrt{\frac{\hat{s}_1^2}{n_1}+\frac{\hat{s}_2^2}{n_2})}} $$onde $v=n_1+n_2-2$ denota os graus de liberdade. Precisamos calcular o valor de teste de t para comparar se o número obtido nos permite rejeitar ou não a hipótese.
Suponha que temos dois conjuntos de dados que queremos avaliar se estão correlacionados. Regressão é um processo para avaliar a força dessa correlação. Uma regressão linear é uma tentativa de adaptar uma reta aos dados, $y=f(x)$, minimizando as distâncias entre os pares $(x_i,y_i)$ de dados à reta, somados ao quadrado. Denotamos essa reta por $\hat{Y}$. Os erros dos pontos à reta são representados por $\sum e^2$. Podemos resumir em único número, R², a adequação da curva aos pontos. Depois de calcularmos a soma dos quadrados pela regressão SSR, a soma dos erros SSE, temos a soma dos desvios-padrão $SST=SSR+SSE$, e então $R^2=SSR/SST$.
A função de regressão de uma população é dada por
$$ Y=\beta_0+\beta_1X+\epsilon $$onde o último termo é um erro relacionado com a população.
Referências: