Funções de Distribuição ou Distribution Functions
Funções de Distribuição ou Distribution Functions em inglês, permitem calcular medidas de tendência central e dispersão, que são fundamentais para entender a distribuição dos dados. P
Calcular média aritmética
Funções que permitem Calcular média aritmética
- A função
AVG()é utilizada para calcular a média aritmética de um conjunto de valores. - A função
STDEV()é usada para determinar o desvio padrão, que indica o quanto os valores de um conjunto de dados se afastam da média. - As funções
MIN()eMAX()ajudam a identificar os valores mínimo e máximo de uma coluna.
Funções analisticas
A função PERCENT_RANK permite calcular a classificação percentual de uma linha dentro de um conjunto de linhas. Esta função devolve um valor flutuante maior que 0 e menor ou igual a 1, representando a posição relativa de um valor dentro de um conjunto de resultados de consulta ou partição.
PERCENT_RANK() OVER ( [ partition_by_clause ] order_by_clause )
- A cláusula
partition_by_clauseé opcional e serve para dividir o conjunto de resultados em partições às quais a função é aplicada.
A função CUME_DIST é uma função analítica que calcula a distribuição acumulada de um valor dentro de um grupo de valores. A função determina a posição relativa de um valor específico em relação ao conjunto de valores analisados
O CUME_DIST devolve um valor do tipo float que varia entre 0 (exclusivo) e 1 (inclusivo), representando a proporção acumulada do valor especificado.
CUME_DIST() OVER (PARTITION BY <coluna> ORDER BY <coluna>)
- A cláusula
PARTITION BYé opcional e serve para dividir o conjunto de resultados em partições distintas. - A cláusula
ORDER BYé obrigatória para definir a ordem dos valores dentro de cada partição.
Um exemplo de utilização é se quisermos saber a posição percentual de um salário dentro de um departamento, a função CUME_DIST pode calcular a percentagem de funcionários que ganham menos ou o mesmo que um determinado valor
A função PERCENTILE_CONT() é uma função analítica que calcula o valor no percentil contínuo especificado da distribuição de um conjunto de valores.
Esta função permite calcular a mediana dividindo o conjunto de dados em duas partes.
Por exemplo pode-se utilizar esta função para efectuar o cálculo dos quartis.
- Primeiro quartil:
PERCENTILE_CONT(0.25). - Segundo quartil:
PERCENTILE_CONT(0.50). - Terceiro quartil:
PERCENTILE_CONT(0.75). - Quarto quartil:
PERCENTILE_CONT(1.00).
A função PERCENTILE_DISC permite calcular um percentil específico para valores ordenados num conjunto completo de linhas ou dentro de partições distintas de um conjunto de linhas.
Para um percentil X função ordena os valores da expressão na cláusula ORDER BY e devolve o valor com a menor classificação CUME_DIST que é maior ou igual a X.
Por exemplo, PERCENTILE_DISC(0,5) calculará o 50º percentil, ou seja, a mediana de uma expressão. Que permite determinar um valor de corte ou um limite específico dentro de um conjunto de dados.
PERCENTILE_DISC (literal_numérico) WITHIN GROUP (ORDER BY expressão_de_ordenação [ASC | DESC]) OVER ([cláusula_partition_by])
A função ignora todos os valores nulos no conjunto de dados em que a função é não determinística, o que significa que os resultados podem variar cada vez que é executada, dependendo da ordem dos dados.
Calcular variância
A variância é o cálculo do raiz quadrada do desvio padrão para compreender o grau de variação dos dados em relação à média.
A função VAR() permite calcular a variância.
Quando se deseja comparar a dispersão de dois conjuntos de dados que possuem escalas diferentes, pode-se utilizar o coeficiente de variação, que é o desvio padrão dividido pela média.