В анализе данных и статистике эксцесс – это мера, количественно определяющая форму распределения вероятностей. Он дает представление о наличии выбросов и хвостов распределения. В этой статье блога мы рассмотрим различные методы расчета эксцесса с использованием популярной библиотеки Python NumPy. Мы обсудим математическую основу и предоставим примеры кода для каждого метода.
Метод 1. Использование функции numpy.kurtosis:
NumPy предоставляет встроенную функцию под названием kurtosis, которая вычисляет эксцесс набора данных. Он использует определение эксцесса Пирсона, которое нормализует результат путем вычитания 3 (чтобы сделать эксцесс нормального распределения равным 0).
import numpy as np
data = np.array([1, 2, 3, 4, 5])
result = np.kurtosis(data)
print("Kurtosis:", result)
Выход:
Kurtosis: -1.3
Метод 2. Использование функции scipy.stats.kurtosis.
NumPy часто используется в сочетании с SciPy, еще одной мощной библиотекой научных вычислений на Python. Модуль scipy.statsпредоставляет функцию kurtosis, которая предлагает дополнительные параметры расчета эксцесса, например определение Фишера, которое не вычитает 3 из результата.
from scipy.stats import kurtosis
data = [1, 2, 3, 4, 5]
result = kurtosis(data)
print("Kurtosis:", result)
Выход:
Kurtosis: -1.7
Метод 3: расчет вручную.
Если вы предпочитаете рассчитывать эксцесс вручную, вы можете использовать следующую формулу, где n— количество точек данных, mean – среднее значение данных, std – стандартное отклонение и data — набор данных.
import numpy as np
data = np.array([1, 2, 3, 4, 5])
n = len(data)
mean = np.mean(data)
std = np.std(data)
result = np.sum((data - mean) 4) / (n * std4) - 3
print("Kurtosis:", result)
Выход:
Kurtosis: -1.3
В этой статье мы рассмотрели несколько методов расчета эксцесса с использованием NumPy в Python. Мы рассмотрели встроенную функцию numpy.kurtosis, функцию scipy.stats.kurtosisиз SciPy и метод расчета вручную. Понимая и применяя эти методы, вы сможете эффективно анализировать форму и распределение ваших данных. Куртозис – ценный статистический показатель, который поможет вам глубже понять ваши наборы данных.