Вот несколько методов, обычно используемых при анализе данных, а также примеры кода на Python:
-
Очистка данных:
-
Удаление дубликатов:
df = df.drop_duplicates() -
Обработка пропущенных значений:
df = df.dropna() # Drop rows with missing values df['column_name'].fillna(value, inplace=True) # Fill missing values in a column -
Нормализация данных:
df['normalized_column'] = (df['column'] - df['column'].mean()) / df['column'].std()
-
-
Преобразование данных:
-
Применение математических операций:
df['new_column'] = df['column'].apply(lambda x: x * 2) -
Манипулирование строками:
df['new_column'] = df['column'].str.upper() # Convert string to uppercase -
Преобразование даты и времени:
df['date_column'] = pd.to_datetime(df['date_column'])
-
-
Визуализация данных:
-
Гистограмма:
import matplotlib.pyplot as plt df.plot(kind='bar', x='x_column', y='y_column') plt.show() -
Диаграмма рассеяния:
import matplotlib.pyplot as plt plt.scatter(df['x_column'], df['y_column']) plt.xlabel('X Label') plt.ylabel('Y Label') plt.title('Scatter Plot') plt.show()
-
-
Статистический анализ:
-
Описательная статистика:
df.describe() -
Корреляционный анализ:
df.corr() -
Проверка гипотез:
from scipy.stats import ttest_ind group1 = df[df['group'] == 'Group 1']['value'] group2 = df[df['group'] == 'Group 2']['value'] t_statistic, p_value = ttest_ind(group1, group2)
-