Методы и примеры кода для анализа данных: подробное руководство

Вот несколько методов, обычно используемых при анализе данных, а также примеры кода на Python:

  1. Очистка данных:

    • Удаление дубликатов:

      df = df.drop_duplicates()
    • Обработка пропущенных значений:

      df = df.dropna()  # Drop rows with missing values
      df['column_name'].fillna(value, inplace=True)  # Fill missing values in a column
    • Нормализация данных:

      df['normalized_column'] = (df['column'] - df['column'].mean()) / df['column'].std()
  2. Преобразование данных:

    • Применение математических операций:

      df['new_column'] = df['column'].apply(lambda x: x * 2)
    • Манипулирование строками:

      df['new_column'] = df['column'].str.upper()  # Convert string to uppercase
    • Преобразование даты и времени:

      df['date_column'] = pd.to_datetime(df['date_column'])
  3. Визуализация данных:

    • Гистограмма:

      import matplotlib.pyplot as plt
      
      df.plot(kind='bar', x='x_column', y='y_column')
      plt.show()
    • Диаграмма рассеяния:

      import matplotlib.pyplot as plt
      
      plt.scatter(df['x_column'], df['y_column'])
      plt.xlabel('X Label')
      plt.ylabel('Y Label')
      plt.title('Scatter Plot')
      plt.show()
  4. Статистический анализ:

    • Описательная статистика:

      df.describe()
    • Корреляционный анализ:

      df.corr()
    • Проверка гипотез:

      from scipy.stats import ttest_ind
      
      group1 = df[df['group'] == 'Group 1']['value']
      group2 = df[df['group'] == 'Group 2']['value']
      
      t_statistic, p_value = ttest_ind(group1, group2)