Методы и примеры кода для бизнес-аналитики: очистка данных, EDA, визуализация, прогнозное моделирование и анализ временных рядов

Coursera Business Analytics — популярная платформа онлайн-курсов, предлагающая разнообразные курсы, связанные с бизнес-аналитикой. Вот некоторые методы, обычно используемые в бизнес-аналитике, а также примеры кода:

  1. Очистка и предварительная обработка данных:

    • Пример Python:

      import pandas as pd
      
      # Load data
      data = pd.read_csv('data.csv')
      
      # Remove missing values
      data.dropna(inplace=True)
      
      # Remove duplicates
      data.drop_duplicates(inplace=True)
      
      # Standardize data
      data['value'] = (data['value'] - data['value'].mean()) / data['value'].std()
  2. Исследовательский анализ данных (EDA):

    • Пример Python:

      import pandas as pd
      import seaborn as sns
      
      # Load data
      data = pd.read_csv('data.csv')
      
      # Descriptive statistics
      print(data.describe())
      
      # Correlation matrix
      corr_matrix = data.corr()
      sns.heatmap(corr_matrix, annot=True)
  3. Визуализация данных:

    • Пример Python (с использованием Matplotlib):

      import pandas as pd
      import matplotlib.pyplot as plt
      
      # Load data
      data = pd.read_csv('data.csv')
      
      # Plotting a bar chart
      plt.bar(data['category'], data['value'])
      plt.xlabel('Category')
      plt.ylabel('Value')
      plt.title('Distribution of Values by Category')
      plt.show()
  4. Прогнозное моделирование:

    • Пример Python (с использованием Scikit-learn):

      import pandas as pd
      from sklearn.model_selection import train_test_split
      from sklearn.linear_model import LinearRegression
      
      # Load data
      data = pd.read_csv('data.csv')
      
      # Split data into features and target variable
      X = data[['feature1', 'feature2']]
      y = data['target']
      
      # Split data into training and testing sets
      X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
      
      # Train a linear regression model
      model = LinearRegression()
      model.fit(X_train, y_train)
      
      # Make predictions
      y_pred = model.predict(X_test)
  5. Анализ временных рядов:

    • Пример Python (с использованием Pandas):

      import pandas as pd
      
      # Load time series data
      data = pd.read_csv('data.csv', parse_dates=['date'], index_col='date')
      
      # Resample data to monthly frequency
      monthly_data = data.resample('M').sum()
      
      # Plotting time series
      monthly_data.plot()
      plt.xlabel('Date')
      plt.ylabel('Value')
      plt.title('Monthly Time Series')
      plt.show()