Аналитика данных в программах MBA: подробное руководство с примерами кода

Вот несколько методов анализа данных в программах MBA, а также примеры кода:

  1. Очистка и предварительная обработка данных.
    Очистка данных включает в себя обработку пропущенных значений, выбросов и несоответствий в наборе данных. Предварительная обработка включает в себя такие задачи, как нормализация данных, масштабирование признаков и кодирование категориальных переменных. Вот пример очистки и предварительной обработки данных с использованием Python с библиотекой pandas:

    import pandas as pd
    
    # Load the dataset
    data = pd.read_csv('data.csv')
    
    # Handling missing values
    data = data.dropna()
    
    # Encoding categorical variables
    data = pd.get_dummies(data, columns=['category'])
    
    # Normalizing numerical data
    data['num_column'] = (data['num_column'] - data['num_column'].mean()) / data['num_column'].std()
    
    # Feature scaling
    data['feature'] = (data['feature'] - data['feature'].min()) / (data['feature'].max() - data['feature'].min())
  2. Исследовательский анализ данных (EDA).
    EDA помогает понять данные, суммируя их основные характеристики и визуализируя закономерности. Он включает в себя такие задачи, как статистический анализ, визуализация данных и корреляционный анализ. Вот пример EDA с использованием Python с библиотекой seaborn:

    import seaborn as sns
    
    # Load the dataset
    data = pd.read_csv('data.csv')
    
    # Statistical summary
    print(data.describe())
    
    # Correlation heatmap
    sns.heatmap(data.corr(), annot=True)
    
    # Distribution plot
    sns.distplot(data['num_column'])
    
    # Scatter plot
    sns.scatterplot(x='feature1', y='feature2', data=data)
  3. Прогнозное моделирование.
    Прогнозирующее моделирование включает в себя построение моделей машинного обучения для прогнозирования или классификации на основе исторических данных. Вот пример прогнозного моделирования с использованием Python с библиотекой scikit-learn:

    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LogisticRegression
    
    # Split data into training and testing sets
    X_train, X_test, y_train, y_test = train_test_split(data.drop('target', axis=1), data['target'], test_size=0.2)
    
    # Create a logistic regression model
    model = LogisticRegression()
    
    # Train the model
    model.fit(X_train, y_train)
    
    # Make predictions
    predictions = model.predict(X_test)
  4. Визуализация данных.
    Визуализация данных помогает представить информацию и закономерности в данных посредством графических представлений. Вот пример визуализации данных с использованием Python с библиотекой matplotlib:

    import matplotlib.pyplot as plt
    
    # Line chart
    plt.plot(data['x'], data['y'])
    plt.xlabel('X')
    plt.ylabel('Y')
    plt.title('Line Chart')
    plt.show()
    
    # Bar chart
    plt.bar(data['category'], data['count'])
    plt.xlabel('Category')
    plt.ylabel('Count')
    plt.title('Bar Chart')
    plt.show()