Методы и примеры кода для науки о данных: предварительная обработка, EDA и машинное обучение

Ниже приведены несколько методов, обычно используемых в науке о данных, а также примеры кода:

  1. Предварительная обработка данных:

    • Обработка недостающих данных:

      • Метод: вменение среднего значения
        import pandas as pd
        from sklearn.impute import SimpleImputer
        # Create an instance of SimpleImputer
        imputer = SimpleImputer(strategy='mean')
        # Impute missing values in a DataFrame
        df = pd.DataFrame([[1, 2], [np.nan, 3], [4, np.nan]])
        imputed_df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
    • Масштабирование функций:

      • Метод: стандартизация
        from sklearn.preprocessing import StandardScaler
        # Create an instance of StandardScaler
        scaler = StandardScaler()
        # Scale the feature values in a DataFrame
        df = pd.DataFrame([[1, 2], [3, 4], [5, 6]])
        scaled_df = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
  2. Исследовательский анализ данных (EDA):

    • Описательная статистика:

      • Метод: вычисление среднего значения, медианы и стандартного отклонения
        import pandas as pd
        # Compute descriptive statistics for a DataFrame
        df = pd.DataFrame([1, 2, 3, 4, 5])
        mean_value = df.mean()
        median_value = df.median()
        std_value = df.std()
    • Визуализация данных:

      • Метод: создание гистограммы
        import matplotlib.pyplot as plt
        # Create a histogram for a numeric variable
        data = [1, 1, 2, 3, 3, 3, 4, 4, 5, 5]
        plt.hist(data, bins=5)
        plt.xlabel('Values')
        plt.ylabel('Frequency')
        plt.title('Histogram of Values')
        plt.show()
  3. Алгоритмы машинного обучения:

    • Линейная регрессия:

      • Метод: подбор модели линейной регрессии
        from sklearn.linear_model import LinearRegression
        # Create an instance of LinearRegression
        model = LinearRegression()
        # Fit the model to training data
        X_train = [[1], [2], [3]]
        y_train = [2, 4, 6]
        model.fit(X_train, y_train)
        # Predict using the trained model
        X_test = [[4], [5]]
        predictions = model.predict(X_test)
    • Случайный лесной классификатор:

      • Метод: обучение случайного классификатора леса
        from sklearn.ensemble import RandomForestClassifier
        # Create an instance of RandomForestClassifier
        classifier = RandomForestClassifier()
        # Train the classifier on training data
        X_train = [[1, 2], [3, 4], [5, 6]]
        y_train = [0, 1, 0]
        classifier.fit(X_train, y_train)
        # Predict using the trained classifier
        X_test = [[7, 8]]
        predictions = classifier.predict(X_test)