Ниже приведены несколько методов, обычно используемых в науке о данных, а также примеры кода:
-
Предварительная обработка данных:
-
Обработка недостающих данных:
- Метод: вменение среднего значения
import pandas as pd from sklearn.impute import SimpleImputer # Create an instance of SimpleImputer imputer = SimpleImputer(strategy='mean') # Impute missing values in a DataFrame df = pd.DataFrame([[1, 2], [np.nan, 3], [4, np.nan]]) imputed_df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
- Метод: вменение среднего значения
-
Масштабирование функций:
- Метод: стандартизация
from sklearn.preprocessing import StandardScaler # Create an instance of StandardScaler scaler = StandardScaler() # Scale the feature values in a DataFrame df = pd.DataFrame([[1, 2], [3, 4], [5, 6]]) scaled_df = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
- Метод: стандартизация
-
-
Исследовательский анализ данных (EDA):
-
Описательная статистика:
- Метод: вычисление среднего значения, медианы и стандартного отклонения
import pandas as pd # Compute descriptive statistics for a DataFrame df = pd.DataFrame([1, 2, 3, 4, 5]) mean_value = df.mean() median_value = df.median() std_value = df.std()
- Метод: вычисление среднего значения, медианы и стандартного отклонения
-
Визуализация данных:
- Метод: создание гистограммы
import matplotlib.pyplot as plt # Create a histogram for a numeric variable data = [1, 1, 2, 3, 3, 3, 4, 4, 5, 5] plt.hist(data, bins=5) plt.xlabel('Values') plt.ylabel('Frequency') plt.title('Histogram of Values') plt.show()
- Метод: создание гистограммы
-
-
Алгоритмы машинного обучения:
-
Линейная регрессия:
- Метод: подбор модели линейной регрессии
from sklearn.linear_model import LinearRegression # Create an instance of LinearRegression model = LinearRegression() # Fit the model to training data X_train = [[1], [2], [3]] y_train = [2, 4, 6] model.fit(X_train, y_train) # Predict using the trained model X_test = [[4], [5]] predictions = model.predict(X_test)
- Метод: подбор модели линейной регрессии
-
Случайный лесной классификатор:
- Метод: обучение случайного классификатора леса
from sklearn.ensemble import RandomForestClassifier # Create an instance of RandomForestClassifier classifier = RandomForestClassifier() # Train the classifier on training data X_train = [[1, 2], [3, 4], [5, 6]] y_train = [0, 1, 0] classifier.fit(X_train, y_train) # Predict using the trained classifier X_test = [[7, 8]] predictions = classifier.predict(X_test)
- Метод: обучение случайного классификатора леса
-