Методы и примеры кода для науки о данных: предварительная обработка, EDA и машинное обучение - Fcodenotes

Ниже приведены несколько методов, обычно используемых в науке о данных, а также примеры кода:

Предварительная обработка данных:

Обработка недостающих данных:

Метод: вменение среднего значения

import pandas as pd
from sklearn.impute import SimpleImputer
# Create an instance of SimpleImputer
imputer = SimpleImputer(strategy='mean')
# Impute missing values in a DataFrame
df = pd.DataFrame([[1, 2], [np.nan, 3], [4, np.nan]])
imputed_df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

Масштабирование функций:

Метод: стандартизация

from sklearn.preprocessing import StandardScaler
# Create an instance of StandardScaler
scaler = StandardScaler()
# Scale the feature values in a DataFrame
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]])
scaled_df = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

Исследовательский анализ данных (EDA):

Описательная статистика:
- Метод: вычисление среднего значения, медианы и стандартного отклонения
```
import pandas as pd
# Compute descriptive statistics for a DataFrame
df = pd.DataFrame([1, 2, 3, 4, 5])
mean_value = df.mean()
median_value = df.median()
std_value = df.std()
```

Визуализация данных:

Метод: создание гистограммы

import matplotlib.pyplot as plt
# Create a histogram for a numeric variable
data = [1, 1, 2, 3, 3, 3, 4, 4, 5, 5]
plt.hist(data, bins=5)
plt.xlabel('Values')
plt.ylabel('Frequency')
plt.title('Histogram of Values')
plt.show()

Алгоритмы машинного обучения:

Линейная регрессия:

Метод: подбор модели линейной регрессии

from sklearn.linear_model import LinearRegression
# Create an instance of LinearRegression
model = LinearRegression()
# Fit the model to training data
X_train = [[1], [2], [3]]
y_train = [2, 4, 6]
model.fit(X_train, y_train)
# Predict using the trained model
X_test = [[4], [5]]
predictions = model.predict(X_test)

Случайный лесной классификатор:

Метод: обучение случайного классификатора леса

from sklearn.ensemble import RandomForestClassifier
# Create an instance of RandomForestClassifier
classifier = RandomForestClassifier()
# Train the classifier on training data
X_train = [[1, 2], [3, 4], [5, 6]]
y_train = [0, 1, 0]
classifier.fit(X_train, y_train)
# Predict using the trained classifier
X_test = [[7, 8]]
predictions = classifier.predict(X_test)