5 основных методов обработки данных с примерами кода

Вот несколько методов, обычно используемых в науке о данных, а также примеры кода:

  1. Линейная регрессия.
    Линейная регрессия используется для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Вот пример использования библиотеки Python scikit-learn:
from sklearn.linear_model import LinearRegression
# Sample data
X = [[1], [2], [3], [4]]
y = [2, 4, 6, 8]
# Create and fit the model
model = LinearRegression()
model.fit(X, y)
# Predict
X_test = [[5]]
y_pred = model.predict(X_test)
print(y_pred)  # Output: [10]
  1. Логистическая регрессия.
    Логистическая регрессия используется для решения задач двоичной классификации. Он моделирует вероятность наступления определенного события. Вот пример использования scikit-learn:
from sklearn.linear_model import LogisticRegression
# Sample data
X = [[1], [2], [3], [4]]
y = [0, 0, 1, 1]
# Create and fit the model
model = LogisticRegression()
model.fit(X, y)
# Predict probabilities
X_test = [[5]]
proba = model.predict_proba(X_test)
print(proba)  # Output: [[0.29773979, 0.70226021]]
  1. Случайный лес.
    Случайный лес — это ансамблевый метод обучения, который объединяет несколько деревьев решений для прогнозирования. Его можно использовать как для задач классификации, так и для задач регрессии. Вот пример использования scikit-learn:
from sklearn.ensemble import RandomForestClassifier
# Sample data
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 1, 1, 0]
# Create and fit the model
model = RandomForestClassifier()
model.fit(X, y)
# Predict
X_test = [[2, 3]]
y_pred = model.predict(X_test)
print(y_pred)  # Output: [1]
  1. Кластеризация K-средних.
    K-средние — это алгоритм обучения без учителя, используемый для кластеризации. Он группирует похожие точки данных в кластеры на основе сходства их характеристик. Вот пример использования scikit-learn:
from sklearn.cluster import KMeans
# Sample data
X = [[1], [2], [10], [11]]
# Create and fit the model
model = KMeans(n_clusters=2)
model.fit(X)
# Predict cluster labels
X_test = [[3]]
cluster_label = model.predict(X_test)
print(cluster_label)  # Output: [0]
  1. Машины опорных векторов (SVM).
    SVM — это мощный алгоритм машинного обучения, используемый для задач классификации и регрессии. Он находит гиперплоскость, которая лучше всего разделяет данные на разные классы. Вот пример использования scikit-learn:
from sklearn import svm
# Sample data
X = [[2, 0], [1, 1], [2, 3]]
y = [0, 0, 1]
# Create and fit the model
model = svm.SVC()
model.fit(X, y)
# Predict
X_test = [[2, 2]]
y_pred = model.predict(X_test)
print(y_pred)  # Output: [1]