Методы в статистике и науке о данных: изучение линейной регрессии, логистической регрессии, деревьев решений, случайных лесов и кластеризации K-средних

Вот несколько методов в статистике и науке о данных, а также примеры кода:

  1. Линейная регрессия.
    Линейная регрессия используется для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Вот пример использования библиотеки Python scikit-learn:
from sklearn.linear_model import LinearRegression
# Sample data
X = [[1], [2], [3], [4], [5]]
y = [2, 4, 6, 8, 10]
# Create and fit the model
model = LinearRegression()
model.fit(X, y)
# Predict using the model
X_test = [[6], [7]]
y_pred = model.predict(X_test)
print(y_pred)
  1. Логистическая регрессия.
    Логистическая регрессия используется для решения задач двоичной классификации. Он моделирует взаимосвязь между зависимой переменной и независимыми переменными, используя логистическую функцию. Вот пример использования scikit-learn:
from sklearn.linear_model import LogisticRegression
# Sample data
X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]
# Create and fit the model
model = LogisticRegression()
model.fit(X, y)
# Predict using the model
X_test = [[6], [7]]
y_pred = model.predict(X_test)
print(y_pred)
  1. Деревья решений.
    Деревья решений — это универсальные модели, которые можно использовать как для задач классификации, так и для задач регрессии. Они разделяют данные на иерархические структуры на основе значений признаков. Вот пример использования библиотеки scikit-learn:
from sklearn.tree import DecisionTreeClassifier
# Sample data
X = [[1, 2], [2, 3], [3, 4], [4, 5]]
y = [0, 0, 1, 1]
# Create and fit the model
model = DecisionTreeClassifier()
model.fit(X, y)
# Predict using the model
X_test = [[5, 6], [6, 7]]
y_pred = model.predict(X_test)
print(y_pred)
  1. Случайные леса.
    Случайные леса — это ансамблевый метод обучения, который объединяет несколько деревьев решений для прогнозирования. Они известны своей высокой точностью и надежностью. Вот пример использования scikit-learn:
from sklearn.ensemble import RandomForestClassifier
# Sample data
X = [[1, 2], [2, 3], [3, 4], [4, 5]]
y = [0, 0, 1, 1]
# Create and fit the model
model = RandomForestClassifier()
model.fit(X, y)
# Predict using the model
X_test = [[5, 6], [6, 7]]
y_pred = model.predict(X_test)
print(y_pred)
  1. Кластеризация по K-средним.
    Кластеризация по K-средним — это алгоритм обучения без учителя, который группирует данные в K-кластеры на основе их сходства. Вот пример использования библиотеки scikit-learn:
from sklearn.cluster import KMeans
# Sample data
X = [[1], [2], [10], [11]]
# Create and fit the model
model = KMeans(n_clusters=2)
model.fit(X)
# Predict cluster labels
X_test = [[3], [12]]
y_pred = model.predict(X_test)
print(y_pred)