Методы в области науки о данных: линейная регрессия, деревья решений, кластеризация K-средних, случайные леса, машины опорных векторов.

  1. Линейная регрессия.
    Линейная регрессия – широко используемый метод прогнозирования непрерывных значений на основе взаимосвязи между независимыми и зависимыми переменными.

    Пример кода (Python):

    import numpy as np
    from sklearn.linear_model import LinearRegression
    # Sample data
    X = np.array([[1], [2], [3], [4], [5]])
    y = np.array([2, 4, 6, 8, 10])
    # Create and fit the model
    model = LinearRegression()
    model.fit(X, y)
    # Predict new values
    X_new = np.array([[6], [7]])
    y_pred = model.predict(X_new)
    print(y_pred)
  2. Деревья решений.
    Деревья решений — это универсальные модели, которые можно использовать как для задач классификации, так и для регрессии. Они создают структуру, похожую на блок-схему, для прогнозирования на основе значений функций.

    Пример кода (Python):

    from sklearn.tree import DecisionTreeClassifier
    # Sample data
    X = [[0, 0], [1, 1], [2, 2]]
    y = [0, 1, 2]
    # Create and fit the model
    model = DecisionTreeClassifier()
    model.fit(X, y)
    # Predict new values
    X_new = [[1.5, 1.5]]
    y_pred = model.predict(X_new)
    print(y_pred)
  3. Кластеризация по K-средним.
    Кластеризация по K-средним – это метод обучения без учителя, используемый для группировки похожих точек данных в кластеры на основе сходства их признаков.

    Пример кода (Python):

    from sklearn.cluster import KMeans
    # Sample data
    X = [[1], [2], [3], [10], [11], [12]]
    # Create and fit the model
    model = KMeans(n_clusters=2)
    model.fit(X)
    # Predict cluster labels for new data points
    X_new = [[0.5], [15]]
    labels = model.predict(X_new)
    print(labels)
  4. Случайные леса.
    Случайные леса — это ансамблевый метод обучения, который объединяет несколько деревьев решений для прогнозирования. Они часто используются для задач классификации и регрессии и могут обрабатывать большие наборы данных.

    Пример кода (Python):

    from sklearn.ensemble import RandomForestClassifier
    # Sample data
    X = [[0, 0], [1, 1]]
    y = [0, 1]
    # Create and fit the model
    model = RandomForestClassifier()
    model.fit(X, y)
    # Predict new values
    X_new = [[0.8, 0.8]]
    y_pred = model.predict(X_new)
    print(y_pred)
  5. Машины опорных векторов (SVM).
    SVM – это мощный метод, используемый для задач классификации и регрессии. Он находит оптимальную гиперплоскость, которая разделяет точки данных разных классов или прогнозирует непрерывные значения.

    Пример кода (Python):

    from sklearn.svm import SVC
    # Sample data
    X = [[0, 0], [1, 1]]
    y = [0, 1]
    # Create and fit the model
    model = SVC()
    model.fit(X, y)
    # Predict new values
    X_new = [[0.5, 0.5]]
    y_pred = model.predict(X_new)
    print(y_pred)