Вот несколько методов, используемых в науке о данных, с примерами кода:
-
Линейная регрессия.
Линейная регрессия используется для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Он обычно используется для прогнозирования непрерывных числовых значений. Вот пример использования библиотеки Python scikit-learn:from sklearn.linear_model import LinearRegression # Sample data X = [[1], [2], [3], [4], [5]] y = [2, 4, 6, 8, 10] # Create and fit the model model = LinearRegression() model.fit(X, y) # Predict new values X_new = [[6], [7], [8]] y_pred = model.predict(X_new) print(y_pred) # Output: [12. 14. 16.] -
Логистическая регрессия.
Логистическая регрессия используется для задач двоичной классификации, где выходными данными является вероятность от 0 до 1. Она обычно используется для прогнозирования классов или принятия решений на основе входных признаков. Вот пример использования scikit-learn:from sklearn.linear_model import LogisticRegression # Sample data X = [[1], [2], [3], [4], [5]] y = [0, 0, 1, 1, 1] # Create and fit the model model = LogisticRegression() model.fit(X, y) # Predict new values X_new = [[6], [7], [8]] y_pred = model.predict(X_new) print(y_pred) # Output: [1 1 1] -
Случайный лес.
Случайный лес — это метод ансамблевого обучения, который объединяет несколько деревьев решений для составления прогнозов. Он обычно используется как для задач регрессии, так и для задач классификации. Вот пример использования scikit-learn:from sklearn.ensemble import RandomForestRegressor # Sample data X = [[1], [2], [3], [4], [5]] y = [2, 4, 6, 8, 10] # Create and fit the model model = RandomForestRegressor() model.fit(X, y) # Predict new values X_new = [[6], [7], [8]] y_pred = model.predict(X_new) print(y_pred) # Output: [10. 10. 10.] -
Кластеризация K-средних.
Кластеризация K-средних — это алгоритм обучения без учителя, используемый для группировки данных в кластеры на основе сходства. Он обычно используется для задач сегментации и распознавания образов. Вот пример использования scikit-learn:from sklearn.cluster import KMeans # Sample data X = [[1], [2], [3], [8], [9], [10]] # Create and fit the model model = KMeans(n_clusters=2) model.fit(X) # Predict cluster labels labels = model.predict(X) print(labels) # Output: [0 0 0 1 1 1] -
Машины опорных векторов (SVM).
SVM — это мощный алгоритм контролируемого обучения, используемый для задач классификации и регрессии. Он находит лучшую гиперплоскость, разделяющую разные классы. Вот пример использования scikit-learn:from sklearn.svm import SVC # Sample data X = [[1, 2], [2, 3], [3, 4], [4, 5]] y = [0, 0, 1, 1] # Create and fit the model model = SVC() model.fit(X, y) # Predict new values X_new = [[5, 6], [6, 7]] y_pred = model.predict(X_new) print(y_pred) # Output: [1 1]
В целом, это лишь несколько примеров из множества методов, используемых в науке о данных. У каждого метода есть свои сильные и слабые стороны, и выбор метода зависит от конкретной проблемы, которую вы пытаетесь решить.