Правильное написание — «Онлайн-наука о данных Университета Джонса Хопкинса». Вот несколько методов обработки данных и примеры кода:
-
Очистка данных:
- Описание: удаление или исправление ошибок, обработка пропущенных значений и преобразование данных.
-
Пример кода (Python – библиотека Pandas):
import pandas as pd # Removing rows with missing values df.dropna(inplace=True) # Replacing missing values with the mean df['age'].fillna(df['age'].mean(), inplace=True) # Removing duplicates df.drop_duplicates(inplace=True)
-
Исследовательский анализ данных (EDA):
- Описание: анализ и обобщение основных характеристик набора данных.
-
Пример кода (Python – библиотеки Pandas и Matplotlib):
import pandas as pd import matplotlib.pyplot as plt # Summary statistics print(df.describe()) # Histogram df['age'].plot.hist() plt.xlabel('Age') plt.ylabel('Frequency') plt.show()
-
Машинное обучение – линейная регрессия:
- Описание: контролируемый алгоритм обучения для прогнозирования непрерывной целевой переменной.
-
Пример кода (Python – библиотека Scikit-learn):
from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split X = df[['feature1', 'feature2']] # Features y = df['target'] # Target variable X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)
-
Обработка естественного языка (NLP) – классификация текста:
- Описание: категоризация текстовых документов по предопределенным классам или категориям.
-
Пример кода (Python – библиотека Scikit-learn):
from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.svm import SVC corpus = ['This is a positive document', 'I am feeling negative today', 'The weather is neutral'] labels = ['Positive', 'Negative', 'Neutral'] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(corpus) model = SVC() model.fit(X, labels) new_text = ['I feel great'] new_text_vectorized = vectorizer.transform(new_text) predicted_label = model.predict(new_text_vectorized)