-
Очистка и предварительная обработка данных:
- Метод: удаление повторяющихся записей, обработка пропущенных значений, стандартизация форматов данных и т. д.
- Пример кода (Python/Pandas):
import pandas as pd # Removing duplicate records df = df.drop_duplicates() # Handling missing values df = df.dropna() # Standardizing data formats df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')
-
Исследовательский анализ данных (EDA):
- Метод: визуализация распределения данных, выявление выбросов, понимание взаимосвязей между переменными и т. д.
- Пример кода (Python/Matplotlib):
import matplotlib.pyplot as plt # Visualizing data distributions plt.hist(data, bins=10) plt.xlabel('Value') plt.ylabel('Frequency') plt.show() # Identifying outliers q1 = data.quantile(0.25) q3 = data.quantile(0.75) iqr = q3 - q1 lower_bound = q1 - 1.5 * iqr upper_bound = q3 + 1.5 * iqr outliers = data[(data < lower_bound) | (data > upper_bound)]
-
Машинное обучение и прогнозное моделирование:
- Метод: построение моделей для прогнозирования результатов, классификации данных или выдачи рекомендаций.
- Пример кода (Python/Scikit-learn):
from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # Splitting data into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Training a logistic regression model model = LogisticRegression() model.fit(X_train, y_train) # Making predictions y_pred = model.predict(X_test)
-
Обработка естественного языка (NLP) для анализа текста:
- Метод: анализ и извлечение информации из текстовых данных.
- Пример кода (Python/NLTK):
import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords # Tokenizing and removing stopwords tokens = word_tokenize(text) stop_words = set(stopwords.words('english')) filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
-
Визуализация данных:
- Метод: создание визуального представления данных для эффективной передачи информации.
- Пример кода (Python/Matplotlib):
import matplotlib.pyplot as plt # Creating a bar chart x = ['A', 'B', 'C', 'D'] y = [10, 15, 7, 12] plt.bar(x, y) plt.xlabel('Category') plt.ylabel('Count') plt.show()