Общие методы в науке о данных с примерами кода

  1. Очистка данных.
    Очистка данных включает предварительную обработку и преобразование необработанных данных, чтобы сделать их пригодными для анализа. Вот пример удаления пропущенных значений с помощью библиотеки Pandas Python:
import pandas as pd
# Create a DataFrame with missing values
data = {'Name': ['John', 'Jane', 'Mike', 'Sarah', 'Tom'],
        'Age': [25, 30, None, 35, 40],
        'Salary': [50000, 60000, 70000, None, 90000]}
df = pd.DataFrame(data)
# Remove rows with missing values
df_cleaned = df.dropna()
print(df_cleaned)
  1. Исследовательский анализ данных (EDA):
    EDA включает в себя визуализацию и обобщение данных для получения ценной информации и выявления закономерностей. Вот пример создания гистограммы с использованием библиотеки Python matplotlib:
import matplotlib.pyplot as plt
# Create a list of ages
ages = [25, 30, 35, 40, 45, 50, 55, 60, 65, 70]
# Plot a histogram
plt.hist(ages, bins=5, edgecolor='black')
# Add labels and title
plt.xlabel('Age')
plt.ylabel('Count')
plt.title('Age Distribution')
# Display the plot
plt.show()
  1. Машинное обучение – регрессия.
    Регрессия – это метод обучения с учителем, используемый для прогнозирования непрерывных числовых значений. Вот пример обучения модели линейной регрессии с использованием библиотеки Python scikit-learn:
from sklearn.linear_model import LinearRegression
# Prepare the data
X = [[1], [2], [3], [4], [5]]
y = [3, 5, 7, 9, 11]
# Create a linear regression model
regressor = LinearRegression()
# Train the model
regressor.fit(X, y)
# Predict the output for a new input
X_new = [[6]]
y_pred = regressor.predict(X_new)
print(y_pred)
  1. Обработка естественного языка (НЛП).
    НЛП включает в себя анализ и обработку данных человеческого языка. Вот пример токенизации текста с использованием библиотеки Python NLTK:
from nltk.tokenize import word_tokenize
# Input text
text = "Hello, how are you?"
# Tokenize the text
tokens = word_tokenize(text)
print(tokens)