Вот несколько методов анализа данных в Python вместе с примерами кода:
- Обработка данных:
- Метод: библиотека Pandas
- Пример кода:
import pandas as pd
# Read data from CSV file
data = pd.read_csv('data.csv')
# Perform data cleaning and preprocessing
# ...
# Perform data transformations
# ...
# Perform feature engineering
# ...
- Исследовательский анализ данных (EDA):
- Метод: библиотека Seaborn
- Пример кода:
import seaborn as sns
# Load dataset
data = sns.load_dataset('iris')
# Visualize data distributions
sns.pairplot(data, hue='species')
- Визуализация данных:
- Метод: библиотека Matplotlib
- Пример кода:
import matplotlib.pyplot as plt
# Create a bar chart
x = ['A', 'B', 'C']
y = [10, 15, 7]
plt.bar(x, y)
plt.xlabel('Categories')
plt.ylabel('Counts')
plt.title('Bar Chart')
plt.show()
- Машинное обучение:
- Метод: библиотека Scikit-learn
- Пример кода (линейная регрессия):
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# Load dataset
data = pd.read_csv('data.csv')
X = data[['feature1', 'feature2']]
y = data['target']
# Split data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Create a linear regression model
model = LinearRegression()
# Train the model
model.fit(X_train, y_train)
# Make predictions
y_pred = model.predict(X_test)
- Обработка естественного языка (NLP):
- Метод: библиотека NLTK
- Пример кода (токенизация текста):
from nltk.tokenize import word_tokenize
# Text to be tokenized
text = "This is a sample sentence."
# Tokenize the text
tokens = word_tokenize(text)
print(tokens)