«Наука о данных Coursera JHU» — это специализация «Наука о данных», предлагаемая Университетом Джонса Хопкинса на платформе Coursera. Эта специализация состоит из серии курсов, которые охватывают различные аспекты науки о данных, включая манипулирование данными, визуализацию данных, статистический вывод и машинное обучение. Ниже я предоставлю обзор некоторых распространенных методов, используемых в науке о данных, а также примеры кода:
-
Манипулирование данными:
- Метод: Панды
-
Пример кода:
import pandas as pd # Read data from a CSV file data = pd.read_csv('data.csv') # Filter rows based on a condition filtered_data = data[data['column_name'] > 10] # Group data by a column and calculate statistics grouped_data = data.groupby('column_name').mean() # Merge two dataframes merged_data = pd.merge(df1, df2, on='common_column')
-
Визуализация данных:
- Метод: Matplotlib
-
Пример кода:
import matplotlib.pyplot as plt # Line plot plt.plot(x, y) plt.xlabel('X-axis') plt.ylabel('Y-axis') plt.title('Title') plt.show() # Scatter plot plt.scatter(x, y) plt.xlabel('X-axis') plt.ylabel('Y-axis') plt.title('Title') plt.show() # Histogram plt.hist(data, bins=10) plt.xlabel('X-axis') plt.ylabel('Y-axis') plt.title('Title') plt.show()
-
Статистический вывод:
- Метод: SciPy
-
Пример кода:
from scipy import stats # One-sample t-test t_statistic, p_value = stats.ttest_1samp(data, population_mean) # Pearson correlation coefficient correlation, p_value = stats.pearsonr(x, y) # Chi-square test chi2_statistic, p_value = stats.chisquare(observed_values, expected_values)
-
Машинное обучение:
- Метод: Scikit-learn
-
Пример кода (линейная регрессия):
from sklearn.linear_model import LinearRegression # Create a linear regression model model = LinearRegression() # Fit the model to the training data model.fit(X_train, y_train) # Make predictions on new data predictions = model.predict(X_test)