«Магистры наук о данных JHU» относятся к магистерской программе по наукам о данных, предлагаемой Университетом Джонса Хопкинса. Вот несколько методов, обычно используемых в науке о данных, а также примеры кода:
-
Очистка данных:
-
Метод: удаление пропущенных значений из набора данных с помощью pandas.
import pandas as pd # Load dataset df = pd.read_csv('data.csv') # Drop rows with missing values df_cleaned = df.dropna()
-
-
Визуализация данных:
-
Метод: создание точечной диаграммы с использованием matplotlib.
import matplotlib.pyplot as plt # Generate data x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] # Create scatter plot plt.scatter(x, y) plt.xlabel('X') plt.ylabel('Y') plt.title('Scatter Plot') plt.show()
-
-
Машинное обучение – линейная регрессия:
-
Метод: реализация линейной регрессии с использованием scikit-learn.
from sklearn.linear_model import LinearRegression # Generate data X = [[1], [2], [3], [4], [5]] y = [2, 4, 6, 8, 10] # Create linear regression model model = LinearRegression() model.fit(X, y) # Predict X_new = [[6]] y_pred = model.predict(X_new)
-
-
Обработка естественного языка (NLP):
-
Метод: выполнение токенизации текста с помощью NLTK.
import nltk # Sentence to tokenize sentence = "This is a sample sentence." # Tokenize sentence tokens = nltk.word_tokenize(sentence)
-
-
Глубокое обучение – сверточные нейронные сети (CNN):
-
Метод: построение простой CNN с использованием Keras.
import keras from keras.models import Sequential from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense # Create CNN model model = Sequential() model.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dense(10, activation='softmax')) # Compile and train model model.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy']) model.fit(X_train, y_train, batch_size=128, epochs=10, validation_data=(X_test, y_test))
-