Методы обработки данных: методы и примеры кода

Правильное написание — «Онлайн-наука о данных Университета Джонса Хопкинса». Вот несколько методов обработки данных и примеры кода:

  1. Очистка данных:

    • Описание: удаление или исправление ошибок, обработка пропущенных значений и преобразование данных.
    • Пример кода (Python – библиотека Pandas):

      import pandas as pd
      
      # Removing rows with missing values
      df.dropna(inplace=True)
      
      # Replacing missing values with the mean
      df['age'].fillna(df['age'].mean(), inplace=True)
      
      # Removing duplicates
      df.drop_duplicates(inplace=True)
  2. Исследовательский анализ данных (EDA):

    • Описание: анализ и обобщение основных характеристик набора данных.
    • Пример кода (Python – библиотеки Pandas и Matplotlib):

      import pandas as pd
      import matplotlib.pyplot as plt
      
      # Summary statistics
      print(df.describe())
      
      # Histogram
      df['age'].plot.hist()
      plt.xlabel('Age')
      plt.ylabel('Frequency')
      plt.show()
  3. Машинное обучение – линейная регрессия:

    • Описание: контролируемый алгоритм обучения для прогнозирования непрерывной целевой переменной.
    • Пример кода (Python – библиотека Scikit-learn):

      from sklearn.linear_model import LinearRegression
      from sklearn.model_selection import train_test_split
      
      X = df[['feature1', 'feature2']]  # Features
      y = df['target']  # Target variable
      
      X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
      
      model = LinearRegression()
      model.fit(X_train, y_train)
      
      y_pred = model.predict(X_test)
  4. Обработка естественного языка (NLP) – классификация текста:

    • Описание: категоризация текстовых документов по предопределенным классам или категориям.
    • Пример кода (Python – библиотека Scikit-learn):

      from sklearn.feature_extraction.text import TfidfVectorizer
      from sklearn.svm import SVC
      
      corpus = ['This is a positive document',
             'I am feeling negative today',
             'The weather is neutral']
      labels = ['Positive', 'Negative', 'Neutral']
      
      vectorizer = TfidfVectorizer()
      X = vectorizer.fit_transform(corpus)
      
      model = SVC()
      model.fit(X, labels)
      
      new_text = ['I feel great']
      new_text_vectorized = vectorizer.transform(new_text)
      
      predicted_label = model.predict(new_text_vectorized)