Подсчет непропущенных значений в DataFrame: подробное руководство

Обработка пропущенных значений — обычная задача при анализе данных. В этой статье блога мы рассмотрим различные методы подсчета количества непропущенных значений в DataFrame с использованием Python и библиотеки Pandas. Мы рассмотрим несколько подходов, предоставив примеры кода и используя разговорный язык, чтобы облегчить понимание и применение в ваших проектах анализа данных.

Метод 1: использование функции count()
Самый простой способ подсчитать непропущенные значения в DataFrame — использовать функцию count(), предоставляемую Pandas. Он возвращает количество ненулевых значений для каждого столбца.

import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Jane', None, 'Mike'],
        'Age': [25, 30, 35, None],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)
# Count non-missing values using count()
non_missing_count = df.count()
print(non_missing_count)

Метод 2: использование комбинации notna() и sum().
Другой подход предполагает использование функции notna()для создания логической маски, указывающей непропущенные значения, а затем применение sum()функция для подсчета истинных значений.

# Count non-missing values using notna() and sum()
non_missing_count = df.notna().sum()
print(non_missing_count)

Метод 3: использование комбинации isna() и sum()
В качестве альтернативы вы можете использовать функцию isna()для создания логической маски, указывающей пропущенные значения, а затем применить sum()с оператором отрицания (~) для подсчета истинных значений.

# Count non-missing values using isna() and sum()
non_missing_count = (~df.isna()).sum()
print(non_missing_count)

Метод 4. Использование функции apply().
Если вы хотите подсчитать непропущенные значения по строкам или выполнить какую-либо пользовательскую логику, вы можете использовать функцию apply()вместе с лямбда-выражением. для применения функции notna()или isna()к каждой строке и последующего подсчета истинных значений.

# Count non-missing values row-wise using apply()
non_missing_count = df.apply(lambda row: row.notna().sum(), axis=1)
print(non_missing_count)

В этой статье мы рассмотрели несколько методов подсчета непропущенных значений в DataFrame с использованием Python и Pandas. Мы рассмотрели функцию count(), комбинацию notna()и sum(), комбинацию isna()и 16.и функция apply()с лямбда-функцией. Каждый метод обеспечивает гибкость в зависимости от ваших конкретных требований.

Используя эти методы, вы сможете эффективно обрабатывать пропущенные значения в своих проектах анализа данных. Понимание количества непропущенных значений имеет решающее значение для принятия обоснованных решений и обеспечения точности анализа.

Не забудьте импортировать библиотеку Pandas (import pandas as pd) перед использованием примеров кода, представленных в этой статье.

Теперь у вас есть различные методы для подсчета непропущенных значений в DataFrame. Приятного анализа!