Обработка пропущенных значений — обычная задача при анализе данных. В этой статье блога мы рассмотрим различные методы подсчета количества непропущенных значений в DataFrame с использованием Python и библиотеки Pandas. Мы рассмотрим несколько подходов, предоставив примеры кода и используя разговорный язык, чтобы облегчить понимание и применение в ваших проектах анализа данных.
Метод 1: использование функции count()
Самый простой способ подсчитать непропущенные значения в DataFrame — использовать функцию count(), предоставляемую Pandas. Он возвращает количество ненулевых значений для каждого столбца.
import pandas as pd
# Create a DataFrame
data = {'Name': ['John', 'Jane', None, 'Mike'],
'Age': [25, 30, 35, None],
'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)
# Count non-missing values using count()
non_missing_count = df.count()
print(non_missing_count)
Метод 2: использование комбинации notna() и sum().
Другой подход предполагает использование функции notna()для создания логической маски, указывающей непропущенные значения, а затем применение sum()функция для подсчета истинных значений.
# Count non-missing values using notna() and sum()
non_missing_count = df.notna().sum()
print(non_missing_count)
Метод 3: использование комбинации isna() и sum()
В качестве альтернативы вы можете использовать функцию isna()для создания логической маски, указывающей пропущенные значения, а затем применить sum()с оператором отрицания (~) для подсчета истинных значений.
# Count non-missing values using isna() and sum()
non_missing_count = (~df.isna()).sum()
print(non_missing_count)
Метод 4. Использование функции apply().
Если вы хотите подсчитать непропущенные значения по строкам или выполнить какую-либо пользовательскую логику, вы можете использовать функцию apply()вместе с лямбда-выражением. для применения функции notna()или isna()к каждой строке и последующего подсчета истинных значений.
# Count non-missing values row-wise using apply()
non_missing_count = df.apply(lambda row: row.notna().sum(), axis=1)
print(non_missing_count)
В этой статье мы рассмотрели несколько методов подсчета непропущенных значений в DataFrame с использованием Python и Pandas. Мы рассмотрели функцию count(), комбинацию notna()и sum(), комбинацию isna()и 16.и функция apply()с лямбда-функцией. Каждый метод обеспечивает гибкость в зависимости от ваших конкретных требований.
Используя эти методы, вы сможете эффективно обрабатывать пропущенные значения в своих проектах анализа данных. Понимание количества непропущенных значений имеет решающее значение для принятия обоснованных решений и обеспечения точности анализа.
Не забудьте импортировать библиотеку Pandas (import pandas as pd) перед использованием примеров кода, представленных в этой статье.
Теперь у вас есть различные методы для подсчета непропущенных значений в DataFrame. Приятного анализа!