Метод dataframe.shape
в контексте работы с фреймами данных в Python возвращает кортеж, содержащий количество строк и столбцов в фрейме данных. Это удобный способ быстро получить представление о размерах вашего фрейма данных.
Теперь давайте углубимся в некоторые разговорные объяснения и примеры кода различных методов, которые можно использовать с кадрами данных.
.head()
— этот метод позволяет просмотреть первые несколько строк вашего фрейма данных. Это удобно для быстрого просмотра данных.
df.head()
.tail()
– аналогично.head()
, этот метод отображает несколько последних строк вашего фрейма данных.
df.tail()
.info()
– используйте этот метод для получения сводной информации о вашем фрейме данных, включая информацию о типах данных каждого столбца и количестве ненулевых значений.
df.info()
.describe()
– этот метод предоставляет статистические сводки для каждого числового столбца в вашем фрейме данных, такие как количество, среднее значение, стандартное отклонение, минимальное и максимальное значения.
df.describe()
.columns
— этот атрибут возвращает список имен столбцов в вашем фрейме данных. Это полезно, если вы хотите получить доступ к определенным столбцам или манипулировать ими.
df.columns
.index
— этот атрибут возвращает метки индекса вашего фрейма данных, что может быть полезно, если вы хотите перебирать строки или выполнять операции на основе индекса.
df.index
.shape
. Как упоминалось ранее, этот метод возвращает кортеж, представляющий количество строк и столбцов в вашем кадре данных.
df.shape
.loc[]
— этот метод позволяет вам получать доступ к строкам и столбцам в вашем фрейме данных посредством индексации на основе меток. Вы можете указать метки строк и имена столбцов для извлечения конкретных данных.
df.loc[2, 'column_name']
.iloc[]
— аналогично.loc[]
, этот метод позволяет получать доступ к строкам и столбцам в кадре данных посредством индексации на основе целых чисел. Вы можете передавать целочисленные значения для получения определенных данных.
df.iloc[2, 3]
.drop()
— используйте этот метод для удаления строк или столбцов из вашего фрейма данных. Вы можете указать метки строк или столбцов, которые хотите удалить.
df.drop(['row_label1', 'row_label2'], axis=0)
.fillna()
— этот метод позволяет вам заполнить пропущенные значения (NaN) в вашем фрейме данных указанным значением или использовать различные методы заполнения.
df.fillna(value=0)
.groupby()
— этот метод полезен для группировки вашего фрейма данных на основе одного или нескольких столбцов. Он позволяет выполнять агрегирование и применять функции к сгруппированным данным.
df.groupby('column_name').mean()
.sort_values()
— используйте этот метод для сортировки фрейма данных на основе одного или нескольких столбцов. Для каждого столбца можно указать порядок по возрастанию или убыванию.
df.sort_values(by='column_name', ascending=True)
.merge()
— этот метод позволяет объединить два фрейма данных на основе общего столбца или индекса. Это полезно, если вы хотите объединить данные из разных источников.
df1.merge(df2, on='column_name')
.pivot_table()
– этот метод позволяет создать сводную таблицу на основе вашего фрейма данных, которая суммирует и агрегирует данные на основе одного или нескольких столбцов.
df.pivot_table(values='value_column', index='index_column', columns='column_name', aggfunc='mean')
На этом мы завершаем изучение некоторых часто используемых методов обработки данных в Python. Помните, что это всего лишь несколько примеров, а в таких библиотеках, как Pandas, доступно гораздо больше методов и функций.