Готовы ли вы погрузиться в увлекательный мир преобразования данных? В этой статье мы рассмотрим функцию плавления в Python и применим ее возможности к набору данных автомобиля. Пристегнитесь и будьте готовы стать свидетелями волшебства легкого изменения данных!
Функция плавления — это удобный инструмент, предоставляемый библиотекой pandas в Python. Это позволяет нам преобразовывать широкоформатные данные в данные длинного формата, что упрощает анализ и визуализацию. Давайте посмотрим, как мы можем использовать функцию плавления в наборе данных об автомобилях, чтобы получить ценную информацию.
Представьте, что у нас есть набор данных под названием «автомобили», содержащий информацию о желаемых автомобилях, типах кузовов и ценах. Наша цель — изменить форму этого набора данных с помощью функции плавления. Вот как мы можем это сделать:
import pandas as pd
# Defining the car dataset
cars = pd.DataFrame({
'aspiration': ['turbo', 'std'],
'carbody': ['sedan', 'hatchback'],
'price': [13495, 16500],
'engine1': [4, 4],
'engine2': [6, 6]
})
# Reshaping the dataset using melt
cars_melt = cars.melt(id_vars=['aspiration', 'carbody', 'price'],
value_vars=['engine1', 'engine2'])
print(cars_melt)
Функция melt()
принимает два важных аргумента: id_vars
и value_vars
. Параметр id_vars
указывает столбцы, которые останутся в качестве переменных-идентификаторов, а параметр value_vars
указывает столбцы, которые будут объединены или отменены. В нашем примере мы хотим сохранить «aspiration», «carbody» и «price» в качестве переменных-идентификаторов и объединить столбцы «engine1» и «engine2».
Результирующий DataFrame cars_melt
будет содержать четыре столбца: «назначение», «кузов», «цена» и «переменная». Столбец «переменная» будет содержать имена столбцов из исходного набора данных, которые были объединены. Кроме того, будет создан столбец «значение» для хранения соответствующих значений из объединенных столбцов.
Объединяя набор данных, мы преобразуем его из широкого формата в длинный формат, который зачастую более удобен для анализа. Этот формат упрощает выполнение таких операций, как фильтрация, группировка и построение графиков данных.
Теперь, когда у вас есть базовое представление о том, как использовать функцию плавления, давайте рассмотрим некоторые другие методы достижения аналогичных результатов:
-
Использование метода
stack()
:cars_stack = cars.set_index(['aspiration', 'carbody', 'price']).stack().reset_index()
-
Использование метода
unstack()
:cars_unstack = cars.set_index(['aspiration', 'carbody', 'price']).unstack().reset_index()
-
Использование функции
reshape()
из библиотеки numpy:import numpy as np cars_reshape = pd.DataFrame(np.reshape(cars.values, (4, 4)), columns=['aspiration', 'carbody', 'price', 'variable'])
Помните, что это всего лишь несколько примеров из множества способов преобразования данных. Каждый подход имеет свои преимущества и может быть более подходящим для различных сценариев. Экспериментирование имеет ключевое значение!
В заключение, преобразование данных — важнейший шаг в анализе и визуализации данных. Функция плавления, наряду с другими методами, такими как сложение, разложение и изменение формы, позволяет нам изменять форму наших данных и раскрывать скрытую информацию. Итак, пристегнитесь и начните преобразовывать свои наборы данных с помощью Python!