Исследование корреляции между бюджетом и валовой суммой: руководство по визуализации данных

В этой статье блога мы окунемся в увлекательный мир визуализации данных и исследуем взаимосвязь между бюджетом фильма и его валовым доходом. Мы будем использовать популярную библиотеку Python Seaborn для создания диаграммы рассеяния, которая визуально представляет эту взаимосвязь. Итак, хватайте попкорн, садитесь поудобнее и начнем!

Установка Seaborn:
Прежде чем мы перейдем к коду, убедитесь, что Seaborn установлен на вашем компьютере. Вы можете установить его, выполнив следующую команду в своей среде Python:

pip install seaborn

Импорт необходимых библиотек:
После установки Seaborn давайте импортируем необходимые библиотеки в наш скрипт Python:

import seaborn as sns
import matplotlib.pyplot as plt

Загрузка данных.
Для начала нам нужен набор данных, содержащий информацию о фильмах, включая их бюджеты и валовой доход. Предположим, что в этом уроке у нас есть файл CSV с именем «movies_data.csv», содержащий эту информацию. Мы можем загрузить данные в DataFrame Pandas, используя следующий код:

import pandas as pd
data = pd.read_csv("movies_data.csv")

Построение диаграммы рассеяния:
Теперь, когда у нас загружен набор данных, мы можем использовать Seaborn для построения диаграммы рассеяния. Ось X будет представлять бюджет, а ось Y — валовой доход. Размер маркеров на графике будет определяться популярностью фильма. Вот код для создания диаграммы рассеяния:

sns.scatterplot(data=data, x="budget", y="gross", size="popularity")
plt.title("Correlation Between Budget and Gross")
plt.xlabel("Budget")
plt.ylabel("Gross")
plt.show()

Интерпретация диаграммы рассеяния.
График рассеяния визуально представляет корреляцию между бюджетом фильма и его валовым доходом. Если точки на графике разбросаны повсюду, это указывает на слабую корреляцию или ее отсутствие. С другой стороны, если точки образуют линейный или изогнутый узор, это предполагает сильную корреляцию между двумя переменными.

Дополнительные методы исследования корреляции.
Помимо диаграммы разброса существуют и другие методы исследования корреляции между бюджетом и валовой суммой:

  1. Коэффициент корреляции Пирсона:
    Вы можете рассчитать коэффициент корреляции Пирсона с помощью функции corr()в Pandas:

    correlation = data["budget"].corr(data["gross"])

    Коэффициент варьируется от -1 до 1, где -1 указывает на сильную отрицательную корреляцию, 1 указывает на сильную положительную корреляцию, а 0 указывает на отсутствие корреляции.

  2. Jointplot:
    Seaborn предоставляет функцию jointplot(), которая отображает диаграмму рассеяния вместе с гистограммами двух переменных:

    sns.jointplot(data=data, x="budget", y="gross", kind="scatter")

    Этот график может дать дополнительную информацию о распределении данных.

  3. Парная диаграмма.
    Если в вашем наборе данных есть несколько переменных, вы можете использовать функцию pairplot()в Seaborn, чтобы создать сетку диаграмм рассеяния для всех возможных комбинаций переменных:

    sns.pairplot(data=data, vars=["budget", "gross", "popularity"])

    Этот график поможет вам выявить корреляции между несколькими переменными.

В этом уроке мы исследовали корреляцию между бюджетом фильма и его валовым доходом с помощью методов визуализации данных. Мы использовали Seaborn для создания диаграммы рассеяния и обсудили дополнительные методы анализа корреляции. Визуализация данных – это мощный способ получить ценную информацию и эффективно передать сложные взаимоотношения.