Полное руководство по чтению наборов данных в Python: методы и примеры кода

Чтение наборов данных и манипулирование ими — фундаментальная задача в анализе данных и машинном обучении. Python предоставляет универсальные библиотеки и инструменты, которые упрощают процесс чтения различных типов наборов данных. В этой статье мы рассмотрим несколько методов и примеров кода для чтения наборов данных в Python, охватывающих популярные форматы файлов, такие как CSV, JSON, Excel и SQLite.

  1. Чтение файлов CSV.
    Файлы CSV (значения, разделенные запятыми) широко используются для хранения табличных данных. Python предоставляет встроенные модули, такие как csv, и мощные библиотеки, такие как Pandas, для обработки файлов CSV.
import csv
# Method 1: Using the csv module
with open('dataset.csv', 'r') as file:
    csv_reader = csv.reader(file)
    for row in csv_reader:
        print(row)
# Method 2: Using the pandas library
import pandas as pd
data = pd.read_csv('dataset.csv')
print(data)

<старый старт="2">

  • Чтение файлов JSON.
    JSON (нотация объектов JavaScript) — популярный формат обмена данными. Модуль Python jsonупрощает чтение и анализ файлов JSON.
  • import json
    # Method 1: Using the json module
    with open('dataset.json', 'r') as file:
        data = json.load(file)
        print(data)
    # Method 2: Using the pandas library
    data = pd.read_json('dataset.json')
    print(data)
    1. Чтение файлов Excel.
      Файлы Excel, обычно в формате XLSX, широко используются для хранения структурированных данных. Библиотека pandasобеспечивает надежную поддержку чтения файлов Excel.
    # Method 1: Using the pandas library
    data = pd.read_excel('dataset.xlsx', sheet_name='Sheet1')
    print(data)
    # Method 2: Using the openpyxl library (for more advanced operations)
    import openpyxl
    workbook = openpyxl.load_workbook('dataset.xlsx')
    sheet = workbook['Sheet1']
    data = []
    for row in sheet.iter_rows(values_only=True):
        data.append(row)
    print(data)
    1. Чтение баз данных SQLite.
      SQLite — это легкий и автономный механизм базы данных. Встроенный модуль Python sqlite3позволяет легко взаимодействовать с базами данных SQLite.
    import sqlite3
    # Method 1: Using the sqlite3 module
    connection = sqlite3.connect('database.db')
    cursor = connection.cursor()
    cursor.execute('SELECT * FROM table')
    data = cursor.fetchall()
    print(data)
    # Method 2: Using the pandas library
    import pandas as pd
    data = pd.read_sql_query('SELECT * FROM table', connection)
    print(data)

    В этой статье мы рассмотрели различные методы чтения наборов данных в Python. Мы рассмотрели чтение файлов CSV, JSON, Excel и SQLite с использованием как встроенных модулей, так и популярных библиотек, таких как Pandas. Знакомство с этими методами даст вам необходимые навыки для эффективного чтения и анализа наборов данных в Python, что позволит вам получать значимую информацию из ваших данных.