Чтение наборов данных и манипулирование ими — фундаментальная задача в анализе данных и машинном обучении. Python предоставляет универсальные библиотеки и инструменты, которые упрощают процесс чтения различных типов наборов данных. В этой статье мы рассмотрим несколько методов и примеров кода для чтения наборов данных в Python, охватывающих популярные форматы файлов, такие как CSV, JSON, Excel и SQLite.
- Чтение файлов CSV.
Файлы CSV (значения, разделенные запятыми) широко используются для хранения табличных данных. Python предоставляет встроенные модули, такие какcsv, и мощные библиотеки, такие какPandas, для обработки файлов CSV.
import csv
# Method 1: Using the csv module
with open('dataset.csv', 'r') as file:
csv_reader = csv.reader(file)
for row in csv_reader:
print(row)
# Method 2: Using the pandas library
import pandas as pd
data = pd.read_csv('dataset.csv')
print(data)
<старый старт="2">
JSON (нотация объектов JavaScript) — популярный формат обмена данными. Модуль Python
jsonупрощает чтение и анализ файлов JSON.import json
# Method 1: Using the json module
with open('dataset.json', 'r') as file:
data = json.load(file)
print(data)
# Method 2: Using the pandas library
data = pd.read_json('dataset.json')
print(data)
- Чтение файлов Excel.
Файлы Excel, обычно в формате XLSX, широко используются для хранения структурированных данных. Библиотекаpandasобеспечивает надежную поддержку чтения файлов Excel.
# Method 1: Using the pandas library
data = pd.read_excel('dataset.xlsx', sheet_name='Sheet1')
print(data)
# Method 2: Using the openpyxl library (for more advanced operations)
import openpyxl
workbook = openpyxl.load_workbook('dataset.xlsx')
sheet = workbook['Sheet1']
data = []
for row in sheet.iter_rows(values_only=True):
data.append(row)
print(data)
- Чтение баз данных SQLite.
SQLite — это легкий и автономный механизм базы данных. Встроенный модуль Pythonsqlite3позволяет легко взаимодействовать с базами данных SQLite.
import sqlite3
# Method 1: Using the sqlite3 module
connection = sqlite3.connect('database.db')
cursor = connection.cursor()
cursor.execute('SELECT * FROM table')
data = cursor.fetchall()
print(data)
# Method 2: Using the pandas library
import pandas as pd
data = pd.read_sql_query('SELECT * FROM table', connection)
print(data)
В этой статье мы рассмотрели различные методы чтения наборов данных в Python. Мы рассмотрели чтение файлов CSV, JSON, Excel и SQLite с использованием как встроенных модулей, так и популярных библиотек, таких как Pandas. Знакомство с этими методами даст вам необходимые навыки для эффективного чтения и анализа наборов данных в Python, что позволит вам получать значимую информацию из ваших данных.