Машинное обучение Azure (Azure ML) предоставляет надежную экосистему для создания и развертывания моделей машинного обучения. Одним из важнейших аспектов любого рабочего процесса машинного обучения является считывание данных в среду машинного обучения Azure. В этой записи блога мы рассмотрим пять мощных методов чтения заданий с данными в Azure ML, дополненных примерами кода и понятными объяснениями.
Метод 1: хранилище BLOB-объектов Azure
Хранилище BLOB-объектов Azure — популярный вариант хранения больших объемов неструктурированных данных. Чтобы прочитать данные из хранилища BLOB-объектов Azure в Azure ML, вы можете использовать классы azureml.core.Datastore
и azureml.data.azure_storage.AzureBlobDatastore
. Вот пример:
from azureml.core import Workspace, Datastore
workspace = Workspace.from_config()
datastore = Datastore.get(workspace, 'your_blob_datastore_name')
data_path = [(datastore, 'path/to/your/data.csv')]
dataset = Dataset.Tabular.from_delimited_files(data_path)
Метод 2: Azure Data Lake Storage
Azure Data Lake Storage идеально подходит для работы со сценариями с большими данными. Чтобы прочитать данные из Azure Data Lake Storage в Azure ML, вы можете использовать пакет azureml.data.datapath
. Вот пример:
from azureml.data.datapath import DataPath
datastore = DataPath(workspace=workspace, datastore='your_data_lake_datastore_name')
data_path = datastore.path('path/to/your/data.csv')
dataset = Dataset.Tabular.from_delimited_files(data_path)
Метод 3: База данных SQL Azure
Если ваши данные хранятся в базе данных SQL Azure, вы можете легко прочитать их в Azure ML с помощью класса azureml.core.Dataset
. Вот пример:
from azureml.core import Dataset
dataset = Dataset.Tabular.from_sql_query(
query='SELECT * FROM your_table',
connection_string='your_connection_string'
)
Метод 4: URL-адреса HTTP/S и FTP
Azure ML также поддерживает чтение данных с удаленных URL-адресов HTTP/S и FTP. Вы можете использовать класс azureml.core.Dataset
вместе с URL-путем для чтения данных. Вот пример:
from azureml.core import Dataset
data_url = 'http://your_website.com/path/to/your/data.csv'
dataset = Dataset.Tabular.from_delimited_files(data_url)
Метод 5: локальная файловая система
Наконец, вы можете читать данные из локальной файловой системы в среде Azure ML. Используйте класс azureml.core.Dataset
и укажите путь к локальному файлу. Вот пример:
from azureml.core import Dataset
local_file_path = './path/to/your/local/data.csv'
dataset = Dataset.Tabular.from_delimited_files(local_file_path)
В этой записи блога мы рассмотрели пять мощных методов чтения заданий по работе с данными в Azure ML. Независимо от того, работаете ли вы с хранилищем BLOB-объектов Azure, хранилищем озера данных Azure, базой данных SQL Azure, удаленными URL-адресами или локальной файловой системой, Azure ML предоставляет гибкие возможности для беспрепятственного импорта ваших данных. Используя эти методы, вы можете оптимизировать процесс приема данных и сосредоточиться на создании надежных моделей машинного обучения.