Выборка по перестановкам: методы вычисления тестовой статистики в статистическом анализе.

По вашему запросу похоже, что вы ищете информацию о функции, которая выполняет выборку перестановок и вычисляет тестовую статистику для указанной операции. Вот объяснение и некоторые возможные методы:

Выборка перестановок, также известная как рандомизационное тестирование или точные тесты, – это непараметрический статистический метод, используемый для оценки значимости статистики теста путем создания случайных перестановок данных. Процедура включает в себя случайную перестановку наблюдений, пересчет статистики теста для каждой перестановки и сравнение наблюдаемой статистики теста с переставленными значениями для определения ее значимости.

Чтобы реализовать выборку перестановок и вычислить тестовую статистику для конкретной операции, вы можете рассмотреть следующие методы:

  1. Наивная выборка по перестановкам. Этот метод включает в себя генерацию всех возможных перестановок данных и вычисление тестовой статистики для каждой перестановки. Он обеспечивает исчерпывающую оценку, но может оказаться дорогостоящим в вычислительном отношении для больших наборов данных.

  2. Выборка случайных перестановок: здесь генерируется фиксированное количество случайных перестановок вместо оценки всех возможных перестановок. Этот метод обеспечивает хорошее приближение при одновременном снижении вычислительной сложности.

  3. Выборка перестановок Монте-Карло. При этом подходе генерируется большое количество случайных перестановок (например, тысячи или миллионы). Статистика теста вычисляется для каждой перестановки, а распределение переставленной статистики теста используется для оценки значения p или оценки значимости.

  4. Стратифицированная выборка по перестановкам. Если ваши данные имеют определенную структуру или группировку, вы можете выполнить выборку по перестановкам внутри каждого слоя или группы отдельно. Этот метод сохраняет структуру группировки и может обеспечить более точные результаты.

  5. Блочная выборка с перестановками. Если ваши данные имеют естественную структуру блокировки, например повторяющиеся измерения или парные наблюдения, этот метод сохраняет блочную структуру во время выборки с перестановками. Это гарантирует, что наблюдения внутри одного блока остаются вместе во время перестановки, сохраняя зависимости между ними.

  6. Параллельная выборка перестановок. В сценариях с интенсивными вычислениями вы можете распределить выборку перестановок между несколькими процессорами или компьютерами, чтобы ускорить процесс. Распараллеливание может значительно сократить время вычислений, особенно при работе с большими наборами данных.