Внешняя сортировка

В случае если сортируемые данные не помещаются в оперативной памяти, а расположены на внешнем запоминающем устройстве, то методы их обработки называют «внешними методами», например, «внешний поиск», «внешняя сортировка». Исторически получилось так, что до повсеместного использования файлов прямого доступа сортируемые таблицы большого размера размещали на магнитных лентах, которые допускали только последовательный доступ. При последовательном доступе для перехода от любого текущего элемента, например х, к элементу y, расположенному перед х, приходится просматривать всю исходную таблицу с начала. Пример оперативной структуры с последовательным доступом – линейный односвязный список. В общем случае структура с последовательным доступом характеризуется тем, что в каждый момент имеется непосредственный доступ к одному и только одному элементу. Это - строгое ограничение по сравнению с возможностями, которые дает массив (массив – оперативная структура с прямым доступом), и поэтому здесь приходится применять другие методы сортировки.

Основной метод - это сортировка слиянием. Слияниеозначает объединение двух (или более) упорядоченных последовательностей в одну упорядоченную последовательность при помощи циклического выбора элементов, доступных в данный момент. Слияние - намного более простая операция, чем сортировка; она используется в качестве вспомогательной в более сложном процессе последовательной сортировки.

Несмотря на то, что сортировка слиянием может быть применена для обработки оперативных структур с прямым доступом, все же методы такой сортировки разрабатывались специально для магнитных лент. Поэтому последовательная сортировка обычно называется внешней сортировкой.

11.3.1 Сортировка прямым слиянием

Один из методов сортировки слиянием называется прямым (простым) слиянием и состоит в следующем:

1) исходная последовательность а разбивается на две половины b и с;

2) последовательности b и c сливаются при помощи объединения отдельных элементов в упорядоченные пары;

3) полученной после слияния последовательности присваивается имяа, и повторяются шаги 1 и 2; на этот раз упорядоченные пары сливаются в упорядоченные четверки;

4) предыдущие шаги повторяются: четверки сливаются в восьмерки, и весь процесс продолжается до тех пор, пока не будет упорядочена вся последовательность, при этом длины сливаемых последовательностей каждый раз удваиваются.

В качестве примера рассмотрим последовательность

a: 44, 55, 12, 42, 94, 18, 06, 67

На первом шаге разбиение дает последовательности

b: 44, 55, 12, 42

c: 94, 18, 06, 67

Разбиение предполагает, что длина всей последовательности известна и равна N. Тогда начальные N/2 элементов на ленте a последовательно переписываются на ленту b, а элементы второй половины - на ленту c. После этого лента a очищается.

Затем выполняется фаза слияния. Поскольку в текущий момент доступен только один элемент на ленте, то слияние выполняется так: извлекаются начальные элементы с лент b и c (в примере это элементы 44 и 94). Эти элементы сравниваются друг с другом, и меньший элемент (44 из b) записывается на ленту a. Затем выполняется переход к следующему элементу (к 55 на b) на той ленте, откуда он был извлечен элемент, посланный на ленту a. Теперь второй извлеченный элемент может быть записан на ленту a вторым по порядку с гарантией того, что он больше ранее записанного. Поскольку извлечение сопровождается переходом на одну позицию, то на следующем шаге начальными становятся те элементы, которые раньше были вторыми на лентах b и c. Эти элементы (55 и 18) сливаются на a, образуя упорядоченную пару.

Слияние отдельных компонент (которые являются упорядоченными последовательностями длины 1) в упорядоченные пары дает

a: 44, 94, | 18, 55, | 06, 12, | 42, 67 .

После завершения фазы слияния ленты b и c очищаются.

Новое разбиение пополам и слияние упорядоченных пар дают

a: 06, 12, 44, 94, | 18, 42, 55, 67.

При втором слиянии учитывается то обстоятельство, что последовательные пары элементов упорядочены.

Третье разбиение и слияние приводят, наконец, к нужному результату:

a: 06, 12, 18, 42, 44, 55, 67, 94

Операция, которая однократно обрабатывает все множество данных, называется фазой, а наименьший подпроцесс, который, повторяясь, образует процесс сортировки, называется проходом или этапом. В приведенном выше примере сортировка производится за три прохода, каждый проход состоит из фазы разбиения и фазы слияния. Для выполнения сортировки требуются три ленты, поэтому процесс называется трехленточным слиянием.

Собственно говоря, фазы разбиения не относятся к сортировке, поскольку они никак не переставляют элементы; в каком-то смысле они непродуктивны, хотя и составляют половину всех операций переписи. Их можно удалить, объединив фазы разбиения и слияния. Вместо того чтобы сливать элементы в одну последовательность, результат слияния сразу распределяют на две ленты, которые на следующем проходе будут входными. В отличие от двухфазного слияния этот метод называют однофазным или сбалансированным слиянием. Он имеет явные преимущества, так как требует вдвое меньше операций переписи, но это достигается ценой использования четвертой ленты.

Разберем программу слияния подробно; предположим, что данные расположены в виде массива, который, однако, можно рассматривать только строго последовательно.

Вместо двух файлов можно легко использовать один массив, если рассматривать его как последовательность с двумя концами. Вместо того чтобы сливать элементы из двух исходных файлов, мы можем брать их с двух концов массива. Направление пересылки сливаемых элементов меняется (переключается) после каждой упорядоченной пары на первом проходе, после каждой упорядоченной четверки на втором проходе и т. д.; таким образом равномерно заполняются две выходные последовательности, представленные двумя концами одного массива (выходного). После каждого прохода два массива меняются ролями: входной становится выходным и наоборот.

Программу можно еще больше упростить, объединив два концептуально различных массива в один двойной длины. Итак, данные будут представлены следующим образом:

a: Аrray[1..2*N]Оf TElement;

Пусть индексы i и j указывают два исходных элемента, тогда как k и l обозначают два места пересылки. Исходные данные - это элементы а[1], ..., а[N]. Очевидно, что нужна булевская переменная up для указания направления пересылки данных. Условие up=true будет означать, что на текущем проходе компоненты a[1], …,a[N]будут пересылаться «направо» - в переменные a[N+1], …,a[2N]; если up=false, то a[N+1], …,a[2N] должны переписываться «налево» - в a[1], …, a[N]. Значение up строго чередуется между двумя последовательными проходами. И наконец, вводится переменная р для обозначения длины сливаемых последовательностей (р-наборов). Ее начальное значение равно 1, и оно удваивается перед каждым очередным проходом. Для простоты мы будем считать, что N (число элементов в таблице) - всегда степень двойки. Итак, программа простого слияния выглядит следующим образом:

Procedure Mergesort;

Var i, j, Jc, l, t: Word; uр: Вооlеап; p, h, m, q, r : Word ;

{а имеет индексы 1..2*N}

Begin

up:= true; p:= 1;

Repeat

h:= 1; m:= N;

If up Then Begini:= 1; j:= N; k:= N+1; l:= 2*N End

Else Begink:= 1; l:= N; i:= N+1; j:= 2*N End;

Repeat {слияние серий из i и j в k}

If m>=p Then q:= p Else q:= m;

m:= m-q;

If m>=p Then r:= p Else r:= m;

m:= m-r;

While (q<>0) And (r<>0) Do Begin {слияние}

If a[i].Key < a[j].Key Then Begin

a[k]:= a[i]; k:= k+h; i:= i+1; q:= q-1

End

<45 46 474849 50 51 >

Дата добавления: 2015-08-21; просмотров: 1830;