连续写了几天排序了。。写完这个换换口味。。
之前5篇BLOG的排序算法都是基于比较的方法,这种比较排序有运行时间的下界:T(n) = Ω(nlgn)。因此需要别的算法模型来实现更快速的排序。
计数排序是一种运行时间在输入的某种假设情况下可以为Θ(n)的算法,它的过程中没有比较环节。
基本的思路就是假设输入序列中任意的元素x都满足x∈[0, k],且x和k都为整数。然后对每一元素x,都确定出序列中比它小的元素的个数,比如为n,则x排序后的位置就应当从n + 1处开始。实现的时候还需要考虑一些细节,比如序列中有几个元素大小相等,因此还需要对大小相等的元素个数进行计数,这样才能正确分配排序后各个元素的位置。
过程中用到了一个辅助序列C,C的大小为k + 1,从C[0]到C[k],它的索引i代表序列中可能出现的大小为i的数,C[i]表示这个数有多少个。下面是算法导论上的例子:
待排序的序列:A = [2, 5, 3, 0, 2, 3, 0, 3] 计数序列:C = [2, 0, 2, 3, 0, 1]
索引: 0 1 2 3 4 5
表示序列中0, 1, 2, 3, 4, 5的个数分别为2, 0, 2, 3, 0, 1。
C序列中此时已经隐含了原序列中各个元素应该存放的位置,比如C[0] = 2,意味着大小为0的元素应当占据位置1, 2,而大小为1的元素应当从3开始,但原序列中没有1,因此向后遍历,大小为2的元素从3开始,个数为2,因此占据位置3, 4,以此类推。C[i]从0到n - 1求和的结果就是原序列中比n小的元素个数,假设为m,因此n应当从m开始,一直到m + c[n] - 1。
因此对C序列做前序加法就可以得到所有的位置信息,结果是 C = [2, 2, 4, 7, 7, 8]。画个图:
好凌乱的感觉。。算了。。就这样吧。。惯例贴下代码
def countingSort(L, k): C = [] F = [] for i in range(k + 1): C.append(0) for i in range(len(L)): F.append(0) for i in range(len(L)): C[L[i]] = C[L[i]] + 1 i = 1 while i < len(C): C[i] = C[i] + C[i - 1] i = i + 1 # Elements in C decrease by 1 # cause the index in list is started with 0 for i in range(len(C)): C[i] = C[i] - 1 i = len(L) - 1 while i >= 0: F[C[L[i]]] = L[i] C[L[i]] = C[L[i]] - 1 i = i - 1 return F
和昨天的堆排序一样要注意的细节就是列表在计算机中存储,下标是从0开始的。
运行时间分析:
抛去C和F的初始化。算法中对C和L都各自做了遍历,这样运行时间就是 T(n) = Θ(k) + Θ(n) = Θ(n + k)
如果k的值较小使得k = Ο(n)则计数排序的运行时间是线性的,但k如果比较大则时间复杂度就很不理想了。因此,如果在MCS-51这种8位机上面,计数排序会比较实用,而对于常见的32位机,序列中可能出现的整数元素的个数为232,运行效率就很低下了,而且由于C的存在,内存占用也是个问题。
因此计数排序来带的线性运行时间是存在一定的假设的。