Source: Big Data DT

Cet article est � propos de 5200 mots , Sugg�rer une lecture 10 minutes

L'algorithme de tri est l'un des algorithmes les plus �l�mentaires de "Structure et algorithme de donn�es". Cet article pr�sente 10 algorithmes de tri internes courants et comment les impl�menter en Python.

Les algorithmes de tri peuvent �tre divis�s en tri interne et tri externe. Le tri interne est le tri des enregistrements de donn�es en m�moire, tandis que le tri externe est d� au fait que les donn�es tri�es sont volumineuses et ne peuvent pas accueillir tous les enregistrements tri�s en m�me temps. Dans le processus de tri, vous devez acc�der � la m�moire externe.

Les algorithmes de tri internes courants sont: Ins�rer le tri, le tri en c�te, le tri par s�lection, le tri par bulles, le tri par fusion, le tri rapide, le tri en tas, le tri par cardinalit�, etc.

R�sumez avec une image:

� propos de la complexit� du temps:

Tri par ordre carr� (O (n2)): toutes sortes de tri simple, insertion directe, s�lection directe et tri � bulles;
Tri par ordre logarithmique lin�aire (O (nlog2n)): tri rapide, tri en tas et tri par fusion;
Tri en c�te: O (n1 + �)) tri, � est une constante entre 0 et 1;
Tri par ordre lin�aire (O (n)): tri cardinal, en plus du tri par godet et bo�te.

� propos de la stabilit�:

L'ordre des deux cl�s �gales apr�s le tri est le m�me que l'ordre avant le tri.
Algorithmes de tri stables: tri � bulles, tri par insertion, tri par fusion et tri par cardinalit�.
Pas un algorithme de tri stable: tri par s�lection, tri rapide, tri en c�te, tri en tas.

Glossaire:

n: �chelle de donn�es.
k: le nombre de "barils".
En place: occupe une m�moire constante, n'occupe pas de m�moire suppl�mentaire.
Out-place: Prenez de la m�moire suppl�mentaire.

01 Tri des bulles

Bubble Sort (Bubble Sort) est �galement un algorithme de tri simple et intuitif. Il a visit� � plusieurs reprises la s�quence � trier, compar� deux �l�ments � la fois et les a �chang�s s'ils �taient dans le mauvais ordre. Le travail de visite de la s�quence est r�p�t� jusqu'� ce qu'aucun �change suppl�mentaire ne soit n�cessaire, ce qui signifie que la s�quence a �t� tri�e. Le nom de cet algorithme vient du fait que plus l'�l�ment �flottera� lentement vers le haut de la s�quence par l'�change.

En tant que l'un des algorithmes de tri les plus simples, le tri � bulles me donne le m�me sentiment qu'Abandon appara�t dans le livre de mots. C'est le premier sur la premi�re page � chaque fois, donc c'est le plus familier. Il existe �galement un algorithme d'optimisation pour le tri des bulles, qui consiste � d�finir un drapeau. Lorsque les �l�ments ne sont pas �chang�s lors d'un parcours de s�quence, il prouve que la s�quence est d�j� ordonn�e. Mais cette am�lioration a peu d'effet sur l'am�lioration des performances.

�tape d'algorithme

Comparez les �l�ments adjacents. Si le premier est plus grand que le second, �changez-les tous les deux.

Faites de m�me pour chaque paire d'�l�ments adjacents, de la premi�re paire au d�but � la derni�re paire � la fin. Une fois cette �tape termin�e, le dernier �l�ment sera le plus grand nombre.

R�p�tez les �tapes ci-dessus pour tous les �l�ments sauf le dernier.

Continuez � r�p�ter les �tapes ci-dessus pour de moins en moins d'�l�ments � chaque fois jusqu'� ce qu'il n'y ait plus de paires de nombres � comparer.

2. Pr�sentation d'animation

3. Code Python

def bubbleSort (arr): pour i dans la plage (1, len (arr)): pour j dans la plage (0, len (arr) -i): si arr > �arr: arr, arr = arr, arr return arr

02 S�lectionner le tri

Le tri par s�lection est un algorithme de tri simple et intuitif, quelles que soient les donn�es saisies, il s'agit d'une complexit� temporelle O (n�). Ainsi, lorsque vous l'utilisez, plus la taille des donn�es est petite, mieux c'est. Le seul avantage peut �tre qu'il ne prend pas d'espace m�moire suppl�mentaire.

�tape d'algorithme

Recherchez d'abord le plus petit (grand) �l�ment dans la s�quence non tri�e et stockez-le au d�but de la s�quence tri�e.

Continuez ensuite � rechercher le plus petit (grand) �l�ment parmi les �l�ments non tri�s restants, puis placez-le � la fin de la s�quence tri�e.

R�p�tez la deuxi�me �tape jusqu'� ce que tous les �l�ments soient tri�s.

2. Pr�sentation d'animation

3. Code Python

def selectionSort (arr): pour i dans la plage (len (arr) -1): # enregistre l'indice du plus petit nombre minIndex = i pour j dans la plage (i + 1, len (arr)): si arr < �arr: minIndex = j # Lorsque i n'est pas le nombre minimum, �changez i et le nombre minimum si i! = minIndex: arr , arr = arr, arr �retour arr
03 Ins�rer le tri

L'impl�mentation du code du tri par insertion n'est pas aussi simple et grossi�re que le tri par bulles et le tri par s�lection, mais son principe devrait �tre le plus facile � comprendre, car quiconque a jou� au poker doit pouvoir le comprendre en quelques secondes. Le tri par insertion est l'un des algorithmes de tri les plus simples et les plus intuitifs. Il fonctionne en construisant une s�quence ordonn�e. Pour les donn�es non tri�es, il parcourt la s�quence tri�e, trouve la position correspondante et l'ins�re.

Le tri par insertion est le m�me que le tri par bulles, et il existe �galement un algorithme d'optimisation appel� demi-insertion fractionn�e.

�tape d'algorithme

Consid�rez le premier �l�ment de la premi�re s�quence � trier comme une s�quence ordonn�e et traitez le deuxi�me �l�ment du dernier �l�ment comme une s�quence non tri�e.

Scannez la s�quence non tri�e du d�but � la fin et ins�rez chaque �l�ment num�ris� dans la position appropri�e de la s�quence command�e. (Si l'�l�ment � ins�rer est �gal � un �l�ment dans la s�quence ordonn�e, l'�l�ment � ins�rer est ins�r� apr�s l'�l�ment �gal.)

2. Pr�sentation d'animation

3. Code Python
def insertionSort (arr): pour i dans la plage (len (arr)): preIndex = i-1 current = arr �tandis que preIndex > = 0 et arr > �courant: arr = arr preIndex- = 1 arr = courant retour arr
04 Hill Hill

Le tri en c�te, �galement connu sous le nom d'algorithme de tri incr�mentiel d�croissant, est une version plus efficace et am�lior�e du tri par insertion. Mais le tri Hill est un algorithme de tri instable.

Le tri par colline propose une m�thode am�lior�e bas�e sur les deux propri�t�s suivantes du tri par insertion:

Le tri par insertion a une efficacit� �lev�e lorsqu'il fonctionne sur des donn�es presque tri�es, c'est-�-dire qu'il peut atteindre l'efficacit� du tri lin�aire;

Mais le tri par insertion est g�n�ralement inefficace car le tri par insertion ne peut d�placer les donn�es qu'un bit � la fois.

L'id�e de base du tri Hill est la suivante: divisez d'abord la s�quence enti�re d'enregistrements � trier en plusieurs sous-s�quences et ins�rez-les directement. Lorsque les enregistrements de la s�quence enti�re sont "fondamentalement ordonn�s", puis ins�rez tous les enregistrements dans l'ordre.

�tape d'algorithme

Choisissez une s�quence incr�mentale t1, t2, ..., tk, o� ti > �tj, tk = 1;

Trier la s�quence par k passes en fonction du nombre k de la s�quence incr�mentale;

Pour chaque tri, selon l'incr�ment ti correspondant, la s�quence � trier est divis�e en plusieurs sous-s�quences de longueur m, et chaque sous-table est directement ins�r�e et tri�e. Ce n'est que lorsque le facteur d'incr�mentation est 1 que la s�quence enti�re est trait�e comme une table et que la longueur de la table est la longueur de la s�quence enti�re.

2. Code Python
def shellSort (arr): importation de l'�cart math�matique = 1 tandis que (�cart < �len (arr) / 3): �cart = �cart * 3 + 1 tandis que �cart > �0: pour i dans la plage (�cart, len (arr)): temp = arr �j = i-gap tandis que j > = 0 et arr > �temp: arr = arr j- = gap arr = temp gap = math.floor (gap / 3) return arr}
05 fusionner le tri

Le tri par fusion (tri par fusion) est un algorithme de tri efficace bas� sur l'op�ration de fusion. L'algorithme est une application tr�s typique utilisant Divide and Conquer.

En tant qu'application d'algorithme typique de l'id�e de diviser pour r�gner, le tri par fusion est impl�ment� par deux m�thodes:

R�cursion descendante (toutes les m�thodes r�cursives peuvent �tre r��crites par it�ration, il existe donc une seconde m�thode);

It�ration de bas en haut.

Comme le tri par s�lection, les performances du tri par fusion ne sont pas affect�es par les donn�es d'entr�e, mais les performances sont bien meilleures que le tri par s�lection, car il s'agit toujours de la complexit� temporelle O (nlogn). Le prix est le besoin d'espace m�moire suppl�mentaire.

�tape d'algorithme

Faites une demande d'espace afin que sa taille soit la somme de deux s�quences tri�es. Cet espace est utilis� pour stocker la s�quence fusionn�e;

D�finissez deux pointeurs, la position initiale est la position de d�part de deux s�quences tri�es;

Comparez les �l�ments point�s par les deux pointeurs, s�lectionnez l'�l�ment relativement petit et placez-le dans l'espace fusionn�, puis d�placez le pointeur vers la position suivante;

R�p�tez l'�tape 3 jusqu'� ce qu'un pointeur atteigne la fin de la s�quence;

Copiez tous les �l�ments restants d'une autre s�quence directement � la fin de la s�quence fusionn�e.

2. Pr�sentation d'animation

3. Code Python
def mergeSort (arr): importer des maths si (len (arr) < 2): return arr middle = math.floor (len (arr) / 2) left, right = arr, arr return merge (mergeSort (left), mergeSort (right)) def merge (left, right): resultat = while left et � droite: si laiss� < = droite: result.append (left.pop (0)); else: result.append (right.pop (0)); tandis que left: result.append (left.pop (0)); tandis que right: result.append (right.pop (0)); retourne le r�sultat
06 Tri rapide

Quicksort est un algorithme de tri d�velopp� par Tony Hall. Dans des conditions moyennes, le tri de n �l�ments n�cessite des comparaisons (nlogn). Dans le pire des cas, des comparaisons (n2) sont n�cessaires, mais cette situation n'est pas courante. En fait, le tri rapide est g�n�ralement beaucoup plus rapide que les autres algorithmes (nlogn) car sa boucle interne peut �tre mise en uvre efficacement sur la plupart des architectures.

Quicksort utilise la strat�gie Divide and Conquer pour diviser une liste en deux sous-listes.

Le tri rapide est une autre application typique de l'id�e diviser pour mieux r�gner dans les algorithmes de tri. En substance, le tri rapide doit �tre consid�r� comme une m�thode de division et de conqu�te r�cursive bas�e sur le tri � bulles.

Le nom du tri rapide est simple et grossier, car lorsque vous entendez le nom, vous en connaissez le sens, il est rapide et efficace! Il s'agit de l'un des algorithmes de tri les plus rapides pour le traitement des m�gadonn�es.

Bien que la complexit� temporelle de Worst Case atteigne O (n�), d'autres sont excellentes, et dans la plupart des cas, elle fonctionne mieux que l'algorithme de tri avec une complexit� temporelle moyenne de O (n logn), mais pourquoi, Je ne sais pas non plus. Heureusement, mon trouble obsessionnel-compulsif �tait de nouveau coupable. Apr�s avoir v�rifi� les donn�es N, j'ai finalement trouv� une r�ponse satisfaisante au "Concours d'art algorithmique et d'informatique"

Le pire des cas pour le tri rapide est O (n�), comme le tri rapide des nombres s�quentiels. Mais son temps d'amortissement attendu est O (nlogn), et le facteur constant impliqu� dans la notation O (nlogn) est tr�s petit, ce qui est beaucoup plus petit que l'ordre de tri de fusion dont la stabilit� est �gale � O (nlogn). Par cons�quent, pour la plupart des nombres al�atoires avec une s�quence faible, le tri rapide est toujours meilleur que le tri par fusion.

�tape d'algorithme

Choisissez un �l�ment de la s�quence, appel� "pivot";

R�organisez la s�quence, tous les �l�ments plus petits que la valeur de r�f�rence sont plac�s devant la r�f�rence et tous les �l�ments plus grands que la valeur de r�f�rence sont plac�s derri�re la r�f�rence (le m�me nombre peut aller de chaque c�t�). Une fois cette partition termin�e, la donn�e se trouve au milieu de la s�quence. C'est ce qu'on appelle une op�ration de partition (partition);

R�cursivement (r�cursivement) triez la sous-s�rie d'�l�ments inf�rieure � la valeur de r�f�rence et la sous-s�rie d'�l�ments sup�rieure � la valeur de r�f�rence.

Le cas inf�rieur de la r�cursivit� est que la taille de la s�quence est z�ro ou un, c'est-�-dire qu'elle sera toujours tri�e. Bien qu'il ait �t� r�cursif, cet algorithme se terminera toujours, car � chaque it�ration (it�ration), il mettra au moins un �l�ment � sa derni�re position.

2. Pr�sentation d'animation

3. Code Python
def quickSort (arr, left = None, right = None): left = 0 sinon isinstance (left, (int, float)) else left right = len (arr) -1 if not isinstance (right, (int, float) ) sinon � droite si � gauche < �droite: partitionIndex = partition (arr, gauche, droite) quickSort (arr, gauche, partitionIndex-1) quickSort (arr, partitionIndex + 1, droite) partition returnarrdef (arr, gauche, droite): pivot = index gauche = pivot + 1 i = index tandis que i < = droite: si arr � < �arr: swap (arr, i, index) index + = 1 i + = 1 swap (arr, pivot, index-1) return index-1def swap (arr, i, j): arr , arr = arr, arr
07 Tri par tas

Heapsort (Heapsort) fait r�f�rence � un algorithme de tri con�u � l'aide de la structure de donn�es du tas. L'empilement est une structure arborescente binaire approximativement compl�te et r�pond � la nature de l'empilement en m�me temps: c'est-�-dire que la valeur cl� ou l'index d'un nud enfant est toujours inf�rieur (ou sup�rieur �) son nud parent. Le tri par tas peut �tre consid�r� comme une sorte de s�lection utilisant le concept de tri par tas. Il existe deux m�thodes:

Grand tas sup�rieur: la valeur de chaque nud est sup�rieure ou �gale � la valeur de ses nuds enfants, utilis�e dans l'ordre croissant dans l'algorithme de tri du tas;

Petit segment sup�rieur: la valeur de chaque nud est inf�rieure ou �gale � la valeur de ses nuds enfants, utilis�e dans l'ordre d�croissant dans l'algorithme de tri du segment.

La complexit� temporelle moyenne du tri en tas est (nlogn).

�tape d'algorithme

Cr�ez un tas H;

�changez le d�but (valeur maximale) et la fin du tas;

R�duisez la taille du tas de 1 et appelez shift_down (0), le but est d'ajuster les donn�es du haut du nouveau tableau � la position correspondante;

R�p�tez l'�tape 2 jusqu'� ce que la taille du tas soit 1.

2. Pr�sentation d'animation

3. Code Python
def buildMaxHeap (arr): importer les math�matiques pour i dans la plage (math.floor (len (arr) / 2), - 1, -1): heapify (arr, i) def heapify (arr, i): left = 2 * i + 1 droite = 2 * i + 2 plus grande = i si gauche < �arrLen et arr > �arr: plus grand = gauche si droit < �arrLen et arr > �arr: le plus grand = � droite si le plus grand! = i: swap (arr, i, le plus grand) heapify (arr, le plus grand) def swap (arr, i, j): arr , arr = arr, arr def heapSort (arr): global arrLen arrLen = len (arr) buildMaxHeap (arr) pour i dans la plage (len (arr) -1,0, -1): swap (arr, 0, i) arrLen- = 1 heapify ( arr, 0) returnarr
08 Comptage et tri

Le noyau du tri de comptage consiste � convertir la valeur des donn�es d'entr�e en cl� et � la stocker dans l'espace de tableau suppl�mentaire. En tant que sorte de complexit� temporelle lin�aire, le tri de comptage n�cessite que les donn�es d'entr�e doivent �tre un entier avec une certaine plage.

1. D�mo

2. Code Python
def countingSort (arr, maxValue): bucketLen = maxValue + 1 bucket = * bucketLen sortedIndex = 0 arrLen = len (arr) pour i dans la plage (arrLen): sinon, bucket: bucket = 0 bucket + = 1 pour j dans la plage (bucketLen ): tout en seau > 0: arr = j sortedIndex + = 1 bucket- = 1returnarr
09 Tri des godets

Le tri par compartiment est une version am�lior�e du tri par comptage. Il utilise la relation de cartographie de la fonction, la cl� d'une efficacit� �lev�e r�side dans la d�termination de cette fonction de cartographie. Afin de rendre le tri des seaux plus efficace, nous devons faire deux choses:

Dans le cas d'un espace suppl�mentaire suffisant, essayez d'augmenter le nombre de barils.

La fonction de mappage utilis�e peut r�partir uniform�ment les donn�es d'entr�e N dans K compartiments.

Dans le m�me temps, pour le tri des �l�ments dans le compartiment, quel algorithme de tri de comparaison est s�lectionn� est essentiel � l'impact sur les performances.

Quand est le plus rapide

Lorsque les donn�es d'entr�e peuvent �tre r�parties uniform�ment dans chaque compartiment.

Quand est le plus lent

Lorsque les donn�es d'entr�e sont allou�es au m�me compartiment.

Code Python

def bucket_sort (s): "" "tri du bucket" "" min_num = min (s) max_num = max (s) # taille du bucket bucket_range = (max_num-min_num) / len (s) # bucket array count_list = # Remplissez le tableau de compartiment avec des nombres pour i dans s: count_list.append (i) s.clear () # Backfill, o� le tri interne du compartiment appelle directement tri� pour i dans count_list: pour j dans tri� (i): s.append (j) si __name__ == __main__: a = bucket_sort (a) print (a) #
10 Tri par cardinalit�

Le tri par cardinalit� est un algorithme de tri d'entiers non comparatif dont le principe est de d�couper les entiers en diff�rents nombres en fonction du nombre de chiffres, puis de comparer chaque chiffre s�par�ment. �tant donn� que les entiers peuvent �galement exprimer des cha�nes (telles que des noms ou des dates) et des nombres � virgule flottante dans un format sp�cifique, le tri par cardinalit� n'est pas limit� aux entiers.

1. Tri par cardinalit�, tri par comptage ou tri par compartiment

Il existe deux m�thodes de tri par cardinalit�:

Ces trois algorithmes de tri utilisent tous le concept de compartiments, mais il existe des diff�rences �videntes dans l'utilisation des compartiments:

Tri par cardinalit�: attribuez des compartiments en fonction de chaque chiffre de la valeur de cl�;

Comptage et tri: chaque compartiment ne stocke qu'une seule valeur de cl�;

Tri des compartiments: chaque compartiment stocke une plage de valeurs.

2. Pr�sentation d'animation

3. Code Python
def RadixSort (liste): i = 0 #Trier initialement par bits n = 1 #Le nombre minimum de chiffres est d�fini sur 1 (dont 0) max_num = max (liste) #Obtenir le nombre maximum dans le tableau avec sort while max_num > �10 ** n: # Le nombre maximum est de quelques chiffres n + = 1 tandis que i < �n: bucket = () #Utilisez un dictionnaire pour construire un bucket pour x dans la plage (10): bucket.setdefault (x,) #Vider chaque bucket pour x dans la liste: #Trier chaque bit radix = int (( x / (10 ** i))% 10) #Get la cardinalit� de chaque bucket de bits.append (x) #Ajouter l'�l�ment de tableau correspondant au bucket correspondant � la cardinalit� j = 0 pour k dans la plage (10) : si len (bucket)! = 0: #si le bucket n'est pas vide pour y dans bucket: #list chaque �l�ment dans la bucket list = y #put le remettre dans le tableau j + = 1 i + = 1return list
Editeur: Wang Jing

Relecture: Lin Yilin

-Terminer-

Suivez la plateforme publique officielle WeChat de Tsinghua-Qingdao Data Science Research Institute " THU Data Pie �"Et num�ro de sur" Data Pie THU �"Obtenez plus d'avantages de cours et un contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

Lisez les dix meilleurs algorithmes de tri classiques en Python dans un article (avec d�mo d'images anim�es)

01 Tri des bulles

02 S�lectionner le tri

03 Ins�rer le tri

04 Hill Hill

05 fusionner le tri

06 Tri rapide

07 Tri par tas

08 Comptage et tri

10 Tri par cardinalit�