大话数据结构-1 数据结构+算法绪论

数据结构

数据结构：存在一种或多种特定关系的数据元素的集合
数据结构是一门研究非数值计算的程序设计问题中的操作对象，以及它们之间的关系和操作等相关问题的学科。

数据结构中的数据

程序设计 = 数据结构 + 算法
数据：是描述客观事物的符号，是计算机中可以操作的对象，是能被计算机识别，并输入给计算机处理的符号集合。
数据不仅仅包括整型、实型等数值类型，还包括字符及声音、图像、视频等非数值类型。
数据，其实就是符号，而且这些符号必须具备两个前提：

可以输入到计算机中。
能被计算机程序处理。
整型、实型等数值类型，可以进行数值计算。
字符数据类型，就需要进行非数值的处理
声音、图像、视频等其实是可以通过编码的手段变成字符数据来处理的。

数据元素

数据元素：是组成数据的、有一定意义的基本单位，在计算机中通常作为整体处理。也被称为记录。

数据项

数据项：一个数据元素可以由若干个数据项组成。
数据项是数据不可分割的最小单位。
数据项是数据的最小单位。

但真正讨论问题时，数据元素才是数据结构中建立数据模型的着眼点

数据对象

数据对象：是性质相同的数据元素的集合，是数据的子集。
什么叫性质相同呢，是指数据元素具有相同数位和类型的数据项

数据结构中的结构

结构，简单的理解就是关系，严格点说，结构是指各个组成部分相互搭配和排列的方式。
在现实世界中，不同数据元素之间不是独立的，而是存在特定的关系，我们将这些关系称为结构
数据结构：是相互之间存在一种或多种特定关系的数据元素的集合。
在计算机中，数据元素并不是孤立、杂乱无序的，而是具有内在联系的数据集合。数据元素之间存在的一种或多种特定关系，也就是数据的组织形式。

逻辑结构与物理结构

逻辑结构

逻辑结构：是指数据对象中数据元素之间的相互关系。
逻辑结构分为以下四种：

集合结构：集合结构中的数据元素除了同属与一个集合外，它们之间没有其他关系。各个数据元素是“平等＂的，它们的共同属性是“同属于一个集合”。数据结构中的集合关系就类似数学中的集合
线性结构：线性结构中的数据元素之间是一对一的关系
树形结构：树形结构中的数据元素之间存在一种一对多的层次关系
图形结构：图形结构的数据元素是多对多的关系

逻辑结构是针对具体问题的，是为了解决某个问题，在对间题理解的基础上，选择一个合适的数据结构表示数据元素之间的逻辑关系。

物理结构

物理结构：是指数据的逻辑结构在计算机中的存储形式
数据是数据元素的集合，那么根据物理结构的定义，实际上就是如何把数据元素存储到计算机的存储器中。存储器主要是针对内存而言的，像硬盘、软盘、光盘等外部存储器的数据组织通常用文件结构来描述。
数据的存储结构应正确反映数据元素之间的逻辑关系，这才是最为关键的
数据元素的存储结构形式有两种：顺序存储和链式存储。

顺序存储结构：是把数据元素存放在地址连续的存储单元里，其数据间的逻辑关系和物理关系是一致的
链式存储结构：是把数据元素存放在任意的存储单元里，这组存储单元可以是连续的， 也可以是不连续的。数据元素的存储关系并不能反映其逻辑关系，因此需要用一个指针存放数据元素的地址，这样通过地址就可以找到相关联数据元素的位置
逻辑结构是面向问题的，而物理结构就是面向计算机的，其基本的目标就是将数据及其逻辑关系存储到计算机的内存中。

抽象数据类型

数据类型

数据类型：是指一组性质相同的值的集合及定义在此集合上的一些操作的总称。
数据类型是按照值的不同进行划分的。
在高级语言中，每个变量、常量和表达式都有各自的取值范围。类型就用来说明变量或表达式的取值范围和所能进行的操作。
抽象是指抽取出事物具有的普遍性的本质。它是抽出间题的特征而忽略非本质的细节，是对具体事物的一个概括。抽象是一种思考间题的方式，它隐藏了繁杂的细节，只保留实现目标所必需的信息。

在C语言中，按照取值的不同，数据类型可以分为两类；

原子类型：是不可以再分解的基本类型，包括整型、实型、字符型等。
结构类型：由若干个类型组合而成，是可以再分解的。例如，整型数组是由若干整
型数据组成的。

抽象数据类型

抽象数据类型(Abstract Data Type, ADT)：是指一个数学模型及定义在该模型上的一组操作。抽象数据类型的定义仅取决于它的一组逻辑特性，而与其在计算机内部如何表示和实现无关。
抽象的意义在于数据类型的数学抽象特性。
抽象数据类型体现了程序设计中问题分解、抽象和信息隐藏的特性。

描述抽象数据类型的标准格式：

    ADT 抽象数据类型名
    Data
        数据元素之间逻辑关系的定义
    Operation
        操作1
            初始条件
            操作结果描述
        操作2
            ...
        操作n
            ...
    endADT

算法

算法是解决特定问题求解步骤的描述，在计算机中表现为指令的有限序列，井且每条指令表示一个或多个操作。

对于给定的问题可以用多种算法来解决。

为了解决某个或某类问题，需要把指令表示成一定的操作序列，操作序列包括一组操作，每一个操作都完成特定的功能，这就是算法了。

算法的特性

算法具有五个基本特性：输入、输出、有穷性、确定性和可行性。

输入、输出

算法具有零个或多个输入。

算法至少有一个或多个输出，算法是一定需要输出的。输出的形式可以是打印输出，也可以是返回一个或多个值等。

有穷性

有穷性：指算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤在可接受的时间内完成。

确定性

确定性：算法的每一步骤都具有确定的含义，不会出现二义性

可行性

可行性：算法的每一步都必须是可行的，也就是说，每一步都能够通过执行有限次数完成。

算法设计的要求

好的算法，应该具有正确性、可读性、健壮性、高效率和低存储量的特征。

正确性

算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性、能正确反映问题的需求、能够得到问题的正确答案.

可读性

算法设计的另一目的是为了便于阅读、理解和交流。可读性是算法（也包括实现它的代码）好坏很重要的标志。

健壮性

一个好的算法还应该能对输入数据不合法的情况做合适的处理.

健壮性：当输入数据不合法时，算法也能做出相关处理，而不是产生异常或莫名其妙的结果。

时间效率高和存储量低

时间效率指的是算法的执行时间。

存储量需求指的是算法在执行过程中需要的最大存储空间。

算法效率的度量方法

事后统计方法：通过设计好的测试程序和数据，利用计算机计时器对不同算法编制的程序的运行时间进行比较，从而确定算法效率的高低。

事前分析估算方法：在计算机程序编制前，依据统计方法对算法进行估算。

程序在计算机上运行时所消耗时间取决于下列因素：

算法采用的策略、方法

编译产生的代码质量

问题的输入规模

机器执行指令的速度

不管硬件，一个程序的运行时间，依赖于算法的好坏和问题的输入规模。所谓问题输入规模是指输入量的多少。

测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数。运行时间与这个计数成正比。

在分析一个算法的运行时间时，重要的是把基本操作的数量与输入规模关联起来，即基本操作的数员必须表示成输入规模的函数

函数的渐近增长

给定两个函数f (n)和g (n)，如果存在一个整数N，使得对干所有的n > N, f (n)总是比g (n)大，那么我们说f (n) 的增长渐近快于g (n)。

与最高次项相乘的常数并不重要

最高次项的指数大的，函数随着n的增长，结果也会变得增长特别快。

判断一个算法的效率时，函数中的常数和其他次要项常常可以忽略，而更应该关注主项（最高阶项）
的阶数。

事前估算方法的理论依据，通过算法时间复杂度来估算算法时间效率。

算法时间复杂度

在进行算法分析时，语句总的执行次数T(n)是关干问题规模n 的函数，进而分析T(n)随n的变化情况井确定T(n)的数量级。算法的时间复杂度，也就是算法的时间量度，记作：T (n)= O(f(n)）。它表示随问题规模n的增大，算法执行时间的增长率和 f (n)的增长率相同，称作算法的渐近时间复杂度，简称为时间复杂度。其中f (n)是问题规模n的某个函数。

用大写O(）来体现算法时间复杂度的记法，我们称之为大O记法。

0(1)叫常数阶、 O(n)叫线性阶、 O(n2)叫平方阶

推导大0阶方法

推导大0阶：
1用常数1取代运行时间中的所有加法常数。
2在修改后的运行次数函数中，只保留最高阶项。
3如果最高阶项存在且不是1′ 则去除与这个项相乘的常数。

得到的结果就是大0阶。

常数阶

不管这个常数是多少，我们都记作0(1)，而不能是0(3)、 0(12)等其他任何数字。

单纯的分支结构（不包含在循环结构中），其时间复杂度也是 0(1)。

    int. sum = 0, n = 100;  执行1次
    sum = (l+n)*n/2; 执行第1次
    sum = (l+n)*n/2; 执行第2次
    sum = (l+n)*n/2; 执行第3次
    T(n)=0(1)

线性阶

线性阶是循环结构。

关键就是要分析循环结构的运行情况(次数)。

```
    for (i = 0; i < n; i++)
    {

    }
        T(n)=0(N)
```

对数阶

```
    int count = l; 
    while (count < n){
           count = count*2; //时间、复杂度为0(1)的程序步骤序列         
      }
```

由于每次count乘以2之后，就距离n更近了分有多少个2相乘后大于n, 则会退出循环。由2x=n 得到x=log2n。所以这个循环的时间复杂度为 (log2n)。

平方阶

循环嵌套结构

```
    for (i = 0; i < n; i++)
    {
    for (j = 0; j < n; j++)
        {
        }
    }
```

外层的循环，不过是内部这个时间复杂度为O(n)的语旬，再循环n次。所以这段代码的时间复杂度为O(n2）。如果外循环的循环次数改为了m,时间复杂度就变为O(mxn)。

算法复杂度计算

file

常见的时间复杂度

file

最坏情况与平均情况

最坏情况运行时间是一种保证，那就是运行时间将不会再坏了。在应用中，这是种最重要的需求，通常，除非特别指定，我们]提到的运行时间都是最坏情况的运行时间。
平均运行时间是所有情况中最有意义的，因为它是期望的运行时间。
对算法的分析，一种方法是计算所有情况的平均值，这种时间复杂度的计算方法称为平均时间复杂度。另种方法是计算最坏情况下的时间复杂度，这种方法称为最坏时间复杂度。一般在没有特殊说明的情况下，都是指最坏时间复杂度。

算法空间复杂度

算法的空间复杂度通过计算算法所需的存储空间实现，算法空间复杂度的计算公式记作: S(n)= O(f(n)), 其中，n为问题的规模，f(n)为语句关于n所占存储空间的函数。

一般情况下，一个程序在机器上执行时，除了需要存储程序本身的指令、常数、变量和输入数据外，还需要存储对数据操作的存储单元。若输入数据所占空间只取决于问题本身，和算法无关，这样只需要分析该算法在实现时所需的辅助单元即可。若算法执行时所需的辅助空间相对于输入数据量而言是个常数，则称此算法为原地工作，空间复杂度为0(1)。
通常，我们都使用“时间复杂度”来指运行时间的需求，使用“空间复杂度”指空间需求。当不用限定词地使用“复杂度” 时，通常都是指时间复杂度。