Unix/Linux下C/C++开发技术概览[曙海教育集团论坛]项目外包开发咨询

Windows和Unix是当前两大主流操作系统平台，基于C/C++的开发人员经常会面临这两个平台之间的移植的问题。Unix作为一个开发式的系统，其下有出现了很多个分支，包括Sun的Solaris、IBM的AIX、HP Unix、SCO Unix、Free BSD、苹果的MAC OS以及开源的Linux等。对于这些Unix的分支操作系统，其实现又有很大的差别，因此开发人员又要针对这些不同的系统进行移植。本文的目的就是介绍一下Windows平台和Unix平台之间的差别，并简单介绍一下不同Unix分支操作系统之间的差别，在移植开发过程中的一些注意事项，同时简要介绍一下Unix下开发的一般流程和常用的开发调试工具。

关于平台之间的差异，主要是Windows平台和Unix平台之间的差异，这里着重介绍一下这两个平台在C/C++开发中存在的差异，其间会穿插介绍一些Unix不同分支之间的差异。

1.1语言特性的差异

语言特性的差异，指的是不同操作系统平台中，实现C++/C时的一些细微的差异，忽略这些差异可能会带来一些特别隐蔽的错误。而且可能是致命的错误。所以，了解语言特性的差异，对于在Unix移植来说非常重要。如果考虑系统多多个平台支持，就必须了解在不同平台下语言特性的差异，从开发一开始就把这些因素考虑进去，这样才能最低限度的降低移植的过程中工作量。

1.1.1字节顺序的差异

字节顺序指的主要是整型变量在内存中的存储方式。在计算机中，数据都是以二进制方式存储的，包括在内存和硬盘中。而计算机又以8位二进制作为一个存储单元。在32位系统中，一个整型的存储需要四个存储单元。也就是说要把一个32位的整数分割成位四段分别进行存储，而每一段的存储位置就是字节顺序的差异。为了清楚的表示每段存储的先后位置，我们用16进制来表示一段的值，下表列出了在Unix系统和Windows系统中整数20000在内存中的情况。

十六进制表示	0x00004E20
Windows内存表示	20 4E 00 00
Unix内存表示	00 00 4E 20

如表中所示，Windows中存储方式和该整数的16进制表示是相反，是一种低位在前高位在后的存储顺序。而Unix下的存储顺序和正常的16进制表示的顺序相同，称为高位在前低位在后的顺序。这种差异带来的问题，主要体现在以下几个方面：

? 网络通信时

当Windows和Unix之间发生网络数据传输，传输一个整型数据（如一个数据包的长度）的时候，如果不经处理直接把内存中的数据传输过去，那么在对方看来完全是另一个数据，这样就会造成问题。如Windows下面发送过去一个20000（0x00004E20），在Unix下面收到的数据就会被理解成541982720（0x204E0000），这简直是天壤之别。

? 文件存储和读取时

跟网络传输类似，如果在Windows下面把某个整数写到了文件中，然后在Unix下面打开这个文件读取该数据，就会出现跟上面类似的问题。

这个问题主要体现在不同平台之间互操作时，在多平台开发过程中，尤其时在网络应用开发的时候，两个平台之间数据交互是非常普遍的，所以这个问题也就显的很普遍。解决这个问题的方法就是交互的双方采用一种相同的数据编码标准，就是数据在传输和存储的时候采用什么方法进行编码，具体的做法有一下几种：

1．数字转换成字符传进行交互

2．协商一个同意的字节顺序，根据自己平台的字节顺序还原数据

3．采用其他标准的编码方式，如ASN1编码

跟这个问题类似，32位系统和64位系统的差异也会出现这样的问题，解决方法跟这个问题的解决方法相同。在32位系统和64位系统中，长整型（long）分别用32位和64位表示，这样，在不同系统之间交互的时候必然会出现整型数据表示方式不同的问题。目前大多数Windows系统都是32位的系统，而Unix中很多都是64位的，尤其是大型的服务器，所以这个问题必须引起重视。

1.1.2变量的作用域差异

在不同的系统下，由于编译器的不同，对变量作用域的实现机制也有所不同，这里以Windows下的VC和Solaris下的CC这两个编译器为例做一个简单的比较说明。

在C++的开发过程中，我们经常会有这样的用法：

for(int i=0;i<num;i++)

{

…

}

这是一种最常用的for循环的用法，因为其中i主要使用来控制循环，所以一般没有必要拿出来单独进行声明，只是放在for语句中一起声明。这里i、j等简单的变量就成了我们常用的变量，一般不按照编程规范那样为他们命名。就是这种声明方法，在Windows下和Solaris下有了不同的理解，i的作用域不同。我们先把作用域进行划分，如下：

{

…

for(int i=0;i<num;i++)

{

…

}

…

}

我们划分出I和II两个作用域，其中作用域II包含在作用域I当中。在Windows下，变量i的作用域是I的整个范围，而Solaris下的i的作用域只是II的范围。其实标准的C++语法应该是Solaris的做法，但是微软在实现的时候没有按照这个标准实现，这就引发了我们讨论的这个问题。由于这个差异，就引发了一些微妙而隐蔽的问题。先看一下下面两端代码。

A：

for(int i=0;i<num;i++)

{

…

}

…

for(i=0;i<num;i++)

{

…

}

B：

for(int i=0;i<num;i++)

{

…

}

…

for(int i=0;i<num;i++)

{

…

}

代码A在Windows下面可以正常编译，而在Solaris下面确编不过去，提示第二个for循环中变量i没有定义。相反代码B在Solaris下可以正常编译，而在Windows下面编不过去，提示第二个for循环中变量i重复定义。

在通常的情况下，我们会按照B的方法书写代码，而在Windows编译是出现错误，然后改成A的那种形式。这样，在Windows下就没有问题了，程序也可以编译过去了，但是到Solaris下时，有会出现问题，这是就不得不把i的声明拿到所有for循环的外面。当i的声明拿到for循环的外面时，真正的问题来了。首先提示一下，这样的一段代码是没有问题的：

C：

int i = 0;

if(cond)

{

…

for(int i=0;i<num;i++)

{

…

}

…

}

这是一段正确的代码，虽然在外面已经定义了i，但是在for里面重新定义一个i也没有问题，这是C++的语法所允许的（java里面不允许这样做）。但就是因为这种C++语言的灵活机制，引发了问题的产生。

问题产生源于程序中出现了A_B那样的代码，然后把i的声明拿到了外面。在后期维护的过程中，又在后面增加了一个循环，但是却是按照C的那种方式增加的，这样就产生了问题。请看如下代码：

int i=0;

char str1[10];

char str2[10];

strcpy(str1,”hello”);

…

for(i=0;i<20;i++)

{

…

}

…

if(cond)

{

for(int i=0;i<10;i++)

III

{

if(str1[i]==0) break;

}

memcpy(str2,str1,i);

str2[i]=0;

}

…

在上述代码，为了分析方便，我们把整段代码分成I、II和III三个作用域。其中作用域II就是整个if语句，实现的相当于一个strcpy函数的功能。II中的内容就好是我们上面说的后期维护中加入的，当然，实际情况并不像我们例子中这么明前，i的声明可能离我们的if语句很远，所以加入这段代码是不知道上面是否声明了i变量。而且，这段代码编译的时候也不回出错，不管是Windows还是Solaris（单独的一段II中的代码在Solaris下面编不过去）。在Windows下面，这段代码可以正常的运行，不回出现任何问题，因为II中的代码完全是根据Windows下的习惯编写的。但是在Solaris下面，这段代码就会出现内存越界的错误，虽然编译可以正常通过，但是实现的却不是程序员预期的目的。在执行memcpy的时候，那个i其实是外层声明的那个i，值是20，而str2和str1的大小之后10，所以就发生了读写内存越界。而程序员预想的，这个i是for循环算出来的str1字符串的长度，应该是5。

要解决这类问题，就得加强编程规范，杜绝这种错误代码的生成。从开始的时候就要意识到可能产生的问题，从而避免问题的发生。

回复标题：
上传附件：

	签名：不显示显示

主题：Unix/Linux下C/C++开发技术概览

1.1语言特性的差异

1.1.1字节顺序的差异

1.1.2变量的作用域差异

Unix/Linux下C/C++开发技术概览