详解PHP编码转换问题

发布时间：2022-07-24 14:50:40 所属栏目：PHP教程来源：互联网

导读：本文给大家分享的是个人对于PHP编码转换问题的理解以及处理方法，非常的简单实用，有需要的小伙伴可以参考下。最近恰好要用到unicode编码的转换，就去查了一下php的库函数，居然没找到一个函数可以对字符串进行Unicode的编码和解码！也罢，找不到的话就自己

　　本文给大家分享的是个人对于PHP编码转换问题的理解以及处理方法，非常的简单实用，有需要的小伙伴可以参考下。

　　最近恰好要用到unicode编码的转换，就去查了一下php的库函数，居然没找到一个函数可以对字符串进行Unicode的编码和解码！也罢，找不到的话就自己实现一下了。。。

　　Unicode和Utf-8编码的区别

　　Unicode是一个字符集，而UTF-8是Unicode的其中一种，Unicode是定长的都为双字节，而UTF-8是可变的，对于汉字来说Unicode占有的字节比UTF-8占用的字节少1个字节。Unicode为双字节，而UTF-8中汉字占三个字节。

　　UTF-8编码字符理论上可以最多到6个字节长,然而16位BMP（Basic Multilingual Plane）字符最多只用到3字节长。下面看一下

　　UTF-8编码表：

　　U-00000000 - U-0000007F: 0xxxxxxx

　　Unicode怎么转换成Utf-8呢

　　为了要将Unicode转换为UTF-8，当然要知道他们的区别到底在什么地方。下面来看一下，在Unicode中的编码是怎样转换成UTF-8的，在UTF-8中，如果一个字符的字节小于0x80（128）则为ASCII字符，占一个字节，可以不用转换，因为UTF-8兼容ASCII编码。假如在Unicode中汉字“你”的编码为“u4F60”，把它转换为二进制为100111101100000，然后按照UTF-8的方法进行转换。可以将Unicode二进制从低位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下所示的格式，前面按格式填补，不足8位用0填补，代码如下:

　　unicode: 100111101100000                   4F60

　　Utf-8怎么逆转回Unicode呢

　　当然在UTF-8到Unicode的转换也是通过移位等来完成的，就是把UTF-8那些格式相应的位置的二进制数给揪出来。在上述例子中“你”为三个字节，因此要每个字节进行处理，有高位到低位进行处理。在UTF-8中“你”为11100100,10111101,10100000。从高位起即第一个字节11100100就是把其中的"0100"给取出来，这个很简单只要和11111（0x1F）取与（&），由三字节可以得知最到位肯定位于12位之前，因为每次取六位。所以还要将得到的结果左移12位，最高位也就这样完成了0100,000000,000000。而第二位则是要把“111101”给取出来，则只需将第二字节10111101和111111(0x3F)取与（&）。在将所得到的结果左移6位与最高字节所得的结果取或（|），第二位就这样完成了，得到的结果为0100,111101,000000。以此类推最后一位直接与111111（0x3F）取与（&），再与前面所得的结果取或（|）即可得到结果0100,111101,100000。

　　PHP代码实现

　　/**
　　 * utf8字符转换成Unicode字符
　　 * @param [type] $utf8_str Utf-8字符
　　 * @return [type]      Unicode字符
　　 */
　　function utf8_str_to_unicode($utf8_str) {
　　  $unicode = 0;
　　  $unicode = (ord($utf8_str[0]) & 0x1F) << 12;
　　  $unicode |= (ord($utf8_str[1]) & 0x3F) << 6;
　　  $unicode |= (ord($utf8_str[2]) & 0x3F);
　　  return dechex($unicode);
　　}
　　
　　/**
　　 * Unicode字符转换成utf8字符
　　}
　　测试一下了

　　$utf8_str = '我';
　　
　　//这是汉字“你”的Unicode编码
　　$unicode_str = '4f6b';
　　
　　//输出 6211
　　echo utf8_str_to_unicode($utf8_str) . "<br/>";
　　
　　//输出汉字“你”
　　echo unicode_str_to_utf8($unicode_str);
　　以上这些转换是针对中文汉字【往大了说是非ASCII】的测试，因为如果是ASCII的话，转来转去都是一样的，也用不着费那么大工夫。

　　还有就是这两个函数只是简单的实现了一下，只支持单个字符【一个完整的utf8字符或是一个完整的Unicode字符】互相转换，大家如果明白了得话就可以尽情去扩展了。。。

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

php批量命名文件技巧	php读取文件内容几种正
php中读取大文件实现方	php打开远程文件的方法