PHP Unicode编码与解码的方法
2017-05-16 22:01:37
•
阅读
打赏
本文实例讲述了PHP Unicode编码与解码的方法,分享给大家供大家参考,欢迎大家的学习。
Unicode编码
Unicode普遍采用的是UCS-2,用两个字节来编码一个字符,字符码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头。
UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。
编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97。
简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符。
/**
* 编码
* @param string $str 原始中文字符串
* @param string $prefix 编码后的前缀,默认"&#"
* @param string $postfix 编码后的后缀,默认";"
* @return string
*/
function unicode_encode($str, $prefix = '&#', $postfix = ';')
{
//将字符串拆分
$str = iconv("UTF-8", "gb2312", $str);
$cind = 0;
$arr_cont = array();
for ($i = 0; $i < strlen($str); $i++) {
if (strlen(substr($str, $cind, 1)) > 0) {
if (ord(substr($str, $cind, 1)) < 0xA1) { //如果为英文则取1个字节
array_push($arr_cont, substr($str, $cind, 1));
$cind++;
} else {
array_push($arr_cont, substr($str, $cind, 2));
$cind += 2;
}
}
}
foreach ($arr_cont as &$row) {
$row = iconv("gb2312", "UTF-8", $row);
}
//转换Unicode码
$unicodestr = '';
foreach ($arr_cont as $key => $value) {
$unicodestr .= $prefix . base_convert(bin2hex(iconv('utf-8', 'UCS-4', $value)), 16, 10) . $postfix;
}
return $unicodestr;
}
/**
* 解码
* @param string $unistr Unicode编码后的字符串
* @param string $encoding 原始字符串的编码,默认utf-8
* @param string $prefix 编码字符串的前缀,默认"&#"
* @param string $postfix 编码字符串的后缀,默认";"
* @return string
*/
function unicode_decode($unistr, $encoding = 'utf-8', $prefix = '&#', $postfix = ';')
{
$arruni = explode($prefix, $unistr);
$unistr = '';
for ($i = 1, $len = count($arruni); $i < $len; $i++) {
if (strlen($postfix) > 0) {
$arruni[$i] = substr($arruni[$i], 0, strlen($arruni[$i]) - strlen($postfix));
}
$temp = intval($arruni[$i]);
$unistr .= ($temp < 256) ? chr(0) . chr($temp) : chr($temp / 256) . chr($temp % 256);
}
return iconv('UCS-2', $encoding, $unistr);
}
$str = "PHP WEB编程";
$unistr = unicode_encode($str);
$unistr2 = unicode_decode($unistr);
echo $unistr . '<br />';
echo $unistr2 . '<br />';
$unistr = unicode_encode($str, 'GBK', '\\u');
$unistr2 = unicode_decode($unistr, 'GBK', '\\u');
echo $unistr . '<br />';
echo $unistr2 . '<br />';
更多关于PHP相关专题:《PHP编码与转码操作技巧汇总》、《php面向对象程序设计入门教程》、《PHP数学运算技巧总结》、《PHP数组(Array)操作技巧大全》、《php字符串(string)用法总结》、《PHP数据结构与算法教程》、《php程序设计算法总结》、《php正则表达式用法总结》、及《php常见数据库操作技巧汇总》
以上就是本文PHP Unicode编码与解码的方法的全部内容,希望本文所述对大家PHP程序设计有所帮助。
相关推荐
深度学习 -- 损失函数
深度残差网络(Deep Residual Networks (ResNets))
深度学习 -- 激活函数
神经网络训练 -- 调整学习速率
生成对抗网络(GAN)改进与发展
生成对抗网络(GAN)优点与缺点
生成对抗网络(GAN)的训练
生成对抗网络(GAN)基本原理
生成模型与判别模型