素材牛VIP会员
如何转义emoji表情,让它可以存入utf8的数据库?
 38***38  分类:SQL代码  人气:2147  回帖:15  发布于6年前 收藏

unicode emoji是4个字节的,存不进MySQL里,找到一个转义的库http://code.iamcal.com/php/emoji/,但是转为Unicode之后,还是4个字节,一样存不进,应该说根本没转。转为其他格式的emoji又怕以后新增了表情不好做,你们在不改数据库编码的前提下,是怎么弄的?

方法1:base_encode64

这种方法是可以,但是旧数据没有经过encode操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。

方法2:urlencode

这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?

=======================
一个发现,微信获取用户基本信息的时候,笑哭那个表情print_r出的是\ud83d\ude02,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗?

=======================

方法3:最后采用了下面采纳的那个方法,因为我觉得它有下面几个优点:

1、那个方法只转换表情,不会转换中文,所以数据还是直接可读的
数据库中存储起来是这样的, 后面的\ud83d\udca5可以随意复制粘贴,而显示出来是这样的,

2、不会把表情转换为其它标准,只有一个简单的,固定的转换算法,也就是说不需要一个表情库来对照着转换,所以以后其它人要使用这个数据的时候,也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情,也不需要做什么额外的修改。

3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode,其它decode多次会把正确的数据改成其它数据,这个不会。

缺点:
1、看了下面的代码就知道,这个是强制修改字符编码中,指定区间内的编码,也就说有可能误杀,也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠,即使误杀了,发现之后也很容易改回来。
数据库中发现有这样的 ,是漏杀了,但是不知道为什么,这个可以直接存数据库。


/**
  把用户输入的文本转义(主要针对特殊符号和emoji表情)
 */
function userTextEncode($str){
    if(!is_string($str))return $str;
    if(!$str || $str=='undefined')return '';

    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){
        return addslashes($str[0]);
    },$text); //将emoji的unicode留下,其他不动,这里的正则比原答案增加了d,因为我发现我很多emoji实际上是\ud开头的,反而暂时没发现有\ue开头。
    return json_decode($text);
}
/**
  解码上面的转义
 */
function userTextDecode($str){
    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback('/\\\\\\\\/i',function($str){
        return '\\';
    },$text); //将两条斜杠变成一条,其他不动
    return json_decode($text);
}

讨论这个帖子(15)垃圾回帖将一律封号处理……

Lv6 码匠
请***g JAVA开发工程师 6年前#1

不用转,直接数据库转成utf8mb4, 我以前就是这么干的

Lv5 码农
lo***ge 其它 6年前#2

我在做微信公众平台开发时遇到过这个问题,微信用户的昵称可以包含表情(坑爹- -!)。于是我就将整个昵称转换成HEX字符串存在MySQL中,目前用户1W+,系统稳定,题主可以参考一下此方案。

MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。

Lv6 码匠
赵***2 Web前端工程师 6年前#3

我是这么玩儿的

<?php
//处理名字的emoji符号
        $tmpStr = json_encode($text); //暴露出unicode
        $tmpStr = preg_replace("#(\\\ue[0-9a-f]{3})#ie","addslashes('\\1')",$tmpStr); //将emoji的unicode留下,其他不动
        $text = json_decode($tmpStr);
        return $text;
Lv3 码奴
吻***烟 技术总监 6年前#4

根据 @Aries 的思路写的改良版本,就算以后有丧心病狂的5字节甚至更长的UTF-8字符都能应付

<?php
/**
 * Created by PhpStorm.
 * User: shellus
 * Date: 2017-02-03
 * Time: 5:31
 */
function utf8_to_unicode_str($utf8)
{
    $return = '';

    for ($i = 0; $i < mb_strlen($utf8); $i++) {

        $char = mb_substr($utf8, $i, 1);

        // 3字节是汉字,不转换,4字节才是 emoji
        if (strlen($char) > 3) {
            $char = trim(json_encode($char), '"');
        }
        $return .= $char;
    }
    return $return;
}

$t = '我吃?啦!hahaha';

var_dump(utf8_to_unicode_str($t));

// 我吃\ud83c\udf49啦!hahaha

Lv1 新人
凌***志 移动开发工程师 6年前#5

我这个刚解决的这个问题(后端是java实现的,数据库Mysql),供参考。
1、修改存储emoji字段编码,例如放在username字段中:

    ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null;

2、java在执行数据库插入、更新操作前,要先执行 sql语句"set names utf8mb4" 语句。

Lv7 码师
ya***cn 移动开发工程师 6年前#6

https://github.com/iamcal/php-emoji
我是用这个处理的~

Lv4 码徒
贼***9 CEO 6年前#7

试试微博或qq里面的那种方式?用简单的编码来映射,比如微笑可以用 [wx]/wx 。不过表情多了之后4个字符不怎么够用。。。

Lv5 码农
迷***文 JS工程师 6年前#8

有一种编码叫 utfmb4,支持 4 位长度的 utf8 编码

喏,你的 MySQL 版本必须为 5.5 以上的

Lv2 入门
钱***8 软件测试工程师 6年前#9

不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把

Lv6 码匠
生***炸 UI设计师 6年前#10
  1. 使用BOLO类型

  2. 将数据库编码改为 utf8mb4

上一页12下一页
 文明上网,理性发言!   😉 阿里云幸运券,戳我领取