Как декодировать строку UTF16 в символ Unicode

Устройство кодирует строку ???????? как "\uD83E\uDD1B\uD83C\uDFFD". Шестнадцатеричные числа, представленные в этой строке, взяты из шестнадцатеричной кодировки символа UTF-16. Кодовая точка Unicode U+1F91B, U+1F3FD получает свои номера из шестнадцатеричной кодировки UTF-32.

Взяв этот более поздний вариант, в Swift мы можем сделать такой литерал \u{1F91B}\u{1F3FD}, и мы получим символ ????????, как и ожидалось.

Как я могу преобразовать шестнадцатеричную строку UTF-16 "\uD83E\uDD1B\uD83C\uDFFD", чтобы получить ?????????

Я попытался взять строку и преобразовать ее в массив [UInt32] из 32-битных целых чисел, а затем использовать его для создания скаляров Unicode, но это работает только для символов Unicode, которые могут быть выражены в одной кодовой точке UTF-32.

Вот исходный код, который я использую.

extension String {

    func decodeBlock() -> String {
        let strings = self.components(separatedBy: "\\u")
        var scalars : [UInt32] = []
    
        var value: UInt32 = 0
        for string in strings {
            print(string)
            let scanner = Scanner(string: string)
            if scanner.scanHexInt32(&value) {
                scalars.append(value)
            }
        }
    
        let utf32chars = scalars
        var str = ""
        var generator = utf32chars.makeIterator()
        var utf32 : UTF32 = UTF32()
        var done = false
        while !done {
            let r = utf32.decode(&generator)
            switch (r) {
            case . emptyInput:
                done = true
            case .scalarValue(let val):
                str.append(Character(val))
            case .error:
                return "$"
            }
        }
        return str
    

        return self
    }
}

Он адаптирован из кода в ответе на аналогичный вопрос. https://stackoverflow.com/a/41412056/731773

Источником закодированной строки является функция org.apache.commons.lang.StringEscapeUtils escapeJava, которую можно найти здесь.


person Jeff Wolski    schedule 20.06.2017    source источник


Ответы (2)


Это немного обман, но UTF-16 является кодировкой, используемой NSString, поэтому вы можете позаимствовать методы NSString для ее достижения:

extension String {
    func decodeBlock() -> String? {
        var chars = [unichar]()

        for substr in self.components(separatedBy: "\\u") where !substr.isEmpty {
            if let value = UInt16(substr, radix: 16) {
                chars.append(value)
            } else {
                return nil
            }
        }

        return NSString(characters: chars, length: chars.count) as String
    }
}

if let decoded = "\\uD83E\\uDD1B\\uD83C\\uDFFD".decodeBlock() {
    print(decoded)
} else {
    print("Cannot decode")
}
person Code Different    schedule 21.06.2017
comment
Это один из способов, которым пытались это сделать. Но я не знал о NSString(characters: chars, length: chars.count). Это именно то, что мне было нужно. Спасибо! - person Jeff Wolski; 21.06.2017

Это определенно обман, так как он просто использует встроенный метод в JavaScript, но он работает.

func decode() -> String{
    // getting a JSContext
    let context = JSContext()
    let encodedString = self
    // defining a JavaScript function
    let jsFunctionText = "var decode = function(encodedString) {\n" +
        "var r = /\\\\u([\\d\\w]{4})/gi;\n" +
        " x = encodedString\n" +
        "x = x.replace(r, function (match, grp) {\n" +
        "     return String.fromCharCode(parseInt(grp, 16)); } );\n" +
        " x = unescape(x);\n" +
        " return x\n" +
    "}"
    //    print(jsFunctionText)
    context!.evaluateScript(jsFunctionText)!

    // calling a JavaScript function
    let jsFunction = context?.objectForKeyedSubscript("decode")

    let decodedValue = jsFunction?.call(withArguments: [encodedString]);
    if let decodedString = decodedValue?.toString() {
        return decodedString
    } else {
        return self
    }
}
person Jeff Wolski    schedule 21.06.2017