Преобразование UTF-8 в ISO-8859-1 в Java - как сохранить его как однобайтный

Я пытаюсь преобразовать строку, закодированную в java в UTF-8, в ISO-8859-1. Скажем, например, в строке «âabcd» «â» представлена ​​в ISO-8859-1 как E2. В UTF-8 он представлен двумя байтами. C3 A2 Я верю. Когда я выполняю getbytes (кодирование), а затем создаю новую строку с байтами в кодировке ISO-8859-1, я получаю два разных символа. Ã ¢. Есть ли другой способ сделать это, чтобы символ оставался прежним, то есть âabcd?


person Community    schedule 17.03.2009    source источник


Ответы (8)


Если вы имеете дело с кодировками символов, отличными от UTF-16, вам не следует использовать java.lang.String или char примитив - вы должны использовать только byte[] массивы или ByteBuffer объекты. Затем вы можете использовать java.nio.charset.Charset для конвертировать между кодировками:

Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");

ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});

// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);

// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();
person Adam Rosenfield    schedule 17.03.2009
comment
Хороший момент, хотя я бы предположил, что использование буферов не всегда может быть самым удобным способом. Базовые InputStream и OutputStream (с соответствующими обертками для чтения и записи) иногда более полезны и не требуют хранения всего содержимого в памяти. Но что удобнее, конечно, зависит от варианта использования. - person StaxMan; 05.06.2015

byte[] iso88591Data = theString.getBytes("ISO-8859-1");

Сделаем свое дело. Из вашего описания кажется, что вы пытаетесь «сохранить строку ISO-8859-1». Строковые объекты в Java всегда неявно кодируются в UTF-16. Невозможно изменить эту кодировку.

Что вы можете сделать, так это получить байты, которые составляют некоторую другую его кодировку (используя метод .getBytes(), как показано выше).

person Joachim Sauer    schedule 17.03.2009

Начиная с набора байтов, которые кодируют строку с использованием UTF-8, создает строку из этих данных, а затем получает несколько байтов, кодирующих строку в другой кодировке:

    byte[] utf8bytes = { (byte)0xc3, (byte)0xa2, 0x61, 0x62, 0x63, 0x64 };
    Charset utf8charset = Charset.forName("UTF-8");
    Charset iso88591charset = Charset.forName("ISO-8859-1");

    String string = new String ( utf8bytes, utf8charset );

    System.out.println(string);

    // "When I do a getbytes(encoding) and "
    byte[] iso88591bytes = string.getBytes(iso88591charset);

    for ( byte b : iso88591bytes )
        System.out.printf("%02x ", b);

    System.out.println();

    // "then create a new string with the bytes in ISO-8859-1 encoding"
    String string2 = new String ( iso88591bytes, iso88591charset );

    // "I get a two different chars"
    System.out.println(string2);

это выводит строки и байты iso88591 правильно:

âabcd 
e2 61 62 63 64 
âabcd

Итак, ваш массив байтов не был соединен с правильной кодировкой:

    String failString = new String ( utf8bytes, iso88591charset );

    System.out.println(failString);

Выходы

âabcd

(либо это, либо вы просто записали байты utf8 в файл и прочитали их в другом месте как iso88591)

person Pete Kirkham    schedule 17.03.2009

Вот что мне было нужно:

public static byte[] encode(byte[] arr, String fromCharsetName) {
    return encode(arr, Charset.forName(fromCharsetName), Charset.forName("UTF-8"));
}

public static byte[] encode(byte[] arr, String fromCharsetName, String targetCharsetName) {
    return encode(arr, Charset.forName(fromCharsetName), Charset.forName(targetCharsetName));
}

public static byte[] encode(byte[] arr, Charset sourceCharset, Charset targetCharset) {

    ByteBuffer inputBuffer = ByteBuffer.wrap( arr );

    CharBuffer data = sourceCharset.decode(inputBuffer);

    ByteBuffer outputBuffer = targetCharset.encode(data);
    byte[] outputData = outputBuffer.array();

    return outputData;
}
person Kåre Jonsson    schedule 17.02.2016

Если у вас есть правильная кодировка в строке, вам не нужно делать больше, чтобы получить байты для другой кодировки.

public static void main(String[] args) throws Exception {
    printBytes("â");
    System.out.println(
            new String(new byte[] { (byte) 0xE2 }, "ISO-8859-1"));
    System.out.println(
            new String(new byte[] { (byte) 0xC3, (byte) 0xA2 }, "UTF-8"));
}

private static void printBytes(String str) {
    System.out.println("Bytes in " + str + " with ISO-8859-1");
    for (byte b : str.getBytes(StandardCharsets.ISO_8859_1)) {
        System.out.printf("%3X", b);
    }
    System.out.println();
    System.out.println("Bytes in " + str + " with UTF-8");
    for (byte b : str.getBytes(StandardCharsets.UTF_8)) {
        System.out.printf("%3X", b);
    }
    System.out.println();
}

Вывод:

Bytes in â with ISO-8859-1
 E2
Bytes in â with UTF-8
 C3 A2
â
â
person Paul Vargas    schedule 12.03.2014

Для кодировки файлов ...

public class FRomUtf8ToIso {
        static File input = new File("C:/Users/admin/Desktop/pippo.txt");
        static File output = new File("C:/Users/admin/Desktop/ciccio.txt");


    public static void main(String[] args) throws IOException {

        BufferedReader br = null;

        FileWriter fileWriter = new FileWriter(output);
        try {

            String sCurrentLine;

            br = new BufferedReader(new FileReader( input ));

            int i= 0;
            while ((sCurrentLine = br.readLine()) != null) {
                byte[] isoB =  encode( sCurrentLine.getBytes() );
                fileWriter.write(new String(isoB, Charset.forName("ISO-8859-15") ) );
                fileWriter.write("\n");
                System.out.println( i++ );
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                fileWriter.flush();
                fileWriter.close();
                if (br != null)br.close();
            } catch (IOException ex) {
                ex.printStackTrace();
            }
        }

    }


    static byte[] encode(byte[] arr){
        Charset utf8charset = Charset.forName("UTF-8");
        Charset iso88591charset = Charset.forName("ISO-8859-15");

        ByteBuffer inputBuffer = ByteBuffer.wrap( arr );

        // decode UTF-8
        CharBuffer data = utf8charset.decode(inputBuffer);

        // encode ISO-8559-1
        ByteBuffer outputBuffer = iso88591charset.encode(data);
        byte[] outputData = outputBuffer.array();

        return outputData;
    }

}
person Frizz1977    schedule 20.05.2014

В дополнение к ответу Адама Розенфилда я хотел бы добавить, что ByteBuffer.array() возвращает базовый байтовый массив буфера, который не обязательно «обрезан» до последнего символа. Потребуются дополнительные манипуляции, например, упомянутые в this ответ; особенно:

byte[] b = new byte[bb.remaining()]
bb.get(b);
person Chadi    schedule 20.01.2015

выселить символы, отличные от ISO-8859-1, будет заменено на '?' (перед отправкой в ​​базу данных ISO-8859-1, например):

utf8String = новая строка (utf8String.getBytes (), «ISO-8859-1»);

person bcros    schedule 30.03.2010
comment
Замена всех символов, отличных от ASCII, на ? кажется ужасным решением, когда можно преобразовать строку, не теряя ее. - person s4y; 25.03.2011
comment
@ s4y, вы правы, это кажется ужасным решением, но подумайте об ASCII. У вас просто не может быть умляутов в ASCII. Вам нужно будет сделать что-нибудь с символами, которые нельзя закодировать. Для поставленной проблемы это самое простое и правильное решение. Можно подумать об использовании StandardCharsets.ISO_8859_1. - person fahrradfahrer; 07.07.2020
comment
@fahrradfahrer, если бы я писал этот комментарий сегодня, я бы не использовал слово ужасно! Но в этом случае я бы, вероятно, выбрал что-то вроде stackoverflow.com/a/14121678/84745, что по сути дает вы приблизительное значение строки в ASCII. - person s4y; 08.07.2020