учебный файл language_id.txt для Google Prediction API непригоден для использования

Я использую пример Hello Prediction из API Google Prediction.

К сожалению, учебный файл language_id.txt кажется каким-то образом поврежденным? Я протестировал загрузку с помощью Google Chrome и Firefox, тот же результат, см. скриншот:

введите здесь описание изображения

Я думаю, поэтому мои тесты не работают, и я всегда получаю English 1.0 в качестве оценки для строки примера Muy Bueno.

  ...
  {
   "label": "English",
   "score": "1.000000"
  },
  ...

Где взять пригодный для использования тестовый файл language_id.txt или что-то еще, что я могу сделать?

EDIT: я предполагаю, что файл не был сохранен в формате UTF-8 на сервере Google?


person Taifun    schedule 31.07.2014    source источник
comment
У меня также был такой же опыт, когда он предсказал Muy Bueno как английский. Тем не менее, Muy bueno с маленькой буквой b отлично работал для испанского языка.   -  person Simon    schedule 19.01.2015


Ответы (1)


Файл находится в кодировке UTF-8, но не объявляет кодировку, поэтому при просмотре в браузере предполагается кодировка HTTP по умолчанию, ISO-8859-1.

Я не уверен, почему вы на самом деле получаете поврежденную копию (если я просматриваю ее в Chrome, она кажется поврежденной, но ее сохранение приводит к правильному файлу в кодировке UTF-8), но, возможно, вы могли бы попробовать другой механизм для загрузки Это?

person Malcolm Rowe    schedule 02.08.2014
comment
Если вы можете загрузить его в правильном формате, добавьте его в виде текстового файла к своему ответу. Спасибо. - person Taifun; 03.08.2014
comment
Я не совсем уверен, как мне прикрепить файл к ответу, и в любом случае у вас будет тот же контент, который уже есть на сервере. Еще один вариант: вы можете переопределить набор символов при его просмотре. В Chrome откройте меню-гамбургер, затем Инструменты > Кодировка > UTF-8 (лучший выбор). Это должно помочь, если проблема связана с браузером. - person Malcolm Rowe; 03.08.2014
comment
Здорово! Спасибо! Я не знал такой опции, вот и все! Изменение кодировки с западной (ISO-8859-1) на Unicode (UTF-8) помогло! - person Taifun; 03.08.2014