Возникли проблемы с загрузкой базы данных MNIST

Итак, я просто пытаюсь загрузить базу данных MNIST (которую я скачал) и обучить классификатор, а затем сохранить сеанс обучения в файл для использования в будущем. Я попытался загрузить его напрямую (через fetch_mldata), но мой интернет кажется слишком медленным, поэтому я пытаюсь прочитать базу данных, загрузив ее извне, но получаю сообщение об ошибке, как указано ниже в коде. Любая помощь приветствуется!

from sklearn.externals import joblib
from sklearn import datasets
from skimage.feature import hog
from sklearn.datasets import fetch_mldata
from sklearn.svm import LinearSVC
import numpy as np
import mlab
import scipy.io

print 'fetching'
dataset = scipy.io.loadmat('mnist-original.mat')

print 'fetched'
features = np.array(dataset.data, 'int16')
labels = np.array(dataset.target, 'int')
ist_hog_fd = []
for feature in features:
    fd = hog(feature.reshape((28, 28)), orientations=9, pixels_per_cell=(14, 14), cells_per_block=(1, 1), visualise=False)
    list_hog_fd.append(fd)
hog_features = np.array(list_hog_fd, 'float64')
clf=LinearSVC()
clf.fit(hog_features,labels)
joblib.dump(clf, "digits_cls.pkl", compress=3)

Когда я запускаю его, я получаю сообщение об ошибке:

Traceback (most recent call last):
  File "/home/samad/Red_Queen/v2(ud&ay)/scratch2.py", line 14, in <module>
    features = np.array(dataset.data, 'int16')
AttributeError: 'dict' object has no attribute 'data'

Честно говоря, я не очень хорошо знаком с массивами numpy, а также с файлами .mat.


person Ubdus Samad    schedule 03.05.2017    source источник


Ответы (1)


Итак, это заняло некоторое время, но я все равно нашел исправление. Вместо использования scipy для загрузки файла расширения «.mat» я использовал автоматический загрузчик или этот код для прямой загрузки базы данных:

dataset = datasets.fetch_mldata("MNIST Original")

и хитрость в том, что я поместил загруженный извне файл в папку кеша scikit, поэтому его не нужно загружать. Путь к каталогу кеша:

~/scikit_learn_data/mldata/ 

И вы можете скачать оригинальный файл мата из любого места через поиск Google.

Но я использовал ссылку: Ссылка для скачивания который может работать, а может и не работать.

person Ubdus Samad    schedule 04.05.2017