Google Drive / App Engine для системы управления документами

Я администрирую систему управления документами университета. Это сторонняя система, которая интегрируется с другой сторонней базой данных, которая действует как наша ERP-система. DMS довольно неуклюжа и имеет множество ужасных ошибок / отсутствие функций и поддержки. Я играл с Google App Engine / Drive SDK в свободное время из любопытства. Поскольку мы являемся клиентом Google Apps для образования, у нас есть неограниченное пространство на диске, и все наши пользователи являются пользователями приложений Google.

Возможно ли создать внутреннее веб-приложение (возможно, на основе Google App Engine), которое использует Drive SDK для управления всеми университетскими файлами (~ 6 ТБ). Судя по моим экспериментам, у него есть все необходимые возможности.


comment
Размер данных не будет иметь значения, он должен быть в состоянии обрабатывать все (не зная больше о том, что вы планируете делать).   -  person Ryan    schedule 05.01.2015
comment
Масштаб системы в первую очередь заключается в › импорте документа в DMS › индексном документе на основе предопределенных индексных полей для этого конкретного типа документа › запросе базы данных со значениями индекса для получения списка документов.   -  person Kyle McIntire    schedule 05.01.2015
comment
Между уже упомянутыми вами инструментами, хранилищем данных и полнотекстовым поиском вы сможете делать то, что вам нужно. cloud.google.com/appengine/training/fts_intro/lesson2   -  person Ryan    schedule 06.01.2015


Ответы (1)


Поскольку вы будете создавать свое собственное программное обеспечение, ответ на вопрос «будет ли оно делать то, что я хочу» всегда будет «да, в конце концов».

Вам нужно будет принять решение о форматах документов, что, в свою очередь, повлияет на ваш механизм индексации. В частности, у вас есть два основных варианта:

  1. конвертировать файлы в форматы документов Google (doc, электронные таблицы и т. д.). После этого вы сможете использовать собственную индексацию и поиск Google, например. как на drive.gogle.com. Недостатком является то, что форматирование может быть потеряно во время двустороннего обмена импортом/экспортом.

  2. сохраняйте документы в их исходном формате (например, MS .docx) и выполняйте собственное индексирование. Это потребует синтаксического анализа каждого типа документа, что нетривиально, но я уверен, что есть сторонние библиотеки, которые помогут. Положительным моментом является то, что документы, которые вы извлекаете, идентичны документам, которые вы импортировали.

Я думаю, что я бы посмотрел на выполнение обоих вышеперечисленных. Таким образом, когда вы импортируете файл в свою DMS, вы дважды сохраняете его на Google Диске, конвертированный и неконвертированный. Используйте хранилище данных App Engine, чтобы отслеживать пары. Таким образом, вы можете использовать поиск на Диске, чтобы найти преобразованный документ, но файл, который вы возвращаете пользователю, является его непреобразованным двойником.

person pinoyyid    schedule 06.01.2015
comment
Спасибо пинойид! Я был почти уверен, что у него есть все необходимые мне возможности, а затем и некоторые — просто хотел поделиться им с людьми, у которых был некоторый опыт. Кроме того, это отличная идея сохранить оба документа. Я уже беспокоился о сохранении форматирования. Спасибо! - person Kyle McIntire; 06.01.2015
comment
Часть этого ответа неверна. Google Диск индексирует файлы MS Office, конвертировать не нужно. Теперь, когда OCM интегрирован в Docs Suite, вы можете даже редактировать файлы MS, не конвертируя их в наш собственный формат (хотя вы можете захотеть использовать некоторые необычные функции Docs). @KyleMcIntire - person Dan McGrath; 09.01.2015
comment
@DanMcGrath большое спасибо за добавление. Не могли бы вы предоставить ссылку, где эти функции подробно описаны, например. какие форматы файлов Office индексируются? - person pinoyyid; 10.01.2015