Я собираюсь разработать веб-службу с открытым исходным кодом, которая должна собирать («очищать веб-страницы») некоторые данные с нескольких - в настоящее время трех - веб-сайтов.
Веб-сайты не предоставляют никаких веб-сервисов или API, они просто публикуют веб-страницы.
Данные будут собираться «в реальном времени» по любому запросу клиента со всех веб-сайтов параллельно, а затем будут преобразованы в XML для возврата клиенту.
Операционная система сервера будет Linux.
Первоначально клиенты будут просто моим Android-приложением.
Число одновременных клиентов, возможно, будет около 100 и более, если проект будет успешным ... ;-).
В настоящее время я предпочитаю принять:
- perl (для служебного языка)
- mod_perl2 с ModPerl :: Registry (для встроенного в Apache быстрого интерпретатора Perl)
- модуль perl CHI :: Driver :: FastMmap (для современного и быстрого обработчика кеша)
- модуль perl Coro (для асинхронного цикла обработки событий для параллельного размещения множества запросов)
Поскольку я полагаю, что спецификации проекта могут быть полезными и интересными, и поскольку у меня возникает много проблем при совместном использовании Coro с mod_perl2, я спрашиваю:
Соответствуют ли мои предпочтения в усыновлении?
Вы видите несовместимости или потенциальные проблемы?
Есть ли у вас какие-либо предложения по улучшению (в таком порядке):
- совместимость компонентов
- аккуратность реализации
- простота обслуживания
- выступления