Я хочу анализировать веб-сайты по их метатегам. Для этого я использую xerces-c.
shared_ptr<SAX2XMLReader> parser(XMLReaderFactory::createXMLReader());
//Create and set callback handler with the given callback functions
Handler handler(startElement,endElement,characters);
parser->setContentHandler(&handler);
parser->setErrorHandler(&handler);
//Parse the file with the given callback handler
parser->parse(filename.c_str());
На некоторых веб-сайтах теперь есть javascript. Внутри тегов script javascript использует оператор && для логического "и".
Xerces-C интерпретирует это как ссылку на сущность (например,  ) и выдает исключение, поскольку не знает ссылку на сущность &&.
Есть ли способ прочитать это правильно как текст?
Или, если нет, есть ли способ просто игнорировать все символы внутри тегов скрипта? Мне они все равно не нужны. Я просто хочу проанализировать метатеги.