Вставка типа документа в XML-документ (Java/SAX)

Представьте, что у вас есть документ XML, и представьте, что у вас есть DTD, но сам документ на самом деле не определяет DOCTYPE... Как бы вы вставили объявление DOCTYPE, предпочтительно указав его в синтаксическом анализаторе (аналогично тому, как вы можете установить схему для документа, который будет проанализирован) или путем вставки необходимых событий SAX через XMLFilter или тому подобное?

Я нашел много ссылок на EntityResolver, но это то, что вызывается, когда DOCTYPE найден во время синтаксического анализа и используется для указания на локальный файл DTD. EntityResolver2 похоже, есть то, что я ищу, но я не нашел примеров использования.

Это самое близкое, что я подобрал до сих пор: (код Groovy, но достаточно близко, чтобы вы могли его понять...)

import org.xml.sax.*
import org.xml.sax.ext.*
import org.xml.sax.helpers.*

class XmlFilter extends XMLFilterImpl {
    public XmlFilter( XMLReader reader ) { super(reader) }

    @Override public void startDocument() {
        super.startDocument()        
        super.resolveEntity( null, 
            'file:///./entity.dtd')
        println "filter startDocument"
    }
}

class MyHandler extends DefaultHandler2 { 
    public InputSource resolveEntity(String name, String publicId, String baseURI, String systemId) {
        println "entity: $name, $publicId, $baseURI, $systemId"
        return new InputSource(new StringReader('<!ENTITY asdf "&#161;">'))
    }
}

def handler = new MyHandler()

def parser = XMLReaderFactory.createXMLReader()
parser.setFeature 'http://xml.org/sax/features/use-entity-resolver2', true
def filter = new XmlFilter( parser )
filter.setContentHandler( handler )
filter.setEntityResolver( handler )

filter.parse( new InputSource(new StringReader('''<?xml version="1.0" ?>
    <test>one &asdf; two! &nbsp; &iexcl;&pound;&cent;</test>''')) );

Я вижу, что resolveEntity вызвали, но все равно попали

org.xml.sax.SAXParseException: объект "asdf" упоминался, но не был объявлен.
на com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.parse(AbstractSAXParser.java:1231)
в org.xml.sax.helpers.XMLFilterImpl.parse(XMLFilterImpl.java:333)

Я предполагаю, что это связано с тем, что нет способа добавить события SAX, о которых знает парсер, я могу добавлять события только через фильтр, восходящий от парсера, которые передаются в ContentHandler. Таким образом, документ должен быть действительным для XMLReader. Как-нибудь обойти это? Я знаю, что могу изменить необработанный поток, чтобы добавить тип документа, или, возможно, выполнить преобразование, чтобы установить DTD... Есть другие варианты?


person thom_nic    schedule 14.04.2010    source источник


Ответы (2)


Вы можете попробовать DoctypeChanger, который изменяет необработанный поток, как вы предложили:

DoctypeChanger — это класс Java, который позволяет добавлять, изменять или удалять объявление DOCTYPE из потока байтов по мере того, как он передается анализатору XML.

InputStream in = ...   // get your XML InputStream
DOCTYPEChangerStream changer = new DOCTYPEChangerStream(in);
changer.setGenerator( 
    new DoctypeGenerator() {
        public Doctype generate(Doctype old) {
            return new DoctypeImpl("rootElement", "pubId", "sysId", "internalSubset");
        }
    } 
);
// .. and pass it on to the parser.
person fglez    schedule 04.03.2013

Я бы использовал таблицу стилей xslt для преобразования идентификатора и использовал элемент xsl:output вместе с атрибутом doctype-systemdoctype-public, если я хотел добавить общедоступный идентификатор).

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output doctype-system="test.dtd"/>
   <xsl:template match="node()|@*">
      <xsl:copy>
         <xsl:apply-templates select="node()|@*"/>
      </xsl:copy>
   </xsl:template>
</xsl:stylesheet>
person Daniel Haley    schedule 17.04.2010
comment
Просто увидел внизу вашего поста, что вы не хотите делать преобразование. Извини за это. - person Daniel Haley; 17.04.2010
comment
Нет проблем... Это не обязательно плохое решение, просто непрактичное, если вы пытаетесь передать XML-документ, а не буферизовать его в памяти. Я думаю, вы можете использовать Transform API, см.: javax.xml.transform.Transformer.setOutputProperty() и javax.xml.transform.OutputKeys.DOCTYPE_SYSTEM. На самом деле теперь, когда я смотрю немного дальше в этом направлении, может быть, javax.xml.transform.sax.SAXResult — это то, что мне нужно? - person thom_nic; 19.04.2010