Декодируйте с помощью ASN.1, если подложка содержит некоторые непрозрачные данные.

Я хотел бы использовать pyasn1 для декодирования некоторых данных, часть которых непрозрачна. То есть часть данных, содержащихся в структуре, определенной ASN.1, может быть или не быть декодируемой ASN.1, и мне нужно проанализировать преамбулу, чтобы выяснить, как ее декодировать.

Основываясь на том, что я понял из документации по кодеку pyasn1 в разделе "Декодирование немаркированных типов", я должен быть в состоянии использовать тип pyasn.univ.Any для обработки этого случая.

Вот пример кода, иллюстрирующий проблему, с которой я столкнулся.

#!/usr/bin/env python

from pyasn1.type import univ, namedtype
from pyasn1.codec.der import decoder, encoder

class Example(univ.Sequence):
    componentType = namedtype.NamedTypes(
        namedtype.NamedType('spam', univ.Integer()),
        namedtype.NamedType('eggs', univ.Any())
    )

example = Example()
example['spam'] = 42
example['eggs'] = univ.Any(b'\x01\x00abcde') # Some opaque data
substrate = encoder.encode(example)

"""
    >>> import binascii
    >>> print(binascii.hexlify(substrate).decode('ascii')))
    300a02012a01006162636465

      ^^      ^
      ||      + Opaque data begins here
      ++ Note: the length field accounts for all remaining substrate
"""

data, tail = decoder.decode(substrate, asn1Spec=Example())
print(data)

Закодированный пример соответствует моим ожиданиям. Однако эта программа дает сбой внутри декодера со следующей трассировкой.

Traceback (most recent call last):
  File "./any.py", line 27, in <module>
    data, tail = decoder.decode(substrate, asn1Spec=Example())
  File "/Users/neirbowj/Library/Python/3.4/lib/python/site-packages   /pyasn1-0.1.8-py3.4.egg/pyasn1/codec/ber/decoder.py", line 825, in __call__
  File "/Users/neirbowj/Library/Python/3.4/lib/python/site-packages/pyasn1-0.1.8-py3.4.egg/pyasn1/codec/ber/decoder.py", line 342, in valueDecoder
  File "/Users/neirbowj/Library/Python/3.4/lib/python/site-packages/pyasn1-0.1.8-py3.4.egg/pyasn1/codec/ber/decoder.py", line 706, in __call__
pyasn1.error.SubstrateUnderrunError: 95-octet short

Я считаю, что происходит то, что декодер пытается работать с той частью данных, которую я пытался идентифицировать как univ.Any, и терпит неудачу, потому что это недопустимая кодировка, вместо того, чтобы возвращать ее мне как некоторые двоичные данные. инкапсулирован в объект univ.Any, как я ожидаю.

Как я могу разобрать данные этой формы, используя pyasn1?

Между прочим, фактические данные, которые я пытаюсь декодировать, представляют собой токен SASL с использованием механизма GSSAPI, как определено в разделе 4.1 RFC 4121: механизм KRB5 GSSAPI v2, который я привожу здесь для удобства.

     GSS-API DEFINITIONS ::=

     BEGIN

     MechType ::= OBJECT IDENTIFIER
     -- representing Kerberos V5 mechanism

     GSSAPI-Token ::=
     -- option indication (delegation, etc.) indicated within
     -- mechanism-specific token
     [APPLICATION 0] IMPLICIT SEQUENCE {
             thisMech MechType,
             innerToken ANY DEFINED BY thisMech
                -- contents mechanism-specific
                -- ASN.1 structure not required
             }

     END

The innerToken field starts with a two-octet token-identifier
(TOK_ID) expressed in big-endian order, followed by a Kerberos
message.

Following are the TOK_ID values used in the context establishment
tokens:

      Token               TOK_ID Value in Hex
     -----------------------------------------
      KRB_AP_REQ            01 00
      KRB_AP_REP            02 00
      KRB_ERROR             03 00

РЕДАКТИРОВАТЬ 1: прикрепить образцы данных

Вот образец GSSAPI-токена (слегка очищенный), который, как я полагаю, был сериализован cyrus-sasl и heimdal.

YIIChwYJKoZIhvcSAQICAQBuggJ2MIICcqADAgEFoQMCAQ6iBwMFACAAAACjggFm
YYIBYjCCAV6gAwIBBaELGwlBU04uMVRFU1SiNjA0oAMCAQGhLTArGwtzZXJ2aWNl
bmFtZRscc2VydmljZWhvc3QudGVzdC5leGFtcGxlLmNvbaOCARAwggEMoAMCARCh
AwIBBKKB/wSB/A81akUNsyvRCCKtERWg9suf96J3prMUQkabsYGpzijfEeCNe0ja
Eq6c87deBG+LeJqFIyu65cCMF/oXtyZNB9sUxpqFBcfkAYZXTxabNLpZAUmkdt6w
dYlV8JK/G3muuG/ziM14oCbh8hIY63oi7P/Pdyrs3s8B+wkNCpjVtREHABuF6Wjx
GYem65mPqCP9ZMSyD3Bc+dLemxhm7Kap8ExoVYFRwuFqvDf/E5MLCk2HThw46UCF
DqFnU46FJBNGAK+RN2EptsqtY48gb16klqJxU7bwHeYoCsdXyB6GElIDe1qrPU15
9mGxpdmSElcVxB/3Yzei48HzlkUcfqSB8jCB76ADAgEQooHnBIHkZUyd0fJO3Bau
msqz6ndF+kBxmrGS6Y7L20dSYDI2cB8HsJdGDnEODsAAcYQ0L5c2N/mb8QHh7iU9
gtjWHpfq/FqMF4/aox/BJ0Xzuy2gS4sCafs7PTYtSDh2nyLkNYuxKdmQ1ughbIq6
APAegqa7R1iv2oCaNijrpKc2YUfznnwT/CTSsGrJpMwz4KLuBtjI4f74bQty8uNn
LVxxV4J8wU1s7lSj4Ipbi+a1WdCVsLs8lIqFmKXte+1c+qHeadoAGmSTBT3qFZae
SRdT8dpYr6i6fkjRsoyEZs9ZqQtwQAYSdMBU

person neirbowj    schedule 26.07.2015    source источник


Ответы (1)


У меня сложилось впечатление, что сериализация ЛЮБОГО типа может содержать только допустимую сериализацию BER/DER. Думайте о ЛЮБОМ типе как о типе ВЫБОРА с бесконечным числом альтернатив (см. главу о ЛЮБОМ типе здесь< /а>).

Мой первый порыв — поместить innerToken в OCTET STRING следующим образом:

class Example(univ.Sequence):
    componentType = namedtype.NamedTypes(
        namedtype.NamedType('spam', univ.Integer()),
        namedtype.NamedType('eggs', univ.OctetString())
    )

что даст вам готовые значения при декодировании:

>>> example = Example()
>>> example['spam'] = 42
>>> example['eggs'] = b'\x01\x00abcde'
>>> print(example.prettyPrint())
Example:
 spam=42
 eggs=0x01006162636465
>>> substrate = encoder.encode(example)
>>> data, tail = decoder.decode(substrate, asn1Spec=Example())
>>> print(data.prettyPrint())
Example:
 spam=42
 eggs=0x01006162636465

С другой стороны, если бы вы буквально использовали значения из спецификации:

KRB_AP_REQ            01 00
KRB_AP_REP            02 00
KRB_ERROR             03 00

они будут выглядеть как допустимая сериализация DER, которую можно декодировать с помощью исходной спецификации примера:

>>> KRB_AP_REQ = '\x01\x00'
>>> KRB_AP_REP = '\x02\x00'
>>> KRB_ERROR = '\x03\x00'
>>> class Example(univ.Sequence):
...     componentType = namedtype.NamedTypes(
...         namedtype.NamedType('spam', univ.Integer()),
...         namedtype.NamedType('eggs', univ.Any()),
...         namedtype.NamedType('ham', univ.Any()),
... )
... 
>>> example = Example()
>>> example['spam'] = 42
>>> example['eggs'] = KRB_AP_REQ
# obtain DER serialization for ANY type that follows
>>> example['ham'] = encoder.encode(univ.Integer(24))
>>> print(example.prettyPrint())
Example:
 spam=42
 eggs=0x0100
 ham=0x020118
>>> substrate = encoder.encode(example)
>>> data, tail = decoder.decode(substrate, asn1Spec=Example())
>>> print(data.prettyPrint())
Example:
 spam=42
 eggs=0x0100
 ham=0x020118
>>> data['eggs'].asOctets()
'\x01\x00'
>>> data['eggs'].asNumbers()
(1, 0)
>>> example['eggs'] == KRB_AP_REQ
True

Но это своего рода обман и может не работать для произвольных значений innerToken.

Так как же выглядит сериализация GSSAPI-Token, созданная другими инструментами?

person Ilya Etingof    schedule 27.07.2015
comment
Использование OctetString кажется отличным способом справиться с этим, но, к сожалению, это потребует обновления RFC, поскольку он добавляет в сериализацию собственный тег и октеты длины. В вашем примере 300c02012a040701006162636465, 0407. Я посмотрю, что я могу сделать, чтобы предоставить конкретный пример сериализованного токена GSSAPI. - person neirbowj; 27.07.2015
comment
Что ж, тогда все зависит от того, можно ли формально рассматривать все возможные значения KRB_* как допустимую (хотя и воображаемую) сериализацию DER. Для указанных вами значений декодер будет работать нормально. - person Ilya Etingof; 27.07.2015
comment
Думаю, я знаю, как это будет выглядеть, но если бы вы могли предоставить небольшой пример кода, показывающий, как декодер принимает ограниченный TOK_ID, за которым следует какой-либо другой непредсказуемый, но ограниченный объект, я приму ваш ответ. - person neirbowj; 28.07.2015
comment
Я не уверен, что вы имеете в виду, говоря здесь «ограничено», но я надеюсь, что добавил код, который вам нужен. Если нет - пожалуйста, уточните. - person Ilya Etingof; 29.07.2015
comment
Кстати, я не уверен, что ASN.1 поддерживает концепцию отправки полностью непредсказуемых компонентов одноранговым узлам. Множественный выбор — да, но нетипизированные блобы — не уверен. Но инкапсуляция BLOB-объектов в какой-то определенный тип — это путь. - person Ilya Etingof; 29.07.2015