HtmlAgilityPack: как создать HTML с отступом?

Итак, я создаю html с помощью HtmlAgilityPack, и он работает отлично, но текст html без отступа. Однако я могу получить XML с отступом, но мне нужен HTML. Есть способ?

HtmlDocument doc = new HtmlDocument();

// gen html
HtmlNode table = doc.CreateElement("table");
table.Attributes.Add("class", "tableClass");
HtmlNode tr = doc.CreateElement("tr");
table.ChildNodes.Append(tr);
HtmlNode td = doc.CreateElement("td");
td.InnerHtml = "—";
tr.ChildNodes.Append(td);

// write text, no indent :(
using(StreamWriter sw = new StreamWriter("table.html"))
{
        table.WriteTo(sw);
}

// write xml, nicely indented but it's XML!
XmlWriterSettings settings = new XmlWriterSettings();
settings.OmitXmlDeclaration = true;
settings.Indent = true;
settings.ConformanceLevel = ConformanceLevel.Fragment;
using (XmlWriter xw = XmlTextWriter.Create("table.xml", settings))
{
        table.WriteTo(xw);
}

person Petr Abdulin    schedule 09.05.2011    source источник


Ответы (4)


Насколько мне известно, HtmlAgilityPack не может этого сделать. Но вы можете просмотреть html tidy packs, которые предлагаются в похожих вопросах:

person Alex    schedule 10.05.2011
comment
Похоже, это правда, нужна еще одна библиотека для решения такой простой задачи. HtmlAgilityPack, безусловно, нуждается в этом незначительном улучшении. - person Petr Abdulin; 10.05.2011
comment
Итак, нет способа заставить его не выводить минимизированный HTML? (т.е. HTML, который выходит из пакета гибкости, не читается, он весь сжат в одну строку, нет возможности вставить разрывы строк или табуляции, чтобы сделать его читабельным?) - person BrainSlugs83; 09.07.2015

Нет, и это выбор "намеренно". Существует большая разница между XML (или XHTML, который является XML, а не HTML), где - в большинстве случаев - пробелы не имеют определенного значения, и HTML.

Это не такое уж незначительное улучшение, поскольку изменение пробелов может изменить способ отображения некоторыми браузерами заданного фрагмента HTML, особенно искаженного HTML (который в целом хорошо обрабатывается библиотекой). А Html Agility Pack был разработан, чтобы сохранить способ отображения HTML, а не минимизировать способ написания разметки.

Я не говорю, что это невозможно или просто невозможно. Очевидно, вы можете преобразовать в XML и вуаля (и вы могли бы написать метод расширения, чтобы упростить это), но визуализированный вывод в общем случае может быть другим.

person Simon Mourier    schedule 11.05.2011
comment
Что ж, очевидно, что я не эксперт в HTML, но преобразование в XML работает не так, как мне хотелось бы. Я использовал linq to XML для генерации html, но переключился на HAP из-за тонких различий между XML и HTML. Например. я не могу вывести HTML-объект, преобразованный в mdash; . В любом случае, спасибо за информацию! - person Petr Abdulin; 11.05.2011
comment
most of the times - whitespaces are no specific meaning подходит только для машин, а не для людей, нам действительно нужны пробелы, чтобы визуализировать и понимать написанное. - person Akash Kava; 02.01.2016

Быстрый, надежный, чистый C #, совместимый с .NET Core AngleSharp

Вы можете проанализировать его с помощью AngleSharp, который предоставляет способ автоматического отступа:

var parser = new HtmlParser();
var document = parser.ParseDocument(text);
using (var writer = new StringWriter())
{
    document.ToHtml(writer, new PrettyMarkupFormatter
                            {
                                Indentation = "\t",
                                NewLine = "\n"
                            });
    var indentedText = writer.ToString();
}
person Fab    schedule 08.03.2019
comment
Просто к сведению, требуется использование асинхронного кода и / или некоторого типа оболочки для Async. @Fab, можете ли вы указать на пример того, как вызвать эту библиотеку из не-Async C #? - person qxotk; 29.04.2020
comment
@qxotk извините, но я не вижу, где асинхронный код в приведенном выше. Вы имеете в виду, что AngleSharp анализирует или отображает html асинхронно (например, делегирует работу другому потоку)? - person Fab; 29.04.2020
comment
Да, AngleSharp использует асинхронный режим - и это возвращается к клиентскому коду. Я пытался использовать библиотеку, и у меня не было времени научиться использовать библиотеку таким образом, чтобы можно было изолировать мой код от асинхронности с помощью задач. Вы знаете, как вызвать код AngleSharp без использования async в клиентском коде? - person qxotk; 07.05.2020
comment
Вы можете полностью заменить Html Agility Pack на AngleSharp и создать в нем весь документ. - person pistipanko; 02.11.2020

Я сделал то же самое, хотя HtmlAgilityPack отлично подходит для чтения и изменения файлов Html (или, в моем случае, asp), вы не можете создавать читаемый вывод.

Однако в итоге я написал несколько строк кода, которые у меня работают:

Имея HtmlDocument с именем «m_htmlDocument», я создаю свой HTML-файл следующим образом:

file = new System.IO.StreamWriter(_sFullPath);
            if (m_htmlDocument.DocumentNode != null)
                foreach (var node in m_htmlDocument.DocumentNode.ChildNodes)
                    WriteNode(file, node, 0);

и

void WriteNode(System.IO.StreamWriter _file, HtmlNode _node, int _indentLevel)
    {
        // check parameter
        if (_file == null) return;
        if (_node == null) return;

        // init 
        string INDENT = " ";
        string NEW_LINE = System.Environment.NewLine;

        // case: no children
        if(_node.HasChildNodes == false)
        {
            for (int i = 0; i < _indentLevel; i++)
                _file.Write(INDENT);
            _file.Write(_node.OuterHtml);
            _file.Write(NEW_LINE);
        }

        // case: node has childs
        else
        {
            // indent
            for (int i = 0; i < _indentLevel; i++)
                _file.Write(INDENT);

            // open tag
            _file.Write(string.Format("<{0} ",_node.Name));
            if(_node.HasAttributes)
                foreach(var attr in _node.Attributes)
                    _file.Write(string.Format("{0}=\"{1}\" ", attr.Name, attr.Value));
            _file.Write(string.Format(">{0}",NEW_LINE));

            // childs
            foreach(var chldNode in _node.ChildNodes)
                WriteNode(_file, chldNode, _indentLevel + 1);

            // close tag
            for (int i = 0; i < _indentLevel; i++)
                _file.Write(INDENT);
            _file.Write(string.Format("</{0}>{1}", _node.Name,NEW_LINE));
        }
    }
person Chris    schedule 18.07.2015