Удалите MS Word HTML с помощью PHP

Возможный дубликат:
Как лучше всего бесплатно очистить Word HTML?
PHP для очистки вставленного ввода Microsoft

Я разрешаю клиентам вводить заметки в редакторе форматированного текста и только недавно обновился до ckEditor 3x, который по умолчанию удаляет классы, стили и комментарии MS Word (когда пользователи вставляют объект редактора). Так что, двигаясь вперед, я готов.

Недавно у меня возникла необходимость очистить 5-летние заметки, в некоторые из которых встроен HTML-код, сгенерированный MS Word. Мне нужно перебрать этот текст и очистить его.

Мне не нужно вырезать все теги span, только те, которые определены как написанные Microsoft.

Я пробовал использовать HTMLCleaner, но он не удаляет созданный MS HTML. http://word2cleanhtml.com делает именно то, что я хочу, однако разработчики в настоящее время не предлагают API для публичного использования ( от 9 июля 2012 г.).

Я искал такой класс время от времени последние несколько недель, и мне не очень везет. Кто-нибудь из вас нашел полезный класс, которым вы хотели бы поделиться?


person a coder    schedule 09.07.2012    source источник
comment
Чтобы уточнить, мне нужен серверный класс, который я могу встроить в свое существующее приложение. В вопросах / ответах SO, на которые ссылается Марио, есть несколько ОТЛИЧНЫХ инструментов, однако я обнаружил, что они по большей части предназначены для однократных преобразований - или использования curl для публикации на своем веб-сайте. Не могу этого сделать с PHI.   -  person a coder    schedule 09.07.2012
comment
Марио, куда делись твои URL-адреса? Они были полезны и были частью моего оправдания закрытия. Они также должны быть полезны OP для очистки HTML с помощью ретроспективного сценария.   -  person halfer    schedule 09.07.2012
comment
Я надеюсь, что этот вопрос останется доступным, поскольку приведенный ниже ответ maxhud касается моего вопроса к T. htmlpurifier - это класс, а не веб-сайт, который пользователи просматривают и загружают.   -  person a coder    schedule 10.07.2012
comment
Я заметил две новые ссылки, добавленные в начало моего вопроса. Первый не полностью отвечает на то, что я ищу. Второе, однако, появилось, но не появилось при моих первоначальных поисках (извинения). Принятый ответ такой же, как и приведенный ниже maxhud.   -  person a coder    schedule 10.07.2012
comment
Привет, a_coder! да, если вопрос закрыт таким образом, он всегда должен быть доступен - я думаю, это всегда происходит, если вопрос автоматически закрывается из-за того, что были получены необходимые пять закрытых голосов. При ручном удалении некоторые моды полностью снимают вопросы, но я не думаю, что это происходит в этих обычных случаях.   -  person halfer    schedule 10.07.2012


Ответы (1)


http://htmlpurifier.org/

Это сделает то, что вы хотите.

person maxhud    schedule 09.07.2012
comment
Попробуйте сейчас - спасибо. - person a coder; 09.07.2012