Итак, у меня есть связка струн, вытянутая из моей колоды анки. Строки, которые выглядят так:
Я хочу удалить все подстроки, похожие на <font color>
и т. Д. Возьмем такое предложение:
彼女は<font color="#ff0000"><font color="#ff0000">看護婦</font></font>です。
и превратить его в:
彼女は看護婦です。
И мне нужно сделать это для целого списка предложений. Я пробовал использовать следующий код:
import re
s = '彼女は<font color="#ff0000"><font color="#ff0000">看護婦</font></font>です。'
x = re.sub(r'\<.+\>','',s)
print(x)
и я получаю следующий результат:
彼女はです。
Когда это должно быть
彼女は看護婦です。
по сути, это прохождение среднего бита, а не просто удаление каждого экземпляра. По сути, я пытаюсь проанализировать 5400 предложений и превратить их в предложения без каких-либо других вещей.
Взять небольшую часть списка - это все равно что повернуть это:
さあ、最上級の感謝を贈るぞ
その偉大な画家の<font color="#ff0000"><font color="#ff0000">傑作</font></font>が壁にさかさまにかかっているを見て、彼は驚いた。
彼はキリスト教に<font color="#ff0000"><font color="#ff0000">偏見</font></font>を抱いている
人種的偏見のない人はいないという事実は否定できない。
ボクは旅の途中で近くを通りかかったところをシド王子にここまで誘導されたゴロ
生まれたての稚魚みたいにフラフラと…<br>
滝壺まで泳いで行って一気に滝登りだ!
光っている印が神獣ヴァ・ルッタを制御する端末
<font color="#ff0000"><font color="#ff0000">芝生</font></font>が素敵にみえる。
и превратив его в:
さあ、最上級の感謝を贈るぞ
その偉大な画家の傑作が壁にさかさまにかかっているを見て、彼は驚いた。
彼はキリスト教に偏見を抱いている
人種的偏見のない人はいないという事実は否定できない。
ボクは旅の途中で近くを通りかかったところをシド王子にここまで誘導されたゴロ
生まれたての稚魚みたいにフラフラと…
滝壺まで泳いで行って一気に滝登りだ!
光っている印が神獣ヴァ・ルッタを制御する端末
芝生が素敵にみえる。
Извините, я новичок в программировании, поэтому для меня это все еще немного сложно
.+?
вместо.+
- person alani   schedule 06.08.2020