BG Development


  Reply to this topicStart new topicStart Poll

> Как да подходя
cracker.
Публикувано на: 22-12-2023, 08:46
Quote Post



Име:
Група: Потребител
Ранг: Новопостъпил

Мнения: 26
Регистриран на: 13.11.23



Здравейте и весели празници!

Имам вход стринг, който представлява текст ( на английски ).Искам да взема всички думи по отделно в лист, но ако е възможно без да ползвам други библиотеки.Вараинт с библиотека е този:

CODE
>>> import nltk
>>> s = "The fox's foot grazed the sleeping dog, waking it."
>>> words = nltk.word_tokenize(s)
>>> words
['The', 'fox', "'s", 'foot', 'grazed', 'the', 'sleeping', 'dog', ',',
'waking', 'it', '.']


Другият вариант, които мислих е да сплитна текста по blank space и да тримна пунктуацията.

CODE
>>> text
"'Oh, you can't help that,' said the Cat: 'we're all mad here. I'm mad. You're mad.'"

>>> text.split()
["'Oh,", 'you', "can't", 'help', "that,'", 'said', 'the', 'Cat:', "'we're", 'all', 'mad', 'here.', "I'm", 'mad.', "You're", "mad.'"]

>>> import string
>>> [word.strip(string.punctuation) for word in text.split()]
['Oh', 'you', "can't", 'help', 'that', 'said', 'the', 'Cat', "we're", 'all', 'mad', 'here', "I'm", 'mad', "You're", 'mad']


Супер обаче има случай, в който няма да работи. Примерно: Mrs. Mr. etc.
Ще съм благодарен за насока icon_smile.gif.
Лек ден!
PMEmail Poster
Top
ici
Публикувано на: 22-12-2023, 10:54
Quote Post


Group Icon
Име: Ивайло Илчев
Група: VIP
Ранг: Почетен член

Мнения: 18494
Регистриран на: 06.06.04



Точката в тези съкращения не те интересува, етц. и етц са еднакви. Използвай re(gex) за да извадиш думите [\w\-\']+ it's - също е една дума, както и "second-wealthiest"

Може да добавиш изключения за съкращенията, те не са особено много.
http://scriptor.sprakverkstaden.uu.se/en/t...ns/text-abbrev/


Това мнение е било редактирано от ici на 22-12-2023, 11:02


--------------------
Ние не сме в една лодка, ние сме в една буря. Лодките са различни.

Следващият път когато се почувстваш ненужен, грозен и недооценен, помни че освен това си и тъп.
PMEmail PosterUsers Website
Top
1 потребители преглеждат тази тема в момента (1 гости, 0 анонимни потребители)
Потребители, преглеждащи темата в момента:

Topic Options Reply to this topicStart new topicStart Poll

 


Copyright © 2003-2019 | BG Development | All Rights Reserved
RSS 2.0