แนะนำ module nltk ตัดคำที่ไม่จำเป็น

ตอบกระทู้

รูปแสดงอารมณ์
:icon_plusone: :like: :plusone: :gfb: :-D :) :( :-o 8O :? 8) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: :angry: :baa: :biggrin:
รูปแสดงอารมณ์อื่นๆ

BBCode เปิด
[img] เปิด
[url] เปิด
[Smile icon] เปิด

กระทู้แนะนำ
   

มุมมองที่ขยายได้ กระทู้แนะนำ: แนะนำ module nltk ตัดคำที่ไม่จำเป็น

แนะนำ module nltk ตัดคำที่ไม่จำเป็น

โดย tatiya » 17/08/2018 4:55 pm

การตัดคำที่ไม่จำเป็น เป็นการตัดคำที่เราไม่ต้องการเพื่อว่าเราไม่อยากได้คำนั้นๆมาใช้ เวลาถ้าเราจะเอาคำไปทำงานต่อ เช่น เอาคำไปทำคีย์เวิร์ด หรือตัดเอาคำสำคัญบ้างอย่าง

อันดับแรกถ้าเราจะใช้ module นี้ได้ เราต้องติดตั้ง ก่อนนะครับ ถ้าใช้ editor Pycharm ท่านสามารถเปิด Terminal ของตัว Pycharm แล้วพิพม์โค้ดติดตั้งได้เลย
โดยโค้ดติดตั้งจะมีดังนี้ (ผมไม่มั่นใจว่า Windows จะลงเหมือนกันรึป่าวนะครับ เพราะตอนนี้ผมใช้ Ubuntu)

โค้ด: เลือกทั้งหมด

pip install nltk
จากนั้นก็ทำตาม code ด้านล่างได้เลยครับ (ลองศึกษาดูนะครับ)

โค้ด: เลือกทั้งหมด

from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

data = "test a a a a about above after again against all also am an แม็กมาแล้วครับ"
stopWords = set(stopwords.words('english'))
words = word_tokenize(data)
wordsFiltered = []

for w in words:
    if w not in stopWords:
        wordsFiltered.append(w)

print(wordsFiltered)

ผลลัพท์
['test', 'also', 'แม็กมาแล้วครับ']

เป็นการตัดคำโดยเรา จะส่งค่า text เข้าไป แล้วตัว module nltk จะนำ text ไปเทียบคำ ถ้าคำไหนตรงกัน จะทำการตัดคำนั้นออก

ข้างบน