หน้า 1 จากทั้งหมด 1

แนะนำ module nltk ตัดคำที่ไม่จำเป็น

โพสต์แล้ว: 17/08/2018 4:55 pm
โดย tatiya
การตัดคำที่ไม่จำเป็น เป็นการตัดคำที่เราไม่ต้องการเพื่อว่าเราไม่อยากได้คำนั้นๆมาใช้ เวลาถ้าเราจะเอาคำไปทำงานต่อ เช่น เอาคำไปทำคีย์เวิร์ด หรือตัดเอาคำสำคัญบ้างอย่าง

อันดับแรกถ้าเราจะใช้ module นี้ได้ เราต้องติดตั้ง ก่อนนะครับ ถ้าใช้ editor Pycharm ท่านสามารถเปิด Terminal ของตัว Pycharm แล้วพิพม์โค้ดติดตั้งได้เลย
โดยโค้ดติดตั้งจะมีดังนี้ (ผมไม่มั่นใจว่า Windows จะลงเหมือนกันรึป่าวนะครับ เพราะตอนนี้ผมใช้ Ubuntu)

โค้ด: เลือกทั้งหมด

pip install nltk
จากนั้นก็ทำตาม code ด้านล่างได้เลยครับ (ลองศึกษาดูนะครับ)

โค้ด: เลือกทั้งหมด

from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

data = "test a a a a about above after again against all also am an แม็กมาแล้วครับ"
stopWords = set(stopwords.words('english'))
words = word_tokenize(data)
wordsFiltered = []

for w in words:
    if w not in stopWords:
        wordsFiltered.append(w)

print(wordsFiltered)

ผลลัพท์
['test', 'also', 'แม็กมาแล้วครับ']

เป็นการตัดคำโดยเรา จะส่งค่า text เข้าไป แล้วตัว module nltk จะนำ text ไปเทียบคำ ถ้าคำไหนตรงกัน จะทำการตัดคำนั้นออก