การตัดคำที่ไม่จำเป็น เป็นการตัดคำที่เราไม่ต้องการเพื่อว่าเราไม่อยากได้คำนั้นๆมาใช้ เวลาถ้าเราจะเอาคำไปทำงานต่อ เช่น เอาคำไปทำคีย์เวิร์ด หรือตัดเอาคำสำคัญบ้างอย่าง
อันดับแรกถ้าเราจะใช้ module นี้ได้ เราต้องติดตั้ง ก่อนนะครับ ถ้าใช้ editor Pycharm ท่านสามารถเปิด Terminal ของตัว Pycharm แล้วพิพม์โค้ดติดตั้งได้เลย
โดยโค้ดติดตั้งจะมีดังนี้ (ผมไม่มั่นใจว่า Windows จะลงเหมือนกันรึป่าวนะครับ เพราะตอนนี้ผมใช้ Ubuntu)
จากนั้นก็ทำตาม code ด้านล่างได้เลยครับ (ลองศึกษาดูนะครับ)
โค้ด: เลือกทั้งหมด
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
data = "test a a a a about above after again against all also am an แม็กมาแล้วครับ"
stopWords = set(stopwords.words('english'))
words = word_tokenize(data)
wordsFiltered = []
for w in words:
if w not in stopWords:
wordsFiltered.append(w)
print(wordsFiltered)
ผลลัพท์
['test', 'also', 'แม็กมาแล้วครับ']
เป็นการตัดคำโดยเรา จะส่งค่า text เข้าไป แล้วตัว module nltk จะนำ text ไปเทียบคำ ถ้าคำไหนตรงกัน จะทำการตัดคำนั้นออก
การตัดคำที่ไม่จำเป็น เป็นการตัดคำที่เราไม่ต้องการเพื่อว่าเราไม่อยากได้คำนั้นๆมาใช้ เวลาถ้าเราจะเอาคำไปทำงานต่อ เช่น เอาคำไปทำคีย์เวิร์ด หรือตัดเอาคำสำคัญบ้างอย่าง
อันดับแรกถ้าเราจะใช้ module นี้ได้ เราต้องติดตั้ง ก่อนนะครับ ถ้าใช้ editor Pycharm ท่านสามารถเปิด Terminal ของตัว Pycharm แล้วพิพม์โค้ดติดตั้งได้เลย
โดยโค้ดติดตั้งจะมีดังนี้ (ผมไม่มั่นใจว่า Windows จะลงเหมือนกันรึป่าวนะครับ เพราะตอนนี้ผมใช้ Ubuntu)
[code]pip install nltk[/code]
จากนั้นก็ทำตาม code ด้านล่างได้เลยครับ (ลองศึกษาดูนะครับ)
[code]from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
data = "test a a a a about above after again against all also am an แม็กมาแล้วครับ"
stopWords = set(stopwords.words('english'))
words = word_tokenize(data)
wordsFiltered = []
for w in words:
if w not in stopWords:
wordsFiltered.append(w)
print(wordsFiltered)[/code]
[b]ผลลัพท์[/b]
['test', 'also', 'แม็กมาแล้วครับ']
เป็นการตัดคำโดยเรา จะส่งค่า text เข้าไป แล้วตัว module nltk จะนำ text ไปเทียบคำ ถ้าคำไหนตรงกัน จะทำการตัดคำนั้นออก