Meta พัฒนา LLaMa โมเดลภาษาสร้าง AI ประสิทธิภาพสูงกว่า ChatGPT

25 ก.พ. 2023

23:23 น

Meta พัฒนา LLaMa โมเดลภาษาสร้าง AI ประสิทธิภาพสูงกว่า ChatGPT

สรุปข่าว

โมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) เป็นองค์ประกอบสำคัญของการสร้างปัญญาประดิษฐ์ประเภทแช็ตบอต (Chatbot) ไม่ว่าจะเป็นแช็ตจีพีที (ChatGPT), กูเกิลบาร์ด (Google Bard) หรือบิงแช็ต (Bing Chat) ปัญญาประดิษฐ์เหล่านี้ต่างสร้างขึ้นจากโมเดลภาษาเฉพาะของตนเองทั้งสิ้น

ที่มาของภาพ Unsplash

และอีกหนึ่งค่ายเทคโนโลยียักษ์ใหญ่ที่จะขาดไม่ได้เลย คือ เมตา (Meta) ซึ่งขณะนี้ได้ประกาศพัฒนาโมเดลภาษาขนาดใหญ่ของตนเองภายใต้ชื่อ Large Language Model Meta AI หรือ LLaMA (ลามะ) และโชว์คุณสมบัติที่เหนือกว่าโมเดลภาษา GPT-3 ที่ใช้ในแช็ตจีพีที ด้วยขนาดที่เล็กกว่าแต่ให้ประสิทธิภาพได้ดีพอ ๆ กัน ยิ่งไปกว่านั้นยังเปิดให้นักวิจัยเข้าใช้ได้เป็นสาธารณะอีกด้วย

โมเดลภาษาคืออะไร?

โมเดลภาษาขนาดใหญ่ คือ อัลกอริธึมที่ช่วยในการจดจำ, สรุปผล, วิเคราะห์, แปลความหมาย, คาดการณ์ และสร้างคำหรือคอนเทนต์อื่น ๆ ที่เรียนรู้จักชุดฐานข้อมูลขนาดใหญ่ที่จัดเตรียมไว้ โดยขนาดของโมเดลภาษาจะประเมินเป็นพารามิเตอร์ที่ใช้ในอัลกอริธึม

อย่างไรก็ตาม หากโมเดลภาษามีพารามิเตอร์เพิ่มขึ้น กำลังในการประมวลผลของอุปกรณ์ที่ใช้งานก็จะต้องเพิ่มขึ้นตามไปด้วย ส่งผลให้เกิดความล่าช้าในการแสดงผลได้ ดังนั้น โมเดลภาษาที่ดีควรจะมีพารามิเตอร์ไม่มาก แต่ทำงานได้รวดเร็วและให้ผลลัพธ์ถูกต้องแม่นยำ

ที่มาของภาพ Cohere

LLaMa เทียบกับโมเดลภาษาจากค่ายอื่น

สำหรับโมเดลภาษา GPT-3 ที่ใช้ในแช็ตจีพีทีจะมี 1.75 แสนล้าพารามิเตอร์ ในขณะที่ LLaMA ของเมตาจะมีอยู่หลายชุด มีขนาดตั้งแต่ 7 พันล้าน - 6.5 หมื่นล้านพารามิเตอร์ แม้ขนาดจะไม่ใหญ่เท่า GPT-3 แต่ทางเมตากล่าวว่าประสิทธิภาพของ LLaMa ไม่ได้ด้อยกว่าโมเดลของทางโอเพนเอไอ (OpenAI) แต่อย่างใด

ความแตกต่างของ LLaMa กับโมเดลภาษาของค่ายอื่น ๆ คือ ข้อมูลที่เมตานำมาใช้สอนจะมาจากเว็บไซต์สาธารณะ เช่น Common Crawl, Wikipedia และ C4 เป็นต้น จึงทำให้บริษัทสามารถเปิดให้นักวิจัยที่ต้องการนำโมเดลภาษาไปใช้งานต่อได้ ในขณะที่โอเพนเอไพและกูเกิลจะใช้ฐานข้อมูลของตนเองมาสอนเท่านั้น (และไม่ได้เปิดให้นำโมเดลภาษาไปใช้สาธารณะ)

ที่มาของภาพ Hugging Face

โมเดลภาษาเปิดทางสู่อนาคต

เนื่องจาก LLaMa ใช้ข้อมูลสาธารณะในการเรียนรู้ ส่งผลให้มันสามารถเข้าถึงข้อมูลส่วนต่าง ๆ ได้ โดยไม่จำเป็นต้องพึ่งพาฐานข้อมูลขนาดใหญ่จากที่ใดที่หนึ่ง ทำงานได้รวดเร็วไม่ต้องใช้ฮาร์ดแวร์กำลังสูง ซึ่งเมตาอ้างว่า LLaMa ที่มีขนาด 1.3 หมื่นล้านพารามิเตอร์นั้น สามารถประมวลผลได้ด้วยการ์ดจอเพียงใบเดียว ในขณะที่ GPT-3 ที่มีขนาดใหญ่กว่าจำเป็นต้องใช้คอมพิวเตอร์กลุ่มดาตาเซนเตอร์ (Data center) ในการประมวลผลเลยทีเดียว

ด้วยเหตุนี้ เมตาจึงตั้งเป้าหมายให้ LLaMa เป็นโมเดลภาษาขั้นต้น (Foundation language) ที่นักวิจัยสามารถนำไปต่อยอดได้ โดยไม่ต้องพึ่งพาฮาร์ดแวร์กำลังสูงมากนัก ซึ่งนี่อาจกลายเป็นปัจจัยหนึ่งที่จะเร่งให้เทคโนโลยีด้านปัญญาประดิษฐ์เติบโตอย่างรวดเร็วในอนาคต

ขอขอบคุณข้อมูลจาก Ars Technica

ที่มาข้อมูล : -

ที่มารูปภาพ :