Big (steps of) data

Big (steps of) data

September 22, 2020

           นับตั้งแต่องค์กรหรือหน่วยงานต่าง ๆ เริ่มมีการเก็บข้อมูลในลักษณะของฐานข้อมูลที่เราเรียกว่า Database  โดยเป็นการแทนที่การจัดเก็บข้อมูลในลักษณะการจดบันทึก ซึ่งระบบเหล่านี้เป็นระบบที่ใช้ในการเก็บข้อมูลในส่วนต่าง ๆ ในการดำเนินงานในแต่ละวัน ทำให้สามารถลดความยุ่งยากในการดำเนินธุรกิจ มีความสะดวก สามารถดำเนินการหรือขับเคลื่อนองค์กรได้อยางรวดเร็วและมีประสิทธิภาพ รวมถึงสามารถลดค่าใช้จ่ายได้ ซึ่งถ้าอ้างอิงตามข้อมูลที่มีการบันทึกไว้ว่าเริ่มตั้งแต่ปี ค.ศ 1960 ก็จะเป็นเวลากว่า 60 ปี และถ้าจะเทียบว่าเป็นคนๆหนึ่ง ก็จะบุคคลที่เข้าสู่ช่วงวัยเกษียณหรือวัยเก๋า ซึ่งเป็นวัยที่มีองค์ความรู้มหาศาล หลังจากผ่านการล้มลุกคลุกคลานมานาน ซึ่งถ้าจะให้ไล่เรียงการเติบโตในแต่ละช่วง ก็จะสามารถแบ่งออกได้เป็น 3 ช่วงเวลาสำคัญ คือ 

1. ช่วงที่เน้นการเก็บข้อมูลต่าง ๆทีสำคัญในองค์กร

2. ช่วงที่เน้นการนำข้อมูลหรือองค์ความรู้ที่จัดเก็บไว้มานำเสนอ วิเคราะห์และใช้งาน

3. ช่วยที่รวมทุกอย่างไว้ด้วยกัน

            โดยแต่ละช่วงนั้น สามารถอธิบายเพิ่มเติมดังนี้คือ ช่วงแรกจะเป็นช่วงที่การออกแบบระบบฐานข้อมูลที่ใช้จัดเก็บข้อมูลต่าง ๆ โดยให้คลอบคลุมในทุกด้านขององค์กรหรือหน่วยงานให้มากที่สุดเท่าที่จะเป็นไปได้ ยกตัวอย่างเช่น กรณีเป็นบริษัทที่ขายสินค้า (Retail company) ก็ต้องมีการออกแบบฐานข้อมูลที่จัดเก็บให้คลอบคลุมในเรื่องของ ข้อมูลสินค้า(Product) คือ มี สินค้าประเภทได้บ้างที่จัดจำหน่าย มีรุ่นใดบ้าง แต่ละรุ่นที่สีใดบ้าง มีกี่แบบ ข้อมูลแหล่งผลิตหรือการผลิต คือ ผลิตจากที่ไหนบ้าง สามารถผลิตได้เท่าไหร่ในแต่ละวัน ใช้วัสดุอะไรบ้างในการผลิต ข้อมูลลูกค้า (Customer) คือ ลูกค้าที่ซื้อสินค้าเป็นใคร ซื้อสินค้าไหนบ้าง ซื้อบ่อยแค่ไหน พึงพอใจกับสินค้าหรือไม่ มีการคืน หรือ comment อย่างไรเกี่ยวกับสินค้า รวมถึงข้อมูลประกอบด้านอื่น ๆ เช่น สถานที่ขายสินค้าเช่น ห้าง ร้านสะดวกซื้อ ร้านค้าปลึก หรือช่องทาง online เป็นต้น ซึ่งในช่วงแรกนี้การออกบอกฐานข้อมูล ก็จะเน้นในเรื่องของประสิทธิภาพของการเพิ่มเติมข้อมูลในระบบ ให้สามารถบันทึกข้อมูลได้อย่างถูกต้องรวดเร็ว และไม่ซ้ำซ้อน สามารถเพิ่ม ลด หรือแก้ไขได้ ซี่งจะเป็นการออกแบบระบบที่เรียกว่า Online Transaction Process (OLTP) ในลักษณะ Normalization แบบ 1st 2nd หรือ 3rd Form

 

Picture 1: Data warehouse and Business Intelligence Architect

          ต่อมาในช่วงปี ค.ศ 1990 การดำเนินธุรกิจในด้านต่าง ๆ เริ่มมีการเจริญเติบโตและมีความซับซ้อนมากยิ่งขึ้น รวมทั้งองค์กรหรือบริษัทต่าง ๆ ต้องเผชิญหน้ากับสภาวะการแข่งขันทางการค้าที่ค่อนข้างสูง จึงเป็นเหตุให้ผู้บริหารขององค์กร มีความต้องการ ข้อมูลข่าวสารที่รวดเร็ว ถูกต้องและแม่นยำเพื่อช่วยประกอบการตัดสินใจในการดำเนินการต่าง ๆ เพื่อเอาชนะหรือชิงความได้เปรียบกับคู่แข่งทางการค้า ซึ่งจากความต้องการนี้  จึงให้มีแนวคิดที่จะออกแบบระบบหรือโครงสร้างของระบบฐานข้อมูลเพื่อช่วยในการสร้างหรือจัดเตรียมข้อมูลต่าง ๆ ที่จำเป็นต่อการดำเนินธุรกิจ โดยข้อมูลข่าวสารที่ผู้บริหารต้องการมักจะเป็นข้อมูลที่สามารถช่วยในการตัดสินใจเชิงกลยุทธ์ (Decision Support System) อาทิเช่น ข้อมูลการขายสินค้าขององค์กร โดยอาจแบ่งตาม segment ของลูกค้าที่ซื้อสินค้าหรือบริการว่า เป็นเพศใด ช่วงอายุเท่าไหร่ ซื้อสินค้าเป็นประจำหรือแค่เป็นบางครั้ง รวมทั้งในมุมการผลิต โดยอาจแบ่งตามพื้นที่ทางภูมิศาสตร์ที่มีการผลิตสินค้าชนิดต่าง ๆ ขององค์กรซี่งข้อมูลต่าง ๆ เหล่านี้อาจช่วยให้ผู้บริหารสามารถทำการตัดสินใจเกี่ยวกับการขยายฐานกำลังการผลิตและการดำเนินการอื่น ๆ ได้ จึงได้เกิดแนวคิดการทำ “ระบบคลังข้อมูล (Data warehouse system)” ขึ้นเพื่อเป็นกรอบหรือแบบจำลองสำหรับการจัดเตรียม รวมทั้งค้นหาข้อมูลเชิงกลยุทธ์ตามที่ผู้บริหารต้องการได้ โดยระบบคลังข้อมูลนี้เป็นการออกแบบที่เน้นให้สามารถเข้าถึงข้อมูลได้อย่างรวดเร็ว และข้อมูลที่ได้ต้องมีความถูกต้อง  โดยอาศัยเทคโนโลยีที่ชื่อว่า Online analytical processing หรือ OLAP ซึ่งเป็นเทคโนโลยีที่ประกอบด้วยเครื่องมือที่จะช่วยดึงและนำเสนอข้อมูลในหลายมิติ (Multidimensional) จากหลายๆ มุมมองที่ผู้บริหารให้ความสนใจ โดยในการออกแบบนั้นอาจมีการแบ่งออกเป็น Data mart หรือ Cube ย่อยในแต่ละ หัวข้อรายงาน (Subject area) ที่สนใจ หรืออาจจะเป็น Data warehouse ขนาดใหญ่ที่จัดเก็บข้อมูลของทั้งองค์กรไว้ก็สามารถออกแบบและพัฒนาได้

          ในช่วงต่อมาซึ่งเป็นช่วงปัจจุบันนี้ เป็นช่วงที่หลายๆ องค์กรมีการออกแบบระบบฐานข้อมูลของตัวเองที่มีประสิทธิภาพอย่างมาก รวมทั้งมีการออกแบบและพัฒนาระบบคลังข้อมูลเพื่อตอบโจทย์กับความต้องการของผู้บริหารในมุมมองต่าง ๆ ได้ แต่เมื่อมีการใช้งานข้อมูลที่มีอยู่ ทั้งในส่วนของฐานข้อมูลและในระบบคลังข้อมูล หลายองค์กรจะพบปัญหาที่เกิดขึ้นคล้ายกันในหลายเรื่องยกตัวอย่างเช่น ในระบบฐานข้อมูลขององค์กรนั้นเน้นจัดเก็บข้อมูลที่อยู่ในรูปแบบ Relational Database Management System (RDBMS) ในลักษณะ Table เป็นหลัก หรือที่ปัจจุบันจะเป็นกลุ่มข้อมูลทีเรียกว่า Structured Data ทำให้มีข้อจำกัดในการที่จะต้องเก็บข้อมูลในลักษณะที่เป็น ไฟล์ภาพนิ่ง ภาพเคลื่อนไหว หรือข้อมูลที่อยู่ในรูปแบบของ Text files ที่ต้องมีการ convert ข้อมูลดังกล่าวให้อยู่ในรูปแบบที่สามารถจัดเก็บใน Table เพื่อนำไปใช้ประโยชน์ต่อในระบบคลังข้อมูลต่อไปได้ หรือในระบบคลังข้อมูลที่มักจะพบปัญหาต่าง ๆ เช่น ในเรื่องของ Sizing ที่จำเป็นต้องมีขนาดจัดเก็บที่เพิ่มขึ้นตามระบบฐานข้อมูลที่เพิ่มขึ้น หรือปัญหาในเรื่องของระยะเวลาในการประมวลผลข้อมูล ที่อาจใช้เวลานานในบางองค์กรที่มีการจัดเก็บข้อมูลไว้ในปริมาณมาก ทำให้อาจไม่ตรงกับความต้องการการใช้งานปัจจุบันที่ต้องการความรวดเร็วในการตัดสินใจ รวมทั้งเหตุผลจากปัจจัยภายนอกองค์กรเช่น อยากได้ข้อมูลการขายสินค้าของคู่แข่ง ข้อมูลเชิงสถิติที่หน่วยงานภายนอกมีการจัดเก็บและนำเสนอไว้ ซึ่งปัญหาต่าง ๆเหล่านี้ ก็จะถูกแก้ไขโดยการมาของเทคโนโลยีที่เรียกว่า “Big Data” โดยความหมายของ Big data ก็คือข้อมูลที่ปริมาณที่มาก มีการเติบโตที่รวดเร็ว และมีความหลากหลายทั้งที่มีโครงสร้าง(Structured) หรืออาจเป็นข้อมูลกึ่งมีโครงสร้าง (Semi-Structured Data)  เช่น ล็อกไฟล์ (Log files) หรือแม้กระทั่งแบบไม่มีโครงสร้าง (Unstructured) เช่น ข้อมูลการโต้ตอบปฏิสัมพันธ์ผ่านสังคมเครือข่าย (Social Network) เช่น Facebook, twitter หรือ ไฟล์ multimedia อีกด้วย ซึ่งลักษณะเฉพาะของ Big data ประกอบไปด้วย

 1. Volume – ปัจจัยข้อแรกแน่นอนว่าคำว่า Big Data มีคำว่า “Big” นั่นก็คือข้อมูลที่มีขนาดใหญ่ ซึ่งสามารถเป็นได้ทั้งรูปแบบ Online และ Offline

2. Velocity – ส่งผ่านข้อมูล Update กันอย่างต่อเนื่อง (Real-time) จนทำให้การวิเคราะห์ง่ายๆแบบ Manual เกิดข้อจำกัด หรือไม่สามารถจับรูปแบบหรือทิศทางของข้อมูลได้

3. Variety – หมายถึงรูปแบบของข้อมูลที่แตกต่างกันออกไป ทั้งในรูปแบบ ตัวอักษร วิดีโอ รูปภาพ ไฟล์ต่าง ๆ และหลากหลายแหล่งที่มาเช่น Social Network หรือ Platform E- Commerce 

4. Veracity – ยังไม่ผ่านการ Process ให้อยู่ในรูปแบบของข้อมูลดิบ (Raw Data) ที่สามารถใช้สร้างประโยชน์ต่อองค์กรได้

 
 

Picture 2: Big Data Characteristics

         ซึ่งจะเห็นว่า Big data นั้นจะทำการเชื่อมโยงการเข้าถึงข้อมูลทั้งในส่วนของข้อมูลภายในองค์กร คือระบบฐานข้อมูลและระบบคลังข้อมูลและข้อมูลที่อยู่ในรูปแบบอื่นและข้อมูลจากภายนอกองค์กรที่ปัจจุบันมีอยู่มากมายหลายแหล่ง เช่น การให้บริการข้อมูลของ Google Platform ข้อมูลที่อยู่ Social media ต่าง ๆที่มีอยู่มากมายมหาศาล รวมทั้งสิ่งที่ทำให้ Big data สามารถนำไปใช้ประโยชน์ได้มากขึ้นคือ เทคโนโลยีที่เรียกว่า Machine Learning คือการใส่ข้อมูลต่าง ๆในลักษณะ Business Model ที่จำเป็นในเรื่องต่าง ๆที่ สนใจ ให้กับระบบคอมพิวเตอร์ทำการเรียนรู้และสามารถแสดงผลการเรียนรู้ที่ได้กลับมาสู่องค์กรได้ 

          ดังนั้นจะเห็นว่า Big data เป็นเทคโนโลยีที่ตอบโจทย์ให้กับผู้บริหารได้เป็นอย่างมากในปัจจุบัน เพราะสามารถนำข้อมูลทั้งจากภายในและภายนอกองค์กร มาวิเคราะห์และออกแบบทั้งในส่วนของการนำเสนอรายงานเชิงวิเคราะห์ (Business Intelligent Report) การทำ Data Analytic รวมถึงการทำ Machine Learning ในเรื่องต่าง ๆ ได้ ซึ่งแน่นอนว่าในอนาคตต่อไป ก็จะมีเทคโนโลยีเกี่ยวกับ “Data” ที่จะช่วยให้การนำ “Data” ที่มีอยู่มากมายในโลกนี้ มาใช้ประโยชน์ได้เพิ่มเติมมากยิ่งขึ้นไปอีก

 

Recent Posts