Company insights

การ Import ไฟล์ผ่าน Pentaho Data Integration


Pentaho Data Integration หรือที่เรียกว่า PDI เป็นเครื่องมือสำหรับ
การทำ ETL (Extract, Transform, Load) ซึ่งใช้ในการดึงข้อมูลจากแหล่งข้อมูลต่าง ๆ
เช่น ไฟล์ CSV, Excel หรือ Database แล้วนำไปแปลงข้อมูล
และนำเข้าไปยังฐานข้อมูลปลายทาง


Pentaho นิยมใช้ในงาน Data Warehouse หรือระบบที่ต้องจัดการข้อมูลจำนวนมาก
เพราะสามารถ Import ข้อมูลได้รวดเร็วและมีความยืดหยุ่นสูง

เครื่องมือที่ใช้ใน Pentaho


การ Import ไฟล์ใน Pentaho จะทำผ่านโปรแกรม


  • Spoon (Pentaho Data Integration GUI)


โดยใน Spoon จะใช้สิ่งที่เรียกว่า Transformation
เพื่อกำหนดขั้นตอนการทำงาน

ขั้นตอนการ Import ไฟล์ CSV ผ่าน Pentaho

1. เปิดโปรแกรม Spoon


เปิดโปรแกรม Pentaho Data Integration และเลือก


File → New → Transformation

2. เพิ่ม Step สำหรับอ่านไฟล์


ในส่วนของ Design ให้ลาก Step


  • Text File Input


จากหมวด Input ลงใน Workspace

3. ตั้งค่าไฟล์ CSV


ดับเบิลคลิกที่ Text File Input แล้วตั้งค่า


  • File Name : เลือกไฟล์ CSV

  • Delimiter : ,

  • Encoding : UTF-8

4. กำหนด Field ของข้อมูล


ไปที่แท็บ Fields แล้วกำหนดชื่อคอลัมน์
เช่น


id
name
email

5. เพิ่ม Step สำหรับ Insert ข้อมูล


ลาก Step จากหมวด Output


  • Table Output


มาเชื่อมต่อกับ Text File Input

6. ตั้งค่าการเชื่อมต่อฐานข้อมูล


ใน Table Output ให้กำหนด


  • Database Connection

  • Table Name


เช่น


Database : MySQL
Table : customers

7. Map Field


กำหนดการจับคู่คอลัมน์ของไฟล์ CSV กับคอลัมน์ในตาราง


CSV Field   →   Database Field
id          →   id
name        →   name
email       →   email

8. Run Transformation


กดปุ่ม Run เพื่อเริ่ม Import ข้อมูล

ตัวอย่างโครงสร้างไฟล์ CSV


id,name,email
1,Somchai,somchai@email.com
2,Suda,suda@email.com
3,Anan,anan@email.com

ข้อดีของการใช้ Pentaho Import ข้อมูล


  • รองรับไฟล์ข้อมูลขนาดใหญ่

  • สามารถ Transform ข้อมูลก่อนนำเข้าได้

  • รองรับหลายฐานข้อมูล เช่น MySQL, PostgreSQL, SQL Server

  • สามารถตั้งเวลา Run อัตโนมัติได้

สรุป


Pentaho Data Integration เป็นเครื่องมือ ETL ที่ช่วยให้การ Import ข้อมูล
จากไฟล์ต่าง ๆ เช่น CSV หรือ Excel ไปยังฐานข้อมูลทำได้ง่ายและรวดเร็ว
โดยสามารถกำหนดขั้นตอนการทำงานผ่าน Transformation
และใช้ Step ต่าง ๆ เช่น Text File Input และ Table Output
เพื่อจัดการข้อมูลได้อย่างมีประสิทธิภาพ

 

Pentaho สามารถ Import ข้อมูลเข้า Database อะไรได้บ้าง


Pentaho Data Integration (PDI) เป็นเครื่องมือ ETL ที่สามารถเชื่อมต่อกับ
ฐานข้อมูลได้หลายประเภท เพื่อนำข้อมูลจากไฟล์ เช่น CSV, Excel หรือ Text
ไป Import ลงในฐานข้อมูลปลายทาง


Pentaho รองรับฐานข้อมูลยอดนิยมจำนวนมาก
โดยสามารถเชื่อมต่อผ่าน JDBC Driver

Database ที่ Pentaho รองรับ


  • MySQL

  • PostgreSQL

  • Microsoft SQL Server

  • Oracle Database

  • MariaDB

  • SQLite

  • DB2

  • Amazon Redshift

ตัวอย่างการ Import CSV เข้า MySQL


หากต้องการ Import ไฟล์ CSV เข้า MySQL
สามารถใช้ Step ดังนี้


  • Text File Input (อ่านไฟล์ CSV)

  • Table Output (Insert ลง Database)


โดยกำหนดการเชื่อมต่อฐานข้อมูลใน Step Table Output


Connection Name : mysql_connection
Database Type   : MySQL
Host Name       : localhost
Database Name   : mydatabase
Port            : 3306
Username        : root
Password        : ****

ตัวอย่างการ Import CSV เข้า PostgreSQL


Connection Name : postgres_connection
Database Type   : PostgreSQL
Host Name       : localhost
Database Name   : testdb
Port            : 5432
Username        : postgres
Password        : ****

ตัวอย่างการ Import CSV เข้า SQL Server


Connection Name : sqlserver_connection
Database Type   : MS SQL Server
Host Name       : localhost
Database Name   : testdb
Port            : 1433
Username        : sa
Password        : ****

สรุป


Pentaho Data Integration สามารถ Import ข้อมูลเข้าสู่ฐานข้อมูลได้หลายประเภท
เช่น MySQL, PostgreSQL, SQL Server และ Oracle
โดยใช้ขั้นตอนหลักคืออ่านข้อมูลจากไฟล์ผ่าน Text File Input
และนำข้อมูลเข้าสู่ฐานข้อมูลผ่าน Table Output


ด้วยความสามารถนี้ Pentaho จึงเหมาะสำหรับการจัดการข้อมูลขนาดใหญ่
และงานด้าน Data Integration ในระบบองค์กร