
สวัสดีค่าทุกคน วันนี้พี่พลอยมีสิ่งดีๆมานำเสนอกันอีกแล้วค่า เนื่องจากมีหลายคนถามเรื่องนี้มาเยอะมากเว่อ นั่นก็คืออออ การอ่านข้อมูลจากไฟล์ PDF นั่นเองจ้าาาา ไม่รอช้า! มาเริ่มกันเลย
เราจะใช้ Library ที่ชื่อว่า Pdf2TextLibrary ค่ะ
วิธีการติดตั้ง ตามขั้นตอนกันเลยจ้า
- Download Pdf2TextLibrary.zip ที่ link นี้นะคะ เป็น library ที่พี่พลอยเอามาแก้ไขและนำขึ้น github จ้า
- แตก Zip file และติดตั้ง library โดยใช้ command
python setup.py install - จากนั้น install pdfminer library ด้วยนะคะ เนื่องจาก Pdf2TextLibrary มีการเรียกใช้งาน library นี้ค่ะ โดยเปิด Command และ พิมพ์
pip install pdfminer - Import Library Pdf2TextLibrary โลด
เรามาดูในส่วนของ Test Script กัน
*** Settings ***
Library Pdf2TextLibrary
*** Test Cases ***
Read PDF
${noPage} Count Pdf Pages C:\\document\\Test\\Test_PDF.pdf
${data} Convert Pdf To Txt C:\\document\\Test\\Test_PDF.pdf
Log ${data}
Should Contain ${data} QA Engineer walks into a bar.

ลองทดสอบกันเลย
นี่คือไฟล์ PDF ที่พี่พลอยเอามาใช้เป็นตัวอย่างค่ะ

Test_PDF.pdf
เมื่อ Run Test script ข้างบน นี่คือผลที่ได้

ในส่วนของการตรวจสอบข้อมูล เราสามารถใช้ Keyword Should Contain ในการตรวจสอบผลได้เลยค่ะ
โดยตัวอย่าง P’Ploy ตรวจสอบว่าข้อมูลที่อ่านได้มาจาก PDF นั้น มีข้อความ “QA Engineer walks into a bar” อยู่หรือไม่ ผลคือ มีข้อความ ทำให้ test script ข้อนี้ผ่านค่ะ
จบแล้วค่า ไม่ยากเนอะ ลองเอาไปใช้งานดูนะคะ และหากใครอยากสอบถามเพิ่มเติม ถามกันมาได้เลย P’Ployจะไปเสาะหา เอา Tip ดีๆ มาฝากกันอีกแน่นอนจ้าาา 🙂
Ref
PDF to text


