สวัสดีค่าทุกคน วันนี้พี่พลอยมีสิ่งดีๆมานำเสนอกันอีกแล้วค่า เนื่องจากมีหลายคนถามเรื่องนี้มาเยอะมากเว่อ นั่นก็คืออออ การอ่านข้อมูลจากไฟล์ PDF นั่นเองจ้าาาา ไม่รอช้า! มาเริ่มกันเลย

เราจะใช้ Library ที่ชื่อว่า Pdf2TextLibrary ค่ะ

วิธีการติดตั้ง ตามขั้นตอนกันเลยจ้า

  1. Download Pdf2TextLibrary.zip ที่ link นี้นะคะ เป็น library ที่พี่พลอยเอามาแก้ไขและนำขึ้น github จ้า
  2. แตก Zip file และติดตั้ง library โดยใช้ command python setup.py install
  3. จากนั้น install pdfminer library ด้วยนะคะ เนื่องจาก Pdf2TextLibrary มีการเรียกใช้งาน library นี้ค่ะ  โดยเปิด Command และ พิมพ์ pip install pdfminer
  4. Import Library Pdf2TextLibrary โลด

เรามาดูในส่วนของ Test Script กัน

 *** Settings ***
Library           Pdf2TextLibrary

*** Test Cases ***
Read PDF
    ${noPage}    Count Pdf Pages       C:\\document\\Test\\Test_PDF.pdf
    ${data}      Convert Pdf To Txt    C:\\document\\Test\\Test_PDF.pdf
    Log    ${data}
    Should Contain    ${data}    QA Engineer walks into a bar.

ลองทดสอบกันเลย

นี่คือไฟล์ PDF ที่พี่พลอยเอามาใช้เป็นตัวอย่างค่ะ

Test_PDF.pdf

เมื่อ Run Test script ข้างบน นี่คือผลที่ได้

ในส่วนของการตรวจสอบข้อมูล เราสามารถใช้ Keyword Should Contain ในการตรวจสอบผลได้เลยค่ะ
โดยตัวอย่าง P’Ploy ตรวจสอบว่าข้อมูลที่อ่านได้มาจาก PDF นั้น มีข้อความ “QA Engineer walks into a bar” อยู่หรือไม่ ผลคือ มีข้อความ ทำให้ test script ข้อนี้ผ่านค่ะ

จบแล้วค่า ไม่ยากเนอะ ลองเอาไปใช้งานดูนะคะ และหากใครอยากสอบถามเพิ่มเติม ถามกันมาได้เลย P’Ployจะไปเสาะหา เอา Tip ดีๆ มาฝากกันอีกแน่นอนจ้าาา  🙂

Ref
PDF to text

Previous articleสอนการใช้งาน Git เพื่อจัดเก็บ Test Script ให้ปลอดภัย
Next articleมารันเทสแบบอัตโนมัติ ด้วย Jenkins กันเถอะ