สวัสดีค่าทุกคน วันนี้พี่พลอยมีสิ่งดีๆมานำเสนอกันอีกแล้วค่า เนื่องจากมีหลายคนถามเรื่องนี้มาเยอะมากเว่อ นั่นก็คืออออ การอ่านข้อมูลจากไฟล์ PDF นั่นเองจ้าาาา ไม่รอช้า! มาเริ่มกันเลย

เราจะใช้ Library ที่ชื่อว่า Pdf2TextLibrary ค่ะ

วิธีการติดตั้ง ตามขั้นตอนกันเลยจ้า

  1. Download Pdf2TextLibrary.zip ที่ link นี้นะคะ เป็น library ที่พี่พลอยเอามาแก้ไขและนำขึ้น github จ้า
  2. แตก Zip file และติดตั้ง library โดยใช้ command python setup.py install
  3. จากนั้น install pdfminer library ด้วยนะคะ เนื่องจาก Pdf2TextLibrary มีการเรียกใช้งาน library นี้ค่ะ  โดยเปิด Command และ พิมพ์ pip install pdfminer
  4. Import Library Pdf2TextLibrary โลด

เรามาดูในส่วนของ Test Script กัน

ลองทดสอบกันเลย

นี่คือไฟล์ PDF ที่พี่พลอยเอามาใช้เป็นตัวอย่างค่ะ

Test_PDF.pdf

เมื่อ Run Test script ข้างบน นี่คือผลที่ได้

ในส่วนของการตรวจสอบข้อมูล เราสามารถใช้ Keyword Should Contain ในการตรวจสอบผลได้เลยค่ะ
โดยตัวอย่าง P’Ploy ตรวจสอบว่าข้อมูลที่อ่านได้มาจาก PDF นั้น มีข้อความ “QA Engineer walks into a bar” อยู่หรือไม่ ผลคือ มีข้อความ ทำให้ test script ข้อนี้ผ่านค่ะ

จบแล้วค่า ไม่ยากเนอะ ลองเอาไปใช้งานดูนะคะ และหากใครอยากสอบถามเพิ่มเติม ถามกันมาได้เลย P’Ployจะไปเสาะหา เอา Tip ดีๆ มาฝากกันอีกแน่นอนจ้าาา  🙂

Ref
PDF to text

LEAVE A REPLY

Please enter your comment!
Please enter your name here