Alet Çantası

Tabula ile PDF’ten alınan veriyle tablo yaratmak

0

Tabula, Manuel Aristarán, Jeremy Merrill ve Mike Tigas tarafından PDF’lerden tablo verilerini ayıklamak için yaratılan bir araç. Bu yazı ise Tabula’yı kullanmak için basit bir rehber.

Tabula’yı indirin

Kullanmaya başlamak için, Tabula’yı buradan indirin.

Tabula’yı dışarı aktarın ve yerel ağda açın

Tabula’yı dışa aktarın ve programı açın. Ardından tarayıcınızda localhost:8000‘e gidin. Şunu göreceksiniz:

PDF’i yükleyin

Browse (gözat) düğmesini tıklayın ve dışarı aktarmak istediğiniz tabloları içeren bir PDF yükleyin. Daha sonra Import‘a (içe aktar) tıklayın.

Tabula’nın PDF’lerinizi okuyabilmesi için içlerine gömülmüş metin olması gerekir. Görsel temelli PDF’ler Tabula tarafından okunamaz ve “Üzgünüz, PDF dosyanız görsel temelli” mesajıyla karşılaşırsınız.

Tabloları vurgulayın

Autodetect Tables (tabloları otomatik algıla) tuşuna tıklayın, böylece Tabula yüklediğiniz PDF içindeki tabloya dayalı veriyi bulmaya çalışır. Dışarı aktarmak istediğiniz tabloyu vurgulamadıysa, ekran görüntüsünü alıyormuşsunuz gibi kendiniz vurgulayın. Seçiminizden X tuşuyla vazgeçebilir ve yeniden seçebilirsiniz. Sınırları dahil tüm tabloyu vurguladığınızdan emin olun.

Verinizi dışa aktarın

Dışa aktarmak istediğiniz tabloyu vurguladıktan sonra, Preview&Export Extracted Data (öne çıkarılan veriyi önizle ve dışa aktar) tuşuna tıklayını göreceksiniz: 2010, 2011, 2012, 2013’ü içeren bir satır dört sütun; Regular, Iniciación, Postdoc, FONDAP ve Total’den oluşan beş sütun; ve dolu bir tablo. Verilerin yanlış şekilde dışa aktarılması yaygın bir durum. Geri gitmek ve tekrar seçmek için sol menüdeki Revise selection(s) (seçimleri gözden geçir) seçeneğine tıklayarak kolayca düzeltebilirsiniz.

İkinci seferde tabloyu vurgularken daha dikkatli olduk.

Preview&Export Extracted Data‘ya tıkladıktan sonra aradığım veriyi doğru formatta karşıma çıkardı.

Verinizi kontrol edin

Orijinal PDF ile tablonuzun Tabula önizlemesini iki kez kontrol edin. Karşılaştırmak için Preview veya Adobe Acrobat gibi başka bir program kullandık. Böylece hiçbir verinin kaybolmadığından ya da yanlış okunmadığından emin olursunuz.

Tablonuzu dışa aktarın

Verilerinizi iki kez kontrol ettikten sonra, Tabula tablonuzu çeşitli biçimlerde dışa aktarabilir.

Biz tablomuzu CSV formatında dışarı akardık ve manipüle etmeye devam edebilmek için herhangi bir e-tablo programında açabildik. Teşekkürler Tabula!


Bu içerik ilk olarak storybench.org‘da yayınlanmıştır.

Aleszu Bajak
Bilim gazetecisi. Storybench.org editörü.