Mar 302015
 
3.774 views

Python ile web sitesinden başlıkları çekmek

İkinci dersimizde urllib ve re paketlerini kullanarak http://hurriyet.com.tr adresinden ana başlıkları nasıl indirebileceğimizi anlatıyorum. Bunlar, veri madenciliği ile ilgilenmeyi düşünen yeni python programcıları için yararlı olabilir.

python dersleri 02

Yaklaşık 10 satırlık bir kodlama ile gazetenin ana sayfasındaki tüm başlıkları kolayca indirebiliyoruz.

Ayrıca, Türkçe karakterlerin düzgün görünmesi için kullanılan küçük bir fonksiyonu da kodlarımıza ekledik.

Urllib paketi internet sitelerine ulaşıp, oradaki html kodlarını indirebilmemizi sağlayan fonksiyonlara sahip. Re paketi ise, ulaştığımız html kodlarınını uygun bir şekilde filtre edebilmemizi sağlıyor.

İnternet sitelerine farklı paketler ve yöntemlerle ulaşmak mümkün olsa da, re paketini (regular expressions – düzenli ifadeler) en ince ayrıntılarıyla tanımakta büyük yarar var.

Eğer düzenli ifadelere yeterince hakim değilseniz, aşağıdaki kaynak çok işinize yarayabilir. Düzenli ifadeleri nasıl kullanacağınızı bu siteden oyun oynar gibi ve çok kısa bir sürede öğrenebilirsiniz:

http://regexone.com/

İkinci ders kodlarımızın bitmiş hali aşağıda yer alıyor. Videoyu kodları inceledikten sonra izlemek, daha verimli olabilir.

Bu kodları doğrudan çalıştırmanız da mümkündür:

Beni izlemeyi unutmayın!

ahmet aksoy