934 views 934 views
Mar 302015
 
935 views

Python ile web sitesinden başlıkları çekmek

İkinci dersimizde urllib ve re paketlerini kullanarak http://hurriyet.com.tr adresinden ana başlıkları nasıl indirebileceğimizi anlatıyorum. Bunlar, veri madenciliği ile ilgilenmeyi düşünen yeni python programcıları için yararlı olabilir.

python dersleri 02

Yaklaşık 10 satırlık bir kodlama ile gazetenin ana sayfasındaki tüm başlıkları kolayca indirebiliyoruz.

Ayrıca, Türkçe karakterlerin düzgün görünmesi için kullanılan küçük bir fonksiyonu da kodlarımıza ekledik.

Urllib paketi internet sitelerine ulaşıp, oradaki html kodlarını indirebilmemizi sağlayan fonksiyonlara sahip. Re paketi ise, ulaştığımız html kodlarınını uygun bir şekilde filtre edebilmemizi sağlıyor.

İnternet sitelerine farklı paketler ve yöntemlerle ulaşmak mümkün olsa da, re paketini (regular expressions – düzenli ifadeler) en ince ayrıntılarıyla tanımakta büyük yarar var.

Eğer düzenli ifadelere yeterince hakim değilseniz, aşağıdaki kaynak çok işinize yarayabilir. Düzenli ifadeleri nasıl kullanacağınızı bu siteden oyun oynar gibi ve çok kısa bir sürede öğrenebilirsiniz:

http://regexone.com/

İkinci ders kodlarımızın bitmiş hali aşağıda yer alıyor. Videoyu kodları inceledikten sonra izlemek, daha verimli olabilir.

Bu kodları doğrudan çalıştırmanız da mümkündür:

Beni izlemeyi unutmayın!

ahmet aksoy

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

(gerekli)

(gerekli)

Önceki yazıyı okuyun:
Çift Pencereli Komut Modunda Python Kullanımı

Çift Pencereli Komut Modunda Python Kullanımı PyCharm Community sürümü python programcıları için güzel bir ortam sunuyor. Ama bazı programcılar, işin...

Kapat