Nis 012015
 
1.300 views

Python ile haber sitelerinden özet bilgiler indirmek

Bu dersimizde python ile haber sitelerine bağlanarak bazı temel bilgileri nasıl ayıklayacağımızı göreceğiz. İlk sitemiz bbc.com. Sonra da milliyet.com.tr adresine bağlanacağız.

[youtube https://www.youtube.com/watch?v=cj6UZ9QXwJo&w=560&h=315]

Python ile haber sitelerinden özet bilgiler indirmek

Bir önceki dersimizde kullandığımız urllib ve re paketlerini bu derste de kullanıyoruz.

Web sitesiyle bağlantı kurma ve sayfadaki bilgileri okuma işlemleri aynı.

Bu dersteki temel farklılık, while döngüsü içinde ek filtrelemelerin yapılması. Bu ek filrelerle hem ilgili haberin linkine, hem de başlık, kategori, özet ve detay gibi bilgilere ulaşıyoruz.

Daha ayrıntılı açıklamalar zaten videoda mevcut. Kodların tamamı da aşağıda.

Sormak istediklerinizi yorum formuyla bana iletebilirsiniz.

Sonraki dersimizde mechanize paketini kullanarak Türkçe sorunumuza çözüm arayacağız.

Beni izlemeye devam edin.

ahmet aksoy

Önceki ders: http://webmaster.gamet.com.tr/python-ile-web-sitesinden-basliklari-cekmek/

Mar 302015
 
2.815 views

Python ile web sitesinden başlıkları çekmek

İkinci dersimizde urllib ve re paketlerini kullanarak http://hurriyet.com.tr adresinden ana başlıkları nasıl indirebileceğimizi anlatıyorum. Bunlar, veri madenciliği ile ilgilenmeyi düşünen yeni python programcıları için yararlı olabilir.

python dersleri 02

Yaklaşık 10 satırlık bir kodlama ile gazetenin ana sayfasındaki tüm başlıkları kolayca indirebiliyoruz.

Ayrıca, Türkçe karakterlerin düzgün görünmesi için kullanılan küçük bir fonksiyonu da kodlarımıza ekledik.

Urllib paketi internet sitelerine ulaşıp, oradaki html kodlarını indirebilmemizi sağlayan fonksiyonlara sahip. Re paketi ise, ulaştığımız html kodlarınını uygun bir şekilde filtre edebilmemizi sağlıyor.

İnternet sitelerine farklı paketler ve yöntemlerle ulaşmak mümkün olsa da, re paketini (regular expressions – düzenli ifadeler) en ince ayrıntılarıyla tanımakta büyük yarar var.

Eğer düzenli ifadelere yeterince hakim değilseniz, aşağıdaki kaynak çok işinize yarayabilir. Düzenli ifadeleri nasıl kullanacağınızı bu siteden oyun oynar gibi ve çok kısa bir sürede öğrenebilirsiniz:

http://regexone.com/

İkinci ders kodlarımızın bitmiş hali aşağıda yer alıyor. Videoyu kodları inceledikten sonra izlemek, daha verimli olabilir.

Bu kodları doğrudan çalıştırmanız da mümkündür:

Beni izlemeyi unutmayın!

ahmet aksoy