Dosya İşlemleri için Python Pandas Kullanımı

Dosya İşlemleri için Python Pandas Kullanımı

Python Pandas, dosya işlemleri ve veri manipülasyonu için kullanışlı ve pratik bir araçtır Bu yazıda, Python Pandas'ın dosya işlemleri ile nasıl kullanıldığını öğreneceksiniz Excel, CSV, SQL, HTML vb dosya formatlarını kolayca işleyebilir ve veri analizi yapmak için farklı yöntemler kullanabilirsiniz Pandas'ın kullanımı kolay arayüzü sayesinde, verilerinizi analiz etmek için çok az kod yazarak kolayca işleyebilirsiniz

Dosya İşlemleri için Python Pandas Kullanımı

Python Pandas kütüphanesi dosya işlemleri yapmak için oldukça etkili bir araçtır. Bu kütüphane sayesinde CSV veya Excel dosyalarını okuyabilir, verileri düzenleyebilir ve istediğiniz formatta kaydedebilirsiniz. Dosya işlemleri yaparken dikkat etmeniz gereken adımlar vardır.

İlk adım olarak, dosyayı okumak veya yazmak istediğiniz hedef dizini belirlemeniz gerekiyor. Daha sonra, Pandas kütüphanesini projenize eklemeniz ve ana kod bloğunda bu kütüphaneyi çağırmanız gerekir. Veri okuma ve yazma işlemlerini gerçekleştirmek için farklı yöntemler kullanabilirsiniz.

Pandas kullanarak çeşitli dosya işlemleri için farklı metodlar bulunmaktadır. CSV dosyalarını okuyabilmek için read_csv() metodunu, Excel dosyalarını okumak için ise read_excel() metodunu kullanabilirsiniz. Veri işlemlerini gerçekleştirdikten sonra, sonuçları istediğiniz formatta kaydedebilirsiniz. CSV dosyalarına yazmak için to_csv() metodunu, Excel dosyalarına yazdırmak için ise to_excel() metodunu kullanabilirsiniz.

Python Pandas kütüphanesiyle dosya işlemleri yapmak oldukça basittir. İlgili metodları doğru bir şekilde kullanarak verilerinizi düzenleyebilir ve istediğiniz formatta kaydedebilirsiniz. Hem büyük ölçekli verilerin işlenmesi hem de veri analizi yapılması için Python Pandas kütüphanesi oldukça kullanışlı bir araçtır.


Pandas Kütüphanesi Nedir?

Pandas kütüphanesi, Python için yazılmış bir veri işleme kütüphanesidir. Veri analizi ve işleme işleri için kullanılan bu kütüphane, veri yapılarını oluşturma ve manipüle etme işlemlerinde oldukça etkilidir. Pandas kütüphanesi, verileri hızlı bir şekilde işleyerek zaman tasarrufu sağlarken, aynı zamanda kullanım kolaylığı da sağlar.

Bu kütüphane, veri analizi ve sıralama işlemleri yapmak için oldukça kullanışlıdır. Verilerin dönüştürülmesi, temizlenmesi, birleştirilmesi ve ayrıştırılması işlemlerinin yanı sıra, veri hatalarının tespit edilmesi ve düzeltilmesi de Pandas kütüphanesi ile oldukça basittir.

Pandas kütüphanesi aynı zamanda veri işleme işlemlerinde de oldukça etkilidir. Verilerin gruplandırılması ve toplanması işlemleri, veri seçme ve filtreleme işlemleri gibi birçok farklı veri işleme işlemi, kolay bir şekilde Pandas kütüphanesi ile gerçekleştirilebilir.


Veri Okuma İşlemleri

Veri okuma işlemleri yapmak için Pandas kütüphanesi oldukça kullanışlıdır. Veri okuma işlemleri yapmak için pandas kütüphanesiyle bir veri seti oluşturulabilir. Daha sonra bu veri seti, CSV ya da Excel dosyaları gibi bilinen dosya formatlarında kaydedilebilir.

Pandas kütüphanesi ile veri okuma işlemlerini yaparken, en yaygın kullanılan veri formatları CSV ve Excel dosyalarıdır. Veri okuma işlemi yapmak için ilk önce, okunacak veri setinin konumu belirtilmelidir. Bu genellikle bir dosya yolu veya URL adresi kullanılarak yapılır. Daha sonra, dosya formatına göre uygun okuma işlevi seçilmelidir.

Pandas kütüphanesi ile CSV dosyaları okumak oldukça kolaydır ve dosyalar veri frekansı olarak okunabilir. Ayrıca, dosyadaki boş değerlerin (NaN) yerine bir varsayılan değer atanabilir. Excel dosyaları üzerinde yapılabilecek veri işlemleri için Pandas kütüphanesi kullanarak Excel dosyalarının nasıl okunabileceği hakkında da detaylı bilgi edinilebilir.


CSV Dosyalarını Okuma

Pandas kütüphanesi ile CSV(Comma Separated Values) dosyaları kolayca okunabilir, işlenebilir ve yazılabilir. CSV dosyaları, verilerin virgül veya herhangi bir diğer ayraç ile ayrılmış olduğu bir metin formatında saklanır. Pandas kullanarak CSV dosyalarını okumak için read_csv() fonksiyonu kullanılır.

Bu fonksiyon parametreleri alabilir ve kullanıcının ihtiyacına göre verileri düzenleyebilir. CSV dosya okunduktan sonra pandas DataFrame objesi olarak depolanır. Bu objeyi kullanarak verinin farklı parçaları ve özellikleri seçilebilir.

Parametre Açıklama
filepath Dosya yolu veya URL
sep Ayraç karakteri
header Hangi satırın başlık olduğunu belirler
index_col Hangi sütunu dizine dönüştürmek istediğinizi belirler
usecols Okuma işleminde kullanılacak sütunları belirler
nrows Satır sayısını belirler

read_csv() fonksiyonu, özellikle büyük veri setleriyle çalışırken oldukça kullanışlıdır. Çünkü büyük veriler doğrudan belleğe yüklenemez ve bu fonksiyon Pandas kullanarak dosya okumayı optimize ederek verimliliği en üst düzeye çıkarır.


Excel Dosyalarını Okuma

Pandas kütüphanesi, Excel dosyaları üzerinde yapılacak veri işlemleri için birçok kullanışlı fonksiyona sahiptir. Excel dosyalarını okumak için read_excel() fonksiyonu kullanılır. Bu fonksiyon, herhangi bir Excel dosyasını okuyarak bir DataFrame döndürür. read_excel() fonksiyonu, ilk argüman olarak Excel dosyasının konumunu veya dosya yolunu alır. İkinci ve üçüncü argümanlar satır başlıkları ve sütun başlıklarının bulunduğu satır ve sütun numaralarını belirtir. Eğer bu argümanlar belirtilmezse, varsayılan olarak sıfırdan başlanarak satin ve sütun tamlamaları okunur.

Aşağıdaki örnek, bir Excel dosyasının nasıl okunacağını gösterir. read_excel() fonksiyonu stok.xlsx dosyasını okuyarak bir DataFrame döndürür. İkinci ve üçüncü argümanlar, başlık başlangıç noktasını belirtir. Dosyada iki farklı tablo bulunur ve Pandas kütüphanesi kullanılarak her iki tablo da okunabilir.

Ürün Fiyat Stok
Bilgisayar 5000 10
Telefon 3000 20

Veri Yazma İşlemleri

Pandas kütüphanesi sadece veri okuma işlemleri yapmakla kalmaz, aynı zamanda veri yazma işlemleri de gerçekleştirebilir. Python Pandas kullanarak, CSV veya Excel formatındaki dosyalara veri yazma işlemleri oldukça kolaydır. Veri yazma işlemi yaparken, belirtilen dosyanın uygun yolunu belirleyip, yazma modunu seçmeniz gerekmektedir.

  • CSV Dosyasına Yazma
  • CSV dosyalarına yazmak için Pandas'ın ".to_csv()" fonksiyonunu kullanabilirsiniz. Bu metodun kullanımı oldukça basit ve okunaklı bir dosya oluşturmak için birçok parametreyle birlikte kullanılabilir. Örneğin, parametrelerle birlikte kullanımı şu şekildedir:

    df.to_csv('dosya_adi.csv', index=False, header=True)

    Bu komut CSV dosyasını kaydederken, indeksleri kaydetmeyi ve başlık oluşturma seçeneğini de seçmenizi sağlar. Ancak, eğer veri içerisinde Türkçe karakter kullanıyorsanız, çıktı karakter kodlaması problemiyle karşılaşabilirsiniz. Bu sorunu çözmek için utf-8 kullanmanız yeterli olacaktır.

    df.to_csv('dosya_adi.csv', index=False, header=True, encoding='utf-8')
  • Excel Dosyasına Yazma
  • Excel dosyalarına veri yazmak için Pandas'ın ".to_excel()" fonksiyonunu kullanabilirsiniz. Bu yöntem, belirli bir işlemin yapılması için dosya adı ve kaydetme yolu gibi bazı parametrelere ihtiyaç duyar.

    df.to_excel('dosya_adi.xlsx', sheet_name='veri_adi', index=False)

    Bu komut kullanılarak, pandas veri setini bir dosyaya yazıp saklayabilirsiniz. "sheet_name" parametresi, Excel dosyalarında sayfa oluşturur ve kaydeder.


CSV Dosyasına Yazma

Pandas kütüphanesi, verilerin CSV dosyalarına yazılması için sıklıkla kullanılmaktadır. Bunun için, öncelikle oluşturulan DataFrame'in to_csv() metodu kullanılabilir. Bu metot, verilerin CSV dosyasına yazdırılması için gereken tüm işlemleri yapar ve kullanıcının isteğine göre farklı parametreler alabilir.

Örnek olarak, verilerin yazılacağı CSV dosyasının adı belirlenebilir ya da dosyanın nereye kaydedileceği belirtilebilir. Ayrıca, yazdırma işlemi sırasında kullanılacak ayırıcı karakter de belirlenebilir. to_csv() metodu ile ayırıcı karakter olarak varsayılan olarak virgül kullanılmaktadır.

Bir DataFrame'in CSV dosyasına yazdırılması için kullanım örneği aşağıdaki gibidir:

import pandas as pdveriler = {'isim': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],           'yaş': [23, 33, 25, 29],           'maaş': [5000, 7500, 6000, 8000]}df = pd.DataFrame(veriler)# DataFrame'i CSV dosyasına yazdırmadf.to_csv('veriler.csv', index=False, sep=';')

Bu örnekte, 'veriler' adlı bir sözlük oluşturulmuş ve DataFrame haline getirilmiştir. Daha sonra, to_csv() metodu kullanılarak DataFrame, 'veriler.csv' adlı bir CSV dosyasına yazdırılmıştır. index=False parametresi, indeks sütununun CSV dosyasına yazdırılmamasını sağlamaktadır. sep=';' parametresi ise ayırıcı karakter olarak noktalı virgül kullanılacağını belirtmektedir.

Pandas kütüphanesi ile CSV dosyasına yazdırma işlemi oldukça basittir ve birkaç satır kod ile gerçekleştirilebilir.


Excel Dosyasına Yazma

Excel dosyalarına veri yazma işlemi de CSV dosyaları gibi oldukça önemlidir. Pandas kütüphanesi sayesinde Excel formatındaki dosyalara da rahatlıkla veri yazmak mümkündür. Bunun için öncelikle Excel dosyası oluşturulmalıdır.

Excel dosyası oluşturma işlemi için openpyxl kütüphanesi kullanılabilir. Aşağıdaki örnekte, `openpyxl` kütüphanesi kullanarak yeni bir Excel dosyası oluşturulacaktır.

```import openpyxl

workbook = openpyxl.Workbook()worksheet = workbook.active```

Bu sayede `workbook` adındaki bir Excel dosyası oluşturulmuş ve `worksheet` değişkeni ile Excel dosyasının aktif çalışma sayfasına erişilmiştir.

Verilerin yazılacağı hücreler belirlendikten sonra, veriler tek tek işlenebilir ve Excel dosyasına yazdırılabilir. Örneğin, aşağıdaki kod bloğunda, 'A1' hücresine 'ID' yazdırılacak ve sonrasında veriler tek tek yazdırılacaktır:

```worksheet['A1'] = 'ID'row_num = worksheet.max_row

for i in range(len(data)): worksheet.cell(row=row_num+i, column=1).value = data[i]['ID'] worksheet.cell(row=row_num+i, column=2).value = data[i]['Name'] worksheet.cell(row=row_num+i, column=3).value = data[i]['Age']```

Yukarıdaki örnek kod bloğunda, `data` adındaki bir liste kullanılmış ve bu liste içerisindeki veriler 'ID', 'Name' ve 'Age' adındaki sütunlara Excel dosyasına yazdırılmıştır. Her bir veri, `worksheet.cell` fonksiyonuyla belirlenen hücrelere yazdırılmıştır.

Son olarak, verilerin Excel dosyasına yazdırılması işlemini bitirdikten sonra, dosya kaydedilmelidir. Bunu aşağıdaki kod bloğu ile gerçekleştirebilirsiniz:

```workbook.save(filename="example.xlsx")```

Bu sayede kaydedilen veriler artık Excel dosyasında görüntülenebilir ve kullanılabilir. Pandas kütüphanesinin Excel dosyasına yazma işlemleri de bu şekilde gerçekleştirilebilir.


Veri İşleme

Veri işleme işlemleri, özellikle büyük verilerle çalışan uygulamalar için oldukça önemlidir. Pandas, bu işlemleri yapmak için birçok güçlü fonksiyon sunar. Bu fonksiyonların kullandığı temel veri yapılarının türleri ve nasıl kullanılacağı hakkında bilgi sahibi olmak oldukça önemlidir.

Pandas ile veri işleme işlemleri yapmak mümkündür. Bu işlemde kullanılan temel veri yapısı DataFrame'dir. DataFrame, iki boyutlu bir veri yapısıdır ve birçok veri tipini destekler. Veriler sütunlar ve satırlar halinde düzenlenir ve bu veri yapısı sayesinde verilerin işlenmesi çok daha kolaylaşır.

Veri işleme işlemleri sırasında sıkça kullanılan bir diğer yapısı ise Serilerdir. Seriler, tek boyutlu bir veri yapısıdır ve sadece bir veri tipi içerir. Serileri kullanarak verileri filtreleme, seçme, toplama veya gruplama gibi işlemleri yapmak mümkündür.

Veri işleme işlemleri sırasında kullanılan diğer birçok fonksiyon vardır ve bu fonksiyonların isimleri genellikle işlemin yapılacağı veri yapısının adıyla başlar. Örneğin, DataFrame üzerinde işlem yapmak için pandas.DataFrame.groupby() fonksiyonu kullanılırken, Seri üzerinde işlem yapmak için ise pandas.Series.sort_values() fonksiyonu kullanılabilir.

Pandas, veri işleme işlemleri için birçok fonksiyon sunar ve bu fonksiyonlar da oldukça güçlüdür. Bu sayede, veri işleme işlemleri daha kolay ve daha hızlı bir şekilde gerçekleştirilebilir.


Veri Seçme ve Filtreleme

Bir veri setinde belirli sütunları veya satırları seçmek önemli bir veri işleme adımıdır. Pandas kütüphanesi, veri setlerindeki verileri seçmeye ve filtrelemeye olanak sağlayan bir dizi işlev sunar.

Belirli bir sütun veya kolon seçmek için iloc yöntemi kullanılabilir. Örneğin, aşağıdaki kod bir dataframe içindeki "Name" sütununu seçer:

import pandas as pddata = pd.read_csv('example.csv')name = data.iloc[:, 1] # 1. sütun (0. indeks) Name sütunu

Belirli bir satır veya indeks seçmek için ise loc kullanılabilir. Örneğin, aşağıdaki kod bir dataframe içindeki 3. indeksteki satırı seçer:

import pandas as pddata = pd.read_excel('example.xlsx')row = data.loc[3]

Veri setlerinde belirli şartlara uygun satırları veya sütunları filtrelemek isteyebilirsiniz. Bu durumda, boolean indexing yöntemi kullanılabilir. Örneğin, aşağıdaki kod "Age" sütununda yaş değeri 25 olan tüm satırları seçer:

import pandas as pddata = pd.read_csv('example.csv')age_25 = data[data['Age'] == 25]

Bu yöntemlerin yanı sıra, verileri daha da detaylandırmak için farklı filtreleme ve seçme yöntemleri de vardır. Pandas belgelerinde daha fazla bilgiye erişebilirsiniz.


Gruplama ve Toplulaştırma

Pandas kütüphanesi kullanarak verilerin gruplandırılması ve toplanması, veri işleme işlemleri yapmanın en önemli adımlarından biridir. Bu işlemler yapılırken verilerin öncelikle anlamlı bir şekilde gruplanması gerekir. Gruplama işlemleri ile birlikte toplulaştırma adımları da yapılabilmektedir. Örneğin, bir satış veri seti üzerinde çalışırken, her ürüne ait satış miktarını toplamak gerekebilir. Bunun için, Pandas kütüphanesi kullanarak ilgili verilerin gruplandırılması ve sonrasında toplama işlemi gerçekleştirilebilir.

Verilerin gruplandırılması ve toplanması için Pandas kütüphanesi içerisinde bulunan "groupby (), sum ()" fonksiyonları kullanılabilir. Groupby () fonksiyonu ile veriler gruplandırılırken, sum () fonksiyonu ile de gruplanan verilerin toplama işlemi yapılabilmektedir. Bu işlemler sonucunda veri seti daha anlaşılır hale gelmektedir. Bunun yanında, veri setinde yer alan büyük verilerin de daha düzenli bir şekle getirilmesi sağlanmaktadır.

  • Groupby () fonksiyonu örneği: df.groupby ('Product'). sum ()
  • Sum () fonksiyonu örneği: df.sum (axis = 0)

Yukarıdaki örneklerde "Product" kolonu üzerinden gruplama işlemi yapılmaktadır. Daha sonra bu gruplanan verilerin toplamı alınmaktadır. Benzer şekilde, tüm verilerin toplamı da "sum ()" işlemi ile gerçekleştirilebilmektedir.

Ayrıca Pandas kütüphanesi içerisinde yer alan diğer fonksiyonlar da gruplama ve toplulaştırma işlemlerinde sıklıkla kullanılmaktadır. Bu fonksiyonlar arasında; mean (), count (), min (), max () ve std () yer almaktadır.

Gruplama ve toplulaştırma işlemleri, veri analizi ve işleme süreçlerinde oldukça önemlidir. Pandas kütüphanesi ile bu işlemler oldukça kolay bir şekilde gerçekleştirilebilmekte ve veri setleri daha anlaşılır hale getirilebilmektedir.