Spaces:

sarizeybek
/

airbnb-analysis-prediction

Sleeping

App Files Files Community

sarizeybek commited on Apr 10

Commit

ee43b65

verified ·

1 Parent(s): 40e40b3

Update app.py

Browse files

Files changed (1) hide show

app.py +200 -47

app.py CHANGED Viewed

@@ -33,7 +33,8 @@ st.markdown("""
 <style>
     .main-header {
         font-size: 2.5rem;
-        color: #FF5A5F; /* Airbnb color */
         text-align: center;
         margin-bottom: 1rem;
     }
@@ -62,7 +63,7 @@ st.markdown("""
 """, unsafe_allow_html=True)
 st.sidebar.title("Navigasyon")
-pages = ["Ana Sayfa", "Veri İnceleme", "Ön İşleme Sonuçları", "Model Sonuçları", "Harita Görselleştirme"]
 selected_page = st.sidebar.radio("", pages)
 @st.cache_data
@@ -120,21 +121,20 @@ if df is not None:
     if selected_page == "Ana Sayfa":
         st.markdown("<h1 class='main-header'>New York Airbnb Fiyat Tahmini</h1>", unsafe_allow_html=True)
-        col1, col2, col3 = st.columns([1, 3, 1])
-        with col2:
-            st.image("https://a0.muscache.com/im/pictures/fe7217ff-0b24-438d-8833-1dd45a298a6b.jpg", use_column_width=True)
-        st.markdown("<div class='info-box'>", unsafe_allow_html=True)
         st.markdown("""
-        Bu veri seti ile New York City'deki Airbnb ilanlarının fiyatlarını tahmin etmeye çalışacağız.
-        Amacımız, bir evi kiralamak isteyen birinin fiyatının ne olacağını öngörmek.
-        Bunun için Regresyon, Karar Ağacı ve Random Forest modelleri uygulayacağız.
         """)
         st.markdown("</div>", unsafe_allow_html=True)
         st.markdown("<h2 class='section-header'>Veri Seti Genel Bakış</h2>", unsafe_allow_html=True)
         st.dataframe(df.head())
         st.markdown("<h2 class='section-header'>Veri Seti Sütunları</h2>", unsafe_allow_html=True)
         st.markdown("""
         - **id**: Airbnb ilanının benzersiz kimlik numarası
@@ -158,7 +158,16 @@ if df is not None:
     elif selected_page == "Veri İnceleme":
         st.markdown("<h1 class='main-header'>Veri İnceleme</h1>", unsafe_allow_html=True)
         st.markdown("<h2 class='section-header'>Aylık Yorum Sayısı Analizi</h2>", unsafe_allow_html=True)
         col1, col2 = st.columns(2)
@@ -167,10 +176,10 @@ if df is not None:
         with col2:
             st.metric("Medyan", f"{df['reviews_per_month'].median():.2f}")
-        st.markdown("<div class='info-box'>", unsafe_allow_html=True)
         st.markdown("""
-        Çarpık bir dağılım var. Çünkü ortalama > medyan olduğundan dağılım sağa çarpık.
-        Bu da birçok ilan çok az yorum alırken, az sayıda ilan aşırı fazla yorum aldığını gösteriyor.
         """)
         st.markdown("</div>", unsafe_allow_html=True)
@@ -185,19 +194,10 @@ if df is not None:
         st.markdown("""
         Daha fazla yorum sayısına sahip ilanlar ortalamayı yukarı çekiyor.
-        Burada çarpıklığı azaltmam gerekiyor. Dağılımı dengeli hale getirelim.
         """)
-        st.markdown("<h2 class='section-header'>Eksik Değer Analizi</h2>", unsafe_allow_html=True)
-        missing_vals = df.isnull().sum()
-        missing_cols = missing_vals[missing_vals > 0]
-        if len(missing_cols) > 0:
-            st.write("Eksik değer içeren sütunlar:")
-            st.write(missing_cols)
-        else:
-            st.success("Veri setinde eksik değer bulunmuyor.")
     elif selected_page == "Ön İşleme Sonuçları":
@@ -247,11 +247,14 @@ if df is not None:
             st.pyplot(fig)
-            st.markdown("<div class='info-box'>", unsafe_allow_html=True)
             st.markdown("""
-            ✓ Çünkü veri uç değerler içeriyor ve çarpık bir dağılım gösteriyor.
-            ✓ Çoğu ilan çok az yorum alırken, birkaç ilan çok fazla yorum alıyor.
-            ✓ mean() kullanırsak, az yorum alan ilanlar için yanlış tahmin yapabiliriz.
             """)
             st.markdown("</div>", unsafe_allow_html=True)
         except Exception as e:
@@ -263,10 +266,10 @@ if df is not None:
         st.markdown("""
         Eksik değerleri şu stratejiye göre doldurdum:
-        1. Önce reviews_per_month sütununu float tipine çevirdim.
-        2. Aynı mahalle ve oda tipindeki medyan değerleri kullanarak eksik değerleri doldurdum.
-        3. Hala eksik değer varsa, mahalle bazında medyan değerleri kullandım.
-        4. Son olarak, kalan eksik değerleri 0 ile doldurdum.
         """)
@@ -274,11 +277,40 @@ if df is not None:
         st.markdown("""
         1. neighbourhood_group ve room_type kategorik değişkenlerini one-hot encoding ile sayısal değerlere dönüştürdüm.
-        2. neighbourhood değişkenini, her mahalle için ortalama fiyatı hesaplayarak kodladım.
         3. Sıfır fiyatlı ilanları veri setinden çıkardım.
-        4. Logaritmik dönüşümler uygulayarak log_price ve minimum_nights_log değişkenlerini oluşturdum.
-        5. reviews_per_month ve number_of_reviews değişkenlerini birleştirerek review_score adlı yeni bir özellik oluşturdum.
         """)
     elif selected_page == "Model Sonuçları":
@@ -301,11 +333,13 @@ if df is not None:
                 lr_mae = mean_absolute_error(y_test, lr_pred)
                 lr_mse = mean_squared_error(y_test, lr_pred)
                 lr_rmse = np.sqrt(lr_mse)
-                col1, col2, col3 = st.columns(3)
-                col1.metric("MAE", f"${lr_mae:.2f}")
-                col2.metric("RMSE", f"${lr_rmse:.2f}")
-                col3.metric("MSE", f"${lr_mse:.2f}")
                 fig, ax = plt.subplots(figsize=(8, 6))
                 sns.scatterplot(x=y_test, y=lr_pred, alpha=0.5, ax=ax)
@@ -330,8 +364,8 @@ if df is not None:
                 dt_r2 = r2_score(y_test, dt_pred)
                 col1, col2, col3 = st.columns(3)
-                col1.metric("MAE", f"${dt_mae:.2f}")
-                col2.metric("MSE", f"${dt_mse:.2f}")
                 col3.metric("R²", f"{dt_r2:.4f}")
                 fig, ax = plt.subplots(figsize=(8, 6))
@@ -363,8 +397,8 @@ if df is not None:
                 rf_r2 = r2_score(y_test, rf_pred)
                 col1, col2, col3 = st.columns(3)
-                col1.metric("MAE", f"${rf_mae:.2f}")
-                col2.metric("MSE", f"${rf_mse:.2f}")
                 col3.metric("R²", f"{rf_r2:.4f}")
                 fig, ax = plt.subplots(figsize=(8, 6))
@@ -390,14 +424,59 @@ if df is not None:
                 comparison_df = comparison_df.set_index('Model')
                 st.dataframe(comparison_df.style.highlight_min(subset=['MAE', 'MSE']).highlight_max(subset=['R²']))
-                st.markdown("<div class='info-box'>", unsafe_allow_html=True)
                 st.markdown("""
                 Random Forest modeli en iyi performansı göstermiştir.
                 R² değeri 1'e yakın olduğu için modelin açıklama gücü yüksektir.
                 """)
-                st.markdown("</div>", unsafe_allow_html=True)
     elif selected_page == "Harita Görselleştirme":
         st.markdown("<h1 class='main-header'>Harita Görselleştirme</h1>", unsafe_allow_html=True)
@@ -462,6 +541,80 @@ if df is not None:
         except Exception as e:
             st.error(f"Harita oluşturulurken bir hata oluştu: {e}")
 if __name__ == "__main__":
     pass

 <style>
     .main-header {
         font-size: 2.5rem;
+        color: black;
+         /* Airbnb color */
         text-align: center;
         margin-bottom: 1rem;
     }
 """, unsafe_allow_html=True)
 st.sidebar.title("Navigasyon")
+pages = ["Ana Sayfa", "Veri İnceleme", "Ön İşleme Sonuçları", "Model Sonuçları", "Harita Görselleştirme","Raporlama","Fiyat Tahmin"]
 selected_page = st.sidebar.radio("", pages)
 @st.cache_data
     if selected_page == "Ana Sayfa":
         st.markdown("<h1 class='main-header'>New York Airbnb Fiyat Tahmini</h1>", unsafe_allow_html=True)
+        st.markdown("<div>", unsafe_allow_html=True)
         st.markdown("""
+        Bu projede, New York City'deki Airbnb kiralık dairelerin fiyatlarını tahmin etmek amacıyla regresyon modelleri geliştirilmiştir.
+        Amacımız, bir evi kiralamak isteyen birinin ödeyeceği fiyatı öngörebilmektir.
+        Bu doğrultuda, Doğrusal Regresyon, Karar Ağacı ve Random Forest modelleri uygulanmıştır.
         """)
         st.markdown("</div>", unsafe_allow_html=True)
         st.markdown("<h2 class='section-header'>Veri Seti Genel Bakış</h2>", unsafe_allow_html=True)
         st.dataframe(df.head())
+        rows, cols = df.shape
+        st.markdown(f"""
+        Veri seti toplam **{rows} gözlem (satır)** ve **{cols} özellik (sütun)** içermektedir.
+        """)
         st.markdown("<h2 class='section-header'>Veri Seti Sütunları</h2>", unsafe_allow_html=True)
         st.markdown("""
         - **id**: Airbnb ilanının benzersiz kimlik numarası
     elif selected_page == "Veri İnceleme":
         st.markdown("<h1 class='main-header'>Veri İnceleme</h1>", unsafe_allow_html=True)
+        st.markdown("<h2 class='section-header'>Eksik Değer Analizi</h2>", unsafe_allow_html=True)
+        missing_vals = df.isnull().sum()
+        missing_cols = missing_vals[missing_vals > 0]
+        if len(missing_cols) > 0:
+            st.write("Eksik değer içeren sütunlar:")
+            st.write(missing_cols)
+        else:
+            st.success("Veri setinde eksik değer bulunmuyor.")
         st.markdown("<h2 class='section-header'>Aylık Yorum Sayısı Analizi</h2>", unsafe_allow_html=True)
         col1, col2 = st.columns(2)
         with col2:
             st.metric("Medyan", f"{df['reviews_per_month'].median():.2f}")
+        st.markdown("<div>", unsafe_allow_html=True)
         st.markdown("""
+        Çarpık bir dağılım var. Çünkü ortalama > medyan olduğundan aylık yorum sayısı verisi sağa çarpık bir dağılıma sahiptir.
+        Çünkü verilerin çoğu düşük yorum sayısına sahipken, birkaç popüler ilanın çok yüksek yorum alması ortalamayı yukarı çekmektedir.
         """)
         st.markdown("</div>", unsafe_allow_html=True)
         st.markdown("""
         Daha fazla yorum sayısına sahip ilanlar ortalamayı yukarı çekiyor.
+        Burada çarpıklığı azaltmam gerekiyor. Dağılımı dengeli hale getirmek gerekiyor.
         """)
     elif selected_page == "Ön İşleme Sonuçları":
             st.pyplot(fig)
+            st.markdown("<div>", unsafe_allow_html=True)
             st.markdown("""
+            Aylık yorum sayısı değişkeni başlangıçta oldukça sağa çarpıktı.
+            Bu durum, az sayıda ilanın aşırı fazla yorum alması nedeniyle, ortalamanın yukarı çekilmesinden kaynaklanıyordu.
+            Yeo-Johnson dönüşümü ile bu dağılım daha simetrik ve normal benzeri bir yapıya dönüştürüldü.
+            Böylece hem uç değerlerin etkisi azaldı, hem de regresyon modellerinin doğruluğu artırılmış oldu.
             """)
             st.markdown("</div>", unsafe_allow_html=True)
         except Exception as e:
         st.markdown("""
         Eksik değerleri şu stratejiye göre doldurdum:
+        --Bu sütunlar ("id", "name", "host_id", "host_name", "last_review") analiz için gereksiz sutünlarımı verimden attım.
+        1. Aynı mahalle ve oda tipindeki medyan değerleri kullanarak eksik değerleri doldurdum.Çünkü benzer özellikteki evlerin benzer yorum alma ihtimali yüksek
+        2. Hala eksik değer varsa, mahalle bazında medyan değerleri kullandım.
+        3. Son olarak, kalan eksik değerleri 0 ile doldurdum.
         """)
         st.markdown("""
         1. neighbourhood_group ve room_type kategorik değişkenlerini one-hot encoding ile sayısal değerlere dönüştürdüm.
+        2. neighbourhood sütunu, 200'den fazla farklı mahalle ismi içeriyordu.
+        Bu değişkeni doğrudan modele vermek hem anlamlı olmaz hem de yüksek boyutluluğa sebep olurdu.
+        Bunun yerine, her mahallenin ortalama fiyatını hesaplayarak neighbourhood_encoded adlı yeni bir sayısal değişken oluşturdum.BU sayede artık mahalle ismi degil o mahallenin ortalam fiyat bilgisini çektik.
         3. Sıfır fiyatlı ilanları veri setinden çıkardım.
+        4. Fiyat değişkenine log(1 + price) dönüşümü uyguladım.
+        Bu sayede fiyatlardaki çarpıklığı azalttım ve veriyi modellere daha uygun hale getirdim.
+        5. Minimum konaklama süresi ve yorum sayısı gibi değişkenlerde yüksek uç değerler bulunuyordu.
+        minimum_nights değişkenine log dönüşümü uygulayarak bu uç değerlerin etkisini azalttım.
+        6. reviews_per_month ile number_of_reviews’u çarparak yeni bir review_score değişkeni oluşturdum.
+        Bu yeni özellik, hem evin ne kadar aktif olduğunu hem de ne kadar uzun süredir platformda olduğunu yansıtarak model için daha bilgilendirici hale geldi.
         """)
+        # minimum_nights_log sütunu yoksa oluştur
+        if "minimum_nights_log" not in df.columns:
+            df["minimum_nights_log"] = np.log1p(df["minimum_nights"])
+        # Görselleştirme
+        fig, axes = plt.subplots(1, 2, figsize=(14, 5))
+        # Orijinal minimum_nights dağılımı
+        sns.histplot(df["minimum_nights"], bins=50, kde=True, ax=axes[0], color="skyblue")
+        axes[0].set_title("Minimum Nights (Orijinal)")
+        axes[0].set_xlabel("minimum_nights")
+        # Log dönüşümlü minimum_nights dağılımı
+        sns.histplot(df["minimum_nights_log"], bins=50, kde=True, ax=axes[1], color="lightgreen")
+        axes[1].set_title("Minimum Nights (Log Dönüşümlü)")
+        axes[1].set_xlabel("minimum_nights_log")
+        plt.tight_layout()
+        st.pyplot(fig)
     elif selected_page == "Model Sonuçları":
                 lr_mae = mean_absolute_error(y_test, lr_pred)
                 lr_mse = mean_squared_error(y_test, lr_pred)
                 lr_rmse = np.sqrt(lr_mse)
+                lr_r2 = r2_score(y_test, lr_pred)
+                col1, col2, col3,col4 = st.columns(4)
+                col1.metric("MAE", f"{lr_mae:.2f}")
+                col2.metric("RMSE", f"{lr_rmse:.2f}")
+                col3.metric("MSE", f"{lr_mse:.2f}")
+                col4.metric("R²", f"{lr_r2:.4f}")
                 fig, ax = plt.subplots(figsize=(8, 6))
                 sns.scatterplot(x=y_test, y=lr_pred, alpha=0.5, ax=ax)
                 dt_r2 = r2_score(y_test, dt_pred)
                 col1, col2, col3 = st.columns(3)
+                col1.metric("MAE", f"{dt_mae:.2f}")
+                col2.metric("MSE", f"{dt_mse:.2f}")
                 col3.metric("R²", f"{dt_r2:.4f}")
                 fig, ax = plt.subplots(figsize=(8, 6))
                 rf_r2 = r2_score(y_test, rf_pred)
                 col1, col2, col3 = st.columns(3)
+                col1.metric("MAE", f"{rf_mae:.2f}")
+                col2.metric("MSE", f"{rf_mse:.2f}")
                 col3.metric("R²", f"{rf_r2:.4f}")
                 fig, ax = plt.subplots(figsize=(8, 6))
                 comparison_df = comparison_df.set_index('Model')
                 st.dataframe(comparison_df.style.highlight_min(subset=['MAE', 'MSE']).highlight_max(subset=['R²']))
+                st.markdown("<div>", unsafe_allow_html=True)
                 st.markdown("""
                 Random Forest modeli en iyi performansı göstermiştir.
                 R² değeri 1'e yakın olduğu için modelin açıklama gücü yüksektir.
                 """)
+                                                # Korelasyon matrisi
+                st.markdown("<h2 class='section-header'>Korelasyon Matrisi</h2>", unsafe_allow_html=True)
+                # İşlenmiş veri ile korelasyon hesapla
+                _, _, processed_df = preprocess_data(df)
+                # Sadece sayısal sütunları alalım
+                corr = processed_df.select_dtypes(include=["float64", "int64"]).corr()
+                # Grafik
+                fig, ax = plt.subplots(figsize=(12, 10))
+                sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", square=True, ax=ax)
+                ax.set_title("Değişkenler Arası Korelasyon Matrisi")
+                st.pyplot(fig)
+                # Yorum
+                st.markdown("""
+                Korelasyon matrisi, değişkenler arasındaki ilişkileri göstermektedir. Fiyatla en güçlü pozitif korelasyon neighbourhood_encoded (mahalle ortalama fiyatı) ve reviews_per_month_original (yorum yoğunluğu) değişkenlerindedir. Ayrıca review_score ile number_of_reviews arasında beklenen şekilde yüksek bir ilişki vardır. Bu analiz, modele en çok katkı sağlayan değişkenleri belirlemek için önemlidir.
+                """)
+                st.markdown("<h3 class='subsection-header'>Kategorik Değişkenler ve Ortalama Fiyat</h3>", unsafe_allow_html=True)
+                categorical_cols = ["room_type", "neighbourhood_group"]
+                selected_cat = st.selectbox("İncelemek istediğiniz kategorik değişkeni seçin:", categorical_cols)
+                # Seçilen kategoriye göre ortalama fiyat
+                avg_price_by_cat = df.groupby(selected_cat)["price"].mean().sort_values(ascending=False).reset_index()
+                fig, ax = plt.subplots(figsize=(8, 5))
+                sns.barplot(x="price", y=selected_cat, data=avg_price_by_cat, palette="magma", ax=ax)
+                ax.set_title(f"{selected_cat} kategorisine göre ortalama fiyat")
+                ax.set_xlabel("Ortalama Fiyat ($)")
+                ax.set_ylabel(selected_cat)
+                st.pyplot(fig)
+                # Açıklama
+                st.markdown(f"""
+                **{selected_cat}** değişkenine göre Airbnb fiyatlarının nasıl değiştiği yukarıdaki grafikte görülmektedir.
+                Bu grafik:
+                - Her bir kategori için **ortalama fiyat** değerini gösterir.
+                - Modelin `room_type` ve `neighbourhood_group` gibi değişkenlere neden önem verdiğini açıklar.
+                """)
     elif selected_page == "Harita Görselleştirme":
         st.markdown("<h1 class='main-header'>Harita Görselleştirme</h1>", unsafe_allow_html=True)
         except Exception as e:
             st.error(f"Harita oluşturulurken bir hata oluştu: {e}")
+    elif selected_page == "Raporlama":
+        st.markdown("<h1 class='main-header'>📊Proje Raporlaması</h1>", unsafe_allow_html=True)
+        st.markdown("<h2 class='section-header'> Sonuçlar ve Yorumlar</h2>", unsafe_allow_html=True)
+        st.markdown("""
+        - En başarılı model: **Random Forest**,
+        - Overfitting gözlemlenmemiştir (train ve test R² yakın)
+        - Modelin en önemli değişkenleri:
+            - `neighbourhood_encoded`: mahalle ortalama fiyatı
+            - `latitude`, `longitude`: konum bilgisi
+            - `room_type_Entire home/apt`:
+        """)
+        st.markdown("<h2 class='section-header'> Çıkarımlar</h2>", unsafe_allow_html=True)
+        st.markdown("""
+        - Lokasyon ve mahalle ortalamaları fiyat üzerinde en baskın faktörlerdir.
+        - Ev fiyatları üzerinde 'oda tipi', 'yorum_sayısı'  da etkilemektedir.
+        - Model, düşük fiyatlı evlerde daha başarılı tahmin yaparken, uç değerlerde sapmalar yaşanmıştır.
+        """)
+    elif selected_page == "Fiyat Tahmin":
+        st.markdown("<h1 class='main-header'> Airbnb Fiyat Tahmin Aracı</h1>", unsafe_allow_html=True)
+        X, y, processed_df = preprocess_data(df)
+        rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
+        rf_model.fit(X, y)
+        st.markdown("<h2 class='section-header'>Bilgilerinizi Girin</h2>", unsafe_allow_html=True)
+        # Girişler
+        latitude = st.number_input("Latitude (Enlem)", value=40.75)
+        longitude = st.number_input("Longitude (Boylam)", value=-73.98)
+        minimum_nights = st.number_input("Minimum Konaklama Gecesi", min_value=1, value=3)
+        number_of_reviews = st.number_input("Yorum Sayısı", min_value=0, value=10)
+        reviews_per_month = st.number_input("Aylık Ortalama Yorum", min_value=0.0, value=0.5)
+        availability_365 = st.slider("Yıllık Müsaitlik (gün)", 0, 365, 180)
+        neighbourhood_encoded = st.slider("Mahalle Ortalama Fiyatı", min_value=20, max_value=500, value=150)
+        neighbourhood_group = st.selectbox("Bölge", ["Brooklyn", "Manhattan", "Queens", "Staten Island", "Bronx"])
+        room_type = st.selectbox("Oda Tipi", ["Private room", "Entire home/apt", "Shared room"])
+        # Özellik vektörü oluştur
+        input_data = {
+            "latitude": latitude,
+            "longitude": longitude,
+            "minimum_nights": minimum_nights,
+            "number_of_reviews": number_of_reviews,
+            "reviews_per_month": reviews_per_month,
+            "calculated_host_listings_count": 1,
+            "availability_365": availability_365,
+            "neighbourhood_encoded": neighbourhood_encoded,
+            "review_score": reviews_per_month * number_of_reviews,
+            "minimum_nights_log": np.log1p(minimum_nights),
+            "neighbourhood_group_Manhattan": 1 if neighbourhood_group == "Manhattan" else 0,
+            "neighbourhood_group_Queens": 1 if neighbourhood_group == "Queens" else 0,
+            "neighbourhood_group_Staten Island": 1 if neighbourhood_group == "Staten Island" else 0,
+            "neighbourhood_group_Bronx": 1 if neighbourhood_group == "Bronx" else 0,
+            "room_type_Private room": 1 if room_type == "Private room" else 0,
+            "room_type_Shared room": 1 if room_type == "Shared room" else 0
+        }
+        # Modelin beklediği sırayla dataframe'e dönüştür
+        input_df = pd.DataFrame([input_data], columns=X.columns)
+        # Tahmin
+        if st.button("Tahmini Fiyatı Göster"):
+            prediction = rf_model.predict(input_df)[0]
+            st.success(f"Tahmini Gecelik Fiyat: **${prediction:.2f}**")
 if __name__ == "__main__":
     pass