import os
print(os.listdir('../data'))

['.gitkeep', 'business.xlsx', 'economy.xlsx', 'get_data.py']

# MAIN LIBRARIES

# Data analysis and manipulation
import pandas as pd
import numpy as np
import re

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Modeling and evaluation
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# General configuration
import warnings
warnings.filterwarnings('ignore')

# Load data

econ = pd.read_excel('../data/economy.xlsx')
bus  = pd.read_excel('../data/business.xlsx')

# Display basic structure
print("Economy:", econ.shape, "rows x columns")
print("Business:", bus.shape, "rows x columns")

# First rows
display(econ.head(5))
display(bus.head(5))

# Data types
print("\nData types – Economy")
display(econ.dtypes)

Economy: (206774, 11) rows x columns
Business: (93487, 11) rows x columns

Data types – Economy

date          datetime64[ns]
airline               object
ch_code               object
num_code               int64
dep_time              object
from                  object
time_taken            object
stop                  object
arr_time              object
to                    object
price                  int64
dtype: object

# Percentage of missing values
nulls_econ = econ.isna().mean() * 100
nulls_bus = bus.isna().mean() * 100

print("Missing values in Economy:")
display(nulls_econ[nulls_econ > 0].sort_values(ascending=False))

print("\nMissing values in Business:")
display(nulls_bus[nulls_bus > 0].sort_values(ascending=False))

# Duplicates
dup_econ = econ.duplicated().sum()
dup_bus = bus.duplicated().sum()

print(f"\nDuplicates – Economy: {dup_econ} | Business: {dup_bus}")

Missing values in Economy:

Series([], dtype: float64)

Missing values in Business:

Series([], dtype: float64)

Duplicates – Economy: 2 | Business: 0

# Remove duplicates from the Economy dataset
econ = econ.drop_duplicates().reset_index(drop=True)
print(f"Economy after removing duplicates: {econ.shape}")

Economy after removing duplicates: (206772, 11)

# 1) Ensure `price` is numeric (handles comma formats like "1,14,434", spaces, or other symbols)
def clean_price(series: pd.Series) -> pd.Series:
    s = series.astype(str).str.strip()
    # Remove all non-numeric characters (supports "Indian-style" comma formats)
    s = s.str.replace(r'[^0-9]', '', regex=True)
    # Empty strings -> NA; use Int64 to tolerate NA during cleaning
    s = s.replace('', pd.NA).astype('Int64')
    return s

econ['price'] = clean_price(econ['price'])
bus['price']  = clean_price(bus['price'])

# Remove rows with NA price
before_e, before_b = len(econ), len(bus)
econ = econ.dropna(subset=['price']).reset_index(drop=True)
bus  = bus.dropna(subset=['price']).reset_index(drop=True)
print(f"[Economy] rows: {before_e} -> {len(econ)} (after normalizing 'price')")
print(f"[Business] rows: {before_b} -> {len(bus)} (after normalizing 'price')")

# Final cast to int (no NA values remaining)
econ['price'] = econ['price'].astype(int)
bus['price']  = bus['price'].astype(int)

# 2) Convert `time_taken` -> total minutes in `duration_mins`
def to_minutes(duration_str):
    if isinstance(duration_str, str):
        hours = re.findall(r'(\d+)h', duration_str)
        mins  = re.findall(r'(\d+)m', duration_str)
        h = int(hours[0]) if hours else 0
        m = int(mins[0])  if mins  else 0
        return h * 60 + m
    return pd.NA

econ['duration_mins'] = econ['time_taken'].apply(to_minutes).astype('Int64')
bus['duration_mins']  = bus['time_taken'].apply(to_minutes).astype('Int64')

print("Types (price, duration_mins) →",
      econ['price'].dtype, econ['duration_mins'].dtype,
      "|", bus['price'].dtype, bus['duration_mins'].dtype)

[Economy] rows: 206772 -> 206772 (after normalizing 'price')
[Business] rows: 93487 -> 93487 (after normalizing 'price')
Types (price, duration_mins) → int32 Int64 | int32 Int64

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

sns.histplot(econ['price'].dropna(), bins=50, kde=True, ax=axes[0])
axes[0].set_title('Price distribution – Economy')
axes[0].set_xlabel('Price')

sns.histplot(bus['price'].dropna(), bins=50, kde=True, ax=axes[1])
axes[1].set_title('Price distribution – Business')
axes[1].set_xlabel('Price')

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

sns.histplot(econ['duration_mins'].dropna(), bins=50, kde=True, ax=axes[0])
axes[0].set_title('Flight duration (min) – Economy')
axes[0].set_xlabel('Duration (min)')

sns.histplot(bus['duration_mins'].dropna(), bins=50, kde=True, ax=axes[1])
axes[1].set_title('Flight duration (min) – Business')
axes[1].set_xlabel('Duration (min)')

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.boxplot(y=econ['price'].dropna(), ax=axes[0])
axes[0].set_title('Outliers in price – Economy')

sns.boxplot(y=bus['price'].dropna(), ax=axes[1])
axes[1].set_title('Outliers in price – Business')

plt.tight_layout()
plt.show()

# IQR-based winsorization function

def iqr_capping(df, column, multiplier=1.5):
    """
    Applies IQR-based winsorization.
    Caps values below (Q1 - 1.5*IQR)
    and above (Q3 + 1.5*IQR).
    Returns the modified DataFrame and the limits.
    """
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - multiplier * IQR
    upper = Q3 + multiplier * IQR
    capped = df[column].clip(lower, upper)
    print(f"{column}: IQR range [{lower:.2f}, {upper:.2f}]")
    print(f"Capped values: {(df[column] != capped).sum()}")
    df[column] = capped
    return df, lower, upper

# Apply to both variables in both segments
econ, l1, u1 = iqr_capping(econ, 'price')
bus,  l2, u2 = iqr_capping(bus,  'price')
econ, l3, u3 = iqr_capping(econ, 'duration_mins')
bus,  l4, u4 = iqr_capping(bus,  'duration_mins')

price: IQR range [-1186.50, 13105.50]
Capped values: 13750
price: IQR range [22368.50, 83212.50]
Capped values: 3650
duration_mins: IQR range [-435.00, 1725.00]
Capped values: 2652
duration_mins: IQR range [-280.00, 1880.00]
Capped values: 90

fig, axes = plt.subplots(2, 2, figsize=(12, 8))

sns.boxplot(y=econ['price'], ax=axes[0,0], color='skyblue')
axes[0,0].set_title('Economy – price (after IQR capping)')

sns.boxplot(y=bus['price'], ax=axes[0,1], color='salmon')
axes[0,1].set_title('Business – price (after IQR capping)')

sns.boxplot(y=econ['duration_mins'], ax=axes[1,0], color='steelblue')
axes[1,0].set_title('Economy – duration_mins (after IQR capping)')

sns.boxplot(y=bus['duration_mins'], ax=axes[1,1], color='coral')
axes[1,1].set_title('Business – duration_mins (after IQR capping)')

plt.tight_layout()
plt.show()

# Calculate correlations for numerical variables
corr_econ = econ[['price', 'duration_mins']].corr()
corr_bus  = bus[['price', 'duration_mins']].corr()

print("Correlation – Economy:")
display(corr_econ)

print("Correlation – Business:")
display(corr_bus)

Correlation – Economy:

Correlation – Business:

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.scatterplot(data=econ, x='duration_mins', y='price', alpha=0.3, s=20, ax=axes[0], color='steelblue')
axes[0].set_title('Economy – price vs duration_mins')
axes[0].set_xlabel('Duration (min)')
axes[0].set_ylabel('Price')

sns.scatterplot(data=bus, x='duration_mins', y='price', alpha=0.3, s=20, ax=axes[1], color='salmon')
axes[1].set_title('Business – price vs duration_mins')
axes[1].set_xlabel('Duration (min)')
axes[1].set_ylabel('Price')

plt.tight_layout()
plt.show()

def normalize_stop(s):
    if pd.isna(s):
        return pd.NA
    t = str(s).lower()
    t = re.sub(r'\s+', ' ', t).strip()
    t = t.replace('non stop', 'non-stop').replace('non-stop', '0-stop')
    m = re.search(r'(\d+)\s*[- ]*\s*stop', t)
    if '0-stop' in t:
        n = 0
    elif m:
        n = int(m.group(1))
    else:
        mplus = re.search(r'(\d+)\s*\+\s*stop', t)
        if mplus: 
            n = int(mplus.group(1)) + 1
        else:
            return pd.NA
    if n == 0:
        return 'non-stop'
    elif n == 1:
        return '1-stop'
    else:
        return '2+-stops'

econ['stop_clean'] = econ['stop'].apply(normalize_stop)
bus['stop_clean']  = bus['stop'].apply(normalize_stop)

print(econ['stop_clean'].value_counts())
print(bus['stop_clean'].value_counts())

stop_clean
1-stop      166625
non-stop     27942
Name: count, dtype: int64
stop_clean
1-stop      84302
non-stop     8102
Name: count, dtype: int64

order = ['non-stop', '1-stop', '2+-stops']

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.boxplot(
    x='stop_clean', y='price',
    data=econ.dropna(subset=['stop_clean']),
    order=order, ax=axes[0]
)
axes[0].set_title('Economy – price by number of stops')
axes[0].set_xlabel('Stops')
axes[0].set_ylabel('Price')

sns.boxplot(
    x='stop_clean', y='price',
    data=bus.dropna(subset=['stop_clean']),
    order=order, ax=axes[1]
)

axes[1].set_title('Business – price by number of stops')
axes[1].set_xlabel('Stops')
axes[1].set_ylabel('Price')

plt.tight_layout()
plt.show()

# Top 10 airlines by average price (segment-wise)
mean_price_econ = (
    econ.groupby('airline', dropna=False)['price']
        .mean()
        .sort_values(ascending=False)
        .head(10)
)
mean_price_bus = (
    bus.groupby('airline', dropna=False)['price']
       .mean()
       .sort_values(ascending=False)
       .head(10)
)

# Comprobación 
display(mean_price_econ.to_frame('Average price – Economy'))
display(mean_price_bus.to_frame('Average price – Business'))

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

sns.barplot(
    x=mean_price_econ.values, 
    y=mean_price_econ.index, 
    hue=mean_price_econ.index, 
    palette='Blues_r', 
    legend=False, 
    ax=axes[0]
)
axes[0].set_title('Economy – Top 10 airlines by average price')
axes[0].set_xlabel('Average price')
axes[0].set_ylabel('Airline')

sns.barplot(
    x=mean_price_bus.values, 
    y=mean_price_bus.index, 
    hue=mean_price_bus.index, 
    palette='Reds_r', 
    legend=False, 
    ax=axes[1]
)
axes[1].set_title('Business – Top 10 airlines by average price')
axes[1].set_xlabel('Average price')
axes[1].set_ylabel('Airline')

plt.tight_layout()
plt.show()

# Clean copies
econ_clean = econ.copy()
bus_clean  = bus.copy()

# Rename columns
econ_clean = econ_clean.rename(columns={'from': 'origin', 'to': 'destination'})
bus_clean  = bus_clean.rename(columns={'from': 'origin', 'to': 'destination'})

# Drop irrelevant identifier columns
econ_clean = econ_clean.drop(columns=['ch_code', 'num_code'])
bus_clean  = bus_clean.drop(columns=['ch_code', 'num_code'])

# Normalize stops (preserve all possible categories)
econ_clean['stop_clean'] = econ_clean['stop'].astype(str).str.replace(r'[\n\t]+', ' ', regex=True).str.strip()
bus_clean['stop_clean']  = bus_clean['stop'].astype(str).str.replace(r'[\n\t]+', ' ', regex=True).str.strip()

# Extract month, day, and weekday from the date
econ_clean['month'] = pd.to_datetime(econ_clean['date'], errors='coerce').dt.month
econ_clean['day'] = pd.to_datetime(econ_clean['date'], errors='coerce').dt.day
econ_clean['weekday'] = pd.to_datetime(econ_clean['date'], errors='coerce').dt.weekday

bus_clean['month'] = pd.to_datetime(bus_clean['date'], errors='coerce').dt.month
bus_clean['day'] = pd.to_datetime(bus_clean['date'], errors='coerce').dt.day
bus_clean['weekday'] = pd.to_datetime(bus_clean['date'], errors='coerce').dt.weekday

# Remove raw date/time columns (no longer needed in X)
cols_time = ['date', 'dep_time', 'arr_time', 'time_taken']
econ_clean = econ_clean.drop(columns=[c for c in cols_time if c in econ_clean.columns])
bus_clean  = bus_clean.drop(columns=[c for c in cols_time if c in bus_clean.columns])

# Deep string cleaning: remove line breaks, tabs, and extra spaces
def limpiar_texto(col):
    if col.dtype == 'object':
        return col.astype(str).str.replace(r'[\n\t]+', ' ', regex=True).str.strip()
    return col

econ_clean = econ_clean.apply(limpiar_texto)
bus_clean  = bus_clean.apply(limpiar_texto)

cat_vars_e = [c for c in ['airline','origin','destination','stop_clean'] if c in econ_clean.columns]
cat_vars_b = [c for c in ['airline','origin','destination','stop_clean'] if c in bus_clean.columns]

num_vars_e = [c for c in ['duration_mins','month','day','weekday'] if c in econ_clean.columns]
num_vars_b = [c for c in ['duration_mins','month','day','weekday'] if c in bus_clean.columns]

# OHE without touching numeric variables
X_econ = pd.concat([econ_clean[num_vars_e], pd.get_dummies(econ_clean[cat_vars_e], drop_first=True)], axis=1)
X_bus  = pd.concat([bus_clean[num_vars_b],  pd.get_dummies(bus_clean[cat_vars_b],  drop_first=True)], axis=1)

y_econ = econ_clean['price'].astype(int)
y_bus  = bus_clean['price'].astype(int)

print("Economy – X:", X_econ.shape, "| y:", y_econ.shape)
print("Business – X:", X_bus.shape,  "| y:", y_bus.shape)

Economy – X: (206772, 57) | y: (206772,)
Business – X: (93487, 39) | y: (93487,)

scaler_e = MinMaxScaler()
scaler_b = MinMaxScaler()

X_econ_scaled = X_econ.copy()
X_bus_scaled  = X_bus.copy()

X_econ_scaled[num_vars_e] = scaler_e.fit_transform(X_econ_scaled[num_vars_e])
X_bus_scaled[num_vars_b]  = scaler_b.fit_transform(X_bus_scaled[num_vars_b])

print("Scaling applied only to:", num_vars_e)

Scaling applied only to: ['duration_mins', 'month', 'day', 'weekday']

X_train_e, X_test_e, y_train_e, y_test_e = train_test_split(
    X_econ_scaled, y_econ, test_size=0.2, random_state=123
)
X_train_b, X_test_b, y_train_b, y_test_b = train_test_split(
    X_bus_scaled, y_bus, test_size=0.2, random_state=123
)

print("Economy – Train/Test:", X_train_e.shape, X_test_e.shape)
print("Business – Train/Test:", X_train_b.shape, X_test_b.shape)

Economy – Train/Test: (165417, 57) (41355, 57)
Business – Train/Test: (74789, 39) (18698, 39)

### 4.5 Removing residual columns (object / datetime)

# Remove any residual object-type columns (e.g., 'stop')
cols_obj = X_train_e.select_dtypes(include='object').columns
if len(cols_obj) > 0:
    print("Text columns removed (Economy):", list(cols_obj))
    X_train_e = X_train_e.drop(columns=cols_obj)
    X_test_e  = X_test_e.drop(columns=cols_obj)

cols_obj_b = X_train_b.select_dtypes(include='object').columns
if len(cols_obj_b) > 0:
    print("Text columns removed (Business):", list(cols_obj_b))
    X_train_b = X_train_b.drop(columns=cols_obj_b)
    X_test_b  = X_test_b.drop(columns=cols_obj_b)

def evaluar_modelo(nombre, modelo, X_train, y_train, X_test, y_test):
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    
    resultados = pd.DataFrame({
        "Modelo": [nombre],
        "MAE": [mae],
        "RMSE": [rmse],
        "R²": [r2]
    })
    
    return resultados

# Models
ridge = Ridge(alpha=1.0)
rf = RandomForestRegressor(n_estimators=200, random_state=123)
gb = GradientBoostingRegressor(n_estimators=300, learning_rate=0.05, random_state=123)

# Economy evaluation
resultados_econ = pd.concat([
    evaluar_modelo("Ridge", ridge, X_train_e, y_train_e, X_test_e, y_test_e),
    evaluar_modelo("Random Forest", rf, X_train_e, y_train_e, X_test_e, y_test_e),
    evaluar_modelo("Gradient Boosting", gb, X_train_e, y_train_e, X_test_e, y_test_e)
], ignore_index=True)

# Business evaluation
resultados_bus = pd.concat([
    evaluar_modelo("Ridge", ridge, X_train_b, y_train_b, X_test_b, y_test_b),
    evaluar_modelo("Random Forest", rf, X_train_b, y_train_b, X_test_b, y_test_b),
    evaluar_modelo("Gradient Boosting", gb, X_train_b, y_train_b, X_test_b, y_test_b)
], ignore_index=True)

display(resultados_econ)
display(resultados_bus)

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.barplot(x='Modelo', y='R²', hue='Modelo', data=resultados_econ,
            palette='Blues', legend=False, ax=axes[0])
axes[0].set_title('Economy – R² comparison')

sns.barplot(x='Modelo', y='R²', hue='Modelo', data=resultados_bus,
            palette='Reds', legend=False, ax=axes[1])
axes[1].set_title('Business – R² comparison')

plt.tight_layout()
plt.show()

	date	airline	ch_code	num_code	dep_time	from	time_taken	stop	arr_time	to	price
0	2022-02-11	SpiceJet	SG	8709	18:55:00	Delhi	02h 10m	non-stop	21:05:00	Mumbai	5953
1	2022-02-11	SpiceJet	SG	8157	06:20:00	Delhi	02h 20m	non-stop	08:40:00	Mumbai	5953
2	2022-02-11	AirAsia	I5	764	04:25:00	Delhi	02h 10m	non-stop	06:35:00	Mumbai	5956
3	2022-02-11	Vistara	UK	995	10:20:00	Delhi	02h 15m	non-stop	12:35:00	Mumbai	5955
4	2022-02-11	Vistara	UK	963	08:50:00	Delhi	02h 20m	non-stop	11:10:00	Mumbai	5955

	date	airline	ch_code	num_code	dep_time	from	time_taken	stop	arr_time	to	price
0	2022-02-11	Air India	AI	868	18:00:00	Delhi	02h 00m	non-stop	20:00:00	Mumbai	25612
1	2022-02-11	Air India	AI	624	19:00:00	Delhi	02h 15m	non-stop	21:15:00	Mumbai	25612
2	2022-02-11	Air India	AI	531	20:00:00	Delhi	24h 45m	1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...	20:45:00	Mumbai	42220
3	2022-02-11	Air India	AI	839	21:25:00	Delhi	26h 30m	1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...	23:55:00	Mumbai	44450
4	2022-02-11	Air India	AI	544	17:15:00	Delhi	06h 40m	1-stop\n\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t...	23:55:00	Mumbai	46690

Segment	Correlation `price` – `duration_mins`
Economy	0.31
Business	0.24

	Average price – Economy
airline
Vistara	7484.399829
Air India	7001.725559
SpiceJet	6046.644601
GO FIRST	5587.036027
Indigo	5206.398098
StarAir	4860.909836
AirAsia	4007.103305
Trujet	3244.634146

	Average price – Business
airline
Vistara	55373.605324
Air India	47195.887622

Model	Type	Main characteristics
Ridge Regression	Linear	Introduces L2 regularization to control overfitting. Used as a baseline model due to its simplicity and interpretability.
Random Forest Regressor	Ensemble (bagging)	Combines multiple decision trees trained on random subsets. Captures non-linear relationships and handles variance effectively.
Gradient Boosting Regressor	Ensemble (boosting)	Trains trees sequentially, correcting residual errors from previous models. Often achieves high accuracy on tabular data at the cost of higher computational complexity.

	Modelo	MAE	RMSE	R²
0	Ridge	1467.493852	1920.838018	0.615342
1	Random Forest	585.683525	1110.255849	0.871489
2	Gradient Boosting	1135.728870	1556.337215	0.747477

	Modelo	MAE	RMSE	R²
0	Ridge	6690.613904	8614.589314	0.534524
1	Random Forest	2549.234778	4782.555600	0.856534
2	Gradient Boosting	5644.624314	7436.028760	0.653175

Segment	Model	MAE	RMSE	R²
Economy	Ridge	1467.49	1920.84	0.615
	Random Forest	585.68	1110.26	0.871
	Gradient Boosting	1135.73	1556.34	0.747
Business	Ridge	6690.61	8614.59	0.535
	Random Forest	2549.23	4782.56	0.857
	Gradient Boosting	5644.62	7436.03	0.653

Category	Tools
Language	Python 3.11
Data analysis & manipulation	`pandas`, `numpy`
Visualization	`matplotlib`, `seaborn`
Predictive modeling	`scikit-learn`
Preprocessing & scaling	`MinMaxScaler`, `OneHotEncoder`
Environment management	`Anaconda`, `Jupyter Notebook`
Version control	`Git` & `GitHub`

	price	duration_mins
price	1.000000	0.313434
duration_mins	0.313434	1.000000

	price	duration_mins
price	1.000000	0.243108
duration_mins	0.243108	1.000000

Segment	MAE (Mean Absolute Error)	RMSE (Root Mean Squared Error)	R²
Economy	586	1110	0.87
Business	2550	4783	0.86

Flight Price Prediction (Economy & Business)¶

Notebook map¶

1. Context and objective¶

2. Data and preparation¶

3. Exploratory Data Analysis (EDA)¶

3.1 Initial dataset review¶

Initial observations¶

Data quality: missing values and duplicates¶

Note¶

3.2 Distribution of numerical variables¶

Data preparation and cleaning¶

Price histograms by segment¶

Duration_mins histograms by segment¶

Boxplots for visual outlier detection¶

Observations from numerical analysis¶

3.3 Outlier treatment (IQR capping)¶

Objective¶

Outlier treatment (IQR capping)¶

Results¶

Visualization before and after¶

Boxplot interpretation¶

Conclusion¶

3.4 Bivariate analysis¶

Objective¶

Correlation between numerical variables¶

Correlation between numerical variables¶

Observations¶

Visualization: price vs duration_mins¶

Observation: Relationship between price and duration (duration_mins)¶

Observations¶

Cleaning the stop variable¶

Price by number of stops (clean boxplots)¶

Observation: Price by number of stops (stop_clean)¶

Observations¶

Average price by airline¶

Observation: Average price by airline¶

Observations¶

Conclusions¶

Overall EDA conclusion¶

4. Feature engineering¶

Objective¶

4.1 Data preprocessing¶

Objective¶

Cleaning and transforming categorical variables¶

4.2 Encoding categorical variables¶

Objective¶

Applied strategy¶

Note¶

4.3 Scaling numerical variables¶

Objective¶

Applied method¶

Note¶

4.4 Train/test split¶

Objective¶

Implementation¶

Note¶

4.5 Removing residual columns (object / datetime)¶

Objective¶

Implementation¶

Note¶

Overall conclusion of Feature Engineering¶

Summary of steps performed:¶

Results:¶

Conclusion¶

5. Modeling and Validation¶

Objective¶

5.1 Selected models¶

Interpretation¶

5.2 Model training and evaluation¶

Objective¶

Implementation¶

Implementation note¶

Observation: model evaluation¶

Performance by segment¶

Interpretation¶

Conclusion¶

5.3 Visual comparison of results¶

Observation: visual comparison of R²¶

Interpretation¶

Conclusion¶

Observation: Relationship between price and duration (`duration_mins`)¶

Cleaning the `stop` variable¶

Observation: Price by number of stops (`stop_clean`)¶