igdb/code/database/parser.py

from iso3166 import countries as co
from pandas import DataFrame, concat, read_csv
from csv import QUOTE_NONNUMERIC
from constants import ADMIN_PW


def country_conversion(political_unit) -> str:
    if political_unit == "99":
        return "99"
    codes = co.get(political_unit)
    return codes.name


def select_columns() -> DataFrame:
    min_year = 2010
    fields = [
        "POLITICAL_UNIT",
        "NAME",
        "WGMS_ID",
        "YEAR",
        "MEDIAN_ELEVATION",
        "AREA",
        "LENGTH",
    ]
    iter_csv = read_csv(
        "../data/WGMS-FoG-2019-12-B-STATE.csv",
        skipinitialspace=True,
        usecols=fields,
        iterator=True,
        chunksize=100,
        converters={"POLITICAL_UNIT": country_conversion},
    )
    data = concat([chunk[chunk["YEAR"] > min_year] for chunk in iter_csv])
    return data


def rename_fields(df_list):
    new_df_list = {}
    new_fields = {
        "POLITICAL_UNIT": "country",
        "NAME": "name",
        "WGMS_ID": "uid",
        "YEAR": "year",
        "MEDIAN_ELEVATION": "elevation",
        "AREA": "surface",
        "LENGTH": "length",
    }
    for key, value in df_list.items():
        new_df_list[key] = value.rename(columns=new_fields)
    return new_df_list


def create_databases(df):
    user = {"uid": [7843], "username": ["admin"], "password": [ADMIN_PW]}
    files = {
        "glacier": "../data/glacier.csv",
        "annual_data": "../data/annual_data.csv",
        "annual_change": "../data/annual_change.csv",
        "user": "../data/user.csv",
    }
    dataframes = {
        "glacier": df[["POLITICAL_UNIT", "NAME", "WGMS_ID"]].drop_duplicates(),
        "annual_data": df[["WGMS_ID", "YEAR", "AREA", "MEDIAN_ELEVATION", "LENGTH"]],
        "annual_change": df[["WGMS_ID", "YEAR"]],
        "user": DataFrame(user),
    }
    renamed_dfs = rename_fields(dataframes)
    for key, val in renamed_dfs.items():
        val.to_csv(files[key], index=False, quoting=QUOTE_NONNUMERIC)


def main():
    df = select_columns()
    create_databases(df)


if __name__ == "__main__":
    main()
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`from iso3166 import countries as co`
Add csv parser 2020-01-06 06:34:35 +01:00			`from pandas import DataFrame, concat, read_csv`
			`from csv import QUOTE_NONNUMERIC`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`from constants import ADMIN_PW`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00

Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`def country_conversion(political_unit) -> str:`
Replace 'CHANGE' database with 'STATE' 2020-01-06 11:12:55 +01:00			`if political_unit == "99":`
			`return "99"`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`codes = co.get(political_unit)`
			`return codes.name`


			`def select_columns() -> DataFrame:`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`min_year = 2010`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`fields = [`
			`"POLITICAL_UNIT",`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`"NAME",`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`"WGMS_ID",`
			`"YEAR",`
Replace 'CHANGE' database with 'STATE' 2020-01-06 11:12:55 +01:00			`"MEDIAN_ELEVATION",`
			`"AREA",`
			`"LENGTH",`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`]`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`iter_csv = read_csv(`
Replace 'CHANGE' database with 'STATE' 2020-01-06 11:12:55 +01:00			`"../data/WGMS-FoG-2019-12-B-STATE.csv",`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`skipinitialspace=True,`
			`usecols=fields,`
			`iterator=True,`
			`chunksize=100,`
Add csv parser 2020-01-06 06:34:35 +01:00			`converters={"POLITICAL_UNIT": country_conversion},`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`)`
			`data = concat([chunk[chunk["YEAR"] > min_year] for chunk in iter_csv])`
			`return data`
Add csv parser 2020-01-06 06:34:35 +01:00

Add SQL insertion functionality 2020-01-08 01:23:00 +01:00			`def rename_fields(df_list):`
			`new_df_list = {}`
			`new_fields = {`
			`"POLITICAL_UNIT": "country",`
			`"NAME": "name",`
			`"WGMS_ID": "uid",`
			`"YEAR": "year",`
			`"MEDIAN_ELEVATION": "elevation",`
			`"AREA": "surface",`
			`"LENGTH": "length",`
			`}`
			`for key, value in df_list.items():`
			`new_df_list[key] = value.rename(columns=new_fields)`
			`return new_df_list`


Create different DBs for each table 2020-01-06 08:31:21 +01:00			`def create_databases(df):`
Fix duplicate 'users' table insertion 2020-01-08 01:47:12 +01:00			`user = {"uid": [7843], "username": ["admin"], "password": [ADMIN_PW]}`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`files = {`
			`"glacier": "../data/glacier.csv",`
Fix duplicate 'users' table insertion 2020-01-08 01:47:12 +01:00			`"annual_data": "../data/annual_data.csv",`
			`"annual_change": "../data/annual_change.csv",`
			`"user": "../data/user.csv",`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`}`
			`dataframes = {`
			`"glacier": df[["POLITICAL_UNIT", "NAME", "WGMS_ID"]].drop_duplicates(),`
Fix duplicate 'users' table insertion 2020-01-08 01:47:12 +01:00			`"annual_data": df[["WGMS_ID", "YEAR", "AREA", "MEDIAN_ELEVATION", "LENGTH"]],`
			`"annual_change": df[["WGMS_ID", "YEAR"]],`
			`"user": DataFrame(user),`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`}`
Add SQL insertion functionality 2020-01-08 01:23:00 +01:00			`renamed_dfs = rename_fields(dataframes)`
			`for key, val in renamed_dfs.items():`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`val.to_csv(files[key], index=False, quoting=QUOTE_NONNUMERIC)`


Add csv parser 2020-01-06 06:34:35 +01:00			`def main():`
			`df = select_columns()`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`create_databases(df)`
Add csv parser 2020-01-06 06:34:35 +01:00

			`if __name__ == "__main__":`
			`main()`