igdb/code/database/parser.py

from iso3166 import countries as co
from pandas import DataFrame, concat, read_csv
from csv import QUOTE_NONNUMERIC
from constants import ADMIN_PW


def country_conversion(political_unit) -> str:
    codes = co.get(political_unit)
    return codes.name


def select_columns() -> DataFrame:
    min_year = 2010
    fields = [
        "POLITICAL_UNIT",
        "NAME",
        "WGMS_ID",
        "YEAR",
        "AREA_SURVEY_YEAR",
        "AREA_CHANGE",
        "THICKNESS_CHG",
        "VOLUME_CHANGE",
    ]
    iter_csv = read_csv(
        "../data/WGMS-FoG-2019-12-D-CHANGE.csv",
        skipinitialspace=True,
        usecols=fields,
        iterator=True,
        chunksize=100,
        converters={"POLITICAL_UNIT": country_conversion},
    )
    data = concat([chunk[chunk["YEAR"] > min_year] for chunk in iter_csv])
    return data


def create_databases(df):
    users = {"UID": [7843], "USERNAME": ["admin"], "PASSWORD": [ADMIN_PW]}
    files = {
        "glacier": "../data/glacier.csv",
        "annual_data": "../data/annual_data.csv",
        "annual_change": "../data/annual_change.csv",
        "users": "../data/users.csv",
    }
    dataframes = {
        "glacier": df[["POLITICAL_UNIT", "NAME", "WGMS_ID"]].drop_duplicates(),
        "annual_data": df[["WGMS_ID", "YEAR", "AREA_SURVEY_YEAR"]],
        "annual_change": df[
            ["WGMS_ID", "YEAR", "AREA_CHANGE", "THICKNESS_CHG", "VOLUME_CHANGE"]
        ],
        "users": DataFrame(users),
    }
    for key, val in dataframes.items():
        val.to_csv(files[key], index=False, quoting=QUOTE_NONNUMERIC)


def main():
    df = select_columns()
    create_databases(df)


if __name__ == "__main__":
    main()
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`from iso3166 import countries as co`
Add csv parser 2020-01-06 06:34:35 +01:00			`from pandas import DataFrame, concat, read_csv`
			`from csv import QUOTE_NONNUMERIC`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`from constants import ADMIN_PW`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00

Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`def country_conversion(political_unit) -> str:`
			`codes = co.get(political_unit)`
			`return codes.name`


			`def select_columns() -> DataFrame:`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`min_year = 2010`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`fields = [`
			`"POLITICAL_UNIT",`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`"NAME",`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`"WGMS_ID",`
			`"YEAR",`
			`"AREA_SURVEY_YEAR",`
			`"AREA_CHANGE",`
Add csv parser 2020-01-06 06:34:35 +01:00			`"THICKNESS_CHG",`
Create constants file and move tables to db_setup 2020-01-05 02:51:14 +01:00			`"VOLUME_CHANGE",`
			`]`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`iter_csv = read_csv(`
Add csv parser 2020-01-06 06:34:35 +01:00			`"../data/WGMS-FoG-2019-12-D-CHANGE.csv",`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`skipinitialspace=True,`
			`usecols=fields,`
			`iterator=True,`
			`chunksize=100,`
Add csv parser 2020-01-06 06:34:35 +01:00			`converters={"POLITICAL_UNIT": country_conversion},`
Rename code folder and add filters to parser 2020-01-05 01:00:06 +01:00			`)`
			`data = concat([chunk[chunk["YEAR"] > min_year] for chunk in iter_csv])`
			`return data`
Add csv parser 2020-01-06 06:34:35 +01:00

Create different DBs for each table 2020-01-06 08:31:21 +01:00			`def create_databases(df):`
			`users = {"UID": [7843], "USERNAME": ["admin"], "PASSWORD": [ADMIN_PW]}`
			`files = {`
			`"glacier": "../data/glacier.csv",`
			`"annual_data": "../data/annual_data.csv",`
			`"annual_change": "../data/annual_change.csv",`
			`"users": "../data/users.csv",`
			`}`
			`dataframes = {`
			`"glacier": df[["POLITICAL_UNIT", "NAME", "WGMS_ID"]].drop_duplicates(),`
			`"annual_data": df[["WGMS_ID", "YEAR", "AREA_SURVEY_YEAR"]],`
			`"annual_change": df[`
			`["WGMS_ID", "YEAR", "AREA_CHANGE", "THICKNESS_CHG", "VOLUME_CHANGE"]`
			`],`
			`"users": DataFrame(users),`
			`}`
			`for key, val in dataframes.items():`
			`val.to_csv(files[key], index=False, quoting=QUOTE_NONNUMERIC)`


Add csv parser 2020-01-06 06:34:35 +01:00			`def main():`
			`df = select_columns()`
Create different DBs for each table 2020-01-06 08:31:21 +01:00			`create_databases(df)`
Add csv parser 2020-01-06 06:34:35 +01:00

			`if __name__ == "__main__":`
			`main()`