Pandas

https://www.independent.co.uk/arts-entertainment/films/films-best-1939-gone-with-wind-wizard-oz-wuthering-heights-a8852296.html
https://filmschoolrejects.com/best-year-in-movies-1975/
https://ew.com/article/2009/08/05/which-was-the-best-year-for-movies-1977-1994-or-1999/

Eeuwig debat onder film geeks. Wat was het beste jaar voor films? 1939? 1976? 1982? 1994?
Welke jaar is nou echt het beste jaar voor films (volgens IMDB)?

[2h] Stap 0:   
- Basis Pandas (in notebook of niet?):
    - Series maken
    - DataFrame maken
    - iloc (rijen/kolommen) selecteren
    - astype
    - mean
    - groupby + agg (count en mean)
    - groupby + head
    - to_csv/read_csv
    - plot

[6h] Stap 1 (bestand 1): 
- Gebruik beautiful soup om enkle imdb pagina (bevat 50 films) uit te lezen en stop in DF
    - (DOM, voorzover niet al behandeld in Homepage)
    - Beautiful soup
    - regex (krijgen ze cadeau)
    - pandas: DataFrame maken
    - pandas: astype

[2h] Stap 2 (bestand 2): 
- Gebruik code stap 1 om meerdere paginás te lezen (minstens 3000 films, 50 films per pagina, dus 60 paginas)
    - ze gaan films zonder jaartal tegenkomen. Jaartal -> 0
    - pandas: concat
    - pandas: jaar 

[2h] Stap 3 (bestand 3): 
- Bepaal het minimaal aantal paginas dat geladen moeten worden om een top 10 per jaar (1930-2020) te kunnen maken. Mag deels handmatig.
    - pandas: filter resultaten (gooi jaartallen 0 weg)
    - pandas: groupby + head(10)
    - pandas: groupby + agg count

[2h] Stap 4 (bestand 4): 
- Bepaal top 10 per jaar: barplot gemiddelde rating top 10.
    - pandas: groupby + head(10)
    - pandas: groupby + agg mean
    - plot




- Hergebruik SP2 Survival deel 1 + DataProc Acquisition ???
- Gebruik beautifulsoup, dus zit ook iets van HTML-kennis in

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Pandas #37

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Pandas #37

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions