Skip to content

Pandas #37

@stgm

Description

@stgm

https://www.independent.co.uk/arts-entertainment/films/films-best-1939-gone-with-wind-wizard-oz-wuthering-heights-a8852296.html
https://filmschoolrejects.com/best-year-in-movies-1975/
https://ew.com/article/2009/08/05/which-was-the-best-year-for-movies-1977-1994-or-1999/

Eeuwig debat onder film geeks. Wat was het beste jaar voor films? 1939? 1976? 1982? 1994?
Welke jaar is nou echt het beste jaar voor films (volgens IMDB)?

[2h] Stap 0:

  • Basis Pandas (in notebook of niet?):
    • Series maken
    • DataFrame maken
    • iloc (rijen/kolommen) selecteren
    • astype
    • mean
    • groupby + agg (count en mean)
    • groupby + head
    • to_csv/read_csv
    • plot

[6h] Stap 1 (bestand 1):

  • Gebruik beautiful soup om enkle imdb pagina (bevat 50 films) uit te lezen en stop in DF
    • (DOM, voorzover niet al behandeld in Homepage)
    • Beautiful soup
    • regex (krijgen ze cadeau)
    • pandas: DataFrame maken
    • pandas: astype

[2h] Stap 2 (bestand 2):

  • Gebruik code stap 1 om meerdere paginás te lezen (minstens 3000 films, 50 films per pagina, dus 60 paginas)
    • ze gaan films zonder jaartal tegenkomen. Jaartal -> 0
    • pandas: concat
    • pandas: jaar

[2h] Stap 3 (bestand 3):

  • Bepaal het minimaal aantal paginas dat geladen moeten worden om een top 10 per jaar (1930-2020) te kunnen maken. Mag deels handmatig.
    • pandas: filter resultaten (gooi jaartallen 0 weg)
    • pandas: groupby + head(10)
    • pandas: groupby + agg count

[2h] Stap 4 (bestand 4):

  • Bepaal top 10 per jaar: barplot gemiddelde rating top 10.

    • pandas: groupby + head(10)
    • pandas: groupby + agg mean
    • plot
  • Hergebruik SP2 Survival deel 1 + DataProc Acquisition ???

  • Gebruik beautifulsoup, dus zit ook iets van HTML-kennis in

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions