-
Notifications
You must be signed in to change notification settings - Fork 4
Open
Description
https://www.independent.co.uk/arts-entertainment/films/films-best-1939-gone-with-wind-wizard-oz-wuthering-heights-a8852296.html
https://filmschoolrejects.com/best-year-in-movies-1975/
https://ew.com/article/2009/08/05/which-was-the-best-year-for-movies-1977-1994-or-1999/
Eeuwig debat onder film geeks. Wat was het beste jaar voor films? 1939? 1976? 1982? 1994?
Welke jaar is nou echt het beste jaar voor films (volgens IMDB)?
[2h] Stap 0:
- Basis Pandas (in notebook of niet?):
- Series maken
- DataFrame maken
- iloc (rijen/kolommen) selecteren
- astype
- mean
- groupby + agg (count en mean)
- groupby + head
- to_csv/read_csv
- plot
[6h] Stap 1 (bestand 1):
- Gebruik beautiful soup om enkle imdb pagina (bevat 50 films) uit te lezen en stop in DF
- (DOM, voorzover niet al behandeld in Homepage)
- Beautiful soup
- regex (krijgen ze cadeau)
- pandas: DataFrame maken
- pandas: astype
[2h] Stap 2 (bestand 2):
- Gebruik code stap 1 om meerdere paginás te lezen (minstens 3000 films, 50 films per pagina, dus 60 paginas)
- ze gaan films zonder jaartal tegenkomen. Jaartal -> 0
- pandas: concat
- pandas: jaar
[2h] Stap 3 (bestand 3):
- Bepaal het minimaal aantal paginas dat geladen moeten worden om een top 10 per jaar (1930-2020) te kunnen maken. Mag deels handmatig.
- pandas: filter resultaten (gooi jaartallen 0 weg)
- pandas: groupby + head(10)
- pandas: groupby + agg count
[2h] Stap 4 (bestand 4):
-
Bepaal top 10 per jaar: barplot gemiddelde rating top 10.
- pandas: groupby + head(10)
- pandas: groupby + agg mean
- plot
-
Hergebruik SP2 Survival deel 1 + DataProc Acquisition ???
-
Gebruik beautifulsoup, dus zit ook iets van HTML-kennis in
Metadata
Metadata
Assignees
Labels
No labels