背景・目的
本記事では,機械学習で画像から魚を検出や分類する際に使用可能なデータセットをまとめてご紹介します.魚のデータセットも野菜や果実などのデータセットと同様に数多く公開されていますが,情報がまとまっていません.また,適切な処理がされていないようなデータセットが公開されている場合もあります.そこで,本記事ではある程度情報が充実しているデータセットを厳選して紹介しています.皆様の活動の一助になれば幸いです.
データセット
🐟🐟🐟Fish Species Image Data
このデータセットは,魚の分類に使用できるデータセットです.画像枚数は3960枚で種数が468と規模としては十分な一方で,データセットには魚の絵のような画像も含まれているため,使用する場合は前処理が必要になると思います.画像は,”controlled”,”out-of-the-water”および”in-situ”の3条件で撮影されたとの記載がありました.”controlled”で撮影された画像は,制御された照明のもとで一定の背景のもと,ひれを広げた魚の標本を撮影したもので,”in-situ”で撮影された画像は,自然の生息地にいる魚の水中画像,”out-of-the-water”で撮影された画像は,水から取り出した魚の標本を制御された照明条件のもと,さまざまな背景で撮影したものとの記載がありました.ライセンスがCC BY-SA 3.0のため,諸条件に従えば営利目的でも利用が可能です.
3960枚
3クラス(魚の種類のクラスではなく,画像の撮影環境のクラスであることに注意)
- controlled:制御された照明のもとで一定の背景のもと,ひれを広げた魚の標本を撮影
- out-of-the-water:自然の生息地にいる魚の水中画像
- in-situ:水から取り出した魚の標本を制御された照明条件のもと,さまざまな背景で撮影
- 画像によって異なる.
CC BY-SA 3.0
Sripaad Srinivasan
Anantharajah, K., Ge, Z., McCool, C., Denman, S., Fookes, C., Corke, P., Tjondronegoro, D., Sridharan, S. 2014. Local inter-session variability modelling for object classification. IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, CO, USA, pp.309-316. https://doi.org/10.1109/WACV.2014.6836084
A Large Scale Fish Dataset
このデータセットは,魚の分類およびセグメンテーションに使用できるデータセットです.このデータセットは,トルコのイスミル経済大学の産学連携プロジェクトで収集されたデータで,トルコのイスミルにあるスーパーマーケットで収集された 9 種類の魚介類の画像で構成されています.データセットには,複数のカメラを用いて撮影されたヨーロッパヘダイ,マダイ,スズキ,ヒメジ,アジ,クロソイ,シマヒメジ,マス,エビの画像が含まれています.画像枚数はRGB画像1000枚で,各RGB画像を二値化した画像が1000枚の合計2000枚です.いずれの画像も実際に泳いでいる姿ではなく,食料として調理する前の画像に近いため,実環境における魚の検出などには使いにくいデータセットになっています.ライセンスがCC BY-SA 4.0のため,諸条件に従えば営利目的でも利用が可能です.
RGB画像:1000枚
二値化画像:1000枚
9クラス
- gilt head bream:ヨーロッパヘダイ
- red sea bream:マダイ
- sea bass:スズキ
- red mullet:ヒメジ
- horse mackerel:アジ
- black sea sprat:クロソイ
- striped red mullet:シマヒメジ
- trout:マス
- shrimp:エビ
- 550×445 px
CC BY 4.0
Ulucan, O.
Ulucan, O., Karakaya, D., Turkan, M. 2020. A large-scale dataset for fish segmentation and classification.
In Conf. Innovations Intell. Syst. Appli. (ASYU). pp.1-5. https://doi.org/10.1109/ASYU50717.2020.9259867
Deep Fish
このデータセットは,魚の物体検出に使用できるデータセットです.このデータセットは,YOLOベースの物体検出タスクで直接利用できるように処理されています.データセットは,さまざまな魚種の高解像度画像で構成されています.各画像ファイルは,各アノテーションファイル (.txt ファイル) に関連付けられています.ライセンスは,MITになっていました.
39,776枚
1クラス
- fish:魚
- 1920×1080 px
MIT
Saleh, A.
Saleh, A., Laradji, I. H., Konovalov, D. A., Bradly, M., Vazquez, D., Sheaves, M. 2020. A realistic fish-habitat dataset to evaluate algorithms for underwater visual analysis. scientific reports. pp.14671. https://doi.org/10.1038/s41598-020-71639-x
Fish Dataset
このデータセットは,魚の分類に使用できるデータセットです.このデータセットは,31種の魚の画像を13,304枚で構成されています.各画像は,泳いでいる姿もあれば調理された後の画像も含まれています.そのため,たとえば泳いでいる魚を検出して分類するなどのタスクでは,画像のフィルタリングが必要になると思います.また,クラス名がフィリピンでの呼び名などで構成されているため,魚種が何かを明らかにしてから使う必要があるかと思います.ライセンスは,Community Data License Agreement – Sharing – Version 1.0になっています.
13,304枚
9クラス
- Bangus:バンガス(英名では,Milkfish)
- Big Head Carp:コクレン
- Black Spotted Barb:クロブチバーブ(日本語名不明のため,ChaptGPTの出力を掲載)
- Catfish:ナマズ
- Climbing Perch:キノボリウオ
- Fourfinger Threadfin:ミナミコノシロ
- Freshwater Eel:ウナギ
- Glass Perchlet:ガラスパーチレット
- Goby:ハゼ
- Gold Fish:金魚(きんぎょ)
- Gourami:グラミー
- Grass Carp:ソウギョ
- Green Spotted Puffer:ミドリフグ
- Indian Carp:インドゴイ
- Indo-Pacific Tarpon:イセゴイ
- Jaguar Gapote:ジャガーガポテ(日本語名不明のため,ChaptGPTの出力を掲載)
- Janitor Fish:ジャニターフィッシュ(日本語名不明のため,ChaptGPTの出力を掲載)
- Knifefish:ナイフフィッシュ
- Long-Snouted Pipefish:ヨウジウオ
- Mosquito Fish:カダヤシ
- Mudfish:ドジョウ
- Mullet:ボラ
- Pangasius:バンガシウス
- Perch:パーチ
- Scat Fish:スカットフィッシュ
- Silver Barb:シルバーバーブ(日本語名不明のため,ChaptGPTの出力を掲載)
- Silver Carp:ハクレン
- Silver Perch:シルバーパーチ
- Snakehead:ライギョ
- Tenpounder:ターポンに似ているが、より小型の釣魚
- Tilapia:ティラピア
- 画像によって異なる.
Community Data License Agreement – Sharing – Version 1.0
Mark Daniel Lampa, Rose Claire Librojo, Mary Mae Calamba
Mark Daniel Lampa, Rose Claire Librojo, and Mary Mae Calamba. (2022). Fish Dataset [Data set]. Kaggle. https://doi.org/10.34740/kaggle/dsv/4323384
引用文献やサイト
- Anantharajah, K., Ge, Z., McCool, C., Denman, S., Fookes, C., Corke, P., Tjondronegoro, D., Sridharan, S. 2014. Local inter-session variability modelling for object classification. IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, CO, USA, pp.309-316. https://doi.org/10.1109/WACV.2014.6836084
- Ulucan, O., Karakaya, D., Turkan, M. 2020. A large-scale dataset for fish segmentation and classification.
In Conf. Innovations Intell. Syst. Appli. (ASYU). pp.1-5. https://doi.org/10.1109/ASYU50717.2020.9259867 - Saleh, A., Laradji, I. H., Konovalov, D. A., Bradly, M., Vazquez, D., Sheaves, M. 2020. A realistic fish-habitat dataset to evaluate algorithms for underwater visual analysis. scientific reports. pp.14671. https://doi.org/10.1038/s41598-020-71639-x
- Mark Daniel Lampa, Rose Claire Librojo, and Mary Mae Calamba. (2022). Fish Dataset [Data set]. Kaggle. https://doi.org/10.34740/kaggle/dsv/4323384