背景・目的
本記事では,画像を用いた物体検出や分類のための野菜や果物のデータセットを紹介します.野菜や果実のデータセットは数多く公開されていますが,レビュー論文,kaggleやMendely Dataなどのプラットフォーム以外は情報がまとまっていません.また,適切な処理がされていないようなデータセットが公開されている場合もあります.そこで,本記事ではある程度情報が充実しているデータセットを厳選して紹介しています.皆様の活動の一助になれば幸いです.
データセット
Laboro Tomato
トマトの物体検出のためのデータセットです.株式会社Laboro.AIが公開しています.このデータセットは,物体検出のなかでもインスタンスセグメンテーションを目的に作られているデータセットです.GitHub上では,このデータセットを用いたpre-trainedモデルも公開されています.ライセンスはCC BY-NC 4.0で非商用目的に限り無料公開となっており,商用目的で利用する場合は要問合せとなっています.
804枚
6クラス
- b_fully_ripened:通常サイズのトマト・成熟
- b_half_ripened:通常サイズのトマト・半熟
- b_green:通常サイズのトマト・緑熟
- l_fully_ripened:ミニトマト・成熟
- l_half_ripened:ミニトマト・半熟
- l_green:ミニトマト・緑熟
- 3024×4032 px
- 3120×4160 px
CC BY-NC 4.0
株式会社Laboro.AI
VegNet
Vegetable Dataset with quality (Unripe, Ripe, Old, Dried and Damaged)という画像分類用のデータセットです.Bell Pepper(ピーマン),Tomato(トマト),Chili Pepper(トウガラシ)およびNew Mexico Chile(ニューメキシコ・チリ:ニューメキシコ州を代表するトウガラシ)の4つの野菜の画像を対象に,5つのクラス:Unripe(未熟),Ripe(成熟),Old(古いもの),Dried(乾燥したもの)およびDamaged(損傷しているもの)を付与した6850枚の画像データセットとなっています.データは,jpg形式でスマートフォンのカメラで撮影されたものとなっています.
6850枚
5クラス
- Unripe:未熟
- Ripe:成熟
- Old:古いもの
- Dried:乾燥したもの
- Damaged:損傷しているもの
4624×3472 px:元画像
256×256 px:Pythonを用いた変換後
CC BY 4.0
Suryawanshi, Y., Patil, K., Chumchu, P.
Suryawanshi, Y., Patil, K., Chumchu, P. 2022. VegNet: Dataset of vegetable quality images for machine learning applications. Data in Brief, 45, 108657. https://doi.org/10.1016/j.dib.2022.108657
Vegetable Image Dataset
野菜15種の分類用データセットです.画像枚数は,総計21000枚で1クラスは1400枚の画像で構成されています.画像サイズは,224×224 pxです.kaggleで公開されているデータセットでは,70%が学習用データ,15%が検証用データ,残りの15%がテスト用データとなっています.
21000枚
15クラス
- bean:インゲン?エンドウ?
- bitter gourd:ゴーヤ
- bottle gourd:ヒョウタン
- brinjal:ナス
- broccoli:ブロッコリー
- cabbage:キャベツ
- capsicum:(ピーマンに近い形状の)トウガラシ
- carrot:ニンジン
- cauliflower:カリフラワー
- cucumber:キュウリ
- papaya:パパイヤ
- potato:ジャガイモ
- pumpkin:カボチャ
- radish:ラディッシュ
- tomato:トマト
224×224 px
CC BY-SA 4.0
Ahmed, M.I., Mamun, S.M., Asif, A.U.Z.
Ahmed, M.I., Mamun, S.M., Asif, A.U.Z. 2021. DCNN-Based Vegetable Image Classification Using Transfer Learning: A Comparative Study. 5th International Conference on Computer, Communication and Signal Processing (ICCCSP), Chennai, India, 235-243. https://doi.org/10.1109/ICCCSP52374.2021.9465499.
Fruits and Vegetables Image Recognition Dataset
野菜36種の分類用データセットです.画像枚数は,総計3825枚で1クラスは約120枚の画像で構成されています.画像サイズは,統一されていません.kaggleで公開されているデータセットでは,100枚程度が学習用データ,10枚程度が検証用データ,10枚程度がテスト用データとなっています.
3825枚
36クラス
- banana:バナナ
- apple:リンゴ
- pear:ナシ
- grapes:ブドウ
- orange:ミカン
- kiwi:キウイフルーツ
- watermelon:スイカ
- pomegranate:ザクロ
- pineapple:パイナップル
- mango:マンゴー
- cucumber:キュウリ
- carrot:ニンジン
- capsicum:(ピーマンに近い形状の)トウガラシ
- onion:タマネギ
- potato:ジャガイモ
- lemon:レモン
- tomato:トマト
- radish:ラディッシュ
- beetroot:ビーツ
- cabbage:キャベツ
- lettuce:レタス
- spinach:ホウレンソウ
- soy bean:ダイズ
- cauliflower:カリフラワー
- bell pepper:ピーマン
- chili pepper:トウガラシ
- turnip:カブ
- corn:トウモロコシ
- sweetcorn:(一般的に食用の)トウモロコシ
- sweet potato:サツマイモ
- paprika:パプリカ
- jalepeño:ハラペーニョ
- ginger:ショウガ
- garlic:ニンニク
- peas:エンドウ
- eggplant:ナス
画像によって異なる
CC0: Public Domain
Seth, K.
Seth, K. 2020. Fruits and Vegetables Image Recognition Dataset. Kaggle. https://www.kaggle.com/kritikseth/fruit-and-vegetable-image-recognition.
Fruits-360: A dataset of images containing fruits and vegetables
こちらも野菜や果物の画像のデータセットです.画像枚数が90483枚と非常に充実しているデータセットです.野菜や果物が品種,色や状態(殻付き)などごとに分けられているのがこのデータセットの良い点だと思います.恐らく,このデータセットに入っている野菜や果物のクラス名を日本語訳しているのは本記事だけだと思います(筆者が頑張りました...).
90483枚
131クラス
- Apples:リンゴ
- Crimson Snow
- Golden
- Golden-Red
- Granny Smith
- Pink Lady
- Red
- Red Delicious
- Apricot :アプリコット
- Avocado:アボカド
- Avocado ripe:(アボカド系の何かだと思いますが)不明
- Banana:バナナ
- Yellow
- Red
- Lady Finger
- Beetroot Red:ビーツ
- Blueberry:ブルーベリー
- Cactus fruit:サボテン
- Cantaloupe:カンタロープ(ヨーロッパ南部,アメリカやタイなどで露地栽培される赤肉種のマスクメロン)
- 2 varieties
- Carambola(データセット内では,Carambulaになっている):スターフルーツ
- Cauliflower:カリフラワー
- Cherry:サクランボ
- different varieties
- Rainier
- Cherry Wax:不明
- Yellow
- Red
- Black
- Chestnut:クリ
- Clementine:(小さな甘い)ミカン
- Cocos:ヤシ
- Corn:トウモロコシ
- with husk
- Cucumber:キュウリ
- ripened
- Dates:デーツ
- Eggplant:ナス
- Fig:イチジク
- Ginger Root:ショウガ
- Granadilla:グラナディア
- Grape:ブドウ
- Blue
- Pink
- White (different varieties)
- Grapefruit:グレープフルーツ
- Pink
- White
- Guava:グアバ
- Hazelnut:ヘーゼルナッツ
- Huckleberry:ハックルベリー
- Kiwi:キウイフルーツ
- Kaki:カキ
- Kohlrabi:コールラビ
- Kumsquats:キンカン
- Lemon:レモン
- normal
- Meyer
- Lime:ライム
- Lychee:レイシ
- Mandarine:マンダリンオレンジ
- Mango:マンゴー
- Green
- Red
- Mangosteen(データセット内では,Mangostanになっている):マンゴスチン
- Maracuja:マラクジャ
- Melon Piel de Sapo:サンタクロースメロン
- Mulberry:クワ
- Nectarine:ネクタリン
- Regular
- Flat
- Nut:ナッツ
- Forest
- Pecan
- Onion:タマネギ
- Red
- White
- Orange:オレンジ
- Papaya:パパイヤ
- Passion fruit:パッションフルーツ
- Peach:モモ
- different varieties
- Pepino:ペピーノ
- Pear:ナシ
- different varieties
- Abate
- Forelle
- Kaiser
- Monster
- Red
- Stone
- Williams
- Pepper:トウガラシ
- Red
- Green
- Orange
- Yellow
- Physalis:ホオズキ
- normal
- with Husk
- Pineapple:パイナップル
- normal
- Mini
- Pitahaya Red:ドラゴンフルーツ
- Plum:プラム
- different varieties
- Pomegranate:ザクロ
- Pomelo Sweetie:スウィーティー
- Potato:ジャガイモ
- Red
- Sweet
- White
- Quince:マルメロ
- Rambutan:ランブータン
- Raspberry:ラズベリー
- Redcurrant:フサスグリ
- Salak:サラク
- Strawberry:イチゴ
- normal
- Wedge
- Tamarillo:タマリロ
- Tangelo:タンジェロ
- Tomato:トマト
- different varieties
- Maroon
- Cherry Red
- Yellow
- not ripened
- Heart
- Walnut:クルミ
- Watermelon:スイカ
100×100 px
MIT license
Muresan, H., Oltean, M.
Muresan, H., Oltean, M. 2018. Fruit recognition from images using deep learning, Acta Univ. Sapientiae, Informatica, 10, 1, 26-42.
引用文献やサイト
- 株式会社Laboro.AI. 2020. トマト画像物体検出データセット『Laboro Tomato』を公開. https://laboro.ai/activity/column/engineer/laboro-tomato/, accessed on 9 February 2024.
- Suryawanshi, Y., Patil, K., Chumchu, P. 2022. VegNet: Dataset of vegetable quality images for machine learning applications. Data in Brief, 45, 108657. https://doi.org/10.1016/j.dib.2022.108657
- Ahmed, M.I., Mamun, S.M., Asif, A.U.Z. 2021. DCNN-Based Vegetable Image Classification Using Transfer Learning: A Comparative Study. 5th International Conference on Computer, Communication and Signal Processing (ICCCSP), Chennai, India, 235-243. 10.1109/ICCCSP52374.2021.9465499.
- Ahmed, M.I., Mamun, S.M. 2021. Vegetable Image Dataset [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/2965251
- Seth, K. 2020. Fruits and Vegetables Image Recognition Dataset. Kaggle. https://www.kaggle.com/kritikseth/fruit-and-vegetable-image-recognition
- Muresan, H., Oltean, M. 2018. Fruit recognition from images using deep learning, Acta Univ. Sapientiae, Informatica, 10, 1, 26-42.